建网站的软件有哪些农村电商平台有哪些

张小明 2026/1/10 8:57:39
建网站的软件有哪些,农村电商平台有哪些,中国10强企业排名,封面设计网站前面的文章简单介绍过#xff0c;传统的监督学习所使用的数据集是#xff08;特征#xff0c;标签#xff09;#xff0c;有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案#xff0c;而只是知晓一个大概正确的方向#xf…前面的文章简单介绍过传统的监督学习所使用的数据集是特征标签有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案而只是知晓一个大概正确的方向如在下围棋时第一步下在哪里显然这个问题没有一个明确答案这个时候使用强化学习显然比监督学习更加合适因为监督学习需要的是具有明确答案作为标签的数据集。强化学习的结构逻辑模型可以用上图简单表示三要素1.Actor即模型2.Environment环境 3.Action即模型的输出Environment输入Observation给ActorActor输出一个Action给EnvironmentEnvironment回复一个Reward奖励分数给Actor接着继续把Observation交给Actor如此循环。模型训练的要求就是使得Reward最大代表我们找到了最优的模型。对于模型来说Environment输入Observation给Actor即代表模型从环境中提取到了状态信息根据这个状态信息模型来判断下一步的动作而模型输出的是一个分类的结果即多个动作对应多个不同的概率在输出概率分布以后要添加一定的随机性使得每次的输出结果具有差异性然后选择最大概率所对应的动作。模型在选择一个动作之后这个动作实际是对Environment发生相应的Environment会给模型一个回馈Reward然后再给模型一个新的Observation模型继续选择新的动作循环此过程。这个过程中的Reward会被累积下来Reward越大代表模型做出的动作越好。用表示reward累计因为我们希望R越大越好所以R取反可以直接作为损失函数使得最小化损失和最大化奖励统一起来。整个强化学习的过程逻辑图如下需要注意的是只有Actor本身是神经网络结构而Env和Reward都是黑盒子这意味着我们只能优化Actor的参数而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数有了模型Actor显然我们可以通过常规的深度学习的方法来优化Actor中的参数。那么如何使得在给定S1时模型能输出指定的值a这个时候的输出是可以明确的这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理即用交叉熵定义损失函数。如果不想要模型输出指定的值a只需要对损失函数取反。而实际的情况是环境的状态S是由多个Si构成的每训练一组S-a即训练一个多分类问题把这些问题的损失函数交叉熵加在一起即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问上述介绍的问题似乎都是监督学习问题即可以明确正确输出的标签与reward又有什么关联呢这个问题将在下一讲给出答案。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

查询网站是否做301wordpress首页不显示整篇文章

Autovisor智能刷课工具:5步实现自动化学习管理的高效方案 【免费下载链接】Autovisor 2024知道智慧树刷课脚本 基于Python Playwright的自动化程序 [有免安装发行版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 在线学习已成为现代教育的重要组…

张小明 2026/1/7 18:38:57 网站建设

钓鱼转转网站在线生成软件一线全屋定制10大品牌

DrissionPage终极指南:5个高效处理动态弹窗的技巧 【免费下载链接】DrissionPage 基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大,内置无数人性化设计和便捷功能。语法…

张小明 2026/1/8 20:09:13 网站建设

建设银行辽宁分行招聘网站建立门户网站的费用

React Hook Form 企业级动态表单终极指南:从基础到高级完整教程 【免费下载链接】react-hook-form react-hook-form/react-hook-form: 是一个基于 React.js 的前端表单库,用于处理表单数据和验证。该项目提供了一套简单易用的 API 和组件,可以…

张小明 2026/1/9 8:57:52 网站建设

酒店管理专业优化网站建设哪家专业

Jupyter Notebook中启动腾讯混元OCR的两种方式对比 在当今AI驱动的文档智能时代,如何快速、高效地将先进的OCR能力集成到实际项目中,已成为开发者面临的核心课题。尤其是在企业级场景下,从一张发票的文字提取,到跨国业务中的多语言…

张小明 2026/1/10 3:20:03 网站建设

国外音乐网站设计360建筑网怎么重新注册

TensorRT引擎版本兼容性问题及升级策略 在AI模型从实验室走向生产线的过程中,一个看似不起眼的细节常常成为压垮部署流程的最后一根稻草:本地能跑通的推理服务,到了线上设备却加载失败。尤其在边缘计算场景中,当工程师满怀信心地…

张小明 2026/1/10 3:55:12 网站建设

网站加速cdnsql网站源码

最新版请移步 YOLOv8最新配置环境 (2024.7.23) 以下为老版本 这个是我上传到csdn的YOLOv8的整个文件夹(内含yolov8s.pt和yolov8n.pt) 第一步 下载YOLOv8代码 由于官网的数据更新,现在链接只能下载yolov11的代码&a…

张小明 2026/1/9 18:46:43 网站建设