当前位置: 首页 > news >正文

电子商务网站建设和管理的含义wordpress js在哪

电子商务网站建设和管理的含义,wordpress js在哪,湖南智慧住建云官网,花色直播怎么看1. Step1:SFT,Supervised Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工…

1. Step1:SFT,Supervised
Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工编写的。这个工作要求比一般标注要高,其实算是一种创作了。
2. Step2:RM,Reward
Model,奖励模型。具体来说,一个Prompt丢给前一步的SFT,输出若干个(4-9个)回复,由标注人员对这些回复进行排序。然后从4-9个中每次取2个,因为是有序的,就可以用来训练这个奖励模型,让模型学习到这个好坏评价。这一步非常关键,它就是所谓的Human
Feedback,引导下一步模型的进化方向。
3. Step3:RL,Reinforcement Learning,强化学习,使用PPO策略进行训练。
PPO,Proximal Policy Optimization,近端策略优化,是一种强化学习优化方法,它背后的主要思想是避免每次太大的更新,提高训练的稳定性。具体过程如下:首先需要初始化一个语言模型,然后丢给它一个Prompt,它生成一个回复,上一步的RM给这个回复一个打分,这个打分回传给模型更新参数。这里的这个模型在强化学习视角下就是一个策略。这一步有个很重要的动作,就是更新模型时会考虑模型每一个Token的输出和第一步SFT输出之间的差异性,要让它俩尽量相似。这是为了缓解强化学习可能的过度优化。
在这里插入图片描述

LLM的输出怎么评价:

三大原则:有帮助(helpful)、真实性(truthfulness)和无害性(harmlessness)
对大部分任务,无害和真实比有帮助更加重要。
对于边界 Case 的指导原则是:你更愿意从试图帮助你完成此任务的客户助理那里收到哪种输出?这是一种设身处地的原则,把自己假想为任务提出者,然后问自己期望得到哪种输出。

参考:
https://yam.gift/2023/02/19/NLP/2023-02-19-ChatGPT-Labeling/

http://www.yayakq.cn/news/312933/

相关文章:

  • 邮轮哪个网站是可以做特价胃肠的网络营销产品价格策略
  • 搜搜网站收录北京网页设计师培训
  • 医疗知识普及网站开发招远做网站联系电话
  • 建设小辣猫的网站动漫网站建设的目的
  • 淘宝网站建设哪个类目青岛物流公司网站建设
  • 网站建设公司选哪个好咖啡豆网站模板
  • wordpress咋建站wordpress后台500
  • dz论坛网站创建页面写作的网站有哪些
  • 港海建设网站在线网站设计工具
  • 宣城网站建设佛山营销网站建设制作
  • 黑龙江省营商环境建设监督局网站卖链接的网站
  • 怎样做网站的seo跟建设通差不多额网站
  • 赣县城乡规划建设局网站sem竞价推广公司
  • 河北省保定市唐县城乡建设网站婚纱网站模板
  • 企业网站设计方案书营销型网站建设便宜
  • 金泉网做网站wordpress 多重筛选
  • 思途旅游网站建设天河区进一步
  • 在哪个网站做劳动用工备案山东住房和城乡建设厅网站电话
  • 做企业网站 签合同要注意什么网站设计与开发培训
  • 网站建设方案视频教程网站开发过程模型
  • myeclipse网站开发wordpress f5
  • 小型教育网站开发惠城网站设计
  • 成都微信网站建设公如何办网站 论坛
  • 国外有哪些网站是做弱电的访问网站人多的时候很慢是服务器问题还是带宽
  • 郑州网站建站广州找人做网站
  • 成都网络推广网站wordpress内涵主题
  • 网站推广与宣传怎么做tp5企业网站开发实例
  • 想要做一个网站 该怎么做小说网站模板建站
  • 临沂市建设局官方网站wordpress博客怎么访问不了
  • 中文网站建设中模板下载孩子学编程一年要多少钱