当前位置: 首页 > news >正文

自己做优惠劵网站wordpress表格功能

自己做优惠劵网站,wordpress表格功能,wordpress 又拍云加速,河南建筑公司网站1. Step1:SFT,Supervised Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工…

1. Step1:SFT,Supervised
Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工编写的。这个工作要求比一般标注要高,其实算是一种创作了。
2. Step2:RM,Reward
Model,奖励模型。具体来说,一个Prompt丢给前一步的SFT,输出若干个(4-9个)回复,由标注人员对这些回复进行排序。然后从4-9个中每次取2个,因为是有序的,就可以用来训练这个奖励模型,让模型学习到这个好坏评价。这一步非常关键,它就是所谓的Human
Feedback,引导下一步模型的进化方向。
3. Step3:RL,Reinforcement Learning,强化学习,使用PPO策略进行训练。
PPO,Proximal Policy Optimization,近端策略优化,是一种强化学习优化方法,它背后的主要思想是避免每次太大的更新,提高训练的稳定性。具体过程如下:首先需要初始化一个语言模型,然后丢给它一个Prompt,它生成一个回复,上一步的RM给这个回复一个打分,这个打分回传给模型更新参数。这里的这个模型在强化学习视角下就是一个策略。这一步有个很重要的动作,就是更新模型时会考虑模型每一个Token的输出和第一步SFT输出之间的差异性,要让它俩尽量相似。这是为了缓解强化学习可能的过度优化。
在这里插入图片描述

LLM的输出怎么评价:

三大原则:有帮助(helpful)、真实性(truthfulness)和无害性(harmlessness)
对大部分任务,无害和真实比有帮助更加重要。
对于边界 Case 的指导原则是:你更愿意从试图帮助你完成此任务的客户助理那里收到哪种输出?这是一种设身处地的原则,把自己假想为任务提出者,然后问自己期望得到哪种输出。

参考:
https://yam.gift/2023/02/19/NLP/2023-02-19-ChatGPT-Labeling/

http://www.yayakq.cn/news/259301/

相关文章:

  • 海外网站免费建设德宏网页设计
  • 网站建设工程属于科技档案吗网站建设和管理制度
  • 哈尔滨cms网站建设四川公司网站建设招标
  • 记事本做网站怎么加背景图wordpress 获取title
  • 滨州网站建设模板建设武进网站建设好么
  • 网站营销学多久WordPress 虎嗅主题免费
  • 济南做网站互联网公司用wordpress搭建商店
  • 英迈思做网站怎么样什么是百度搜索推广
  • 注册网站一年多少钱万宁市住房和城乡建设局网站
  • 戴尔网站建设的特点网站建设经典教材
  • 做网站 前端wordpress登入插件
  • 服装加工厂网站建设方案计划书华为净亏26亿
  • .电子商务网站的开发原则包括网站运行方案
  • 网站建设经济可行性报告腾讯云 wordpress博客
  • 哪有网站给光头强做面销售网站制作怎么做
  • 南昌网站建设 南昌做网站公司注册公司流程和费用联系人不一样
  • 有哪些做笔译的网站免费做外贸的网站
  • 上海网站推广大全哪个网站可下载免费ppt
  • 网站建设推广服务合同工信部网站备案审核
  • html5网站源码带后台分众传媒电梯广告价格表
  • 专门做设计的网站营销推广平台都干什么的
  • 上高县建设局网站威海网络推广公司哪家好
  • 做网站是什么会计科目济南网站建设服务哪家好
  • 做网站得多钱找婚庆公司去什么网站
  • 企业网站建设内存搜狐快站做淘宝客网站
  • 有哪些网站做任务有佣金wordpress的函数
  • 大港天津网站建设济南室内设计学校
  • 成功的个人网站北京网站建设公司怎么样
  • 一般的企业网站开发价格英文网站制作
  • 用什么程序做视频网站云南城市建设职业学院成绩查询网站