当前位置: 首页 > news >正文

网站制作费用一览表宝安网站多少钱

网站制作费用一览表,宝安网站多少钱,写一个wordpress下载插件,安徽省建设干部学校网站1. Step1:SFT,Supervised Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工…

1. Step1:SFT,Supervised
Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工编写的。这个工作要求比一般标注要高,其实算是一种创作了。
2. Step2:RM,Reward
Model,奖励模型。具体来说,一个Prompt丢给前一步的SFT,输出若干个(4-9个)回复,由标注人员对这些回复进行排序。然后从4-9个中每次取2个,因为是有序的,就可以用来训练这个奖励模型,让模型学习到这个好坏评价。这一步非常关键,它就是所谓的Human
Feedback,引导下一步模型的进化方向。
3. Step3:RL,Reinforcement Learning,强化学习,使用PPO策略进行训练。
PPO,Proximal Policy Optimization,近端策略优化,是一种强化学习优化方法,它背后的主要思想是避免每次太大的更新,提高训练的稳定性。具体过程如下:首先需要初始化一个语言模型,然后丢给它一个Prompt,它生成一个回复,上一步的RM给这个回复一个打分,这个打分回传给模型更新参数。这里的这个模型在强化学习视角下就是一个策略。这一步有个很重要的动作,就是更新模型时会考虑模型每一个Token的输出和第一步SFT输出之间的差异性,要让它俩尽量相似。这是为了缓解强化学习可能的过度优化。
在这里插入图片描述

LLM的输出怎么评价:

三大原则:有帮助(helpful)、真实性(truthfulness)和无害性(harmlessness)
对大部分任务,无害和真实比有帮助更加重要。
对于边界 Case 的指导原则是:你更愿意从试图帮助你完成此任务的客户助理那里收到哪种输出?这是一种设身处地的原则,把自己假想为任务提出者,然后问自己期望得到哪种输出。

参考:
https://yam.gift/2023/02/19/NLP/2023-02-19-ChatGPT-Labeling/

http://www.yayakq.cn/news/357368/

相关文章:

  • 网站建设与制作软件wordpress 多个网址导航
  • 自己制作一个网站需要什么软件网站建设的公司推荐
  • 小程序免费制作网站仿新浪首页网站模板
  • pc网站开发获取位置网店购物系统
  • 建设银行网站进不去网站demo制作工具
  • 做门户网站需要什么条件百度链接提交工具
  • 吉林网站seophp网站目录系统
  • 阿里云网站模板 解析丁香花在线电影小说观看
  • 小程序做跳转微网站asp sql网站安全性
  • 网站开发与软件开发的异同做漫画网站的素材
  • 苏州有哪些做网站公司响应式网站模板 金融
  • 肥料网站建设 中企动力重庆品牌策划公司排名
  • 公司网站建设规划微信怎么做捐钱的网站
  • 本地生活网站 源码背景网页设计
  • 哪哪个网站可以做兼职网页设计培训的课程类型
  • 做服装在哪个网站找邯郸做移动网站报价
  • 网站建设问题大全只做鱼网站
  • html5网站源码带后台基于html5的购物商城网站
  • 域名备案查询网站备案信息互联网营销师证
  • 原材料价格查询网站同字形结构布局网站
  • 网站管理系统推荐响应式网站开发周期
  • 三合一网站建设多少钱2017网站建设
  • 用什么建网站 cms无锡网站优化建站
  • 青岛建设网站外贸网站价格
  • 微博内网站怎么做的用什么自己做网站
  • 济南的网站建设做网站需要域名跟服务器吗
  • 织梦手机网站怎么修改密码怎样优化网站排名
  • 网站跳转怎么解释视频网站开发项目
  • 网站设计怎么做云南百度智能建站
  • 帮别人做网站用织梦模板行吗软文广告范文