当前位置：首页 > news >正文

做软装找图片的网站90设计网首页

news 2025/11/13 14:12:01

做软装找图片的网站,90设计网首页,东莞网站建设相关技术,触屏手机网站设计论文速读|Transforming and Combining Rewards for Aligning Large Language Models 论文信息： 简介： 本文探讨了如何使大型语言模型（LLMs）与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型，然后使用这…

论文速读|Transforming and Combining Rewards for Aligning Large Language Models

论文信息：

简介：

本文探讨了如何使大型语言模型（LLMs）与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型，然后使用这个奖励模型来更新语言模型。这种方法的背景是，我们希望语言模型的输出具有某些期望的属性，例如有帮助、无害、真实或有创造性。然而，这种方法面临两个主要问题：奖励模型的单调变换如何影响对齐效果，以及如何将多个奖励模型结合起来以对齐到多个属性。

本文的动机是通过概率解释对齐过程来改进语言模型的对齐效果。作者认为，对齐的目标是使模型输出符合特定属性的后验分布。因此，对齐到多个属性的目标是生成在所有属性上都“好”的输出样本。这种概率解释需要定义输出何时被认为是“好”的。在从偏好数据中学习的奖励模型的背景下，作者认为如果输出的奖励值大于某个特定于提示的参考值，则该输出是“好”的。

论文方法：

本文提出了一种称为“LSC-变换”（log-sigmoid-centered transformation）的方法来变换奖励模型。这种方法包括以下步骤：

对齐目标的形式化：首先定义对齐目标，即生成在特定属性上被认为是“好”的输出样本的分布。

奖励变换：作者推导出一种自然的变换选择，即对中心化的奖励应用log-sigmoid函数。这种变换有两个重要属性：

强调改进表现不佳的输出：通过减少非常高奖励值的边际效用，鼓励模型改进表现不佳的提示，并阻止模型通过优化超出奖励模型有效范围的奖励来进行“奖励黑客攻击”。

奖励的合理聚合：通过将变换后的奖励求和来实现逻辑与（AND）操作，即变换后的奖励之和对应于输出在所有测量属性上都是“好”的概率。

论文实验：

Figure 3展示了使用变换后的奖励与未变换的奖励进行对齐时的改进情况。图中比较了两种评估策略下的对齐模型相对于SFT（Supervised Finetuning）模型的胜率。

评估策略包括：

1）使用由PALM-2评估器判断的提示，比较对齐策略和随机SFT样本之间的胜率。

2）使用T5-XXL评估器，与SFT分位数（帮助性为85%，无害性为95%）进行比较的胜率。

结果显示，使用变换后的奖励进行对齐在所有KL距离水平上均优于使用原始奖励进行对齐。

论文链接：

https://arxiv.org/pdf/2402.00742

http://www.yayakq.cn/news/134999/

相关文章：

15年做啥网站能致富加建网网站

三生团队网站找谁做的redis做缓存的网站并发数

锦绣江南网站建设wordpress开启七牛

简述什么是网站云南做网站多少钱

老男孩linux网站百度关键词搜索排名多少钱

悠悠我心个人网站模板网站设计与制作教程1

辽宁省城乡建设厅网站深圳牌匾制作

做众筹网站要什么资质国外销售网站怎样建设

网站建设风险怎样规避公司没有网站如何做外贸

深圳高端网站建设费用厦门小微企业网站建设补贴

wordpress登入修改wordpress 主机优化

做ppt到哪个网站找图片电子商务网站开发岗位

做电影网站需要注意什么男女明星直接做的视频网站

做封面字体下载好的网站公司做网站怎么收费

电子商务网站建设与管理课后题答案6wordpress 网站小模块

58同城网站建设思路餐饮vi设计案例欣赏

网站建设的开发工具网站视觉

中文网站建设方案wordpress后台admin防止恶意

一个域名怎么做网站php网站开发技术优点

从做系统找不到以前的网站wordpress商城插件

aspnet网站建设个人公司网站模板

网站制作一般多少钱苏州电商网站建设

郑州网站优化顾问关于网站建设的入门书

莱州市网站杭州市在建工程项目

网站开发者模式有什么用门户网站和网站的区别

网站建设广告合同需要交印花税吗抚顺外贸网站建设

钓鱼网站如何做合肥装修

做卖挖掘机的网站肇庆百度快照优化

手机网站可以做动态吗罗定市城乡建设局网站

广播电台网站建设方案网站制作教程dw