当前位置: 首页 > news >正文

商城站在哪个地方wordpress 在线报名

商城站在哪个地方,wordpress 在线报名,向wordpress提交插件,石油网站建设价格本次DPO训练采用TRL的方式来进行训练 Huggingface TRL是一个基于peft的库,它可以让RL步骤变得更灵活、简单,你可以使用这个算法finetune一个模型去生成积极的评论、减少毒性等等。 本次进行DPO的模型是一个500M的GPT-2,目的是训练快&#x…

本次DPO训练采用TRL的方式来进行训练

Huggingface TRL是一个基于peft的库,它可以让RL步骤变得更灵活、简单,你可以使用这个算法finetune一个模型去生成积极的评论、减少毒性等等。

本次进行DPO的模型是一个500M的GPT-2,目的是训练快,少占资源,快速看到结果。

下载Tokenizer:

from transformers import AutoTokenizer

AutoTokenizer.from_pretrained('gpt2').save_pretrained('tokenizer/gpt2')

  下载Datasets:

from datasets import load_dataset

load_dataset('b-mc2/sql-create-context').save_to_disk(

'dataset/b-mc2/sql-create-context')

下载Model:

from transformers import AutoModelForCausalLM

AutoModelForCausalLM.from_pretrained('gpt2').save_pretrained('model/gpt2')

图片

图 下载Tokenizer,model,数据

首先我们看一下原始数据集,原始数据集的构成分为3部分,一个是question,代表想提出的问题,一个是answer代表回答,第三部分是context代表参考的表结构。

图片

图 原始数据集

图片

图 数据集样例

实际数据样例,我们进一步规范了三种数据类型:

·第一个prompt,包含了context表结构和问题。

·第二个chose,表示希望训练之后的模型按着什么范式来回答问题。

·第三个reject,表示不希望用什么方式来回答,这里就留空了,代表隐式确认,如果有条件也可以整理不喜欢的回答范式。

这个训练的目的就是不管回答什么问题,都要用SQL语句的形式来回答,强调一种受欢迎回答的范式,这也是RLHF/DPO训练的主要目的。

下面开始训练部分,首先load tokenizer。

图片

图8-9 load tokenizer

按照需求来整理数据格式。

图片

图 整理数据格式

读取模型。

from transformers import AutoTokenizer

import random

import torch

tokenizer = AutoTokenizer.from_pretrained('/data2/DPO/tokenizer/gpt2')

tokenizer.pad_token_id = 0

tokenizer

from transformers import AutoModelForCausalLM

model_dpo = AutoModelForCausalLM.from_pretrained('/data2/DPO/model/gpt2').to('cuda')

model_dpo_ref = AutoModelForCausalLM.from_pretrained('/data2/DPO/model/gpt2').to('cuda')

先做个测试看看模型目前是怎么回答的。

图片

图 训练前的回答方式

如上图所示,很显然这个回答方式不是我们要求的方式,我们需要它把问题都按着SQL语句来进行回答。

最后一步就是正式训练了。

图片

图片

图片

如上图所示,随着训练的开展,模型回复对话的方式,基本就越来越向着正规SQL的方向演进。

这就是DPO训练所达成的目的。

图片

也没有多废资源,我是点auto-map技能点了,正常也就一张A100够了。

http://www.yayakq.cn/news/528871/

相关文章:

  • 企业门户网站建设方案尚志网络推广
  • 外贸网站建设熊掌号修文县生态文明建设局网站
  • 企业网站建展示互动
  • 避免网站侵权怎样制作网站后台
  • 濮阳建网站的做网站需要学编程吗
  • 保定seo建站公司网站版面怎么设计
  • 数据分析工具网络seo天津
  • 建设电商网站思想电商网站建设维护
  • 深圳高端网站定制互联网商城有限公司
  • 怎么做一个购物网站聊城公司网站设计
  • 有关wordpress教学的网站电脑访问手机网站跳转
  • 商业网站建设案例课程百度云克拉玛依网站建设
  • angular网站模板下载支持微信支付的网站开发
  • 天津网站建设营销做相册哪个网站好用吗
  • 安徽海鹏建设工程有限公司网站首饰盒东莞网站建设
  • 什么网站动物和人做的吗一_建设网站前的市场分析
  • 免费企业网站程序上传软文写作经验是什么
  • 做网站时网页中格式对不齐怎么办长治一般做一个网站需要多少钱
  • 做国际网站一般做什么风格乌兰浩特建设网站
  • 青岛做公司网站在线作图网
  • 网站站群管理系统网站优化联系
  • 什么网站可以做告白的网页版wordpress百度不收录
  • 自助做app的网站微商运营
  • 网站首页分类怎么做的如何做实验室网站
  • 雅安建设机械网站传媒网站设计
  • 新媒体 网站建设 管理规范北京市保障房建设投资中心网站首页
  • 为什么要做手机网站怎么做微信上的网站吗
  • 吴桥县做网站wordpress网站导入数据库
  • 网课网站支付宝网页版
  • 在闲鱼可以做网站吗网站建设要注意一些什么