当前位置: 首页 > news >正文

杭州服装论坛网站建设始兴建设局网站

杭州服装论坛网站建设,始兴建设局网站,wordpress启用插件后空白,亚马逊服务器永久免费背景: 我们在用chatGPT或者SD的时候,发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多,为什么呢?这其中就有一个叫做tokenizer的东西在作怪。 训练一个合适的tokenizer是训练大模型的基础,我们既…

背景:

我们在用chatGPT或者SD的时候,发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多,为什么呢?这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础,我们既可以从头开始训练一个全新的tokenizer,也可以利用旧的tokenizer训练出一个新的来,今天就让我们看看如何来以旧换新。

第一步:数据准备

不管是训练大模型,还是训练tokenizer,首先都需要我们准备数据集:

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")#写一个迭代函数,分配加载数据,防止数据集太大导致内存溢出
def get_training_corpus():return (raw_datasets["train"][i : i + 1000]["whole_func_string"]for i in range(0, len(raw_datasets["train"]), 1000))training_corpus = get_training_corpus()

第二步:训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步:保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步:使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结:

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型,或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同,我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

http://www.yayakq.cn/news/584272/

相关文章:

  • 织梦网站版权做网站给文件不侵权
  • wordpress网站不安全手机网站建设万网
  • 哪家网站游戏做的比较好企业建网站群
  • 购物网站的推广wordpress默认邮件文件夹
  • 兰州网站在哪备案.net做网站用什么的多
  • 网站显示搜索框学生兼职网站开发
  • 建设局考试通知文件网站有什么网站做热图
  • 南京seo网络推广广州seo招聘网
  • 黑龙江住房城乡建设厅网站怎么做二维码微信扫后直到网站
  • 深圳 手机网站做网站要是要求吗
  • 长沙网站公司哪家好四川煤矿基本建设工程公司网站
  • 简单美食网站模板wordpress shiftcv
  • 网站设计需求分析软件设计学什么
  • 支付网站建设费账务处理网站流程设计
  • 公司网站建设费会计分录多渠道营销平台与crm
  • 网站推广方法包括哪些活动 wordpress
  • 百度收录网站需要多久松原做网站的公司
  • 网站建设 猴王网络一小时做网站
  • 网站导航栏字体怎么直接更新wordpress
  • 美轮美奂的网站建设在北京注册公司要哪些条件
  • wordpress里网站名称在哪里修改制作h5用什么软件比较好
  • 什么网站可以做卷子成都六度网站建设
  • 跨境电商自建站是什么意思程序员是不是都是做网站的
  • 如何做一个论坛网站运营推广的方式和渠道有哪些
  • 兰州seo网站排名.net网站开发是什么对象开发
  • 装修网站运营网页制作赚钱吗
  • 淘宝找做网站网站建设首选建站系统
  • 霍山有没有做建网站的线上编程课程
  • 蜘蛛爬网站怎么看网站是否备案成功
  • 做网站上面的图标wordpress图片怎么控制高度