当前位置: 首页 > news >正文

唐山网站制作快站登录

唐山网站制作,快站登录,新房装修图片,怎么建网站站点1. 背景分析 分词是将输入和输出文本拆分成更小单位的过程,使得大模型能够处理。token可以是单词、字符、子词或符号,取决于模型的类型和大小。分词可以帮助模型处理不同的语言、词汇和格式,并降低计算和内存成本。分词还可以通过影响token的…

1. 背景分析

        分词是将输入和输出文本拆分成更小单位的过程,使得大模型能够处理。token可以是单词、字符、子词或符号,取决于模型的类型和大小。分词可以帮助模型处理不同的语言、词汇和格式,并降低计算和内存成本。分词还可以通过影响token的含义和上下文,影响生成文本的质量和多样性。

        我们在前述文章《BPE原理及代码示例》、《WordPiece原理及代码示例》、《Unigram原理及代码示例》三篇文章讨论了在预训练模型中最常用的三种tokenizer算法:BPE、WordPiece、Unigram。

        对这几类技术再做下简述,详细的可以点击链接看我们的文章:

BPE(字节对编码)

        BPE的核心概念是从字母开始,反复合并频率最高且相邻的两个token,直到达到目标词数。

BBPE

        BBPE的基本思想是将BPE从字符级别扩展到字节(Byte)级别。BPE在处理unicode编码时可能会导致基础字符集过大,而BBPE将每个字节视为一个“字符”,不论实际字符集用多少字节表示。这样,基础字符集的大小就固定为256(2^8),从而实现跨语言共享词表,并显著缩减词表大小。然而,对于像中文这样的语言,文本序列长度会显著增加,这可能使得BBPE模型的性能优于BPE模型,但其序列长度较长也会导致训练和推理时间增加。BBPE的实现与BPE类似,主要差别在于基础词表使用256的字节集。

WordPiece

        WordPiece算法可视为BPE的变种。不同之处在于,WordPiece通过概率生成新的subword,而不是简单地选择频率最高的字节对。WordPiece每次从词表中选出两个子词合并成一个新子词,但选择的是能最大化语言模型概率的相邻子词。

Unigram

        Unigram与BPE和WordPiece在本质上有明显区别。前两者从小词表开始,逐步增加到设定的词汇量,而Unigram则先初始化一个大词表,通过语言模型评估逐步减少词表,直到达到目标词汇量。

2. 分词粒度的讨论

        技术有这么多,那该如何选择?首先我们来看下不同粒度的token有哪些影响?

2.1 针对小的token的分析

优势:

1.较小的token使得模型能够生成和理解更广泛的单词,包括通过组合较小的部分来处理从未见过的单词。

2.由于token较小,词汇大小通常较小,从而在某些方面节省内存和计算资源。

3.较小的token一般也更适合处理多种语言或代码,尤其是当这些语言具有不同的句法或语法结构时。

4.较小的token可能更好地处理拼写错误。

缺点:

1.较小的token意味着给定文本会被拆分成更多的词元,从而增加处理文本的计算成本。

2.另外由于固定的最大token限制,使用较小的token可能导致模型能够考虑的实际内容的“上下文”减少。

3.较小的token可能导致表达存在一定的模糊度,使模型在没有足够上下文的情况下更难理解token序列的含义。

2.2 针对大的token的分析

优点:

1.较大的token减少表示文本所需的token数量,从而在计算上提高了处理效率。

2.在固定的最大token数限制下,较大的token允许模型考虑更长的文本,从而可能提高理解和生成能力。

3.较大的token可能直接捕捉到更多细致的含义,减少因将单词拆分成更小部分而产生的模糊性。

缺点:

1.较大的token通常需要更大的词汇来捕捉相同范围的文本,这可能会带来占用大量内存的现象。

2.较大的token可能限制模型对未见或稀有单词的泛化能力,因为整个token必须与模型的词汇中的某个内容匹配。

3.较大的token可能在处理复杂形态或句法的语言时效果不佳,或在需要理解多种语言的任务中。

4.较大的token对拼写错误、拼写变体及其他文本中的小变化敏感。

3. 主流大模型的分词器选择

模型分词器
GPT-4oBPE(BBPE)【2】
GPT3BPE(BBPE)【3】
GPT2BPE(BBPE)【4】
GPTBPE【5】
Llama3BPE(BBPE)【6,8】
Llama2BPE(BBPE)【7,8】
Qwen2BPE(BBPE)【9,10】
QwenBPE(BBPE)【11】
ChatGLMBBPE【12】
BaichuanBPE【13】
RoBERTaBPE【5】
BARTBPE【5】
DeBERTaBPE【5】
MPNETWordPiece【14】
Funnel TransformersWordPiece【14】
MobileBERTWordPiece【14】
DistilBERTWordPiece【14】
BERTWordPiece【14】
T5Unigram【15】
AlBERTUnigram【15】
mBARTUnigram【15】
XLNetUnigram【15】

        当然虽然说GPT系列或者其他大模型用的都是BPE(BBPE),但在处理上还会有一些细微的差异。可以试用下openai提供的在线tokenizer工具:https://platform.openai.com/tokenizer

        此外, OpenAI、Google、huggingface分别都提供了开源的tokenizer工具:tiktoken、sentencepiece、tokenizers,支持主流的分词算法。

扩展阅读:

《全方位解读大模型:多样知识点的深度探讨与技术分享小结》

4. 参考材料

【1】Understanding “tokens” and tokenization in large language models

【2】openai/tiktoken

【3】gpt-tokenizer

【4】Language Models are Unsupervised Multitask Learners

【5】Byte-Pair Encoding tokenization

【6】Llama3

【7】Llama2

【8】Llama (LLM)

【9】qwen2-concepts

【10】tokenization_qwen2

【11】qwen/tokenization_note

【12】tokenization_chatglm

【13】Baichuan-7B

【14】WordPiece tokenization

【15】Unigram tokenization

http://www.yayakq.cn/news/929423/

相关文章:

  • 大庆做网站的网站建设规章制度
  • 织梦做网站主页容易吗涨粉 wordpress
  • 泰安有口碑的网站建设网站建设需要哪些资料
  • 济宁亿峰科技做网站一年多少费用门面设计效果图
  • 凡科网建立网站后怎么修改西安阎良区建设局网站
  • 网站怎么seo餐饮如何做网络推广
  • 网站开发工程师的职位免费的网络软件
  • 广州市官网网站建设哪家好什么网站做禽苗好的网站
  • 网站建设是那个行业电子商务网站建设与管理考试题
  • 关于网站建设的名言上海基础微网站开发
  • 开元棋牌网站怎么做网页首页设计教程
  • 手机做网站对比路由器做网站自己的身份已经网站备案了
  • 网站的需求分析都有哪些内容seo网站建设时文章频率
  • wordpress 音乐插件陕西网站seo
  • 营销网站建站企业南通网站建设 南大街
  • 大型网站流量app定制开发和模板开发的区别
  • 丽江网站建设c3sales网站管理助手v3.0
  • gta5买办公室 网站正在建设wordpress在线安装插件在哪里
  • 一般ps做网站大小多少wordpress后台打不开
  • 网站公告怎么做一件代发的货源怎么找
  • 专业建网站 优帮云微信显示wordpress
  • 苏州网站开发公司济南兴田德润o厉害吗襄阳建设网站
  • 无锡做网站设计网站建设火凤凰
  • 网站开发公司赚钱吗赤峰做网站哪家好
  • jsp怎么做视频网站中信建设内部网站
  • 网站项目经费预算个人网站建设简历
  • 免费电视剧网站大全在线观看进入官网查看
  • 网站开发8080无法访问此页面广告投放
  • 成都app开发怀化网站优化
  • 电子商务网站建设维护学期总结wordpress主题更改首页