当前位置: 首页 > news >正文

成都微信网站建设多少钱凡科的产品分类

成都微信网站建设多少钱,凡科的产品分类,阿里巴巴黄页网1688,精品资源共享课网站建设摘取于https://www.jianshu.com/p/810ca25c4502 任务1:Masked Language Model Maked LM 是为了解决单向信息问题,现有的语言模型的问题在于,没有同时利用双向信息,如 ELMO 号称是双向LM,但实际上是两个单向 RNN 构成的…

摘取于https://www.jianshu.com/p/810ca25c4502

任务1:Masked Language Model
Maked LM 是为了解决单向信息问题,现有的语言模型的问题在于,没有同时利用双向信息,如 ELMO 号称是双向LM,但实际上是两个单向 RNN 构成的语言模型的拼接,由于时间序列的关系,RNN模型预测当前词只依赖前面出现过的词,对于后面的信息无从得知。

那么如何同时利用好前面的词和后面的词的语义呢?Bert 提出 Masked Language Model,也就是随机遮住句子中部分 Token,模型再去通过上下文语义去预测 Masked 的词,通过调整模型的参数使得模型预测正确率尽可能大。

怎么理解这一逻辑,Bert 预训练过程就是模仿我们学习语言的过程,要准确的理解一个句子或一段文本的语义,就要学习上下文关系,从上下文语义来推测空缺单词的含义。而 Bert 的做法模拟了英语中的完形填空,随机将一些单词遮住,让 Bert 模型去预测这个单词,以此达到学习整个文本语义的目的。

那么 Bert 如何做到”完形填空“的呢?

随机 mask 预料中 15% 的 Token,然后预测 [MASK] Token,与 masked token 对应的最终隐藏向量被输入到词汇表上的 softmax 层中。这虽然确实能训练一个双向预训练模型,但这种方法有个缺点,因为在预训练过程中随机 [MASK] Token 由于每次都是全部 mask,预训练期间会记住这些 MASK 信息,但是在fine-tune期间从未看到过 [MASK] Token,导致预训练和 fine-tune 信息不匹配。

而为了解决预训练和 fine-tune 信息不匹配,Bert 并不总是用实际的 [MASK] Token 替换 masked 词汇。

my dog is hairy → my dog is [MASK] 80%选中的词用[MASK]代替
my dog is hairy → my dog is apple  10%将选中的词用任意词代替
my dog is hairy → my dog is hairy  10%选中的词不发生变化

为什么 15% 的 Token 不完全 MASK?如果只有 MASK,这个预训练模型是有偏置的,也就是只能学到一种方式,用上下文去预测一个词,这导致 fine-tune 丢失一部分信息。

加上 10% 的随机词和 10% 的真实值是让模型知道,每个词都有意义,除了要学习上下文信息,还需要提防每个词,因为每个词都不一定是对的,对于 Bert 来说,每个词都需要很好的理解和预测。

有些人会疑惑,加了随机 Token,会让模型产生疑惑,从而不能学到真实的语义吗?对于人来说,完形填空都不一定能做对,而将文本中某些词随机替换,更是难以理解,从概率角度来说,随机 Token 占比只有 15% * 10% = 1.5%,预料足够的情况下,这并不会影响模型的性能。

因为 [MASK] Token 占比变小,且预测难度加大的原因,所以 MASK 会花更多时间。

任务2:Next Sentence Prediction
在许多下游任务中,如问答系统 QA 和自然语言推理 NLI,都是建立在理解两个文本句子之间的关系基础上,这不是语言模型能直接捕捉到的。

为了训练一个理解句子关系的模型,作者提出 Next Sentence Prediction,也即是预训练一个下一句预测的二分类任务,这个任务就是每次训练前都会从语料库中随机选择句子 A 和句子 B,50% 是正确的相邻的句子,50% 是随机选取的一个句子,这个任务在预训练中能达到 97%-98% 的准确率,并且能很显著的提高 QA 和 NLI 的效果。

Input = [CLS] the man went to [MASK] store [SEP]he bought a gallon [MASK] milk [SEP]
Label = IsNextInput = [CLS] the man [MASK] to the store [SEP]penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

模型通过对 Masked LM 任务和 Next Sentence Prediction 任务进行联合训练,使模型输出的每个字 / 词的向量表示都能尽可能全面、准确地刻画输入文本(单句或语句对)的整体信息,为后续的微调任务提供更好的模型参数初始值。

作者:随时学丫
链接:https://www.jianshu.com/p/810ca25c4502
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

http://www.yayakq.cn/news/24753/

相关文章:

  • 上海大型网站制作网络营销案例视频
  • 长沙网站托管公司排名专门做推广的网站吗
  • 购物网站宣传方案网站如何宣传
  • 哪家外贸网站做的好怎么学好网站开发
  • 关键词网站建设优化可视化的做网站的app
  • 新版爱美眉网站源码贵阳网站建设hsyunso
  • 建设通类型的网站东营企业网站建设
  • 如何搜网站wordpress主题 反盗版
  • 做网站需要什么代码四川省建设人才网官网
  • 怎么做电影流量网站dw做个人简历网页怎么做
  • 古典 网站模板国家示范建设成果网站
  • 广州网站建设交易课程网站建设课程
  • 无锡企业网站设计公司网站开发进入腾信职位
  • 佟年给韩商言做的网站福州市建设工程招投标信息网
  • 百度推广免费送网站网站开发图片
  • 外贸公司英文网站怎么做成都品牌设计公司
  • 建设一个充电站需要多少钱贵州建设厅网站在建工程查询
  • 懒人做图网站五合一网站制作视频教程?
  • 政务网站优化鞍山58同城二手房
  • 网站建设方法叁金手指下拉丶wordpress get terms
  • 网上接网站做广州割双眼皮网站建设
  • 网站建设一般要多少费用近期军事新闻事件
  • 重庆网站设计制作网站企业网站内页设计模板
  • 阿瓦提网站建设网站建设过程中要注意的事项
  • 竞价排名的弊端关键词优化策略有哪些
  • 眉山网站建设兼职哪里有免费的网站推广软件啊
  • 应聘网站开发的自我介绍漳州那里有做网站
  • 软件开发模式有哪些一个公司多个网站做优化
  • 免费拿项目做的网站上海高端网站制作站霸科技
  • 网站开发的比较招商平台哪个好