当前位置: 首页 > news >正文

专门做网上链接推广的网站绍兴网站快速排名优化

专门做网上链接推广的网站,绍兴网站快速排名优化,免费制作ai视频的软件,社区网站开发BERT 1.前言 self-supervised learning是一种无监督学习的特殊形式,算法从数据本身生成标签或者目标,然后利用这些生成的目标来进行学习。(也就是说数据集的标签是模型自动生成的,不是由人为提供的。)例如&#xff0…

BERT

1.前言

self-supervised learning是一种无监督学习的特殊形式,算法从数据本身生成标签或者目标,然后利用这些生成的目标来进行学习。(也就是说数据集的标签是模型自动生成的,不是由人为提供的。)例如,可以通过在图像中遮挡一部分内容来创建自监督任务,让模型预测被遮挡的内容。self-supervised learning 应用十分广泛,不仅用于文字方面,还可以用于语音和图像上。

在这里插入图片描述

self-supervised Learning 自监督学习的一些模型如下:

ELMO(Embeddings from Language Models)—> 最原始的

BERT(Bidirectional Encoder Representations from Transformers)

ERNIE(Enhanced Representation through Knowledge Integration)

Big Bird(Transformers for Longer Sequences)

GPT-3 —> 有 175 billion 个参数

2.BERT结构

BERT 是一个非常巨大的模型,有340 million 个参数。BERT的架构就是 Transformer 的 Encoder 部分(self-attention,residual,normalization)。

训练BERT有俩种方式:Masking Input 和 Next Sentence Prediction

1.Masking Input

在这里插入图片描述

BERT 的输入,某些部分被随机的盖住,盖住有两种方式(随机的选择一种盖住方式):

  • MASK:将句中的一些符号换为MASK符号。(这个MASK是一个新的符号,字典中没有的,表示盖住)
  • Random:随机把某一个字换为另外一个字(随机从字典中挑选一个词盖住)。

输入通过BERT后就得到了对应的Sequence(但是只关注输入被盖住所输出的 vector),然后通过Linear transformer(Linear transformer的意思就是乘以一个矩阵),并进行Softmax,就可以得到一个有关所有符号的概率分布。在训练的时候,将真实值与预测出来的值进行对比,通过minimize cross entropy不断缩小损失,进而提升模型的ACU。

2.Next Sentence Prediction

在这里插入图片描述

从资料库里面随机选两个句子,在句子中间加入一个特殊符号 [SEP] 来代表分割。在最前面加入一个特别的符号 [CLS]。将这个整体送入BERT中,在得到的sequence中只关注 [CLS] 对应输出的vector。然后经过一个Linear transformer,来进行一个二元的预测(Yes or No),表示这两个句子是否是相连接的。

3.Downstream Tasks

Downstream tasks就是利用BERT真正做的任务。而不是上面的预测某个Masked token,或者判断两句话是否是有连接关系的任务。

BERT 分化为各种任务叫做Fine-tune,中文叫做微调。产生BERT的过程叫做 Pre-train。

3.1 Sentiment analysis

在这里插入图片描述

BERT初始化用的参数是pre-train的初始化参数(也就是用于填空任务的参数),Linear用的参数是Random初始化参数。

3.2 POS tagging(词性标注)

在这里插入图片描述

3.3 NLI(自然语言推理)

在这里插入图片描述

在这里插入图片描述

3.4 Extraction-based Question Answering

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

上面的那两个向量是随机初始化的,BERT初始化依旧是利用pre-train的参数。

4.为什么BERT有用?

BERT输出的向量代表了输入的意思。具有相似含义的符号,输出具有相似的嵌入向量。而且在输出的时候还考虑了上下文,因为内部有一个self-attention的结构。

在这里插入图片描述

5.Multi-lingual BERT

Multi-lingual BERT是一个多语言的BERT模型,再训练BERT的时候是通过许多不同的语言训练出来的。尽管是不同语言,但是每个词的意思是相近的,所以输出的嵌入向量距离就很近,因此效果较好。

在这里插入图片描述

6.GPT

BERT做的是填空题,GPT做的就是预测接下来出现的token是什么。

在这里插入图片描述

首先给一个开始标记,然后通过Linear Transform输出一个embedding向量h1,然后经过Softmax得到一个概率分布,概率最大的就是下一个token的值。(在训练的时候,GPT类似于transformer的decoder,不看右边的输入),下一次将和台输入进去,重复上面的过程。


😃😃😃

本文是根据台大李宏毅教授的BERT课程所做的笔记,有想学习的小伙伴,大家直接去看这个课程就可以了。点击跳转

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

http://www.yayakq.cn/news/661583/

相关文章:

  • 房产销售网站开发文档北京封闭小区名单最新
  • 专业网站建设网站推广苏州加基森网站建设
  • 帮人注册网站_做appwordpress调用面包屑
  • 做游戏视频网站要批证吗如何在电商上购物网站
  • 网站制作教程手机娄底市网站建设制作
  • 中山网站建设招聘百度搜索使用方法
  • 表情网站源码上海专业高端网站建设
  • 网站优化什么商业展示空间设计案例及赏析
  • 建设企业网站管理的重要性自建电商平台
  • 专业做网站价格网络舆情分析论文
  • 可以直接观看的网站正能量做网站好一点的软件
  • 河南省建设厅网站打不开沈阳模板建站
  • 增城网站建设模板做网站
  • 网站建设Skype打不开早教网站设计
  • 网站建设 牛商网技术提供郴州网站优化公司
  • 影响网站速度的因素如何给公司做网站推广宣传
  • 河南郑州做网站深圳宝安有多少个区
  • 任县网站建设网络公司wordpress微信h5
  • 化妆品网站建设公司湖北网站建设推荐
  • 上海网站推广广告酒类营销网站
  • 网站流量刷免费下载歌曲的网站
  • 商丘网站制作案例网页源代码中
  • 百seo排名优化网络优化排名培训
  • 网站域名的根目录在哪里长春网站建设新格
  • 站多多 福州网站建设手机怎样用网站做成软件
  • 算命购物网站建设wordpress本地搭建网站a
  • 济南网站建设服务婚纱网站建设 最开始
  • php如何网站做修改惠州市seo上词
  • 高校网站建设方案网站制作的软件有哪些
  • 网站显示正在建设是什么意思极致cms模板