当前位置: 首页 > news >正文

马鞍山建设集团有限公司网站wordpress页脚版权

马鞍山建设集团有限公司网站,wordpress页脚版权,宁乡网站开发公司推荐,建设一个网站需要哪些1. 摘要 尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致…

1. 摘要

尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。

2. 模型和benchmark

  • 模型:BERT-Large和Llama2
    • llama-7B:32layers, 每层包括202M参数
    • llava-13B:40layers
    • llava-70B:80layers
    • BERT-large:24layers和340M参数
  • benchmark for llama2
    • ARC:science exam question
    • HellaSwag:commonsense
    • GSM8K:Math Word Problems
    • WinoGrande:Winograd Schema Challenge
    • LAMBADA:word prediction,measures perplexity
  • benchmark for bert:
    • GLUE
      • CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic
        theory.
      • MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.
      • QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.
      • RTE (The Recognizing Textual Entailment): Textual entailment
      • SST2 (The Stanford Sentiment Treebank): Sentiment prediction.
      • STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.
      • WNLI (The Winograd Schema Challenge): Sentence referent selection.

3. 实验

在这里插入图片描述

3.1 Do layers “speak the same language”?

**实验:**跳过某层或将前后两层调换顺序,实验结果如下图所示:
在这里插入图片描述
从上图中可以看出,对中间的模型层调换前后2层顺序及跳过某层,在benchmark上效果波动不大;但first和last few layers则相反。因此,可以推断出middle layer和first及last few layers有不同的表征空间,且中间层间的表征空间比较相似。
为了更进一步验证这个猜想,衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示:
在这里插入图片描述
从上图中可以看出,模型基本有三种表征空间,“beginning”,“middle”和“ending”。另外,“beginning”层和“middle”层的层数似乎随着模型总层数的增加而增加,而“ending”层则会固定到单层上。
在这里插入图片描述

3.2 Are all the layers necessary?

实验:跳过N层,将N+1层的输出作为T-N层的输入,T为模型总层数。=> skip
在这里插入图片描述
从上图中可以看出,当有少量的层被跳过时,模型效果并没有降低很多。

3.3 Are middle layers all doing the same thing?

虽然中间层表征空间是一样的,那么是否表示这些层是冗余的呢?
实验:在“middle”中用中心层的参数替换其他层的参数=>middle repeat
在这里插入图片描述
从上图中可以看出,随着替换层数的增加,模型效果下降的越发明显。所以“middle” layer中不同层有着不同的功能。

3.4 Does the layer order matter?

实验:1. 中间层倒过来=>reverse。2. 将中间层随机打乱。
在这里插入图片描述
在这里插入图片描述
不管是随机打乱层还是倒过中间层都对模型效果有不少的影响。但随机打乱要比中间层倒装的效果要好。

3.5 Can we run the layers in parallel?

能否将不同层独立运行,然后将结果合并呢?=> parallel
在这里插入图片描述
除了在GSM8K数学任务上,随着并行层数的增加,模型效果有着合理的降低。

3.6 Does the order matter for some tasks more than others?

是的,在数学和推理任务上,order比较重要。在语义任务上,order就还好。

3.7 Does looping help parallelized layers?

在这里插入图片描述
从上图可知,并行层重复多次能够有效的改善模型效果。
在这里插入图片描述
从上图中可知,最佳的迭代次数(重复次数)与并行层的数量成正比。

3.8 Which variants are least harmful?

在这里插入图片描述
从图中可知,重复单层是效果最差的,随机中间层和并行重复策略(looped-parallel)模型效果损失最小。

  • 为什么skip要比middle repeat策略要差呢?
    在这里插入图片描述
    从图中可以发现,skip策略跟llama2-7B模型的cosine similarity一样。而middle repeat则发生了偏移。

4. 讨论

  • 有三种不同类型的层,“beginning”,“middle”和“ending”
  • 中间层有某种程度的均匀,但是不冗余。
  • 模型层的执行顺序相较于语义任务,在数学和推理任务中更为重要
http://www.yayakq.cn/news/632451/

相关文章:

  • 企业服务 免费网站建设织梦企业 网站源码
  • 封面型网站布局网页设计图片轮播的代码
  • 高校二级网站建设要求中山移动网站建设多少钱
  • 西部数码网站管理助手4.0淮北市建网站
  • 站嗨建站江西小程序软件app开发公司
  • 凡科网站模块管理系统登录
  • 403网站打开免费上海品牌营销咨询公司
  • 模板网站建设乐云seo效果好网站后台编辑器下载
  • 有什么网站是做兼职的wordpress增加文章页面
  • 长沙公司网站的建设我想学网站建设
  • 网站建设招标书模板重庆建设招标造价信息网站
  • 建设网站叶少泉济南网站制作方案
  • 如何做好企业网站的推广温州建校证件查询网站
  • 上海企业网站定制广州白云区今天最新消息
  • 百度站长平台官网wordpress怎么写描述
  • 长春有微信网站一起整的吗湘潭网页设计
  • 东莞机械建站如何智能锁网站建设关键词
  • 网站开发项目经验我想来做外贸网站来推广
  • 做网站做什么类型 比较赚钱贵州建设厅网站办事大厅
  • 网站开发设计师培训wordpress运行机制
  • 网站推广流程郑州响应式网站设计
  • 海外网站建设推广百度怎么投放广告
  • 代做效果图的网站代运营公司怎么找客户
  • 自建个人网站平台云速建站与传统网站的区别
  • wordpress建的网站吗网站引导页作用
  • 成都免费招聘网站微信公众号模板哪里找
  • 个人资料展示网站个人域名 做公司网站
  • 肇庆做网站设计公司简单网站模板下载
  • 青岛建设企业网站域名换了网站需要备案么
  • 做婚礼邀请函网站济南软件制作