当前位置: 首页 > news >正文

团购网站短信平台广告策划活动公司

团购网站短信平台,广告策划活动公司,凡科网官网首页,妖姬直播本文是LLM系列文章,针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。 KILM:知识注入到编码器-解码器语言模型 摘要1 引言2 相关工作3 方法4 实验5 讨论6 结论局限性 摘要 大型预训练语言模型(PLMs)已被证明在其参数内保…

本文是LLM系列文章,针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。

KILM:知识注入到编码器-解码器语言模型

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 讨论
  • 6 结论
  • 局限性

摘要

大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识,我们提出了知识注入语言模型(KILM),这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明,KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能,优于具有30倍以上参数的最先进模型。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了一种新的方法,KILM,通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能,特别是在零样本和小样本设置中,同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。

局限性

在本文中,我们提出了一种持续预训练的方法,将知识注入到大型预训练的语言模型中。每次预训练实验使用8个V100 gpu,初级设置下,基本尺寸模型预训练5天,大尺寸模型预训练13天。在数据升级设置中,这些数字明显更大(大尺寸模型为30天)。尽管它在减少推理时间的资源需求方面具有优势,但在训练时间内,KILM既耗时又消耗计算资源。
与任何基于模型的生成系统类似,KILM可能容易生成关于实体的事实不正确的陈述。这些陈述也可能有基于种族、种族和性取向的偏见。

http://www.yayakq.cn/news/293422/

相关文章:

  • 广州市手机网站建设服务机构大连今年大项目建设
  • 南宁网站建设制作短视频推广渠道
  • 深圳 网站开发可以做c oj的网站
  • 漳州城乡和建设局网站如何为网站做seo体检
  • 网站推广软文代发淄博网站设计
  • elision豪华级创意企业中文wordpress主题整站修改wordpress浏览器小图标
  • 购物网站建设工作流程网站建设好与管理在哪就业
  • 高端网站设计合肥网站建设wordpress 教程网
  • 做网站苏州小规模网站开发税率
  • 海口企业做网站设计更改网站文章上传时间
  • 坡头网站开发公司商业网站源码
  • 一个网站完整的html代码商旅通官网app
  • 想调用等三方网站数据该怎么做深圳 网站科技
  • 南京广告设计制作公司seo外链查询工具
  • 公司网站网址注册和备案哪里找当前网站开发什么语言
  • 威海建设公司网站甘肃省省经合局网站建设的通知
  • python购物网站开发流程权威发布的意思是什么
  • 网站建设业务员话术合肥网站建设公司
  • 如何创建网站内容企业网站的功能列表
  • 集美网站建设网络公司经营范围可以加婚介吗
  • 做什么网站开发好服务周到的上海网站建设公
  • 做网站如何寻找客源婚纱影楼网站
  • 扁平化配色方案网站扬州做网站多少钱
  • 网站建设研究课题怎么开网站详细步骤
  • 网站开发好了 怎么发布wordpress 内容可以是表格吗
  • 建站软件安卓wordpress编辑主页
  • 自己做的网站怎么在移动端访问设计封面
  • 我们公司想做网络推广福州seo公司技术
  • p2p视频网站建设波密网站建设
  • 批量网站访问检测建设企业网站e路护航