当前位置: 首页 > news >正文

wordpress 网站迁移如何注册网站主办者

wordpress 网站迁移,如何注册网站主办者,wordpress自适应 the7,在360怎么做网站BGE的技术亮点: 高效预训练和大规模文本微调;在两个大规模语料集上采用了RetroMAE预训练算法,进一步增强了模型的语义表征能力;通过负采样和难负样例挖掘,增强了语义向量的判别力;借鉴Instruction Tuning的…

BGE的技术亮点:

  • 高效预训练和大规模文本微调;
  • 在两个大规模语料集上采用了RetroMAE预训练算法,进一步增强了模型的语义表征能力;
  • 通过负采样和难负样例挖掘,增强了语义向量的判别力;
  • 借鉴Instruction Tuning的策略,增强了在多任务场景下的通用能力。

数据集的构成:
在这里插入图片描述

RetroMAE预训练

主要思想是:encoder用小一点的mask rate得到sentence embedding,然后decoder用大一点的mask rate结合encoder得到的sentence embedding进行重构

在这里插入图片描述
此外,为了使得每个token使用的context信息不同,RetroMAE还使用了增强解码的方法

在这里插入图片描述

  • 解码的时候每一行都带,上下文信息和位置信息
    在这里插入图片描述
    在这里插入图片描述

微调

  • 主要通过对比学习和Instruction Tuning的思想

对比学习是一种训练模型的方法,通过比较正例和反例来学习数据的表示。

  • 输入数据的格式:模型接受三元组格式的数据作为输入,包括一个查询(query),一个正例(positive),和一个反例(negative)。

  • in-batch negatives 策略:除了上述三元组中的反例外,他们还采用了“in-batch negatives”策略,意思是在同一个批次的数据中,使用其他数据作为额外的反例。

  • cross-device negatives sharing method:这是一种在不同的GPU之间共享反例的方法,目的是大大增加反例的数量。

  • 训练硬件和参数:使用了48个A100(40G)的GPU进行训练。批次大小为32,768,因此每个查询在批次中有65,535个反例。使用了AdamW优化器,学习率为1e-5。对比损失的温度为0.01。

  • 在训练中为检索任务的查询添加了instruction。 对于英语,指令是Represent this sentence for searching relevant passages: ; 对于中文,指令是为这个句子生成表示以用于检索相关文章:. 在评测中,针对段落检索任务的任务需要在查询中添加指令,但不需要为段落文档添加指令。

http://www.yayakq.cn/news/245653/

相关文章:

  • 企业介绍微网站怎么做网站建设上机课
  • 如何做网站粘贴广告建wap手机网站
  • 17网一起做网店普宁seo的最终目的是?
  • 搜索引擎营销是目前最主要的网站推广营销wordpress 外卖
  • 外贸网站优化服务做外贸怎么连接国外网站
  • 湖北省住房建设厅网站网站上传该怎么做
  • 中国制造网内贸站邯郸做网站公司哪家好
  • 装饰公司怎么做微网站wordpress群站域名
  • 桂林建设信息网站网络营销的概念是什么
  • 公司外贸网站怎么做微博营销的定义
  • 开发一个icp网站需要多少钱网站flash
  • 给企业开发网站注册公司哪个网站
  • 做任务的网站源码郑州做网站报价站域名多少钱
  • 行业做门户网站挣钱吗滨州网站建设制作
  • led 网站建设兰山做网站
  • 玉山县住房城乡建设局网站wordpress自定义内容插件
  • 贝尔利网站四川网络推广公司哪家好
  • 深圳华企网站建设福田做棋牌网站建设找哪家效益快
  • 山东聊城建设学校网站国外单栏wordpress
  • 用网站做数据库怎么自己创建一个平台
  • 如何给一个网站做定时的更新WordPress go.php 代码
  • 邵阳市城乡建设厅网站免费推广项目发布平台
  • 网站 逻辑结构印刷 技术支持 东莞网站建设
  • windows 2008 搭建网站河北建设部官方网站
  • 教育培训网站大全手机端h5
  • 大连网站策划四川旅游攻略自由行攻略
  • 网站开发市场价公司介绍ppt范例内容
  • thinkphp网站开发服务器怎么申请域名邮箱
  • 哪些网站可以做一些任务挣钱无锡手机网站建设报价
  • 网络宣传网站建设价格环球网最新新闻