当前位置: 首页 > news >正文

wamp 做网站发布苏州网站建设 公司

wamp 做网站发布,苏州网站建设 公司,高端品牌网站建设在哪济南兴田德润优惠吗,自己做免流网站引言 今天带来论文DAPR: A Benchmark on Document-Aware Passage Retrieval的笔记。 本文提出了一个基准:文档感知段落检索(Document-Aware Passage Retrieval,DAPR)以及介绍了一些上下文段落表示的方法。 为了简单,下文中以翻译的口吻记录&#xff0c…

引言

今天带来论文DAPR: A Benchmark on Document-Aware Passage Retrieval的笔记。

本文提出了一个基准:文档感知段落检索(Document-Aware Passage Retrieval,DAPR)以及介绍了一些上下文段落表示的方法。

为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。

1. 总体介绍

image-20241006153851118

图 1:DAPR 的示例实例。为了找到与查询 相关的段落,检索器需要利用文档上下文, 在本例中这意味着名词"地点"的共指解析。

我们提出了文档感知段落检索(DAPR)任务,其中检索需要考虑关联的文档上下文以返回相关段落。一个 例子如图1所示。在这种情况下,用户询问在特定场地演奏过的音乐家。然而, 相关段落没有提及场地名称,而仅提及名词引用,检索器需要理解这些用于查找正确段落的文档上下文。

我们对SOTA检索器进行错误分析,发现主要错误是由于缺少文档上下文,其中正确的段落缺少共指解析、底层主题的信息。

在实验中,我们通过两种方法向SOTA检索器引入文档上下文来测试扩展SOTA检索器的方法:

  1. 使用BM25混合检索;
  2. 带有上下文的段落表示,它基于文档上下文来增强段落表示;

2. 相关工作

3. DAPR任务和基准

DAPR任务要求系统根据有关(长)文档检索相关段落并对其进行排名。

给定段落集合 C = { p i } i = 1 N C=\{p_i\}_{i=1}^N C={pi}i=1N和它们关联的文档 D = { d i } i = 1 N D=\{d_i\}_{i=1}^N D={di}i=1N,对于查询 q ∈ Q q \in Q qQ,检索系统 s : Q × C × D → R s: Q \times C \times D \rightarrow \R s:Q×C×DR需要返回前 K K K个段落 R = { p 1 , p 2 , ⋯ , p K } R=\{p_1,p_2,\cdots,p_K\} R={p1,p2,,pK}

3.1 NQ-Hard:NaturalQuestions 中的疑难案例

对 SoTA 段 落检索器(DRAGON+、SPLADEv2 和 ColBERTv2)和 BM25 的自然问题进行了错误分析。发现53.5%的错误案例是由于没有检索到相关段落上下文造成的。

4. 实验

引入文档上下文

BM25混合检索

使用BM25检索整个文档,使用神经网络检索器检索段落。

排名融合 融合了来自BM25检索器和神经检索器的相关性分数,计算为:
s convex ( q , p , d ) = α s ^ BM25 ( q , p ) + ( 1 − α ) s ^ neural ( q , d ) s_\text{convex}(q,p,d) = \alpha \hat s_\text{BM25}(q,p) + (1-\alpha) \hat s_\text{neural}(q,d) sconvex(q,p,d)=αs^BM25(q,p)+(1α)s^neural(q,d)
其中 α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1]是融合权重; s ^ \hat s s^表示归一化的相关性得分,计算为:
s ^ ( q , c ) = s ( q , c ) − m q M q − m q \hat s(q,c) = \frac{s(q,c) - m_q }{M_q - m_q} s^(q,c)=Mqmqs(q,c)mq
其中 c c c表示候选段落/文档; m q m_q mq M q M_q Mq分别是最小和最大值。

层次检索 通过两个步骤: (1)文档检索和(2)检索到的文档中的段落检索。

上下文化的段落表示

这里的段落可以认为是文本块。

前置标题 简单增加标题到同一文档每个段落的开头。使用空格来分隔标题文本和原始段落文本。标题通常准确地显示了文档的主体,但可能此类信息并不总是可用。

前置文档关键短语 通过添加从文档中提取的关键短语来绕过标题可用性问题。使用TopicRank算法来提取每个文档的前10个关键短语,然后通过分号连接起来。最后用空格分隔符添加到段落文本中。

共指解析 通过添加共指信息来注释段落。将整个文档输入到共指消解模型中以获得提及先行词映射。对于每个提及,其预测的先行词显示在文档中最早的位置中,并用括号附加到它后面。例如,图1中的段落将被注释为"在场地(TheHalfMoon)表演或录制的艺术家…"。我们只考虑跨段共指。

总结

⭐ 作者提出了可以直接将长文本的全局文本信息拼接到切分后的文本块前面。全局文本信息有(1) 文档的标题 (2) 文档的关键短语,使用TopicRank算法抽取 (3) 共指解析,通过跨段共指解析消解来处理文本块中的代词。

http://www.yayakq.cn/news/863658/

相关文章:

  • c 网站开发 readonly属性视觉上体验的网站
  • 网站收益wordpress 多梦
  • 做网站如何用代码把字体变大网页制作的基本步骤和教程
  • 网站推广公司就去柚米衡阳建设网站制作
  • 站群宝塔批量建站一个网站 两个域名
  • logo字体在线设计生成器网站推广优化趋势
  • 云商城之歌seo软件哪个好
  • 聊城市住房和城乡建设局网站首页手机免费制作自己的网站
  • win7网站建设最新网上注册公司流程
  • 长沙哪家网站设计好营销型网站盈利方案
  • 网统管公司的网站托管服务怎么样c2c网站代表和网址
  • 买域名了怎么做网站网址之家哪个好
  • 基于jsp网站开发与实现广东东莞区号
  • 给公司做一个网站残疾人信息无障碍网站建设
  • 像淘宝购物网站建设需要哪些专业人员?王野天 女演员
  • 公司网站如何做的美丽哪个网站最好
  • 电商网站营销网站建设需要个体营业执照
  • 低价建站在哪里买企业宣传如何做网站
  • python 发表wordpressseo推广软件怎样
  • 永州网站开发公司三亚谁做网站
  • 织梦贷款网站模板郴州网站建设企业
  • 网站建设与维护协议江门市住房建设管理局网站
  • 网站用ps下拉效果怎么做网络营销导向企业网站建设的一般原则是什么?
  • iis搭建网站教程win7怎么制作网站图片不显示
  • 佛山网站建设过程网站教程
  • dedecms菜谱网站源码wordpress 生成封面
  • ppt下载网站哪个好wordpress文章分享
  • 网站缓存优化怎么做网站优化的前景
  • 在元典公司做网站有合同吗哪个网站可以做兼职ppt
  • 建模素材免费网站关键词包括哪些内容