当前位置: 首页 > news >正文

h5自适应网站源码网站功能需求用什么做

h5自适应网站源码,网站功能需求用什么做,磁力搜索,网站固定通栏代码1 背景 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低 ——>需要一个可提供外推性的位置编码最经典的绝对位置编码就是原始Transformer中的那个sinusoi…

1 背景

  • 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低
    • ——>需要一个可提供外推性的位置编码
  • 最经典的绝对位置编码就是原始Transformer中的那个sinusoidal位置编码了:

 2 RoPE

2.1 motivation

  • RoPE通过绝对位置编码实现相对位置编码
    • 以实现有效外推
  • 我们现在有query词向量q,对应的位置m;key词向量k,对应的位置n
    • 我们希望学一个词向量和位置信息结合的函数f【经典Transformer的f是用m,n计算sinusoidal位置编码,然后将位置编码向量和q/k相加】
    • 经过f后得到的query向量和key向量都是位置感知的词向量f(q,m),f(k,n)
  • RoPE希望f(q,m),f(k,n)之间的点积能够带有相对位置信息m-n
    • 也就是希望存在另一个函数,使得:

2.2 RoPE的f函数

2.2.1 二维向量

  • 对于二维词向量,结论是:
    • 这里θ是一个常数
  • 此时

2.2.2 多维向量 

在原始论文Roformer: Enhanced Transformer With Rotray Position Embedding中,这里直接\theta_i=10000^{-\frac{2i}{d}}

所以有:

上面的矩阵乘法等价于如下的实现方式

http://www.yayakq.cn/news/705715/

相关文章:

  • 上海网站备案核验单状态查询永川做网站的公司
  • 淮安做网站 卓越凯欣seo全网营销公司
  • 如何做网站怎么赚钱在网上可以做宣传的有那些网站
  • 养老网站建设合同怎么建设自己网站首页
  • 找人做app网站做试试彩网站
  • 长春火车站在哪个街道做学校的网站推广发展前景
  • 台州网站建设咨询怎么做二手房网站
  • 自由室内设计师接单网站西安 网站 制作
  • 网站安全设计用wordpress制作网站模板
  • 禁止域名访问网站网站源代码购买
  • 网站开发怎么挣外快wordpress主题 路径
  • 一个网站开发北京今天出现什么情况了
  • 中国最大的做网站的公司网页制作软件
  • 推广网站的软件wordpress模版制作工具
  • 新手怎么学做网站重庆航运建设发展有限公司网站
  • 网站建设企业资质等级门户网站做等保需要备案哪些
  • 官方网站建设需要哪个部门审批石柱土家族网站建设
  • 网站怎么更换页面图片wordpress企业建站教程
  • 团购做的好的网站python 发表wordpress
  • 网站建设7个主要流程seo外链工具
  • 上海做网站建设物业管理系统功能
  • 如何规避电子政务门户网站建设的教训上海企业服务云电话
  • 专业做校园文化的网站请打开123720的网站百度
  • 做网站用母版页不好么网站建设公司百家号
  • 衡阳做网站的公司网络策划工作内容
  • dede 网站图标wordpress背景调用
  • 外贸平台网站的营销方式做动漫网站用什么程序
  • 搜狗竞价绑定网站要求连云港网站建设推广
  • 房地产公司网站建设报价方案徐州人才招聘网官网
  • 甘州区建设局网站上海做高端网站制