当前位置: 首页 > news >正文

协会网站建站宁波快速制作网站

协会网站建站,宁波快速制作网站,自己做的网站怎么设置文件下载,电子商务网站的作用基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图…

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图像模型的输出是3D grid,都展开成1D送入Perceiver Resampler。

Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图:

通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制,用tanh(a)乘以文本和图像模态cross-attention后的输出,a初始化为0。tanh-gating机制保证初始化的时候,模型不受图像特征的影响,输出就是语言模型的输出。

使用single-image cross-attention方法,在计算图像和文本的cross-attention时,通过mask,让文本token只能看到前面的一幅图像的token。

 

训练数据数据集包括公开数据和自建数据。M3W(43 million webpages)、ALIGN dataset(1.8 billion images with alt-text 43 million webpages)、312 million image and text pairs、27 million short videos and text pairs。

http://www.yayakq.cn/news/569754/

相关文章:

  • 局网站建设申请烟台网站建设团队
  • ppt做视频的模板下载网站有哪些内容沧州网站制作多少钱
  • 网站接单做项目电脑编程用什么软件
  • alexa的网站排名主要分为哪两种多个网站 备案吗
  • 免费视频网站素材青岛市房产信息网官网
  • 深圳福田区网站建设职业生涯规划大赛演讲稿5分钟
  • 模具机械设备东莞网站建设皇岗网站建设
  • 杭州做网站的企业网站前端建设
  • 个人做门户网站中国建设银行网站首页u盾登入
  • 网站动画效果怎么做的如何安装wordpress ftp
  • 做网站襄樊贵阳银行手机银行下载官方网站
  • 罗湖附近公司做网站建设哪家效益快wordpress 主题破解
  • 网站建设中制作页面导航wordpress汉化
  • 装修门户网站程序 cmsp2p网站建设的步骤过程
  • 电商网站价格监控房产如何做网站
  • 南宁青秀万达网站建设wordpress框架分析
  • 书法 wordpress做专业搜索引擎优化
  • 建设银行海淀支行 网站建设信用卡银行积分兑换商城网站
  • 电脑怎么用别人的网站吗做网站导航多大字号
  • 协会网站制作微信怎么创建自己的小程序
  • 网站备案做优惠券互联网电商板块火箭发射
  • 昆明网站建设网站做网站前期需要什么
  • 做网站域名公司自己怎么设置会员网站
  • 新乡网站建设哪家优惠郑州哪家做网站便宜
  • 如何添加网站代码网站做推广的方式
  • 网站的优化怎么做南宁网络推广服务商
  • wordpress淘宝客程序解答网站内容优化策略
  • 4线城市搞网站开发软文范例大全1000字
  • 第二章 网站建设上海网站排名
  • 苏州模板建站定制wordpress 取消做这