当前位置: 首页 > news >正文

郑州网站建设代理商基金从业培训网站

郑州网站建设代理商,基金从业培训网站,建设网站需要专业,北京土巴兔装修公司电话基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图…

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图像模型的输出是3D grid,都展开成1D送入Perceiver Resampler。

Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图:

通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制,用tanh(a)乘以文本和图像模态cross-attention后的输出,a初始化为0。tanh-gating机制保证初始化的时候,模型不受图像特征的影响,输出就是语言模型的输出。

使用single-image cross-attention方法,在计算图像和文本的cross-attention时,通过mask,让文本token只能看到前面的一幅图像的token。

 

训练数据数据集包括公开数据和自建数据。M3W(43 million webpages)、ALIGN dataset(1.8 billion images with alt-text 43 million webpages)、312 million image and text pairs、27 million short videos and text pairs。

http://www.yayakq.cn/news/934958/

相关文章:

  • 新安网站建设cms管理手机网站
  • 一个空间怎么放两个网站吗公司网站升级改版方案
  • 网站建设 表扬信文件管理系统 wordpress
  • ftp服务器windows优化大师是系统软件吗
  • 空间链接制作网站网站兼容9
  • 安徽振兴集团网站开发中小学网站建设
  • wordpress做站群潍坊网站建设壹品网络
  • 益阳市住房和建设局 网站东营最新消息今天
  • 南宁公司网站开发网站建设厂家
  • 网站空间免wordpress弹窗公告
  • 厦门建设工程信息造价网站wordpress 支付 小程序
  • 初学网站开发建设企业展示网站
  • 网站前台管理系统新余网站建设人员
  • 环境没有tomcat怎么演示自己做的网站小型企业网站开发
  • 品划网络做营销型网站如何做查询网站
  • 郑州网站建设优化企业wordpress搜索框美化
  • 寿光建设网站电商平台项目商业计划书
  • 怎么查看自己网站有没有被百度收录wordpress迁移ghost
  • 怎么建投票网站宁波网站建设与设计制作
  • 企业网站营销解决方案wordpress 空间需求
  • dz论坛网站创建页面汕头各类免费建站
  • 东莞官方网站wordpress tag
  • 好看的手机端网站开发页面短网址api接口
  • 唐山网站建设最好的做自己个人网站
  • 做调研有哪些网站为什么我的wordpress显示不了图片
  • 网站开发啊如何充实网站内容
  • 济南国画网站济南网站建设公司网站作用
  • 网站建设检查做网站必须托管服务器吗
  • 新网站做百度推广易县做网站的在哪
  • php网站下载文件怎么做wordpress 分类目录 丢失