当前位置: 首页 > news >正文

毕业设计网站建设 论文免费建设电影网站

毕业设计网站建设 论文,免费建设电影网站,网站开发经济可行性,免费订单管理app基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图…

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图像模型的输出是3D grid,都展开成1D送入Perceiver Resampler。

Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图:

通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制,用tanh(a)乘以文本和图像模态cross-attention后的输出,a初始化为0。tanh-gating机制保证初始化的时候,模型不受图像特征的影响,输出就是语言模型的输出。

使用single-image cross-attention方法,在计算图像和文本的cross-attention时,通过mask,让文本token只能看到前面的一幅图像的token。

 

训练数据数据集包括公开数据和自建数据。M3W(43 million webpages)、ALIGN dataset(1.8 billion images with alt-text 43 million webpages)、312 million image and text pairs、27 million short videos and text pairs。

http://www.yayakq.cn/news/682451/

相关文章:

  • 网站视频接口 怎么做做网站行业统称叫什么行业
  • 手机零售网站 关键词网站月付服务器
  • 黄冈网站推广策略开网店视频教程
  • 设计工作室与网站建设工作室sem专员
  • php智能建站系统百度广告
  • 购物网站开发语言上海企业登记全程电子化服务平台
  • 最简约的网站网站改版影响排名吗
  • 广东企业网站seo报价江西网站制作的公司
  • 网站开发合同预期芜湖十大网络公司
  • 免费建设论坛网站喀什网站建设百度推广
  • 市场营销策划名词解释沈阳seo关键词
  • 四川省建设厅注册管理中心网站首页应用开发工具有哪些
  • 搭建平台网站如何建立公司网站建设
  • 用凡科网做网站怎么保存到桌面网站标题和关键词
  • 类似于拼多多的网站怎么做网站建设软件是什么意思
  • 网站制作视频教程下载百度云微信网页网站怎么做
  • o2o平台信息WordPress 百度联盟优化主题
  • 商洛市建设工程造价管理站网站wordpress安装在子目录下
  • 门户做网站今天的新闻就是明天的历史
  • 个人网站的设计与实现主要技术指标重庆工程建设招标网官方网站
  • 最新远程网站建设服务器创意产品设计方案
  • 手工做火枪的网站注册上海公司
  • 深圳网站建设制作营销做门户网站的网络公司
  • 湖北营销网站建设设计个人网站有什么
  • 公司网站建设需求说明书郑州网站建设公司排名
  • 朔州市2018年建设工程网站公司网站建设组织架构
  • 全国商务网站大全wordpress生成默认密码
  • 做视频网站该把视频文件传到哪网站会员系统源码
  • 潍坊做网站哪家好wordpress 加入搜索引擎
  • 温州捷创网站建设代做网页制作网站