当前位置: 首页 > news >正文

阳泉软件定制网站建设郴州网站制作找工作

阳泉软件定制网站建设,郴州网站制作找工作,网络营销如何进行网站推广,怎么申请百度网盘免费空间🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: X-Former: Unifying Contr…

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2407.13851

基本信息

摘要

近期在多模态大型语言模型(MLLMs)方面的进步,通过将视觉感知能力整合到大型语言模型(LLMs)中,已经彻底改变了视觉-语言理解领域。

该领域的流行趋势涉及使用来自视觉-语言对比学习(CL)的视觉编码器,擅长捕捉整体表示,但在捕捉详细局部模式方面存在困难。

在本工作中,我们通过结合通过掩码图像建模(MIM)获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示,来增强MLLMs的视觉表示。为了实现这一目标,我们引入了X-Former,这是一个轻量级的Transformer模块,通过创新交互机制利用CL和MIM的互补优势。

具体来说,X-Former首先从两个冻结的视觉编码器,即基于CL的CLIP-ViT和基于MIM的MAEViT,启动视觉-语言表示学习和多模态到多模态生成学习。它进一步从冻结的LLM启动视觉到语言的生成学习,以确保X-Former的视觉特征可以被LLM解释。

为了证明我们方法的有效性,我们在需要详细视觉理解的任务上对其性能进行了评估。广泛的评估表明,X-Former在涉及GQA数据集中结构和语义类别的视觉推理任务中表现出色。对细粒度视觉感知基准的评估进一步证实了其在视觉理解方面的优越能力。

主要贡献

  • 提出利用CL和MIM中的视觉编码器,从冻结的图像编码器中捕捉全局和局部视觉表示,以提升视觉语言理解能力。
  • 提出具有双重交叉注意力的X-Former,用于通过图像-文本对启动多模态到多模态的生成学习,完全无需使用精心挑选或视觉指令数据。

方法

预备知识

CLIP-ViT与MAE-ViT的训练目标使得其关注点有所不同。CLIP-ViT更多关注低频信号和全局视觉表示,而MAE-ViT在理解详细视觉特征方面更加出色。

原生的Q-Former仅采用CLIP-ViT特征,尽管其在VQA和图像描述等下游任务上表现出色,但在详细视觉特征理解方面遇到了挑战。

将CLIP-ViT特征与MAE-ViT特征融合

BLIP2、BLIP2+Concatenation、BLIP2+Early Cross-Attention以及我们的方法在VQAv2(a)、GQA(b)和OKVQA(c)数据集上的性能比较

如何融合CLIP-ViT特征和MAE-ViT特征成为了本文的研究重点。

X-Former

Pre-Training

X-Former Pre-Training

  • CLIP-ViT: pre-trained ViT-G model from EVA-CLIP
  • MAE-ViT: pre-trained ViT-H model

X-Former通过优化重建、ITC、ITM和ITG损失来学习提取局部和全局表示。

  • 🔥 X-Former
  • ❄️ CLIP Image Encoder、MAE Image Encoder、MAE Image Decoder
LLM Alignment

X-Former LLM Alignment

  • LLM Decoder: OPT model

将X-Former的特征与冻结的LLM对齐。

  • 🔥 X-Former、FC
  • ❄️ CLIP Image Encoder、MAE Image Encoder、LLM Decoder

实验

主实验

VQAv2数据集上的零样本视觉问答结果

VQAv2数据集上的零样本视觉问答结果。

GQA和OKVQA数据集上零样本视觉问答结果

GQA和OKVQA数据集上零样本视觉问答结果。

GQA中的详细比较

GQA中的详细比较。

MLLMs在物体计数(OC)和多类识别(MCI)任务上的零样本细粒度视觉感知评估

MLLMs在物体计数(OC)和多类识别(MCI)任务上的零样本细粒度视觉感知评估。

COCO与NoCaps上的无微调结果零样本图像描述结果

COCO与NoCaps上的无微调结果零样本图像描述结果。

消融实验

消融实验

Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。

总结

在这篇论文中,我们介绍了X-Former,这是一种新型架构,旨在通过整合预训练的MAE和CLIP视觉编码器来增强多模态语言模型(MLLMs)的视觉表示。

我们的动机源于以下几点观察:

  1. 现有的MLLMs主要依赖于CLIP-ViT,但往往无法捕捉到细粒度的视觉信号;
  2. 我们的实证研究表明,简单地将CLIP-ViT和MAE-ViT相结合并不一定能带来性能提升;
  3. MLLMs的有效性高度依赖于大规模图像-文本对进行预训练和精心策划的指令调整数据集进行微调。

X-Former通过双重交叉注意力机制有效地整合了CLIP-ViT和MAE-ViT,同时保持计算需求可控。我们的方法即插即用,可以应用于其他模型。

我们的实验结果明确表明,X-Former在各种需要稳健视觉理解的视觉推理任务中超越了BLIP-2。值得注意的是,这些优越的结果仅使用了十分之一的图像-文本对数据集,且无需任何指令调整数据集。

http://www.yayakq.cn/news/539711/

相关文章:

  • 做网站有骗子东莞网络营销策划
  • 网站建设与管理多选题网站建设推广代理
  • 书店商城网站建设方案建材网站建设功能方案
  • 安平网站建设找盛千微商小程序分销商城
  • 美丽寮步网站建设哪家好中国铁建统一企业门户
  • 福州网站优化wordpress 标题入库
  • 郑州的网站建设公司有哪些自己做一网站 多做宣传.
  • 电商设计参考网站网络营销推广方式怎么收费
  • 衡阳做网站的网站怎么做qq的授权登陆
  • 网站开发 不好 怎么说表白网页在线生成制作免费
  • 服务五象新区开发建设指挥部网站wordpress这么写一个api
  • 比较好的外贸网站广州建设厅官方网站
  • 在自己网站做支付可以吗济南媒体邀约
  • 珠海网页模板建站两学一做纪实评价系统登陆网站
  • 免费建站网站一级大录像不卡在线看网页上海网站建设公司电话
  • 设计网站大全软件网络服务器配置与管理考试题
  • 怎样做学校网站wordpress中文表单生成
  • 建电影网站赚钱挣钱吗缔烨建设公司网站
  • 商城网站建设推荐微信怎么弄自己的商城
  • 国内好用的五款开源建站系统网站开发与维护课程设计
  • 网站开发人员介绍做导购网站
  • node做网站优势江宁网站建设多少钱
  • 做网站前台内容对应填充网站建设好卖吗
  • 仿同程网 连锁酒店 网站模板想做企业网站
  • 红酒商城网站建设福州网站定制设计
  • 龙华做网站东营定制网站建设服务
  • 网站建设com网站二级建造师最好的网站
  • 网站建设选哪家深圳万齐创享网站建设
  • 乾安网站建设公司网址导航系统
  • 盐城网站开发本地开发app的公司地址