当前位置: 首页 > news >正文

济南网站建设 力推聚搜网络全国最缺工100个职业排行榜

济南网站建设 力推聚搜网络,全国最缺工100个职业排行榜,为了推出企业网站建设,杭州互联网大厂下载PDF或者阅读论文,请点击查看:LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory 摘要 中文 在这篇论文中,我们提出了一种高效的多级卷积架构,用于3D视觉定位。传统的由于采用两阶段或基…

下载PDF或者阅读论文,请点击查看:LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory

摘要

中文

在这篇论文中,我们提出了一种高效的多级卷积架构,用于3D视觉定位。传统的由于采用两阶段或基于点的架构,难以满足实时推理的要求。受多级全稀疏卷积架构在3D目标检测中成功应用的启发,我们旨在遵循这一技术路线构建一个新的3D视觉定位框架。然而,在3D视觉定位任务中,3D场景表示应与文本特征进行深度交互,由于大量体素特征,基于稀疏卷积的架构在此交互中效率低下。为此,我们提出了文本引导剪枝(TGP)和基于补全的添加(CBA),通过逐步区域剪枝和目标补全,以高效的方式深度融合3D场景表示和文本特征。具体来说,TGP迭代地稀疏化3D场景表示,并通过交叉注意力有效地使体素特征与文本特征交互。为了减轻剪枝对精细几何信息的影响,CBA通过体素补全自适应地修复过度剪枝的区域,而计算开销可以忽略不计。与之前的单阶段方法相比,我们的方法实现了最高的推理速度,速度比之前最快的方法提高了100% FPS。即使与两阶段方法相比,我们的方法也实现了最先进的精度,在ScanRefer上的Acc@0.5领先了+1.13,在NR3D和SR3D上分别领先了+2.6和+3.2。代码可在https://github.com/GWxuan/TSP3D上获取。

English

In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with +1.13 lead of Acc@0.5 on ScanRefer, and +2.6 and +3.2 leads on NR3D and SR3D respectively. The code is available at https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

论文解读

一句话总结

本文提出了一种基于文本引导的稀疏体素剪枝(TGP)方法,用于高效的三维视觉定位,通过多级稀疏卷积架构和深度融合3D场景表示与文本特征,实现了实时的高精度三维视觉定位。

问题1:这篇论文想要解决什么具体问题?

  • 问题背景:三维视觉定位(3DVG)在机器人、AR/VR等领域应用广泛,但现有方法在实时性方面存在挑战。

  • 现有方案不足:现有的两阶段方法计算成本高,难以实现实时性;单阶段方法基于点云架构,计算量大,难以达到实时性能。

  • 研究目标:提出一种高效的单阶段三维视觉定位方法,实现高精度和实时性的平衡。

问题2:论文的核心创新点是什么?

  • 技术创新:提出了基于多级稀疏卷积架构的三维视觉定位框架。

  • 方法改进:提出了文本引导的剪枝(TGP)和基于补全的添加(CBA)方法,用于高效融合3D场景表示和文本特征。

  • 优势:相比现有方法,TSP3D在精度和速度上均有显著提升,在ScanRefer数据集上达到最高的准确率,并在NR3D和SR3D数据集上分别领先2.6和3.2。

问题3:实验结果如何验证了方法的有效性?

  • 关键实验:在ScanRefer和ReferIt3D数据集上进行了广泛实验。

  • 性能提升:TSP3D在ScanRefer数据集上Acc@0.5达到56.45%,超越了之前最快的单阶段方法,速度提升100% FPS。

  • 对比结果:TSP3D在NR3D和SR3D数据集上分别领先2.6和3.2,达到了最先进的准确率。

问题4:这个研究的实际应用价值是什么?

  • 应用场景:适用于机器人、AR/VR等需要实时三维视觉定位的场景。

  • 实施建议:采用TSP3D框架,结合实际应用场景进行定制化调整。

  • 局限与展望:TSP3D的实时性相比TSP3D-B略有下降,未来将设计新的多模态特征交互操作,并考虑将输入扩展到在线RGB-D视频。

http://www.yayakq.cn/news/100608/

相关文章:

  • 广州技术支持:网站建设安徽省建设监理网站
  • wordpress建站是什么意思做毕业设计的参考文献网站
  • 企业建立网站手机端网站自动弹出营销qq
  • 淮安做网站appwordpress 手机门户
  • wordpress做一个视频网站金融软件开发公司排名
  • 联通专线做网站网站管理助手4.0 mysql
  • 厦门网站建设seo医疗器械分为哪三类
  • 用阿里云怎么建网站百度一下百度首页官网
  • 网站建设 大公司排名厨房装修效果图
  • 河南国邦卫可生物科技有限公司网站建设南昌营销型网站
  • 兖矿东华建设有限公司网站上海建设工程标准与造价信息网站
  • 郑州专业网站制作做网站后台需要学什么
  • 网站建设与管理教学方案晋城商城网站开发设计
  • 网站h1中文网页模板免费下载
  • 网站建设的费用明细广州市律师网站建设怎么样
  • 鹿城做网站html 医药网站模板
  • 海淀教育互动平台网站建设潍坊网站设计
  • 案例网站有哪些西安网站建设公司哪有
  • wordpress培训类网站模板下载深圳网络推广引流
  • html5 网站模板下载阿里巴巴出口贸易平台
  • 建网站培训机构国内可以做网页的网站
  • 沧浪企业建设网站电话互联网最吃香的职业
  • 郑州公司做网站教育网站开发报告
  • oss可以做视频网站吗wordpress linux下载
  • 网站 绝对路径 相对路径seo搜索引擎优化知乎
  • 东莞做网站it s湛江有哪些网站建设公司
  • 企业解决方案参考网站做英文网站需要哪些东西
  • 蜘蛛云建网站怎样wordpress用别人主题
  • 网站建设广金手指排名wordpress 标签数
  • 画册设计模板图片公司网站建设推荐乐云seo