织梦php网站模板修改企业网站管理系统 软件著作权
文章目录
- 摘要
 - 1 引言
 - 2 相关工作
 - 3 任务:可提示视觉分割
 - 4 模型
 - 5 数据
 - 5.1 数据引擎
 - 5.2 SA-V数据集
 
- 6 零样本实验
 - 6.1 视频任务
 - 6.1.1 提示视频分割
 - 6.1.2 半监督视频对象分割
 - 6.1.3 公平性评估
 
- 6.2 图像任务
 
- 7 与半监督VOS的最新技术的比较
 - 8 数据和模型消融
 - 8.1 数据消融
 - 8.2 模型架构消融
 - 8.2.1 容量消融
 - 8.2.2 相对位置编码
 - 8.2.3 记忆架构消融
 
- 9 结论
 - 10 致谢
 - 附录
 - A PVS任务的细节
 - B 局限性
 - C SAM 2细节
 - C. 1 架构
 - C. 2 训练
 - C.2.1 预训练
 - C.2.2 全面训练
 
- C. 3 速度基准测试
 
- D 数据细节
 - D. 1 SA-V数据集细节
 - D.2 数据引擎细节
 - D.2.1 注释协议
 - D.2.2 数据引擎阶段比较
 
- E 关于零样本转移实验的更多细节
 - E.1 零样本视频任务
 - E.1.1 视频数据集细节
 - E.1.2 交互式离线和在线评估细节
 
- E.1.3 半监督VOS评估细节
 - E.1.4 SAM+XMem++和SAM+Cutie基线细节
 
- E.2 DAVIS交互式基准测试
 - E.3 零样本图像任务
 - E.3.1 数据集细节
 - E.3.2 详细的零样本实验
 
- F 在半监督VOS中与最新技术的比较的更多细节
 - G 模型、数据和注释卡片
 - G. 1 模型卡片
 - G. 2 SA-V数据集卡片
 - G.3 数据注释卡片
 
摘要
我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了 3 3 3倍。在图像分割方面,我们的模型比“Segment Anything Model”(SAM)更准确,速度快了
