当前位置: 首页 > news >正文

临沂网站建设周口wordpress用什么框架开发

临沂网站建设周口,wordpress用什么框架开发,免费咨询劳动法电话,新品发布会海报目标 研究在网络数据上训练的视觉语言模型也可以直接结合到端到端的机器人控制中,提升泛化性以及获得突出的语义推理;使得单个的端到端训练模型可以同时学习从机器人观测到动作的映射,这个过程可以受益于基于网络上的语言和视觉语言数据的预训…

目标
研究在网络数据上训练的视觉语言模型也可以直接结合到端到端的机器人控制中,提升泛化性以及获得突出的语义推理;使得单个的端到端训练模型可以同时学习从机器人观测到动作的映射,这个过程可以受益于基于网络上的语言和视觉语言数据的预训练。

方法
1,将动作(actions)描述成文本tokens,然后将其直接合到模型训练集中,使用方法就如自然语言tokens一样;
2,结合使用chain of thought 推理,使得RT2可以进行多阶段语义推理,比如推理出哪种饮料对于劳累的人是合适的。
RT-2

模型
模型直接使用PalmE或者PalmX,无额外创新,创新主要体现在机器人数据的训练方式上。
PaLI

Pali-X:使用ViT-22B处理图像,接收n张图像,获得n x k的tokens(k是图像的patch数量),图像tokens经过一个projections层,然后进入一个编码-解码的backbone(32B 参数和50层,类似于UL2,联合处理图像和文本embeddings,采用自回归方式输出tokens),

PaLI-3B使用更小的ViT-G/14来处理图像,使用UL2-3B来进行编码和解码

Palm-E:使用PaLM-E-12B,图像处理使用ViT-4B,LLM使用Palm。
Palm-e

动作推理与实时编码
1,To enable vision-language models to control a robot, they must be trained to output actions. We take a direct approach to this problem, representing actions as tokens in the model’s output, which are treated in the same way as language tokens 将动作用文本token来进行描述,使得大语言模型可以直接输出动作;

2,The action space consists of 6-DoF positional and rotational displacement of the robot end-effector, as well as the level of extension of the robot gripper and a special discrete command for terminating the episode, which should be triggered by the policy to signal successful completion.(与RT1定义一样,定义了相关动作)

3,The continuous dimensions (all dimensions except for the discrete termination command) are discretized into 256 bins uniformly. Thus, the robot action can be represented using ordinals of the discrete bins as 8 integer numbers.(连续动作离散化,与RT1一致)

4,In order to use these discretized actions to finetune a vision-language into a vision-language-action model, we need to
associate tokens from the model’s existing tokenization with the discrete action bins. (将离散的动作bins关联到VLM已有的tokenization )

5, In order to define a target for VLM fine-tuning we convert the action vector into a single string by simply concatenating action tokens for each dimension with a space character: (根据actions输出目标,示例:
“terminate Δpos Δpos Δpos Δrot Δrot Δrot gripper_extension”. “1 128 91 241 5 101 127”)

6,PaLI-X and PaLM-E , use different tokenizations. For PaLI-X, integers up to 1000 each have a unique token, so we simply associate the action bins to the token representing the corresponding integer. For the PaLM-E model, which does not provide this convenient representation of numbers, we simply overwrite the 256 least frequently used tokens to represent the action vocabulary. (在PaLI-X和PaLM-E中使用不同的tokenizations方法)

7, Cloud service multi-TPU,The largest model we evaluated, the 55B parameter RT-2-PaLI-X-55B model, can run at a frequency of 1-3 Hz. The smaller version of that model, consisting of 5B parameters, can run at a frequency of around 5 Hz.(部署在云端进行实施推理)

训练数据集
主要数据: WebLI dataset(10B image-text pairs across 109 languages, filtered to the top 10% scoring cross-modal similarity examples to give 1B training examples)

其他视觉语言数据:captioning and vision question answering datasets in PaLI-X and PaLM-E

机器人数据: RT-1和Language table

实验
1,How does RT-2 perform on seen tasks and more importantly, generalize over new objects, backgrounds, and environments? RT2在见过的任务上表现如何?更重要的是在新物体,背景和环境上的泛化能力如何?
exp1-1
exp1-2
exp1-3

2,Can we observe and measure any emergent capabilities of RT-2?我们可以观察和测量到RT2的任何新能力吗?
该实验是评估RT2从网络数据中学习到的机器人数据以外的技能,体现网络数据对其帮助。
exp2-1
exp2-2exp2-3

3,How does the generalization vary with parameter count and other design decisions? 泛化性随着参数量和其他设计模块如何变化?
From scratch: 从头开始训练模型,不使用任何VLM模型的预训练权重;
Fine-Tuned: 只使用机器人数据来微调之前训好的预训练模型;
Co-Fine-Tuned: 同时使用原始VLM训练数据和机器人数据对VLM模型进微调。
3-1
exp3-2

4,Can RT-2 exhibit signs of chain-of-thought reasoning similarly to vision-language models? RT2可以使用思维链符号来做到类似VLM的推理吗?
CoT
局限性与未来工作
1, 我们展示了使用web-scale数据集来进行预训练,因为其可以提高语义和视觉概念上的泛化性,但机器人并没从这些经验中学习到任何新动作,机器人的物理技能仍然受限于机器人数据中见过的技能分布,但是它学会了用新的方式去使用这些技能。我们认为这是因为网络数据集并没在技能层次有很好的分布。因此一个激动人心的未来方向将是研究新技能如何能从新数据采集方式中获得,如人类视频这类数据;

2,尽管我们展示了可以实时运行大规模的VLA模型,其计算量非常大, 因为这些模型被应用于高频控制中,实时推理可能会成为一个瓶颈。对应的未来工作是探索量化和知识蒸馏技术来降低算力。这也关联到另一个限制,当前可用与创造RT2的VLM模型有限,期待更多轻量级的VLM模型可被使用(e.g. https://llava-vl.github.io/) 。

个人见解
该工作很硬核,也很谷歌,硬核在于使用了一种大家都不看好的方式,用VLM这种语言模式来实现机器人控制,同时能从网络数据中获得一定的泛化能力,很谷歌是指这种工作也只有具备大算力大模型大数据大投入的谷歌公司才可以研究。总结来说,训练方式上带来了很大的创新,但如何使得其可以真正落地应用,作者指出了一些路径,如果有团队肯下大力气攻坚,也还是有希望的。

http://www.yayakq.cn/news/463125/

相关文章:

  • 公关公司多少钱一个月三明seo
  • 钓鱼网站链接怎么做象山住房和城乡建设局网站
  • 网站用 做有什么好处wordpress 数据库迁移
  • 网站配置优化我想投诉做软件的网站
  • wordpress全站开启ssl深圳企业黄页
  • wordpress整站搬运湖北高速公路建设网站
  • 北京响应式h5网站开发做网络推广一个月的收入
  • 建设网站项目的目的是什么江西网站开发
  • 榆林建站网站建设网站页面设计与实现
  • 织梦做的网站织梦修改网页模板ps模板素材网站
  • 比较厉害的网站制作公司企业网搭建
  • 营销型网站建设开发价格建设项目环境影响网站
  • 同一个网站绑定多个域名注册中文域名一年多少钱
  • php建站模板天津市工程建设公众信息网官网
  • 静态网站有哪些优点网址大全最新排行榜
  • 网站建设技术支持有什么合肥广告牌制作公司
  • 重庆市建立网站的网络公司WordPress对段落美化
  • 帝国网站程序简历模板制作神器
  • 怎么把asp网站改成php如何做个小程序自己卖货
  • 宣讲网站建设酷家乐个人网页版
  • 平台网站建设过程包含导航栏至少包含三个布局
  • 网站建设要准备什么软件最好的外贸网站建设
  • 个人不允许建网站建设集团企业网站
  • 推广网站的广告怎样做竞价排名的优缺点
  • 做网站网页的成本优秀营销软文范例500字
  • 重庆网站建设的好处深圳网站建设维护服务
  • 网站备案是自己可以做吗深圳外贸英语培训
  • 网站中的滑动栏怎么做的wordpress後台小程序
  • 惠州东莞网站建设价格wordpress中国风主题
  • 用阿里云空降怎么建设网站网站建设 租赁