当前位置: 首页 > news >正文

学做网站论坛教程下载公司网站是否有必要销售产品

学做网站论坛教程下载,公司网站是否有必要销售产品,电子商务网站建设编码,网球新闻最新消息具身智能controller---RT-1(Robotics Transformer)(上---方法介绍) 相关链接摘要和简介相关工作与预备知识系统概述模型 RT-1: ROBOTICS TRANSFORMER模型 相关链接 github链接 主页链接(包括论文和训练数据集&#xf…

具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)

  • 相关链接
  • 摘要和简介
    • 相关工作与预备知识
    • 系统概述
    • 模型 RT-1: ROBOTICS TRANSFORMER
      • 模型

相关链接

github链接
主页链接(包括论文和训练数据集)

摘要和简介

迁移学习在计算机视觉领域已有很多研究,但在端到端的机器人学习控制的领域研究还比较少,本论文提出通用的机器人模型一个关键点在于开放式的(open-ended)任务不可知的(task-agnostic)训练, 有着高容量(high-capacity)的网络结构,可以吸收所有不同种类的机器人数据。
论文里的核心问题:可否利用大量的机器人任务数据训练一个大规模多任务骨干模型?这个模型是否会从别的领域观测获得好处, 表现出对新任务、环境和对象的zero-shot能力? 其挑战主要存在两个方面:正确的数据集和合适的模型设计

  • 数据集:好的泛化性需要数据集同时具有规模和宽泛性,包含各种不同的任务和设置;
  • 模型设计: 需要大容量,Transformer网络很符合这个需求。
    为此,该论文提出一个先进的机器人控制网络RT-1
    (Robotics Transformer 1), 它将高维输入和输出编码成紧凑的token表征,包括图像,文本指令和电机控制指令,并可以进行实时推理控制。

相关工作与预备知识

  • 在使用语言和Transformer控制机器人这个方向,本工作在此方向上更进一步,将语言视觉观测映射到机器人动作的过程当作一个序列建模过程,并使用Transformer网络来学习这个映射;
  • 大部分工作专注于让Transformer学习单个任务(如Goto, Behaviour Transformer),本工作验证了基于Transformer的策略在保持实时性的同时,具有高容量(high capacity)和泛化性;
  • 本工作进一步支持了多任务和language-conditioned机器人学习的能力, 在大规模数据集(有大量不同行为,对象和场景)上提供了实验结果,并提出了新的结构和设计选项,使得机器人可以在更大规模上进行学习;
  • 机器人学习(Robot learning): 我们旨在学习机器人策略,用于从视觉观测中解决language-conditioned任务;
  • Transformers:,一个Transformer网络是一系列的模型映射,它将一个输入序列映射到一个输出序列,联合使用自注意力(self-attention)层和全连接神经网络;
  • 模仿学习(Imitation learning):在演示数据上学习机器人策略,类似一般深度学习中的监督学习,目标是最小化基于观测的预测值与标签值之间的差异。

系统概述

目标:创建和演示一个通用的机器人学习系统,可以吸收大规模的数据并能有效地泛化;
机器人平台:EverydayRobots的移动操作机器人,具有7自由度的机械臂,两指夹爪和一个移动底盘;
机器人

环境:三个厨房环境—两个真实办公厨房和一个基于这些真实厨房建模的训练环境;
环境

数据: 人类提供的示教,并对每个episode进行文本标注,用于表示其动作指令。我们最大的数据集包含在超过700个任务上超过130条独立示教;
skills
RT-1: 输入短序列图像和一条自然语言指令,输出当前时刻机器人的动作。为此,网络结构包括多个部分:首先使用一个基于ImageNet预训练的卷积神经网络对图像和文本进行处理生成多个token,然后使用Token Learner计算一个紧凑的token集合,最后使用一个Transformer处理这些Token,并产生离散的动作tokens。输出的动作包括机械臂的七自由度运动 (x, y, z, roll, pitch, yaw, opening of the gripper), 底盘的三自由度运动(x, y, yaw)和一个离散维度用于表征动作模式转换(控制机械臂,控制底盘或者结束)。

模型 RT-1: ROBOTICS TRANSFORMER

本部分介绍如何tokenize图像,文本指令和动作,然后讨论RT-1模型结构,并描述如何进行实时控制,最后介绍数据采集流程以及数据集中的技能和指令。

模型

模型
指令和图像tokenization:RT-1通过将最新的6帧图像输入到基于ImageNet预训练的EfficientNet-B3网络来tokenizes这些图像,该网络使用6张300x300的图像,输出一张9x9x512的空间特征图,然后变平成81个512维的token输给后面的网络层来处理;指令首先通过universal sentense encoder进行编码,得到一个512维的向量,这个embedding然后输入到 identity-initialized FiLM层,加入到预训练的EfficientNet中用来训练图像编码器。整个图像和指令tokenization网络共有约6M参数,包括26层MBConv块和FiLM层,最终产生81个指令图像token;
TokenLearner:TokenLearner对81视觉指令token进行采样,最终获得仅仅8个tokens,输入到后续的Transformer层;
Transformer: 历史6张张图像指令对应的8 个token拼接在一起形成48个token(包括增加的位置编码),输入到Transformer骨干。Transformer是一个 decoder-only序列模型,它有8个self-attention层,总共约19M参数,最终输出action tokens;
动作tokenization:每个连续的动作被离散到256维的bin中,并被映射到其中之一;
Loss:标准分类交叉熵和随机mask
实时推理加速:1,使用token learner对原始token进行压缩;2,推理时保留历史5帧图像对应的指令图像token,而不必全部重新计算;分别加速2.4倍和1.7倍。

http://www.yayakq.cn/news/232182/

相关文章:

  • 英文建站网站建设公司 温州
  • 专门做特价的网站官网网站建设企业
  • 济南网站建设 荐搜点网络网页界面设计中
  • 政务网络及网站建设网页设计需要用到的软件
  • 已有网站备案更换idc 多久网站qq 微信分享怎么做
  • 自学网站建设做淘宝那样的网站麻烦吗
  • 湛江做网站公司广告发布形式有哪几种
  • 东莞免费建网站企业广东人才网官方网站招聘信息
  • 网站制作推广方案网站建设最便宜多少钱
  • 能直接用网站做海报吗大连做网站比较好的公司
  • 网站建设所用系统广告设计公司朋友圈文案
  • WordPress上放广告广州seo营销培训
  • 网站建设项目资金申请wordpress怎么自己写源码吗
  • 卖房子上哪个网站最好卖网上注册公司营业执照注册流程
  • 攀枝花网站建设网络营销培训
  • 西安双语网站建设vi设计哪里有
  • 百度爱采购下载app谷歌网站推广优化
  • 湘西网站建设公司怎么在携程旅行做网站
  • 做个自己的网站需要多少钱网上花店 网站源代码
  • 做seo要明白网站内容邢台网站建设报价多少钱
  • 太原模板建站系统上海做营销网站哪个公司好
  • 网站维护建设招标电商在线设计网站
  • 哪个网站做公司业务广告效果好wordpress 关注插件
  • 网站建设评审表运城市住房和城乡建设局网站
  • 免费的舆情网站六安市建设网站市场信息价
  • 公司国外网站建设网站推广的工具
  • 青岛网站建设首选衡水wap网站建设
  • 松原网站建设哪家好重庆建网站推广价格
  • 如何进行主题网站的资源建设网站制作哪个好一些
  • 电商网站建设维护汕尾手机网站开发