了解谷歌的 RT-2 视觉-语言-动作模型如何通过将网络知识转移到物理动作来彻底改变机器人控制。了解其架构、训练方法、涌现能力以及对机器人公司和运营商的影响,包括与远程操作集成以实现高效的 AI 训练。
了解 RT-2 视觉-语言-动作模型
RT-2 通过将动作输出作为令牌来扩展视觉-语言模型,从而可以从视觉和文本输入端到端地预测机器人动作。这种VLA 架构将机器人动作视为语言模型词汇的一部分,从而可以无缝集成视觉、语言和动作空间。 RT-2:视觉-语言-动作模型将网络知识转移到 Ro
RT-2 的核心是使用基于 Transformer 的架构,例如 PaLM-540B 或 PaLI-X,以及用于处理图像输入的 ViT 等视觉编码器。通过在网络规模数据集上与来自 Bridge 或 RoboNet 等来源的机器人轨迹数据进行协同微调,RT-2 将互联网知识转移到物理机器人控制。这种方法实现了显着的泛化,基准测试表明,与 RT-1 相比,在处理未见过的物体和环境方面的改进超过 2 倍。 RT-2:视觉-语言-动作模型将网络知识转移到 Ro
RT-2 中动作即令牌的力量
RT-2 中的动作即令牌方法是革命性的。通过将机器人动作(例如关节速度或末端执行器位置)表示为语言模型词汇中的令牌,RT-2 可以将网络规模的知识无缝转移到物理控制。这增强了多机器人部署的可扩展性,使其成为希望优化其机队的机器人公司的理想选择。 Grounded Decoding:使用 Grounded 模型指导文本生成
例如,通过思维链提示,RT-2 增强了复杂任务的推理能力,使机器人能够执行训练数据中未见过的新颖动作。这对于机器人任务的 AI 训练特别有益,其中来自网络数据的语义关系理解等涌现能力可以带来即兴解决方案。 Open X-Embodiment:机器人学习数据集和 RT-X 模型
如演示所示,RT-2 可以处理涉及未见过物体的指令,利用来自大量互联网数据集的预训练知识。这减少了对大量特定于任务的数据的需求,从而可能将机器人初创公司的数据收集成本降低高达 90%。 RT-X:Open X-Embodiment 模型
涌现能力和实际应用

RT-2 最令人兴奋的方面之一是其机器人技术中的涌现能力。这些包括多步骤推理,例如即兴使用工具或掌握“已灭绝的恐龙”等语义概念来识别玩具。这些能力源于该模型对各种网络数据的训练,使机器人能够推广到新颖的环境。 Google DeepMind 的新 AI 可以控制机器人
在实践中,RT-2 在具有挑战性的任务中表现出高达 80% 的成功率。对于机器人运营商而言,这意味着提高了工业环境中的生产力,洞察力表明任务完成率提高了 2-3 倍。此外,通过减少对人工远程操作进行训练的依赖,像 RT-2 这样的 VLA 模型提高了效率并降低了运营成本。 Google DeepMind 推出了 RT-2,这是一种用于机器人的变革性 AI 模型
- 步骤 1:在网络规模的文本和图像上进行预训练,以获得广泛的知识。
- 步骤 2:与 Bridge 等机器人数据集进行协同微调,以实现动作集成。
- 步骤 3:部署在现实场景中以进行新兴技能测试。
这些能力也提高了机器人 AI 部署中的 ROI,因为机器人适应动态环境,通过减少硬件故障和增强适应性,在 6-12 个月内产生回报。 思维链提示引发大型语言模型中的推理
数据效率和训练方法
RT-2 的训练利用了对互联网数据的大规模预训练,并使用机器人数据集进行了微调。这种VLA 模型中的数据效率最大限度地减少了对昂贵的现实世界远程操作的需求,支持通过网络抓取和模拟进行高效的数据收集。
| 方面 | RT-1 | RT-2 |
|---|---|---|
| 泛化改进 | 基线 | 超过 2 倍 |
| 新颖任务的成功率 | ~40% | 高达 80% |
| 数据减少潜力 | 标准 | 高达 90% |
对于机器人公司而言,这意味着可扩展的 AI 训练,其中小型特定于机器人的数据集足以进行微调,通过快速原型设计提供快速的 ROI。
将远程操作与 RT-2 集成以获得最佳结果
虽然 RT-2 减少了对大量数据的需求,但远程操作对于高质量的机器人数据集仍然至关重要。像 AY-Robots 这样的平台提供机器人远程操作最佳实践,将机器人连接到全球运营商网络,以进行 24/7 数据收集。
运营商可以通过机器人数据收集的盈利潜力获得有竞争力的费率,而公司则受益于将远程操作与 RT-2 等 AI 模型集成的实用工作流程。
机器人操作系统 (ROS)和Scale AI等数据标记平台等工具增强了这种集成,确保了数据效率和模型稳健性。
局限性和未来方向

尽管 RT-2 具有优势,但它也存在局限性,包括对高质量机器人数据的依赖以及在没有明确计划的情况下进行长时程任务的挑战。未来的工作可能会结合来自Inner Monologue等模型的模块,以实现更好的计划。
尽管如此,RT-2 为可扩展的机器人 AI 训练铺平了道路,尤其是在与远程操作结合以进行持续数据改进时。
机器人部署的 ROI 分析
投资像 RT-2 这样的 VLA 模型可以产生显着的回报。通过实现对未见过环境的泛化,它可以降低再培训费用并提高任务效率。
| 指标 | 传统模型 | RT-2 VLA |
|---|---|---|
| ROI 时间表 | 12-24 个月 | 6-12 个月 |
| 任务完成率提高 | 1 倍 | 2-3 倍 |
| 数据收集成本降低 | 最小 | 高达 90% |
对于初创公司而言,这意味着更快的迭代和部署,并由远程操作和 AI 集成工具提供支持。
结论:RT-2 的机器人控制未来
RT-2 将网络知识转移到机器人控制的能力标志着机器人技术的新时代。凭借其 VLA 架构、动作即令牌和涌现能力,它为机器人研究人员、AI 工程师、公司和运营商提供了强大的创新工具。
在 AY-Robots,我们很高兴将 RT-2 与我们的远程操作平台集成,以帮助您实现机器人运营商的实用工作流程。立即开始优化您的机器人 AI。
了解 RT-2 中的 VLA 架构

VLA 架构,或视觉-语言-动作模型,代表了机器人 AI 中的一种突破性方法。RT-2 的核心是将视觉和语言处理与动作生成集成在一起,使机器人能够解释和执行来自网络规模数据的复杂指令。这种架构建立在以前的模型(如PaLM-E)之上,从而可以无缝地将知识从庞大的互联网数据集转移到现实世界的机器人控制。
VLA 架构中的一项关键创新是感官输入的统一。来自摄像头的视觉数据与自然语言描述一起处理,产生可操作的输出。这种多模式集成增强了模型处理各种任务的能力,而无需进行大量的特定于任务的训练,如DeepMind 关于 RT-2 的博客文章中所述。
- 用于图像理解的视觉 Transformer 的融合
- 用于语义推理的语言模型
- 将预测映射到机器人运动的动作标记器
- 利用网络知识的可扩展训练管道
通过采用这种架构,RT-2 在泛化方面实现了卓越的性能,使其成为可扩展的机器人 AI 训练的理想选择。研究人员指出,此类模型减少了手动数据收集的需求,从而提高了 VLA 模型中的数据效率。
动作即令牌:一种核心机制
动作即令牌方法对于 RT-2 的功能至关重要。RT-2 不是将动作视为单独的实体,而是将它们编码为语言模型词汇中的令牌。这允许模型以生成文本的相同方式预测动作序列,如原始 RT-2 论文中所述。
这种方法通过使机器人能够执行未明确训练的新颖任务来促进机器人技术中的涌现能力。例如,链接从网络数据中学到的简单动作可以导致复杂的行为,例如基于抽象描述对对象进行排序。
| 功能 | RT-1 | RT-2 |
|---|---|---|
| 训练数据 | 主要为机器人演示 | 网络规模的视觉-语言数据 + 机器人数据 |
| 动作表示 | 离散动作 | 语言空间中的动作即令牌 |
| 泛化 | 仅限于已见过的任务 | 未见过场景的涌现能力 |
| 效率 | 高数据要求 | 提高数据效率 |
机器人控制的优势
实施动作即令牌增强了从网络知识进行的机器人控制,使 AI 能够从数十亿个在线示例中提取信息。这种迁移学习范例对于机器人任务的 AI 训练至关重要,从而减少了与传统方法相关的时间和成本。
涌现能力和实际应用
RT-2 展示了涌现能力,其中模型表现出超出其训练数据的技能。例如,它可以推理对象的可供性或链接思维以进行多步骤计划,这受到思维链提示中技术的启发。
这些能力为实际应用打开了大门,包括与远程操作系统集成。通过将 AI 与人工监督相结合,运营商可以通过高效的任务执行在机器人 AI 部署中获得更高的 ROI。
- 通过
- 等平台收集多样化的数据集。
- 使用来自
- 的可扩展框架训练模型。
- 集成远程操作以进行微调,遵循机器人远程操作的最佳实践。
- 部署在现实场景中以衡量性能和 ROI。
了解 RT-2 中的 VLA 架构
RT-2 中的 VLA(视觉-语言-动作)架构代表了从网络知识进行的机器人控制的重大飞跃。通过将视觉和语言模型与动作输出集成在一起,RT-2 使机器人能够解释和执行来自庞大互联网数据的复杂指令。这种架构建立在PaLM-E和Inner Monologue等前身模型之上,从而可以无缝地传输知识。
VLA 架构的核心是处理视觉输入以及自然语言提示以生成标记化动作。这种动作即令牌方法将机器人运动视为语言模型词汇的一部分,从而增强了可扩展的机器人 AI 训练。
RT-2 的机器人技术中的涌现能力
RT-2 展示了机器人技术中的涌现能力,这些能力源于对网络规模数据集的训练。这些包括用于按颜色或大小对对象进行排序等任务的思维链推理,如思维链提示中所述。机器人现在可以推广到未见过的场景,从而提高VLA 模型中的数据效率。
- 改进了来自网络图像的对象识别,减少了对专门训练数据的需求。
- 涌现的多步骤计划,使机器人能够处理新颖的任务而无需明确的编程。
- 通过语言基础的决策增强了安全性,最大限度地减少了动态环境中的错误。
将 RT-2 与远程操作和 AI 集成集成在一起,使操作员可以远程指导机器人,同时模型可以实时学习。RT-X 模型中的最佳实践强调了高效的数据收集,从而提高了机器人的 AI 训练数据。
机器人 AI 部署中的 ROI
部署 RT-2 通过减少手动编程成本提供了可观的机器人 AI 部署中的 ROI。根据麻省理工学院技术评论的说法,组织可以实现高达 50% 的任务适应速度,从而转化为更高的生产力。
| 方面 | RT-2 优势 | 与 RT-1 的比较 |
|---|---|---|
| 训练数据 | 网络规模的视觉-语言数据 | 仅限于特定于机器人的数据集 |
| 动作生成 | 用于流畅控制的动作即令牌 | 离散动作空间 |
| 涌现技能 | 思维链推理 | 基本任务执行 |
| ROI 潜力 | 高,具有可扩展的部署 | 中等,需要更多的远程操作 |
对于那些机器人远程操作最佳实践的人来说,RT-2 与Bridge 数据集等工具集成在一起,以实现高效的工作流程。这不仅简化了运营,而且通过自由职业远程操作角色开辟了机器人数据收集的盈利潜力。
机器人运营商的实用工作流程
运营商可以利用远程操作工具,例如来自RoboNet的工具来收集高质量的数据。典型的工作流程包括初始远程操作会话,然后是 AI 微调,如RT-2 研究中所述。
- 使用兼容的硬件设置远程操作界面。
- 在各种环境中收集多样化的动作数据。
- 使用收集的数据集微调 VLA 模型。
- 部署和监控涌现能力。
这种方法确保了机器人运营商的实用工作流程,最大限度地提高了效率并与用于机器人控制的视觉-语言模型的进展保持一致。
Sources
- RT-2:视觉-语言-动作模型将网络知识转移到机器人控制
- RT-2:新模型将视觉和语言转化为行动
- RT-1:用于大规模现实世界控制的机器人 Transformer
- 按照我能做的,而不是按照我说的:将语言扎根于机器人可供性中
- PaLM-E:一种具身多模态语言模型
- RT-2:视觉-语言-动作模型将网络知识转移到机器人控制
- 用于机器人控制的视觉-语言模型
- Grounded Decoding:使用 Grounded 模型指导文本生成
- Open X-Embodiment:机器人学习数据集和 RT-X 模型
- RT-X:Open X-Embodiment 模型
- Google DeepMind 的新 AI 可以控制机器人
- Google DeepMind 推出了 RT-2,这是一种用于机器人的变革性 AI 模型
- Inner Monologue:通过使用语言模型进行规划来实现具身推理
- 思维链提示引发大型语言模型中的推理
- 用于机器人操作的 Bridge 数据集
- RoboNet:大规模多机器人学习
- 机器人技术中的视觉-语言模型:一项调查
- 机器人技术中的 Transformer:一项回顾
- 使用语义想象的体验扩展机器人学习
- Google 的 RT-2:推进机器人智能
- 用于业务洞察的机器人数据收集自动化
Videos
Sources
- RT-2:视觉-语言-动作模型将网络知识转移到机器人控制
- RT-2:新模型将视觉和语言转化为行动
- RT-1:用于大规模现实世界控制的机器人 Transformer
- 按照我能做的,而不是按照我说的:将语言扎根于机器人可供性中
- PaLM-E:一种具身多模态语言模型
- RT-2:视觉-语言-动作模型将网络知识转移到机器人控制
- 用于机器人控制的视觉-语言模型
- Grounded Decoding:使用 Grounded 模型指导文本生成
- Open X-Embodiment:机器人学习数据集和 RT-X 模型
- RT-X:Open X-Embodiment 模型
- Google DeepMind 的新 AI 可以控制机器人
- Google DeepMind 推出了 RT-2,这是一种用于机器人的变革性 AI 模型
- Inner Monologue:通过使用语言模型进行规划来实现具身推理
- 思维链提示引发大型语言模型中的推理
- 用于机器人操作的 Bridge 数据集
- RoboNet:大规模多机器人学习
- 机器人技术中的视觉-语言模型:一项调查
- 机器人技术中的 Transformer:一项回顾
- 使用语义想象的体验扩展机器人学习
- Google 的 RT-2:推进机器人智能
- 用于业务洞察的机器人数据收集自动化
Ready for high-quality robotics data?
AY-Robots connects your robots to skilled operators worldwide.
Get Started