AIビジョン・言語・行動モデルを使用してオブジェクトと対話するロボットアーム
RT-2ビジョン・言語・行動モデルロボット工学AIロボット制御テレオペレーション

RT-2:ビジョン・言語・行動モデルがウェブの知識をロボット制御にどのように転送するか

AY-RobotsチームOctober 15, 202312

GoogleのRT-2ビジョン・言語・行動モデルが、ウェブの知識を物理的な行動に転送することで、ロボット制御に革命を起こす方法をご覧ください。そのアーキテクチャ、トレーニング方法、創発的機能、ロボット企業やオペレーターへの影響(効率的なAIトレーニングのためのテレオペレーションとの統合を含む)について学びます。

RT-2ビジョン・言語・行動モデルの理解

RT-2は、行動出力をトークンとして組み込むことでビジョン・言語モデルを拡張し、視覚およびテキスト入力からのロボット行動のエンドツーエンド予測を可能にします。このVLAアーキテクチャは、ロボットの行動を言語モデルの語彙の一部として扱い、ビジョン、言語、行動空間のシームレスな統合を可能にします。 RT-2:ビジョン・言語・行動モデルがウェブの知識をRoに転送

その中核において、RT-2は、PaLM-540BやPaLI-Xなどのトランスフォーマーベースのアーキテクチャと、画像入力を処理するためのViTなどのビジョンエンコーダーを組み合わせて使用します。BridgeやRoboNetなどのソースからのロボット軌道データとともにウェブスケールのデータセットで共同微調整することにより、RT-2はインターネットの知識を物理的なロボット制御に転送します。この方法は、RT-1と比較して、見えないオブジェクトや環境の処理において2倍以上の改善を示すベンチマークで、驚くべき一般化を達成します。 RT-2:ビジョン・言語・行動モデルがウェブの知識をRoに転送

RT-2におけるActions-as-Tokensの力

グローバルオペレーターによるロボットトレーニングをスケールアップ

ロボットを当社の世界的なネットワークに接続します。超低レイテンシで24時間365日のデータ収集を実現します。

始める

RT-2におけるActions-as-Tokensアプローチは革新的です。ロボットの行動(関節速度やエンドエフェクターの位置など)を言語モデルの語彙のトークンとして表現することにより、RT-2はウェブスケールの知識を物理的な制御にシームレスに転送できます。これにより、マルチロボット展開のスケーラビリティが向上し、フリートの最適化を目指すロボット企業にとって理想的です。 Grounded Decoding:Grounded Modelsによるテキスト生成のガイド

たとえば、chain-of-thoughtプロンプトを通じて、RT-2は複雑なタスクの推論を強化し、ロボットがトレーニングデータで見られない新しい行動を実行できるようにします。これは、ロボットタスクのためのAIトレーニングに特に役立ちます。ここでは、ウェブデータからのセマンティックな関係の理解などの創発的機能が、即興的なソリューションにつながる可能性があります。 Open X-Embodiment:ロボット学習データセットとRT-Xモデル

デモンストレーションで示されているように、RT-2は、広大なインターネットデータセットからの事前トレーニングされた知識を活用して、見えないオブジェクトを含む指示を処理できます。これにより、タスク固有の広範なデータの必要性が減り、ロボット工学のスタートアップのデータ収集コストを最大90%削減できる可能性があります。 RT-X:Open X-Embodimentモデル

創発的機能と現実世界のアプリケーション

未定義:仮想ステージングの前と後

RT-2の最もエキサイティングな側面の1つは、ロボット工学における創発的機能です。これらには、ツールを即興的に使用したり、「絶滅した恐竜」のようなセマンティックな概念を把握して玩具を識別したりするなど、多段階の推論が含まれます。このような能力は、多様なウェブデータに関するモデルのトレーニングに由来し、ロボットが新しい環境に一般化できるようにします。 Google DeepMindの新しいAIはロボットを制御できます

実際には、RT-2は、困難なタスクで最大80%の成功率で堅牢性を示しています。ロボットオペレーターにとって、これは産業環境での生産性の向上を意味し、タスク完了率が2〜3倍に増加することを示すインサイトがあります。さらに、トレーニングのための人間のテレオペレーションへの依存を減らすことにより、RT-2のようなVLAモデルは効率を向上させ、運用コストを削減します。 Google DeepMindがロボットのための革新的なAIモデルRT-2を発表

  1. ステップ1:広範な知識のために、ウェブスケールのテキストと画像で事前トレーニングを行います。
  2. ステップ2:行動統合のために、Bridgeのようなロボットデータセットで共同微調整を行います。
  3. ステップ3:創発的なスキルテストのために、現実世界のシナリオで展開します。

これらの機能は、ロボットAI展開におけるROIも向上させます。ロボットは動的な環境に適応し、ハードウェアの故障を減らし、適応性を高めることで、6〜12か月以内にリターンを生み出します。 Chain of Thought Promptingは、大規模言語Mで推論を引き出します

データ効率とトレーニング方法

今すぐロボットトレーニングデータの収集を開始

当社のトレーニングを受けたオペレーターがロボットをリモートで制御します。AIモデルのための高品質なデモンストレーション。

無料でお試しください

RT-2のトレーニングは、インターネットデータの大規模な事前トレーニングを活用し、ロボットデータセットで微調整されています。このVLAモデルにおけるデータ効率は、高価な現実世界のテレオペレーションの必要性を最小限に抑え、ウェブスクレイピングとシミュレーションによる効率的なデータ収集をサポートします。

側面RT-1RT-2
一般化の改善ベースライン2倍以上
新しいタスクでの成功率〜40%最大80%
データ削減の可能性標準最大90%

ロボット企業にとって、これはスケーラブルなAIトレーニングに変換され、小さなロボット固有のデータセットで微調整に十分であり、迅速なプロトタイピングを通じて迅速なROIを提供します。

最適な結果を得るためのテレオペレーションとRT-2の統合

RT-2は広範なデータの必要性を減らしますが、テレオペレーションは高品質のロボットデータセットにとって依然として重要です。AY-Robotsのようなプラットフォームは、ロボットテレオペレーションのベストプラクティスを提供し、ロボットを24時間365日のデータ収集のためのオペレーターのグローバルネットワークに接続します。

オペレーターは、ロボットデータ収集における収益の可能性を通じて競争力のある料金を獲得でき、企業はRT-2のようなAIモデルとテレオペレーションを統合する実用的なワークフローから恩恵を受けます。

Robot Operating System(ROS)Scale AIのようなデータラベリングプラットフォームなどのツールは、この統合を強化し、データ効率とモデルの堅牢性を保証します。

制限事項と今後の方向性

未定義:仮想ステージングの前と後

ロボットのトレーニングデータがもっと必要ですか?

ロボット工学の研究とAI開発のためのプロフェッショナルなテレオペレーションプラットフォーム。時間単位で支払い。

価格を見る

その強みにもかかわらず、RT-2には、高品質のロボットデータへの依存や、明示的な計画なしでの長期間のタスクにおける課題など、制限事項があります。今後の作業では、より良い計画のために、Inner Monologueのようなモデルからのモジュールが組み込まれる可能性があります。

それにもかかわらず、RT-2は、特に継続的なデータ改善のためにテレオペレーションと組み合わせると、スケーラブルなロボットAIトレーニングへの道を開きます。

ロボット展開のROI分析

RT-2のようなVLAモデルへの投資は、大きなリターンを生み出す可能性があります。見えない環境への一般化を可能にすることで、再トレーニング費用を削減し、タスク効率を向上させます。

メトリック従来のモデルRT-2 VLA
ROIタイムライン12〜24か月6〜12か月
タスク完了率の増加1倍2〜3倍
データ収集コストの削減最小限最大90%

スタートアップにとって、これはテレオペレーションとAIの統合のためのツールによってサポートされ、より迅速な反復と展開を意味します。

結論:RT-2によるロボット制御の未来

自動フェイルオーバー、ダウンタイムゼロ

オペレーターが切断した場合、別のオペレーターがすぐに引き継ぎます。ロボットはデータの収集を停止しません。

詳細はこちら

ウェブの知識をロボット制御に転送するRT-2の能力は、ロボット工学の新しい時代を象徴しています。そのVLAアーキテクチャ、actions-as-tokens、および創発的機能により、ロボット工学の研究者、AIエンジニア、企業、およびオペレーターに、イノベーションのための強力なツールを提供します。

AY-Robotsでは、ロボットオペレーターのための実用的なワークフローを達成するために、RT-2を当社のテレオペレーションプラットフォームと統合することに興奮しています。今すぐロボット工学AIの最適化を開始してください。

RT-2におけるVLAアーキテクチャの理解

未定義:仮想ステージングの前と後

VLAアーキテクチャ、またはビジョン・言語・行動モデルは、ロボット工学AIにおける画期的なアプローチを表しています。その中核において、RT-2はビジョンと言語処理を行動生成と統合し、ロボットがウェブスケールのデータから派生した複雑な指示を解釈して行動できるようにします。このアーキテクチャは、PaLM-Eのような以前のモデルに基づいて構築されており、広大なインターネットデータセットから現実世界のロボット制御への知識のシームレスな転送を可能にします。

VLAアーキテクチャにおける重要なイノベーションの1つは、感覚入力の統合です。カメラからのビジョンデータは、自然言語の説明とともに処理され、実行可能な出力が生成されます。このマルチモーダル統合により、RT-2に関するDeepMindブログ投稿で詳述されているように、タスク固有の広範なトレーニングなしで、モデルが多様なタスクを処理する能力が向上します。

  • 画像理解のためのビジョントランスフォーマーの融合
  • セマンティック推論のための言語モデル
  • 予測をロボットの動きにマッピングする行動トークナイザー
  • ウェブ知識を活用したスケーラブルなトレーニングパイプライン

このアーキテクチャを採用することにより、RT-2は一般化において優れたパフォーマンスを達成し、スケーラブルなロボットAIトレーニングに最適です。研究者らは、このようなモデルは手動によるデータ収集の必要性を減らし、それによってVLAモデルのデータ効率を向上させることを指摘しています。

Actions-as-Tokens:コアメカニズム

actions-as-tokensアプローチは、RT-2の機能にとって極めて重要です。RT-2は、行動を個別のエンティティとして扱う代わりに、言語モデルの語彙内のトークンとしてエンコードします。これにより、モデルは元のRT-2論文で調査されているように、テキストを生成するのと同じ方法で行動のシーケンスを予測できます。

この方法は、ロボットが明示的にトレーニングされていない新しいタスクを実行できるようにすることで、ロボット工学における創発的機能を促進します。たとえば、ウェブデータから学習した単純な行動を連鎖させることで、抽象的な説明に基づいてオブジェクトをソートするなど、複雑な行動につながる可能性があります。

機能RT-1RT-2
トレーニングデータ主にロボットのデモンストレーションウェブスケールのビジョン・言語データ+ロボットデータ
行動表現離散的な行動言語空間におけるactions-as-tokens
一般化見られたタスクに限定見えないシナリオのための創発的機能
効率高いデータ要件データ効率の向上

ロボット制御の利点

actions-as-tokensを実装すると、ウェブ知識からのロボット制御が強化され、AIが数十億のオンライン例から引き出すことができます。この転移学習パラダイムは、ロボットタスクのためのAIトレーニングにとって重要であり、従来の方法に関連する時間とコストを削減します。

創発的機能と現実世界のアプリケーション

RT-2は、モデルがトレーニングデータを超えたスキルを示す創発的機能を示しています。たとえば、chain-of-thoughtプロンプトのテクニックに触発されて、オブジェクトのアフォーダンスについて推論したり、多段階計画のために思考を連鎖させたりできます。

これらの機能は、テレオペレーションシステムとの統合を含む、実用的なアプリケーションへの扉を開きます。AIと人間の監視を組み合わせることで、オペレーターは効率的なタスク実行を通じてロボットAI展開でより高いROIを達成できます。

  1. のようなプラットフォームを介して多様なデータセットを収集します。
  2. からのスケーラブルなフレームワークを使用してモデルをトレーニングします。
  3. ロボットテレオペレーションのベストプラクティスに従って、微調整のためにテレオペレーションを統合します。
  4. パフォーマンスとROIを測定するために、現実世界のシナリオで展開します。

RT-2におけるVLAアーキテクチャの理解

RT-2のVLA(ビジョン・言語・行動)アーキテクチャは、ウェブ知識からのロボット制御における大きな飛躍を表しています。ビジョンおよび言語モデルを行動出力と統合することにより、RT-2はロボットが広大なインターネットデータから派生した複雑な指示を解釈して行動できるようにします。このアーキテクチャは、PaLM-EInner Monologueモデルのような前任者に基づいて構築されており、知識のシームレスな転送を可能にします。

その中核において、VLAアーキテクチャは、視覚入力を自然言語プロンプトとともに処理して、トークン化された行動を生成します。このactions-as-tokensアプローチは、ロボットの動きを言語モデルの語彙の一部として扱い、スケーラブルなロボットAIトレーニングを強化します。

RT-2によるロボット工学における創発的機能

RT-2は、ウェブスケールのデータセットでのトレーニングから生じるロボット工学における創発的機能を示しています。これらには、Chain of Thought Promptingで調査されているように、色やサイズでオブジェクトをソートするなどのタスクのためのchain-of-thought推論が含まれます。ロボットは現在、見えないシナリオに一般化でき、VLAモデルのデータ効率を向上させます。

  • ウェブ画像からのオブジェクト認識の改善により、特殊なトレーニングデータの必要性が軽減されます。
  • 創発的な多段階計画により、ロボットは明示的なプログラミングなしで新しいタスクを処理できます。
  • 言語に基づいた意思決定による安全性の向上により、動的な環境でのエラーが最小限に抑えられます。

RT-2をテレオペレーションとAIの統合と統合することにより、オペレーターはモデルがリアルタイムで学習しながらロボットをリモートでガイドできます。RT-Xモデルからのベストプラクティスは、効率的なデータ収集を強調し、ロボットのためのAIトレーニングデータを促進します。

ロボットAI展開におけるROI

RT-2を展開すると、手動プログラミングコストを削減することで、ロボットAI展開におけるROIが大幅に向上します。MIT Technology Reviewによると、組織はタスクの適応を最大50%高速化でき、生産性の向上につながります。

側面RT-2の利点RT-1との比較
トレーニングデータウェブスケールのビジョン・言語データロボット固有のデータセットに限定
行動生成流体制御のためのactions-as-tokens離散的な行動空間
創発的スキルchain-of-thought推論基本的なタスク実行
ROIの可能性スケーラブルな展開で高い適度、より多くのテレオペレーションが必要

ロボットテレオペレーションのベストプラクティスに従事している人にとって、RT-2は効率的なワークフローのためにBridge Datasetのようなツールと統合されます。これにより、運用が合理化されるだけでなく、フリーランステレオペレーションの役割を通じてロボットデータ収集における収益の可能性も開かれます。

ロボットオペレーターのための実用的なワークフロー

オペレーターは、RoboNetからのようなテレオペレーションのためのツールを活用して、高品質のデータを収集できます。一般的なワークフローには、RT-2研究で詳述されているように、初期のテレオペレーションセッションとそれに続くAI微調整が含まれます。

  1. 互換性のあるハードウェアでテレオペレーションインターフェイスを設定します。
  2. さまざまな環境で多様な行動データを収集します。
  3. 収集されたデータセットを使用してVLAモデルを微調整します。
  4. 創発的機能のために展開して監視します。

このアプローチは、ロボットオペレーターのための実用的なワークフローを保証し、効率を最大化し、ロボット制御のためのビジョン・言語モデルの進歩と一致させます。

Sources

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started