
Découvrez comment le modèle vision-langage-action RT-2 de Google révolutionne le contrôle robotique en transférant les connaissances du Web aux actions physiques. Découvrez son architecture, ses méthodes de formation, ses capacités émergentes et ses implications pour les entreprises et les opérateurs de robotique, y compris l’intégration à la téléopération pour une formation efficace en IA.
Comprendre le modèle vision-langage-action RT-2
RT-2 étend les modèles vision-langage en intégrant les sorties d’action en tant que jetons, ce qui permet la prédiction de bout en bout des actions robotiques à partir d’entrées visuelles et textuelles. Cette Architecture VLA traite les actions du robot comme faisant partie du vocabulaire du modèle de langage, ce qui permet une intégration transparente des espaces de vision, de langage et d’action. RT-2 : Les modèles vision-langage-action transfèrent les connaissances du Web à Ro
À la base, RT-2 utilise des architectures basées sur des transformateurs, telles que PaLM-540B ou PaLI-X, combinées à des encodeurs de vision comme ViT pour le traitement des entrées d’image. En co-affinant sur des ensembles de données à l’échelle du Web aux côtés des données de trajectoire robotique provenant de sources comme Bridge ou RoboNet, RT-2 transfère les connaissances Internet au contrôle physique du robot. Cette méthode permet d’obtenir une généralisation remarquable, avec des références montrant une amélioration de plus de 2x dans la gestion des objets et des environnements invisibles par rapport à RT-1. RT-2 : Les modèles vision-langage-action transfèrent les connaissances du Web à Ro
La puissance des actions en tant que jetons dans RT-2
Faites évoluer votre formation de robot avec des opérateurs mondiaux
Connectez vos robots à notre réseau mondial. Obtenez une collecte de données 24 h/24, 7 j/7 avec une latence ultra-faible.
CommencerL’approche Actions en tant que jetons dans RT-2 est révolutionnaire. En représentant les actions du robot (telles que les vitesses articulaires ou les positions de l’effecteur terminal) en tant que jetons dans le vocabulaire du modèle de langage, RT-2 permet le transfert transparent des connaissances à l’échelle du Web au contrôle physique. Cela améliore l’évolutivité des déploiements multi-robots, ce qui le rend idéal pour les entreprises de robotique qui cherchent à optimiser leurs flottes. Décodage ancré : Guider la génération de texte avec des modèles ancrés
Par exemple, grâce à l’invite de la chaîne de pensée, RT-2 améliore le raisonnement pour les tâches complexes, permettant aux robots d’effectuer de nouvelles actions qui ne sont pas observées dans les données de formation. Ceci est particulièrement avantageux pour Formation en IA pour les tâches robotiques , où les capacités émergentes comme la compréhension des relations sémantiques à partir des données du Web peuvent mener à des solutions improvisées. X-Embodiment ouvert : Ensembles de données d’apprentissage robotique et modèles RT-X
Comme le montrent les démonstrations, RT-2 peut gérer des instructions impliquant des objets invisibles, en tirant parti des connaissances pré-entraînées provenant de vastes ensembles de données Internet. Cela réduit le besoin de données spécifiques à la tâche, ce qui pourrait réduire les coûts de collecte de données jusqu’à 90 % pour les jeunes entreprises de robotique. RT-X : Modèles X-Embodiment ouverts
Capacités émergentes et applications concrètes

L’un des aspects les plus intéressants de RT-2 est ses Capacités émergentes en robotique. Ceux-ci comprennent le raisonnement en plusieurs étapes, comme l’utilisation d’outils de façon improvisée ou la compréhension de concepts sémantiques comme « dinosaure éteint » pour identifier un jouet. Ces capacités découlent de la formation du modèle sur diverses données Web, ce qui permet aux robots de généraliser à de nouveaux environnements. La nouvelle IA de Google DeepMind peut contrôler les robots
En termes pratiques, RT-2 démontre sa robustesse avec des taux de réussite allant jusqu’à 80 % pour les tâches difficiles. Pour les opérateurs de robotique, cela signifie une amélioration de la productivité dans les milieux industriels, avec des informations montrant une augmentation de 2 à 3 fois des taux d’achèvement des tâches. De plus, en réduisant la dépendance à la téléopération humaine pour la formation, les modèles VLA comme RT-2 améliorent l’efficacité et réduisent les coûts opérationnels. Google DeepMind dévoile RT-2, un modèle d’IA transformateur pour les robots
- Étape 1 : Pré-former sur du texte et des images à l’échelle du Web pour une connaissance étendue.
- Étape 2 : Co-affiner avec des ensembles de données robotiques comme Bridge pour l’intégration des actions.
- Étape 3 : Déployer dans des scénarios concrets pour les tests de compétences émergentes.
Ces capacités stimulent également le Retour sur investissement dans le déploiement de l’IA robotique , car les robots s’adaptent aux environnements dynamiques, ce qui génère des rendements dans les 6 à 12 mois grâce à la réduction des défaillances matérielles et à l’amélioration de l’adaptabilité. L’invite de la chaîne de pensée suscite le raisonnement dans les grands modèles de langage M
Efficacité des données et méthodes de formation
Commencez à collecter des données de formation de robot dès aujourd’hui
Nos opérateurs formés contrôlent vos robots à distance. Démonstrations de haute qualité pour vos modèles d’IA.
Essai gratuitLa formation de RT-2 tire parti de la pré-formation à grande échelle sur les données Internet, affinée avec des ensembles de données robotiques. Cette Efficacité des données dans les modèles VLA minimise le besoin de téléopération coûteuse dans le monde réel, soutenant la collecte efficace de données via le Web scraping et la simulation.
| Aspect | RT-1 | RT-2 |
|---|---|---|
| Amélioration de la généralisation | De base | Plus de 2x |
| Taux de réussite pour les nouvelles tâches | ~40 % | Jusqu’à 80 % |
| Potentiel de réduction des données | Standard | Jusqu’à 90 % |
Pour les entreprises de robotique, cela se traduit par une formation évolutive en IA, où de petits ensembles de données spécifiques aux robots suffisent pour l’affinage, offrant un retour sur investissement rapide grâce au prototypage rapide.
Intégration de la téléopération à RT-2 pour des résultats optimaux
Bien que RT-2 réduise le besoin de données volumineuses, la téléopération demeure essentielle pour les ensembles de données robotiques de haute qualité. Les plateformes comme AY-Robots fournissent Meilleures pratiques de téléopération robotique , connectant les robots à un réseau mondial d’opérateurs pour la collecte de données 24 h/24, 7 j/7.
Les opérateurs peuvent gagner des tarifs concurrentiels grâce au Potentiel de gains dans la collecte de données robotiques , tandis que les entreprises bénéficient de flux de travail pratiques qui intègrent la téléopération aux modèles d’IA comme RT-2.
Des outils tels que Robot Operating System (ROS) et des plateformes d’étiquetage de données comme Scale AI améliorent cette intégration, assurant l’efficacité des données et la robustesse du modèle.
Limites et orientations futures

Besoin de plus de données de formation pour vos robots ?
Plateforme de téléopération professionnelle pour la recherche en robotique et le développement de l’IA. Payez à l’heure.
Voir les prixMalgré ses forces, RT-2 a des limites, notamment la dépendance à des données robotiques de haute qualité et les défis dans les tâches à long terme sans planification explicite. Les travaux futurs peuvent intégrer des modules provenant de modèles comme Monologue intérieur pour une meilleure planification.
Néanmoins, RT-2 ouvre la voie à la Formation évolutive en IA robotique , surtout lorsqu’elle est combinée à la téléopération pour l’affinage continu des données.
Analyse du retour sur investissement pour les déploiements de robotique
Investir dans des modèles VLA comme RT-2 peut générer des rendements importants. En permettant la généralisation à des environnements invisibles, il réduit les dépenses de recyclage et améliore l’efficacité des tâches.
| Mesure | Modèles traditionnels | RT-2 VLA |
|---|---|---|
| Chronologie du retour sur investissement | 12 à 24 mois | 6 à 12 mois |
| Augmentation du taux d’achèvement des tâches | 1x | 2 à 3x |
| Réduction des coûts de collecte de données | Minime | Jusqu’à 90 % |
Pour les jeunes entreprises, cela signifie une itération et un déploiement plus rapides, soutenus par des outils pour Téléopération et intégration de l’IA .
Conclusion : L’avenir du contrôle robotique avec RT-2
Basculement automatique, temps d’arrêt nul
Si un opérateur se déconnecte, un autre prend le relais instantanément. Votre robot ne cesse jamais de collecter des données.
En savoir plusLa capacité de RT-2 à transférer les connaissances du Web au contrôle robotique marque une nouvelle ère dans la robotique. Avec son architecture VLA, ses actions en tant que jetons et ses capacités émergentes, il offre aux chercheurs en robotique, aux ingénieurs en IA, aux entreprises et aux opérateurs des outils puissants pour l’innovation.
Chez AY-Robots, nous sommes ravis d’intégrer RT-2 à notre plateforme de téléopération pour vous aider à réaliser des Flux de travail pratiques pour les opérateurs de robots . Commencez à optimiser votre IA robotique dès aujourd’hui.
Comprendre l’architecture VLA dans RT-2

L’architecture VLA, ou modèle vision-langage-action, représente une approche révolutionnaire dans l’IA robotique. À la base, RT-2 intègre le traitement de la vision et du langage à la génération d’actions, permettant aux robots d’interpréter et d’agir sur des instructions complexes dérivées des données à l’échelle du Web. Cette architecture s’appuie sur des modèles précédents comme PaLM-E, permettant un transfert transparent des connaissances des vastes ensembles de données Internet au contrôle robotique concret.
Une innovation clé de l’architecture VLA est l’unification des entrées sensorielles. Les données de vision provenant des caméras sont traitées en même temps que les descriptions en langage naturel, produisant des sorties exploitables. Cette intégration multimodale améliore la capacité du modèle à gérer diverses tâches sans formation spécifique à la tâche, comme indiqué dans le Billet de blog DeepMind sur RT-2.
- Fusion de transformateurs de vision pour la compréhension des images
- Modèles de langage pour le raisonnement sémantique
- Tokeniseurs d’actions qui mappent les prédictions aux mouvements du robot
- Pipelines de formation évolutives tirant parti des connaissances du Web
En utilisant cette architecture, RT-2 obtient des performances supérieures en matière de généralisation, ce qui le rend idéal pour la formation évolutive en IA robotique. Les chercheurs ont noté que ces modèles réduisent le besoin de collecte manuelle de données, améliorant ainsi l’efficacité des données dans les modèles VLA.
Actions en tant que jetons : Un mécanisme de base
L’approche des actions en tant que jetons est essentielle à la fonctionnalité de RT-2. Au lieu de traiter les actions comme des entités distinctes, RT-2 les encode comme des jetons dans le vocabulaire du modèle de langage. Cela permet au modèle de prédire des séquences d’actions de la même manière qu’il génère du texte, comme exploré dans le document RT-2 original.
Cette méthode facilite les capacités émergentes en robotique en permettant aux robots d’effectuer de nouvelles tâches pour lesquelles ils n’ont pas été explicitement formés. Par exemple, l’enchaînement d’actions simples apprises à partir des données du Web peut mener à des comportements complexes, comme le tri d’objets en fonction de descriptions abstraites.
| Fonctionnalité | RT-1 | RT-2 |
|---|---|---|
| Données de formation | Principalement des démonstrations de robots | Données vision-langage à l’échelle du Web + données de robot |
| Représentation d’action | Actions discrètes | Actions en tant que jetons dans l’espace de langage |
| Généralisation | Limitée aux tâches observées | Capacités émergentes pour les scénarios invisibles |
| Efficacité | Exigences élevées en matière de données | Efficacité des données améliorée |
Avantages pour le contrôle robotique
La mise en œuvre d’actions en tant que jetons améliore le contrôle robotique à partir des connaissances du Web, permettant à l’IA de s’inspirer de milliards d’exemples en ligne. Ce paradigme d’apprentissage par transfert est essentiel pour la formation en IA pour les tâches robotiques, réduisant le temps et les coûts associés aux méthodes traditionnelles.
Capacités émergentes et applications concrètes
RT-2 démontre des capacités émergentes, où le modèle présente des compétences au-delà de ses données de formation. Par exemple, il peut raisonner sur les affordances d’objets ou enchaîner des pensées pour la planification en plusieurs étapes, inspiré par les techniques de invite de la chaîne de pensée.
Ces capacités ouvrent des portes à des applications pratiques, y compris l’intégration aux systèmes de téléopération. En combinant l’IA à la supervision humaine, les opérateurs peuvent obtenir un retour sur investissement plus élevé dans le déploiement de l’IA robotique grâce à une exécution efficace des tâches.
- Collectez divers ensembles de données via des plateformes comme
- .
- Formez des modèles à l’aide de cadres évolutifs de
- .
- Intégrez la téléopération pour l’affinage, en suivant les meilleures pratiques en matière de téléopération robotique.
- Déployez dans des scénarios concrets pour mesurer les performances et le retour sur investissement.
Comprendre l’architecture VLA dans RT-2
L’architecture VLA (vision-langage-action) dans RT-2 représente un bond important dans le contrôle robotique à partir des connaissances du Web. En intégrant les modèles de vision et de langage aux sorties d’action, RT-2 permet aux robots d’interpréter et d’agir sur des instructions complexes dérivées de vastes données Internet. Cette architecture s’appuie sur des prédécesseurs comme PaLM-E et Monologue intérieur modèles, permettant un transfert transparent des connaissances.
À la base, l’architecture VLA traite les entrées visuelles en même temps que les invites en langage naturel pour générer des actions tokenisées. Cette approche actions en tant que jetons traite les mouvements du robot comme faisant partie du vocabulaire du modèle de langage, améliorant la formation évolutive en IA robotique.
Capacités émergentes en robotique avec RT-2
RT-2 présente des capacités émergentes en robotique qui découlent de la formation sur des ensembles de données à l’échelle du Web. Ceux-ci comprennent le raisonnement de la chaîne de pensée pour des tâches comme le tri d’objets par couleur ou par taille, comme exploré dans Invite de la chaîne de pensée. Les robots peuvent maintenant généraliser à des scénarios invisibles, améliorant l’efficacité des données dans les modèles VLA.
- Amélioration de la reconnaissance d’objets à partir d’images Web, réduisant le besoin de données de formation spécialisées.
- Planification émergente en plusieurs étapes, permettant aux robots de gérer de nouvelles tâches sans programmation explicite.
- Sécurité améliorée grâce à la prise de décision fondée sur le langage, minimisant les erreurs dans les environnements dynamiques.
L’intégration de RT-2 à l’intégration de la téléopération et de l’IA permet aux opérateurs de guider les robots à distance pendant que le modèle apprend en temps réel. Les meilleures pratiques des Modèles RT-X mettent l’accent sur la collecte efficace de données, stimulant les données de formation en IA pour les robots.
Retour sur investissement dans le déploiement de l’IA robotique
Le déploiement de RT-2 offre un retour sur investissement important dans le déploiement de l’IA robotique en réduisant les coûts de programmation manuelle. Selon MIT Technology Review, les organisations peuvent réaliser une adaptation des tâches jusqu’à 50 % plus rapide, ce qui se traduit par une productivité accrue.
| Aspect | Avantages de RT-2 | Comparaison avec RT-1 |
|---|---|---|
| Données de formation | Données vision-langage à l’échelle du Web | Limitées aux ensembles de données spécifiques aux robots |
| Génération d’actions | Actions en tant que jetons pour un contrôle fluide | Espaces d’action discrets |
| Compétences émergentes | Raisonnement de la chaîne de pensée | Exécution de tâches de base |
| Potentiel de retour sur investissement | Élevé, avec un déploiement évolutif | Modéré, nécessite plus de téléopération |
Pour ceux qui suivent les meilleures pratiques de téléopération robotique , RT-2 s’intègre à des outils comme Ensemble de données Bridge pour des flux de travail efficaces. Cela rationalise non seulement les opérations, mais ouvre également le potentiel de gains dans la collecte de données robotiques grâce à des rôles de téléopération indépendants.
Flux de travail pratiques pour les opérateurs de robots
Les opérateurs peuvent tirer parti des outils de téléopération tels que ceux de RoboNet pour collecter des données de haute qualité. Un flux de travail typique implique des sessions de téléopération initiales suivies d’un affinage de l’IA, comme indiqué dans étude RT-2.
- Configurez l’interface de téléopération avec du matériel compatible.
- Collectez diverses données d’action dans des environnements variés.
- Affinez le modèle VLA à l’aide des ensembles de données collectés.
- Déployez et surveillez les capacités émergentes.
Cette approche assure des flux de travail pratiques pour les opérateurs de robots , maximisant l’efficacité et s’harmonisant avec les modèles vision-langage pour le contrôle robotique progrès.
Sources
- RT-2 : Les modèles vision-langage-action transfèrent les connaissances du Web au contrôle robotique
- RT-2 : Un nouveau modèle traduit la vision et le langage en action
- RT-1 : Transformateur de robotique pour le contrôle concret à l’échelle
- Faites ce que je peux, pas ce que je dis : Ancrer le langage dans les affordances robotiques
- PaLM-E : Un modèle de langage multimodal incarné
- RT-2 : Les modèles vision-langage-action transfèrent les connaissances du Web au contrôle robotique
- Modèles vision-langage pour le contrôle robotique
- Décodage ancré : Guider la génération de texte avec des modèles ancrés
- X-Embodiment ouvert : Ensembles de données d’apprentissage robotique et modèles RT-X
- RT-X : Modèles X-Embodiment ouverts
- La nouvelle IA de Google DeepMind peut contrôler les robots
- Google DeepMind dévoile RT-2, un modèle d’IA transformateur pour les robots
- Monologue intérieur : Raisonnement incarné par la planification avec des modèles de langage
- L’invite de la chaîne de pensée suscite le raisonnement dans les grands modèles de langage
- Ensemble de données Bridge pour la manipulation robotique
- RoboNet : Apprentissage multi-robots à grande échelle
- Modèles vision-langage en robotique : Une enquête
- Transformateurs en robotique : Un examen
- Faire évoluer l’apprentissage des robots avec une expérience imaginée sémantiquement
- RT-2 de Google : Faire progresser l’intelligence robotique
- Automatisation de la collecte de données robotiques pour les informations commerciales
Videos
Sources
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- RT-2: New model translates vision and language into action
- RT-1: Robotics Transformer for Real-World Control at Scale
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
- PaLM-E: An Embodied Multimodal Language Model
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- Vision-language models for robot control
- Grounded Decoding: Guiding Text Generation with Grounded Models
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- RT-X: Open X-Embodiment Models
- Google DeepMind’s new AI can control robots
- Google DeepMind unveils RT-2, a transformative AI model for robots
- Inner Monologue: Embodied Reasoning through Planning with Language Models
- Chain of Thought Prompting Elicits Reasoning in Large Language Models
- Bridge Dataset for Robotic Manipulation
- RoboNet: Large-Scale Multi-Robot Learning
- Vision-Language Models in Robotics: A Survey
- Transformers in Robotics: A Review
- Scaling Robot Learning with Semantically Imagined Experience
- Google's RT-2: Advancing Robotic Intelligence
- Automation of Robot Data Collection for Business Insights
Ready for high-quality robotics data?
AY-Robots connects your robots to skilled operators worldwide.
Get Started