Un bras robotique interagissant avec des objets à l’aide d’un modèle vision-langage-action d’IA
RT-2Modèles vision-langage-actionIA robotiqueContrôle robotiqueTéléopération

RT-2 : Comment les modèles vision-langage-action transfèrent les connaissances du Web au contrôle robotique

Équipe AY-RobotsOctober 15, 202312

Découvrez comment le modèle vision-langage-action RT-2 de Google révolutionne le contrôle robotique en transférant les connaissances du Web aux actions physiques. Découvrez son architecture, ses méthodes de formation, ses capacités émergentes et ses implications pour les entreprises et les opérateurs de robotique, y compris l’intégration à la téléopération pour une formation efficace en IA.

Comprendre le modèle vision-langage-action RT-2

RT-2 étend les modèles vision-langage en intégrant les sorties d’action en tant que jetons, ce qui permet la prédiction de bout en bout des actions robotiques à partir d’entrées visuelles et textuelles. Cette Architecture VLA traite les actions du robot comme faisant partie du vocabulaire du modèle de langage, ce qui permet une intégration transparente des espaces de vision, de langage et d’action. RT-2 : Les modèles vision-langage-action transfèrent les connaissances du Web à Ro

À la base, RT-2 utilise des architectures basées sur des transformateurs, telles que PaLM-540B ou PaLI-X, combinées à des encodeurs de vision comme ViT pour le traitement des entrées d’image. En co-affinant sur des ensembles de données à l’échelle du Web aux côtés des données de trajectoire robotique provenant de sources comme Bridge ou RoboNet, RT-2 transfère les connaissances Internet au contrôle physique du robot. Cette méthode permet d’obtenir une généralisation remarquable, avec des références montrant une amélioration de plus de 2x dans la gestion des objets et des environnements invisibles par rapport à RT-1. RT-2 : Les modèles vision-langage-action transfèrent les connaissances du Web à Ro

La puissance des actions en tant que jetons dans RT-2

Faites évoluer votre formation de robot avec des opérateurs mondiaux

Connectez vos robots à notre réseau mondial. Obtenez une collecte de données 24 h/24, 7 j/7 avec une latence ultra-faible.

Commencer

L’approche Actions en tant que jetons dans RT-2 est révolutionnaire. En représentant les actions du robot (telles que les vitesses articulaires ou les positions de l’effecteur terminal) en tant que jetons dans le vocabulaire du modèle de langage, RT-2 permet le transfert transparent des connaissances à l’échelle du Web au contrôle physique. Cela améliore l’évolutivité des déploiements multi-robots, ce qui le rend idéal pour les entreprises de robotique qui cherchent à optimiser leurs flottes. Décodage ancré : Guider la génération de texte avec des modèles ancrés

Par exemple, grâce à l’invite de la chaîne de pensée, RT-2 améliore le raisonnement pour les tâches complexes, permettant aux robots d’effectuer de nouvelles actions qui ne sont pas observées dans les données de formation. Ceci est particulièrement avantageux pour Formation en IA pour les tâches robotiques , où les capacités émergentes comme la compréhension des relations sémantiques à partir des données du Web peuvent mener à des solutions improvisées. X-Embodiment ouvert : Ensembles de données d’apprentissage robotique et modèles RT-X

Comme le montrent les démonstrations, RT-2 peut gérer des instructions impliquant des objets invisibles, en tirant parti des connaissances pré-entraînées provenant de vastes ensembles de données Internet. Cela réduit le besoin de données spécifiques à la tâche, ce qui pourrait réduire les coûts de collecte de données jusqu’à 90 % pour les jeunes entreprises de robotique. RT-X : Modèles X-Embodiment ouverts

Capacités émergentes et applications concrètes

non défini : avant et après la mise en scène virtuelle

L’un des aspects les plus intéressants de RT-2 est ses Capacités émergentes en robotique. Ceux-ci comprennent le raisonnement en plusieurs étapes, comme l’utilisation d’outils de façon improvisée ou la compréhension de concepts sémantiques comme « dinosaure éteint » pour identifier un jouet. Ces capacités découlent de la formation du modèle sur diverses données Web, ce qui permet aux robots de généraliser à de nouveaux environnements. La nouvelle IA de Google DeepMind peut contrôler les robots

En termes pratiques, RT-2 démontre sa robustesse avec des taux de réussite allant jusqu’à 80 % pour les tâches difficiles. Pour les opérateurs de robotique, cela signifie une amélioration de la productivité dans les milieux industriels, avec des informations montrant une augmentation de 2 à 3 fois des taux d’achèvement des tâches. De plus, en réduisant la dépendance à la téléopération humaine pour la formation, les modèles VLA comme RT-2 améliorent l’efficacité et réduisent les coûts opérationnels. Google DeepMind dévoile RT-2, un modèle d’IA transformateur pour les robots

  1. Étape 1 : Pré-former sur du texte et des images à l’échelle du Web pour une connaissance étendue.
  2. Étape 2 : Co-affiner avec des ensembles de données robotiques comme Bridge pour l’intégration des actions.
  3. Étape 3 : Déployer dans des scénarios concrets pour les tests de compétences émergentes.

Ces capacités stimulent également le Retour sur investissement dans le déploiement de l’IA robotique , car les robots s’adaptent aux environnements dynamiques, ce qui génère des rendements dans les 6 à 12 mois grâce à la réduction des défaillances matérielles et à l’amélioration de l’adaptabilité. L’invite de la chaîne de pensée suscite le raisonnement dans les grands modèles de langage M

Efficacité des données et méthodes de formation

Commencez à collecter des données de formation de robot dès aujourd’hui

Nos opérateurs formés contrôlent vos robots à distance. Démonstrations de haute qualité pour vos modèles d’IA.

Essai gratuit

La formation de RT-2 tire parti de la pré-formation à grande échelle sur les données Internet, affinée avec des ensembles de données robotiques. Cette Efficacité des données dans les modèles VLA minimise le besoin de téléopération coûteuse dans le monde réel, soutenant la collecte efficace de données via le Web scraping et la simulation.

AspectRT-1RT-2
Amélioration de la généralisationDe basePlus de 2x
Taux de réussite pour les nouvelles tâches~40 %Jusqu’à 80 %
Potentiel de réduction des donnéesStandardJusqu’à 90 %

Pour les entreprises de robotique, cela se traduit par une formation évolutive en IA, où de petits ensembles de données spécifiques aux robots suffisent pour l’affinage, offrant un retour sur investissement rapide grâce au prototypage rapide.

Intégration de la téléopération à RT-2 pour des résultats optimaux

Bien que RT-2 réduise le besoin de données volumineuses, la téléopération demeure essentielle pour les ensembles de données robotiques de haute qualité. Les plateformes comme AY-Robots fournissent Meilleures pratiques de téléopération robotique , connectant les robots à un réseau mondial d’opérateurs pour la collecte de données 24 h/24, 7 j/7.

Les opérateurs peuvent gagner des tarifs concurrentiels grâce au Potentiel de gains dans la collecte de données robotiques , tandis que les entreprises bénéficient de flux de travail pratiques qui intègrent la téléopération aux modèles d’IA comme RT-2.

Des outils tels que Robot Operating System (ROS) et des plateformes d’étiquetage de données comme Scale AI améliorent cette intégration, assurant l’efficacité des données et la robustesse du modèle.

Limites et orientations futures

non défini : avant et après la mise en scène virtuelle

Besoin de plus de données de formation pour vos robots ?

Plateforme de téléopération professionnelle pour la recherche en robotique et le développement de l’IA. Payez à l’heure.

Voir les prix

Malgré ses forces, RT-2 a des limites, notamment la dépendance à des données robotiques de haute qualité et les défis dans les tâches à long terme sans planification explicite. Les travaux futurs peuvent intégrer des modules provenant de modèles comme Monologue intérieur pour une meilleure planification.

Néanmoins, RT-2 ouvre la voie à la Formation évolutive en IA robotique , surtout lorsqu’elle est combinée à la téléopération pour l’affinage continu des données.

Analyse du retour sur investissement pour les déploiements de robotique

Investir dans des modèles VLA comme RT-2 peut générer des rendements importants. En permettant la généralisation à des environnements invisibles, il réduit les dépenses de recyclage et améliore l’efficacité des tâches.

MesureModèles traditionnelsRT-2 VLA
Chronologie du retour sur investissement12 à 24 mois6 à 12 mois
Augmentation du taux d’achèvement des tâches1x2 à 3x
Réduction des coûts de collecte de donnéesMinimeJusqu’à 90 %

Pour les jeunes entreprises, cela signifie une itération et un déploiement plus rapides, soutenus par des outils pour Téléopération et intégration de l’IA .

Conclusion : L’avenir du contrôle robotique avec RT-2

Basculement automatique, temps d’arrêt nul

Si un opérateur se déconnecte, un autre prend le relais instantanément. Votre robot ne cesse jamais de collecter des données.

En savoir plus

La capacité de RT-2 à transférer les connaissances du Web au contrôle robotique marque une nouvelle ère dans la robotique. Avec son architecture VLA, ses actions en tant que jetons et ses capacités émergentes, il offre aux chercheurs en robotique, aux ingénieurs en IA, aux entreprises et aux opérateurs des outils puissants pour l’innovation.

Chez AY-Robots, nous sommes ravis d’intégrer RT-2 à notre plateforme de téléopération pour vous aider à réaliser des Flux de travail pratiques pour les opérateurs de robots . Commencez à optimiser votre IA robotique dès aujourd’hui.

Comprendre l’architecture VLA dans RT-2

non défini : avant et après la mise en scène virtuelle

L’architecture VLA, ou modèle vision-langage-action, représente une approche révolutionnaire dans l’IA robotique. À la base, RT-2 intègre le traitement de la vision et du langage à la génération d’actions, permettant aux robots d’interpréter et d’agir sur des instructions complexes dérivées des données à l’échelle du Web. Cette architecture s’appuie sur des modèles précédents comme PaLM-E, permettant un transfert transparent des connaissances des vastes ensembles de données Internet au contrôle robotique concret.

Une innovation clé de l’architecture VLA est l’unification des entrées sensorielles. Les données de vision provenant des caméras sont traitées en même temps que les descriptions en langage naturel, produisant des sorties exploitables. Cette intégration multimodale améliore la capacité du modèle à gérer diverses tâches sans formation spécifique à la tâche, comme indiqué dans le Billet de blog DeepMind sur RT-2.

  • Fusion de transformateurs de vision pour la compréhension des images
  • Modèles de langage pour le raisonnement sémantique
  • Tokeniseurs d’actions qui mappent les prédictions aux mouvements du robot
  • Pipelines de formation évolutives tirant parti des connaissances du Web

En utilisant cette architecture, RT-2 obtient des performances supérieures en matière de généralisation, ce qui le rend idéal pour la formation évolutive en IA robotique. Les chercheurs ont noté que ces modèles réduisent le besoin de collecte manuelle de données, améliorant ainsi l’efficacité des données dans les modèles VLA.

Actions en tant que jetons : Un mécanisme de base

L’approche des actions en tant que jetons est essentielle à la fonctionnalité de RT-2. Au lieu de traiter les actions comme des entités distinctes, RT-2 les encode comme des jetons dans le vocabulaire du modèle de langage. Cela permet au modèle de prédire des séquences d’actions de la même manière qu’il génère du texte, comme exploré dans le document RT-2 original.

Cette méthode facilite les capacités émergentes en robotique en permettant aux robots d’effectuer de nouvelles tâches pour lesquelles ils n’ont pas été explicitement formés. Par exemple, l’enchaînement d’actions simples apprises à partir des données du Web peut mener à des comportements complexes, comme le tri d’objets en fonction de descriptions abstraites.

FonctionnalitéRT-1RT-2
Données de formationPrincipalement des démonstrations de robotsDonnées vision-langage à l’échelle du Web + données de robot
Représentation d’actionActions discrètesActions en tant que jetons dans l’espace de langage
GénéralisationLimitée aux tâches observéesCapacités émergentes pour les scénarios invisibles
EfficacitéExigences élevées en matière de donnéesEfficacité des données améliorée

Avantages pour le contrôle robotique

La mise en œuvre d’actions en tant que jetons améliore le contrôle robotique à partir des connaissances du Web, permettant à l’IA de s’inspirer de milliards d’exemples en ligne. Ce paradigme d’apprentissage par transfert est essentiel pour la formation en IA pour les tâches robotiques, réduisant le temps et les coûts associés aux méthodes traditionnelles.

Capacités émergentes et applications concrètes

RT-2 démontre des capacités émergentes, où le modèle présente des compétences au-delà de ses données de formation. Par exemple, il peut raisonner sur les affordances d’objets ou enchaîner des pensées pour la planification en plusieurs étapes, inspiré par les techniques de invite de la chaîne de pensée.

Ces capacités ouvrent des portes à des applications pratiques, y compris l’intégration aux systèmes de téléopération. En combinant l’IA à la supervision humaine, les opérateurs peuvent obtenir un retour sur investissement plus élevé dans le déploiement de l’IA robotique grâce à une exécution efficace des tâches.

  1. Collectez divers ensembles de données via des plateformes comme
  2. .
  3. Formez des modèles à l’aide de cadres évolutifs de
  4. .
  5. Intégrez la téléopération pour l’affinage, en suivant les meilleures pratiques en matière de téléopération robotique.
  6. Déployez dans des scénarios concrets pour mesurer les performances et le retour sur investissement.

Comprendre l’architecture VLA dans RT-2

L’architecture VLA (vision-langage-action) dans RT-2 représente un bond important dans le contrôle robotique à partir des connaissances du Web. En intégrant les modèles de vision et de langage aux sorties d’action, RT-2 permet aux robots d’interpréter et d’agir sur des instructions complexes dérivées de vastes données Internet. Cette architecture s’appuie sur des prédécesseurs comme PaLM-E et Monologue intérieur modèles, permettant un transfert transparent des connaissances.

À la base, l’architecture VLA traite les entrées visuelles en même temps que les invites en langage naturel pour générer des actions tokenisées. Cette approche actions en tant que jetons traite les mouvements du robot comme faisant partie du vocabulaire du modèle de langage, améliorant la formation évolutive en IA robotique.

Capacités émergentes en robotique avec RT-2

RT-2 présente des capacités émergentes en robotique qui découlent de la formation sur des ensembles de données à l’échelle du Web. Ceux-ci comprennent le raisonnement de la chaîne de pensée pour des tâches comme le tri d’objets par couleur ou par taille, comme exploré dans Invite de la chaîne de pensée. Les robots peuvent maintenant généraliser à des scénarios invisibles, améliorant l’efficacité des données dans les modèles VLA.

  • Amélioration de la reconnaissance d’objets à partir d’images Web, réduisant le besoin de données de formation spécialisées.
  • Planification émergente en plusieurs étapes, permettant aux robots de gérer de nouvelles tâches sans programmation explicite.
  • Sécurité améliorée grâce à la prise de décision fondée sur le langage, minimisant les erreurs dans les environnements dynamiques.

L’intégration de RT-2 à l’intégration de la téléopération et de l’IA permet aux opérateurs de guider les robots à distance pendant que le modèle apprend en temps réel. Les meilleures pratiques des Modèles RT-X mettent l’accent sur la collecte efficace de données, stimulant les données de formation en IA pour les robots.

Retour sur investissement dans le déploiement de l’IA robotique

Le déploiement de RT-2 offre un retour sur investissement important dans le déploiement de l’IA robotique en réduisant les coûts de programmation manuelle. Selon MIT Technology Review, les organisations peuvent réaliser une adaptation des tâches jusqu’à 50 % plus rapide, ce qui se traduit par une productivité accrue.

AspectAvantages de RT-2Comparaison avec RT-1
Données de formationDonnées vision-langage à l’échelle du WebLimitées aux ensembles de données spécifiques aux robots
Génération d’actionsActions en tant que jetons pour un contrôle fluideEspaces d’action discrets
Compétences émergentesRaisonnement de la chaîne de penséeExécution de tâches de base
Potentiel de retour sur investissementÉlevé, avec un déploiement évolutifModéré, nécessite plus de téléopération

Pour ceux qui suivent les meilleures pratiques de téléopération robotique , RT-2 s’intègre à des outils comme Ensemble de données Bridge pour des flux de travail efficaces. Cela rationalise non seulement les opérations, mais ouvre également le potentiel de gains dans la collecte de données robotiques grâce à des rôles de téléopération indépendants.

Flux de travail pratiques pour les opérateurs de robots

Les opérateurs peuvent tirer parti des outils de téléopération tels que ceux de RoboNet pour collecter des données de haute qualité. Un flux de travail typique implique des sessions de téléopération initiales suivies d’un affinage de l’IA, comme indiqué dans étude RT-2.

  1. Configurez l’interface de téléopération avec du matériel compatible.
  2. Collectez diverses données d’action dans des environnements variés.
  3. Affinez le modèle VLA à l’aide des ensembles de données collectés.
  4. Déployez et surveillez les capacités émergentes.

Cette approche assure des flux de travail pratiques pour les opérateurs de robots , maximisant l’efficacité et s’harmonisant avec les modèles vision-langage pour le contrôle robotique progrès.

Sources

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started