Ramię robota wchodzące w interakcję z obiektami za pomocą modelu AI vision-language-action
RT-2Modele Vision-Language-ActionRobotyka AISterowanie robotamiTeleoperacja

RT-2: Jak modele Vision-Language-Action przenoszą wiedzę z sieci do sterowania robotami

Zespół AY-RobotsOctober 15, 202312

Odkryj, jak model RT-2 Vision-Language-Action firmy Google rewolucjonizuje sterowanie robotami, przenosząc wiedzę z sieci do działań fizycznych. Dowiedz się o jego architekturze, metodach treningowych, emergentnych możliwościach i implikacjach dla firm i operatorów robotycznych, w tym o integracji z teleoperacją w celu efektywnego treningu AI.

Zrozumienie modelu RT-2 Vision-Language-Action

RT-2 rozszerza modele vision-language, włączając wyjścia akcji jako tokeny, umożliwiając kompleksowe przewidywanie działań robotycznych na podstawie danych wizualnych i tekstowych. Ta Architektura VLA traktuje działania robota jako część słownictwa modelu językowego, umożliwiając bezproblemową integrację przestrzeni wizji, języka i działania. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Ro

U podstaw RT-2 leżą architektury oparte na transformatorach, takie jak PaLM-540B lub PaLI-X, połączone z enkoderami wizyjnymi, takimi jak ViT, do przetwarzania danych wejściowych obrazu. Dzięki współfinansowaniu na zbiorach danych na skalę internetową wraz z danymi trajektorii robotycznych ze źródeł takich jak Bridge lub RoboNet, RT-2 przenosi wiedzę internetową do fizycznego sterowania robotem. Ta metoda osiąga niezwykłą generalizację, a testy porównawcze wykazują ponad 2-krotną poprawę w obsłudze niewidocznych obiektów i środowisk w porównaniu z RT-1. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Ro

Siła Actions-as-Tokens w RT-2

Skaluj swój trening robotów z globalnymi operatorami

Podłącz swoje roboty do naszej światowej sieci. Uzyskaj zbieranie danych 24/7 z bardzo niskimi opóźnieniami.

Rozpocznij

Podejście Actions-as-Tokens w RT-2 jest rewolucyjne. Reprezentując działania robota — takie jak prędkości stawów lub pozycje efektora końcowego — jako tokeny w słownictwie modelu językowego, RT-2 umożliwia bezproblemowe przenoszenie wiedzy na skalę internetową do sterowania fizycznego. Zwiększa to skalowalność w przypadku wdrożeń wielorobotowych, dzięki czemu idealnie nadaje się dla firm robotycznych, które chcą zoptymalizować swoje floty. Grounded Decoding: Guiding Text Generation with Grounded Models

Na przykład, dzięki promptingowi chain-of-thought, RT-2 poprawia rozumowanie w przypadku złożonych zadań, umożliwiając robotom wykonywanie nowych działań, których nie widziano w danych treningowych. Jest to szczególnie korzystne w przypadku Trening AI dla zadań robotycznych , gdzie emergentne możliwości, takie jak rozumienie relacji semantycznych z danych internetowych, mogą prowadzić do improwizowanych rozwiązań. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Jak pokazano w demonstracjach, RT-2 może obsługiwać instrukcje dotyczące niewidocznych obiektów, wykorzystując wstępnie wytrenowaną wiedzę z ogromnych zbiorów danych internetowych. Zmniejsza to potrzebę rozbudowanych danych specyficznych dla zadania, potencjalnie obniżając koszty zbierania danych nawet o 90% dla startupów robotycznych. RT-X: Open X-Embodiment Models

Emergentne możliwości i zastosowania w świecie rzeczywistym

undefined: przed i po wirtualnej inscenizacji

Jednym z najbardziej ekscytujących aspektów RT-2 są jego Emergentne możliwości w robotyce. Obejmują one wieloetapowe rozumowanie, takie jak improwizacyjne używanie narzędzi lub uchwycenie pojęć semantycznych, takich jak „wyginięty dinozaur”, aby zidentyfikować zabawkę. Takie umiejętności wynikają z treningu modelu na różnorodnych danych internetowych, co pozwala robotom uogólniać do nowych środowisk. Nowa sztuczna inteligencja Google DeepMind może sterować robotami

W praktyce RT-2 wykazuje solidność ze wskaźnikami sukcesu do 80% w trudnych zadaniach. Dla operatorów robotycznych oznacza to poprawę produktywności w warunkach przemysłowych, a spostrzeżenia wskazują na 2-3-krotny wzrost wskaźników ukończenia zadań. Ponadto, zmniejszając zależność od teleoperacji człowieka w celu treningu, modele VLA, takie jak RT-2, poprawiają wydajność i obniżają koszty operacyjne. Google DeepMind prezentuje RT-2, transformacyjny model AI dla robotów

  1. Krok 1: Wstępny trening na tekście i obrazach na skalę internetową w celu uzyskania szerokiej wiedzy.
  2. Krok 2: Współfinansowanie z wykorzystaniem zbiorów danych robotycznych, takich jak Bridge, w celu integracji akcji.
  3. Krok 3: Wdrożenie w scenariuszach w świecie rzeczywistym w celu testowania umiejętności emergentnych.

Te możliwości również zwiększają ROI we wdrażaniu AI w robotyce , ponieważ roboty dostosowują się do dynamicznych środowisk, przynosząc zwroty w ciągu 6-12 miesięcy dzięki zmniejszeniu awarii sprzętu i zwiększonej zdolności adaptacji. Chain of Thought Prompting Elicits Reasoning in Large Language M

Efektywność danych i metody treningowe

Zacznij zbierać dane treningowe robotów już dziś

Nasi wyszkoleni operatorzy zdalnie sterują Twoimi robotami. Wysokiej jakości demonstracje dla Twoich modeli AI.

Wypróbuj za darmo

Trening RT-2 wykorzystuje wstępny trening na dużą skalę na danych internetowych, dostrojony za pomocą zbiorów danych robotycznych. Ta Efektywność danych w modelach VLA minimalizuje potrzebę kosztownej teleoperacji w świecie rzeczywistym, wspierając efektywne zbieranie danych za pośrednictwem web scrapingu i symulacji.

AspektRT-1RT-2
Poprawa generalizacjiLinia bazowaPonad 2x
Wskaźnik sukcesu w nowych zadaniach~40%Do 80%
Potencjał redukcji danychStandardowyDo 90%

Dla firm robotycznych przekłada się to na skalowalny trening AI, w którym małe zbiory danych specyficzne dla robota wystarczają do dostrojenia, oferując szybki ROI dzięki szybkiemu prototypowaniu.

Integracja teleoperacji z RT-2 dla optymalnych wyników

Chociaż RT-2 zmniejsza potrzebę rozbudowanych danych, teleoperacja pozostaje kluczowa dla wysokiej jakości zbiorów danych robotycznych. Platformy takie jak AY-Robots zapewniają Najlepsze praktyki teleoperacji robotów , łącząc roboty z globalną siecią operatorów w celu zbierania danych 24/7.

Operatorzy mogą zarabiać konkurencyjne stawki dzięki Potencjał zarobkowy w zbieraniu danych robotów , podczas gdy firmy korzystają z praktycznych przepływów pracy, które integrują teleoperację z modelami AI, takimi jak RT-2.

Narzędzia takie jak Robot Operating System (ROS) i platformy do etykietowania danych, takie jak Scale AI , wzmacniają tę integrację, zapewniając efektywność danych i solidność modelu.

Ograniczenia i przyszłe kierunki

undefined: przed i po wirtualnej inscenizacji

Potrzebujesz więcej danych treningowych dla swoich robotów?

Profesjonalna platforma teleoperacji do badań nad robotyką i rozwoju AI. Płać za godzinę.

Zobacz cennik

Pomimo swoich zalet, RT-2 ma ograniczenia, w tym zależność od wysokiej jakości danych robotycznych i wyzwania w zadaniach długoterminowych bez wyraźnego planowania. Przyszłe prace mogą obejmować moduły z modeli takich jak Inner Monologue dla lepszego planowania.

Niemniej jednak RT-2 toruje drogę do Skalowalny trening AI dla robotów , szczególnie w połączeniu z teleoperacją w celu ciągłego udoskonalania danych.

Analiza ROI dla wdrożeń robotycznych

Inwestycja w modele VLA, takie jak RT-2, może przynieść znaczne zwroty. Umożliwiając generalizację do niewidocznych środowisk, obniża koszty przekwalifikowania i poprawia efektywność zadań.

MetrykaModele tradycyjneRT-2 VLA
Oś czasu ROI12-24 miesiące6-12 miesięcy
Wzrost wskaźnika ukończenia zadań1x2-3x
Redukcja kosztów zbierania danychMinimalnaDo 90%

Dla startupów oznacza to szybszą iterację i wdrażanie, wspierane przez narzędzia do Teleoperacja i integracja AI .

Wniosek: Przyszłość sterowania robotami z RT-2

Automatyczne przełączanie awaryjne, brak przestojów

Jeśli operator się rozłączy, natychmiast przejmuje inny. Twój robot nigdy nie przestaje zbierać danych.

Dowiedz się więcej

Zdolność RT-2 do przenoszenia wiedzy z sieci do sterowania robotami wyznacza nową erę w robotyce. Dzięki architekturze VLA, actions-as-tokens i emergentnym możliwościom oferuje badaczom robotyki, inżynierom AI, firmom i operatorom potężne narzędzia do innowacji.

W AY-Robots jesteśmy podekscytowani integracją RT-2 z naszą platformą teleoperacji, aby pomóc Ci osiągnąć Praktyczne przepływy pracy dla operatorów robotów . Zacznij optymalizować swoją sztuczną inteligencję robotyki już dziś.

Zrozumienie architektury VLA w RT-2

undefined: przed i po wirtualnej inscenizacji

Architektura VLA, czyli model Vision-Language-Action, reprezentuje przełomowe podejście w robotyce AI. U podstaw RT-2 integruje przetwarzanie wizji i języka z generowaniem akcji, umożliwiając robotom interpretację i działanie zgodnie ze złożonymi instrukcjami pochodzącymi z danych na skalę internetową. Ta architektura opiera się na poprzednich modelach, takich jak PaLM-E, umożliwiając bezproblemowe przenoszenie wiedzy z ogromnych zbiorów danych internetowych do sterowania robotami w świecie rzeczywistym.

Jedną z kluczowych innowacji w architekturze VLA jest ujednolicenie danych sensorycznych. Dane wizyjne z kamer są przetwarzane wraz z opisami w języku naturalnym, generując użyteczne dane wyjściowe. Ta multimodalna integracja zwiększa zdolność modelu do obsługi różnorodnych zadań bez rozbudowanego treningu specyficznego dla zadania, jak szczegółowo opisano w wpisie na blogu DeepMind na temat RT-2.

  • Fuzja transformatorów wizyjnych do rozumienia obrazu
  • Modele językowe do rozumowania semantycznego
  • Tokenizatory akcji, które mapują przewidywania na ruchy robota
  • Skalowalne potoki treningowe wykorzystujące wiedzę z sieci

Wykorzystując tę architekturę, RT-2 osiąga doskonałą wydajność w generalizacji, dzięki czemu idealnie nadaje się do skalowalnego treningu AI dla robotów. Naukowcy zauważyli, że takie modele zmniejszają potrzebę ręcznego zbierania danych, poprawiając w ten sposób efektywność danych w modelach VLA.

Actions-as-Tokens: Podstawowy mechanizm

Podejście actions-as-tokens ma kluczowe znaczenie dla funkcjonalności RT-2. Zamiast traktować akcje jako oddzielne jednostki, RT-2 koduje je jako tokeny w słownictwie modelu językowego. Pozwala to modelowi przewidywać sekwencje akcji w taki sam sposób, w jaki generuje tekst, jak zbadano w oryginalnym artykule RT-2.

Ta metoda ułatwia emergentne możliwości w robotyce, umożliwiając robotom wykonywanie nowych zadań, do których nie zostały wyraźnie przeszkolone. Na przykład łączenie prostych akcji wyuczonych z danych internetowych może prowadzić do złożonych zachowań, takich jak sortowanie obiektów na podstawie abstrakcyjnych opisów.

FunkcjaRT-1RT-2
Dane treningoweGłównie demonstracje robotówDane wizualno-językowe na skalę internetową + dane robotów
Reprezentacja akcjiDyskretne akcjeAkcje jako tokeny w przestrzeni językowej
GeneralizacjaOgraniczona do widzianych zadańEmergentne możliwości dla niewidocznych scenariuszy
WydajnośćWysokie wymagania dotyczące danychPoprawiona efektywność danych

Korzyści dla sterowania robotami

Wdrażanie actions-as-tokens poprawia sterowanie robotami z wiedzy z sieci, umożliwiając sztucznej inteligencji czerpanie z miliardów przykładów online. Ten paradygmat uczenia się przez transfer ma kluczowe znaczenie dla treningu AI dla zadań robotycznych, zmniejszając czas i koszty związane z tradycyjnymi metodami.

Emergentne możliwości i zastosowania w świecie rzeczywistym

RT-2 demonstruje emergentne możliwości, w których model wykazuje umiejętności wykraczające poza jego dane treningowe. Na przykład może rozumować o możliwościach obiektów lub łączyć myśli w celu wieloetapowego planowania, inspirowane technikami w promptingu chain-of-thought.

Te możliwości otwierają drzwi do praktycznych zastosowań, w tym integracji z systemami teleoperacji. Łącząc sztuczną inteligencję z nadzorem człowieka, operatorzy mogą osiągnąć wyższy ROI we wdrażaniu AI w robotyce dzięki efektywnemu wykonywaniu zadań.

  1. Zbieraj różnorodne zbiory danych za pośrednictwem platform takich jak
  2. .
  3. Trenuj modele przy użyciu skalowalnych frameworków z
  4. .
  5. Zintegruj teleoperację w celu dostrojenia, przestrzegając najlepszych praktyk w teleoperacji robotów.
  6. Wdróż w scenariuszach w świecie rzeczywistym, aby zmierzyć wydajność i ROI.

Zrozumienie architektury VLA w RT-2

Architektura VLA (Vision-Language-Action) w RT-2 stanowi znaczący skok w sterowaniu robotami z wiedzy z sieci. Integrując modele wizji i języka z wyjściami akcji, RT-2 umożliwia robotom interpretację i działanie zgodnie ze złożonymi instrukcjami pochodzącymi z ogromnych danych internetowych. Ta architektura opiera się na poprzednikach, takich jak PaLM-E i Inner Monologue modele, umożliwiając bezproblemowe przenoszenie wiedzy.

U podstaw architektury VLA przetwarza dane wizualne wraz z monitami w języku naturalnym, aby generować tokenizowane akcje. To podejście actions-as-tokens traktuje ruchy robota jako część słownictwa modelu językowego, zwiększając skalowalny trening AI dla robotów.

Emergentne możliwości w robotyce z RT-2

RT-2 prezentuje emergentne możliwości w robotyce które wynikają z treningu na zbiorach danych na skalę internetową. Obejmują one rozumowanie chain-of-thought dla zadań takich jak sortowanie obiektów według koloru lub rozmiaru, jak zbadano w Chain of Thought Prompting. Roboty mogą teraz uogólniać do niewidocznych scenariuszy, poprawiając efektywność danych w modelach VLA.

  • Poprawione rozpoznawanie obiektów z obrazów internetowych, zmniejszając potrzebę specjalistycznych danych treningowych.
  • Emergentne planowanie wieloetapowe, umożliwiające robotom obsługę nowych zadań bez wyraźnego programowania.
  • Zwiększone bezpieczeństwo dzięki podejmowaniu decyzji opartych na języku, minimalizując błędy w dynamicznych środowiskach.

Integracja RT-2 z teleoperacją i integracją AI pozwala operatorom zdalnie kierować robotami, podczas gdy model uczy się w czasie rzeczywistym. Najlepsze praktyki z modele RT-X kładą nacisk na efektywne zbieranie danych, zwiększając dane treningowe AI dla robotów.

ROI we wdrażaniu AI w robotyce

Wdrożenie RT-2 oferuje znaczny ROI we wdrażaniu AI w robotyce poprzez obniżenie kosztów ręcznego programowania. Według MIT Technology Review, organizacje mogą osiągnąć do 50% szybsze dostosowanie zadań, co przekłada się na wyższą produktywność.

AspektKorzyści RT-2Porównanie z RT-1
Dane treningoweDane wizualno-językowe na skalę internetowąOgraniczone do zbiorów danych specyficznych dla robota
Generowanie akcjiAkcje jako tokeny dla płynnego sterowaniaDyskretne przestrzenie akcji
Emergentne umiejętnościRozumowanie chain-of-thoughtPodstawowe wykonywanie zadań
Potencjał ROIWysoki, ze skalowalnym wdrożeniemUmiarkowany, wymaga więcej teleoperacji

Dla osób zajmujących się najlepszymi praktykami teleoperacji robotów RT-2 integruje się z narzędziami takimi jak Bridge Dataset dla efektywnych przepływów pracy. To nie tylko usprawnia operacje, ale także otwiera potencjał zarobkowy w zbieraniu danych robotów poprzez role teleoperacji freelance.

Praktyczne przepływy pracy dla operatorów robotów

Operatorzy mogą wykorzystywać narzędzia do teleoperacji takie jak te z RoboNet do zbierania wysokiej jakości danych. Typowy przepływ pracy obejmuje początkowe sesje teleoperacji, a następnie dostrajanie AI, jak szczegółowo opisano w badaniu RT-2.

  1. Skonfiguruj interfejs teleoperacji z kompatybilnym sprzętem.
  2. Zbieraj różnorodne dane akcji w różnych środowiskach.
  3. Dostrój model VLA przy użyciu zebranych zbiorów danych.
  4. Wdróż i monitoruj pod kątem emergentnych możliwości.

To podejście zapewnia praktyczne przepływy pracy dla operatorów robotów , maksymalizując wydajność i dostosowując się do modeli wizualno-językowych do sterowania robotami postępów.

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started