En robotarm interagerer med objekter ved hjælp af AI vision-language-action-model
RT-2Vision-Language-Action-modellerRobot AIRobotstyringTeleoperation

RT-2: Hvordan Vision-Language-Action-modeller overfører webviden til robotstyring

AY-Robots TeamOctober 15, 202312

Opdag, hvordan Googles RT-2 Vision-Language-Action-model revolutionerer robotstyring ved at overføre webviden til fysiske handlinger. Lær om dens arkitektur, træningsmetoder, nye muligheder og implikationer for robotvirksomheder og -operatører, herunder integration med teleoperation for effektiv AI-træning.

Forståelse af RT-2 Vision-Language-Action-modellen

RT-2 udvider vision-language-modeller ved at inkorporere handlingsoutput som tokens, hvilket muliggør end-to-end-forudsigelse af robotiske handlinger fra visuelle og tekstuelle input. Denne VLA-arkitektur behandler robotiske handlinger som en del af sprogmodellens ordforråd, hvilket muliggør problemfri integration af vision, sprog og handlingsrum. RT-2: Vision-Language-Action-modeller overfører webviden til Ro

I sin kerne bruger RT-2 transformerbaserede arkitekturer, såsom PaLM-540B eller PaLI-X, kombineret med visionskodere som ViT til behandling af billedinput. Ved at co-finjustere på web-skala datasæt sammen med robotiske banedata fra kilder som Bridge eller RoboNet, overfører RT-2 internetviden til fysisk robotstyring. Denne metode opnår bemærkelsesværdig generalisering, med benchmarks, der viser over 2x forbedring i håndtering af usete objekter og miljøer sammenlignet med RT-1. RT-2: Vision-Language-Action-modeller overfører webviden til Ro

Kraften i handlinger-som-tokens i RT-2

Skaler din robottræning med globale operatører

Tilslut dine robotter til vores verdensomspændende netværk. Få 24/7 dataindsamling med ultralav latens.

Kom i gang

Tilgangen Handlinger-som-tokens i RT-2 er revolutionerende. Ved at repræsentere robotiske handlinger - såsom ledhastigheder eller endeeffektorpositioner - som tokens i sprogmodellens ordforråd, muliggør RT-2 problemfri overførsel af web-skala viden til fysisk kontrol. Dette forbedrer skalerbarheden for multi-robot implementeringer, hvilket gør det ideelt for robotvirksomheder, der ønsker at optimere deres flåder. Grounded Decoding: Guiding Text Generation with Grounded Models

For eksempel, gennem kæde-af-tanke-prompting, forbedrer RT-2 ræsonnement for komplekse opgaver, hvilket gør det muligt for robotter at udføre nye handlinger, der ikke er set i træningsdata. Dette er især gavnligt for AI-træning til robotopgaver , hvor nye muligheder som at forstå semantiske forhold fra webdata kan føre til improviserede løsninger. Open X-Embodiment: Robotiske læringsdatasæt og RT-X-modeller

Som vist i demonstrationer kan RT-2 håndtere instruktioner, der involverer usete objekter, ved at udnytte forudtrænet viden fra store internetdatasæt. Dette reducerer behovet for omfattende opgavespecifikke data, hvilket potentielt kan reducere dataindsamlingsomkostningerne med op til 90% for robotstartups. RT-X: Open X-Embodiment-modeller

Nye muligheder og virkelige applikationer

undefined: før vs efter virtuel iscenesættelse

Et af de mest spændende aspekter af RT-2 er dens Nye muligheder inden for robotteknologi. Disse omfatter ræsonnement i flere trin, såsom at bruge værktøjer improvisatorisk eller forstå semantiske begreber som 'uddød dinosaur' for at identificere et legetøj. Sådanne evner stammer fra modellens træning på forskellige webdata, hvilket gør det muligt for robotter at generalisere til nye miljøer. Google DeepMinds nye AI kan styre robotter

I praktiske termer demonstrerer RT-2 robusthed med succesrater på op til 80% på udfordrende opgaver. For robotoperatører betyder det forbedret produktivitet i industrielle omgivelser, med indsigt, der viser en 2-3x stigning i opgavefuldførelsesrater. Desuden, ved at reducere afhængigheden af menneskelig teleoperation til træning, forbedrer VLA-modeller som RT-2 effektiviteten og sænker driftsomkostningerne. Google DeepMind afslører RT-2, en transformativ AI-model til robot

  1. Trin 1: Forudtræn på web-skala tekst og billeder for bred viden.
  2. Trin 2: Co-finjuster med robotiske datasæt som Bridge til handlingsintegration.
  3. Trin 3: Implementer i virkelige scenarier til test af nye færdigheder.

Disse muligheder øger også ROI i robot AI-implementering , da robotter tilpasser sig dynamiske miljøer, hvilket giver afkast inden for 6-12 måneder gennem reducerede hardwarefejl og forbedret tilpasningsevne. Kæde af tanke-prompting fremkalder ræsonnement i store sprog M

Dataeffektivitet og træningsmetoder

Begynd at indsamle robottræningsdata i dag

Vores trænede operatører styrer dine robotter eksternt. Demonstrationer af høj kvalitet til dine AI-modeller.

Prøv gratis

RT-2's træning udnytter storstilet forudtræning på internetdata, finjusteret med robotiske datasæt. Denne Dataeffektivitet i VLA-modeller minimerer behovet for dyr teleoperation i den virkelige verden, hvilket understøtter effektiv dataindsamling via web scraping og simulering.

AspektRT-1RT-2
GeneraliseringsforbedringBaselineOver 2x
Succesrate på nye opgaver~40%Op til 80%
Potentiale for datareduktionStandardOp til 90%

For robotvirksomheder betyder det skalerbar AI-træning, hvor små robotspecifikke datasæt er tilstrækkelige til finjustering, hvilket giver hurtig ROI gennem hurtig prototyping.

Integration af teleoperation med RT-2 for optimale resultater

Mens RT-2 reducerer behovet for omfattende data, er teleoperation stadig afgørende for robotiske datasæt af høj kvalitet. Platforme som AY-Robots leverer Bedste praksis for robotteleoperation , der forbinder robotter til et globalt netværk af operatører til 24/7 dataindsamling.

Operatører kan tjene konkurrencedygtige priser gennem Indtjeningspotentiale i robotdataindsamling , mens virksomheder drager fordel af praktiske arbejdsgange, der integrerer teleoperation med AI-modeller som RT-2.

Værktøjer som Robot Operating System (ROS) og datamærkningsplatforme som Scale AI forbedrer denne integration, hvilket sikrer dataeffektivitet og modelrobusthed.

Begrænsninger og fremtidige retninger

undefined: før vs efter virtuel iscenesættelse

Har du brug for flere træningsdata til dine robotter?

Professionel teleoperationsplatform til robotforskning og AI-udvikling. Betal pr. time.

Se priser

På trods af sine styrker har RT-2 begrænsninger, herunder afhængighed af robotdata af høj kvalitet og udfordringer i langsigtede opgaver uden eksplicit planlægning. Fremtidigt arbejde kan inkorporere moduler fra modeller som Indre monolog for bedre planlægning.

Ikke desto mindre baner RT-2 vejen for Skalerbar robot AI-træning , især når det kombineres med teleoperation til løbende dataforbedring.

ROI-analyse for robotimplementeringer

Investering i VLA-modeller som RT-2 kan give betydelige afkast. Ved at muliggøre generalisering til usete miljøer reducerer det omkostningerne til omskoling og forbedrer opgaveeffektiviteten.

MetrikTraditionelle modellerRT-2 VLA
ROI-tidslinje12-24 måneder6-12 måneder
Stigning i opgavefuldførelsesrate1x2-3x
Omkostningsreduktion ved dataindsamlingMinimalOp til 90%

For startups betyder det hurtigere iteration og implementering, understøttet af værktøjer til Teleoperation og AI-integration .

Konklusion: Fremtiden for robotstyring med RT-2

Automatisk failover, nul nedetid

Hvis en operatør afbryder forbindelsen, overtager en anden øjeblikkeligt. Din robot stopper aldrig med at indsamle data.

Lær mere

RT-2's evne til at overføre webviden til robotstyring markerer en ny æra inden for robotteknologi. Med sin VLA-arkitektur, handlinger-som-tokens og nye muligheder tilbyder den robotforskere, AI-ingeniører, virksomheder og operatører kraftfulde værktøjer til innovation.

Hos AY-Robots er vi begejstrede for at integrere RT-2 med vores teleoperationsplatform for at hjælpe dig med at opnå Praktiske arbejdsgange for robotoperatører . Begynd at optimere din robot AI i dag.

Forståelse af VLA-arkitektur i RT-2

undefined: før vs efter virtuel iscenesættelse

VLA-arkitekturen, eller Vision-Language-Action-modellen, repræsenterer en banebrydende tilgang inden for robot AI. I sin kerne integrerer RT-2 vision- og sprogbehandling med handlingsgenerering, hvilket gør det muligt for robotter at fortolke og handle på komplekse instruktioner afledt af web-skala data. Denne arkitektur bygger på tidligere modeller som PaLM-E, hvilket muliggør problemfri overførsel af viden fra store internetdatasæt til virkelighedstro robotstyring.

En vigtig innovation i VLA-arkitekturen er foreningen af sensoriske input. Visionsdata fra kameraer behandles sammen med naturlige sprogbeskrivelser, hvilket producerer handlingsrettede output. Denne multimodale integration forbedrer modellens evne til at håndtere forskellige opgaver uden omfattende opgavespecifik træning, som beskrevet i DeepMind-blogindlægget om RT-2.

  • Fusion af visionstransformatorer til billedforståelse
  • Sprogmodeller til semantisk ræsonnement
  • Handlingstokenisatorer, der kortlægger forudsigelser til robotbevægelser
  • Skalerbare træningspipelines, der udnytter webviden

Ved at anvende denne arkitektur opnår RT-2 overlegen ydeevne i generalisering, hvilket gør den ideel til skalerbar robot AI-træning. Forskere har bemærket, at sådanne modeller reducerer behovet for manuel dataindsamling og derved forbedrer dataeffektiviteten i VLA-modeller.

Handlinger-som-tokens: En kernemekanisme

Tilgangen handlinger-som-tokens er afgørende for RT-2's funktionalitet. I stedet for at behandle handlinger som separate enheder, koder RT-2 dem som tokens i sprogmodellens ordforråd. Dette giver modellen mulighed for at forudsige sekvenser af handlinger på samme måde, som den genererer tekst, som undersøgt i den originale RT-2-artikel.

Denne metode letter nye muligheder inden for robotteknologi ved at gøre det muligt for robotter at udføre nye opgaver, der ikke er eksplicit trænet til. For eksempel kan kædning af simple handlinger lært fra webdata føre til kompleks adfærd, såsom sortering af objekter baseret på abstrakte beskrivelser.

FunktionRT-1RT-2
TræningsdataPrimært robotdemonstrationerWeb-skala vision-language-data + robotdata
HandlingsrepræsentationDiskrete handlingerHandlinger-som-tokens i sprogområdet
GeneraliseringBegrænset til sete opgaverNye muligheder for usete scenarier
EffektivitetHøje datakravForbedret dataeffektivitet

Fordele for robotstyring

Implementering af handlinger-som-tokens forbedrer robotstyringen fra webviden, hvilket giver AI mulighed for at trække på milliarder af online eksempler. Dette paradigme for overførselslæring er afgørende for AI-træning til robotopgaver, hvilket reducerer den tid og de omkostninger, der er forbundet med traditionelle metoder.

Nye muligheder og virkelige applikationer

RT-2 demonstrerer nye muligheder, hvor modellen udviser færdigheder ud over sine træningsdata. For eksempel kan den ræsonnere om objekt affordances eller kæde tanker til planlægning i flere trin, inspireret af teknikker i kæde-af-tanke-prompting.

Disse muligheder åbner døre til praktiske applikationer, herunder integration med teleoperationssystemer. Ved at kombinere AI med menneskelig tilsyn kan operatører opnå højere ROI i robot AI-implementering gennem effektiv opgaveudførelse.

  1. Indsaml forskellige datasæt via platforme som
  2. .
  3. Træn modeller ved hjælp af skalerbare rammer fra
  4. .
  5. Integrer teleoperation til finjustering, efter bedste praksis inden for robotteleoperation.
  6. Implementer i virkelige scenarier for at måle ydeevne og ROI.

Forståelse af VLA-arkitektur i RT-2

VLA-arkitekturen (Vision-Language-Action) i RT-2 repræsenterer et betydeligt spring i robotstyring fra webviden. Ved at integrere vision- og sprogmodeller med handlingsoutput gør RT-2 det muligt for robotter at fortolke og handle på komplekse instruktioner afledt af store internetdata. Denne arkitektur bygger på forgængere som PaLM-E og Indre monolog modeller, hvilket muliggør problemfri overførsel af viden.

I sin kerne behandler VLA-arkitekturen visuelle input sammen med naturlige sprogprompter for at generere tokeniserede handlinger. Denne handlinger-som-tokens tilgang behandler robotbevægelser som en del af sprogmodellens ordforråd, hvilket forbedrer skalerbar robot AI-træning.

Nye muligheder inden for robotteknologi med RT-2

RT-2 viser nye muligheder inden for robotteknologi der opstår fra træning på web-skala datasæt. Disse omfatter kæde-af-tanke-ræsonnement for opgaver som sortering af objekter efter farve eller størrelse, som undersøgt i Kæde af tanke-prompting. Robotter kan nu generalisere til usete scenarier, hvilket forbedrer dataeffektivitet i VLA-modeller.

  • Forbedret objektgenkendelse fra webbilleder, hvilket reducerer behovet for specialiserede træningsdata.
  • Nye planlægning i flere trin, hvilket gør det muligt for robotter at håndtere nye opgaver uden eksplicit programmering.
  • Forbedret sikkerhed gennem sprogbaseret beslutningstagning, hvilket minimerer fejl i dynamiske miljøer.

Integration af RT-2 med teleoperation og AI-integration giver operatører mulighed for at guide robotter eksternt, mens modellen lærer i realtid. Bedste praksis fra RT-X-modeller understreger effektiv dataindsamling, hvilket øger AI-træningsdata til robotter.

ROI i robot AI-implementering

Implementering af RT-2 tilbyder betydelig ROI i robot AI-implementering ved at reducere omkostningerne til manuel programmering. Ifølge MIT Technology Review, kan organisationer opnå op til 50% hurtigere opgavetilpasning, hvilket oversættes til højere produktivitet.

AspektRT-2-fordeleSammenligning med RT-1
TræningsdataWeb-skala vision-language-dataBegrænset til robotspecifikke datasæt
HandlingsgenereringHandlinger-som-tokens til flydende kontrolDiskrete handlingsrum
Nye færdighederKæde-af-tanke-ræsonnementGrundlæggende opgaveudførelse
ROI-potentialeHøj, med skalerbar implementeringModerat, kræver mere teleoperation

For dem inden for bedste praksis for robotteleoperation integreres RT-2 med værktøjer som Bridge Dataset til effektive arbejdsgange. Dette strømliner ikke kun driften, men åbner også indtjeningspotentiale i robotdataindsamling gennem freelance teleoperationsroller.

Praktiske arbejdsgange for robotoperatører

Operatører kan udnytte værktøjer til teleoperation såsom dem fra RoboNet til at indsamle data af høj kvalitet. En typisk arbejdsgang involverer indledende teleoperationssessioner efterfulgt af AI-finjustering, som beskrevet i RT-2-undersøgelse.

  1. Opsæt teleoperationsgrænsefladen med kompatibel hardware.
  2. Indsaml forskellige handlingsdata i forskellige miljøer.
  3. Finjuster VLA-modellen ved hjælp af indsamlede datasæt.
  4. Implementer og overvåg for nye muligheder.

Denne tilgang sikrer praktiske arbejdsgange for robotoperatører , hvilket maksimerer effektiviteten og stemmer overens med vision-language-modeller til robotstyring fremskridt.

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started