Robotska ruka u interakciji s objektima pomoću AI modela vizije, jezika i akcije
RT-2Modeli vizije, jezika i akcijeRobotika AIUpravljanje robotimaTeleoperacije

RT-2: Kako modeli vizije, jezika i akcije prenose web znanje na upravljanje robotima

AY-Robots timOctober 15, 202312

Otkrijte kako Googleov RT-2 model vizije, jezika i akcije revolucionizira upravljanje robotima prenošenjem web znanja na fizičke radnje. Saznajte više o njegovoj arhitekturi, metodama obuke, emergentnim sposobnostima i implikacijama za tvrtke i operatere u području robotike, uključujući integraciju s teleoperacijama za učinkovito AI treniranje.

Razumijevanje RT-2 modela vizije, jezika i akcije

RT-2 proširuje modele vizije i jezika uključivanjem akcijskih izlaza kao tokena, omogućujući predviđanje robotskih radnji od kraja do kraja iz vizualnih i tekstualnih unosa. Ova VLA arhitektura tretira robotske radnje kao dio rječnika jezičnog modela, omogućujući besprijekornu integraciju vizije, jezika i akcijskih prostora. RT-2: Modeli vizije, jezika i akcije prenose web znanje na Ro

U svojoj srži, RT-2 koristi arhitekture temeljene na transformatorima, kao što su PaLM-540B ili PaLI-X, u kombinaciji s vizijskim enkoderima poput ViT-a za obradu slikovnih unosa. Kroz zajedničko fino podešavanje na web-razmjernim skupovima podataka uz podatke o robotskoj putanji iz izvora kao što su Bridge ili RoboNet, RT-2 prenosi internetsko znanje na fizičko upravljanje robotima. Ova metoda postiže izvanrednu generalizaciju, s referentnim vrijednostima koje pokazuju više od 2x poboljšanje u rukovanju neviđenim objektima i okruženjima u usporedbi s RT-1. RT-2: Modeli vizije, jezika i akcije prenose web znanje na Ro

Snaga akcija kao tokena u RT-2

Povećajte svoje treniranje robota s globalnim operaterima

Povežite svoje robote s našom svjetskom mrežom. Dobijte 24/7 prikupljanje podataka uz ultra-nisku latenciju.

Započnite

Pristup Akcije kao tokeni u RT-2 je revolucionaran. Predstavljanjem robotskih radnji—kao što su zglobne brzine ili položaji krajnjeg efektora—kao tokena u rječniku jezičnog modela, RT-2 omogućuje besprijekoran prijenos web-razmjernog znanja na fizičko upravljanje. To poboljšava skalabilnost za implementacije s više robota, što ga čini idealnim za tvrtke za robotiku koje žele optimizirati svoje flote. Uzemljeno dekodiranje: Vođenje generiranja teksta uzemljenim modelima

Na primjer, putem poticanja lanca misli, RT-2 poboljšava rezoniranje za složene zadatke, omogućujući robotima da izvode nove radnje koje nisu viđene u podacima za obuku. Ovo je posebno korisno za AI treniranje za robotske zadatke , gdje emergentne sposobnosti poput razumijevanja semantičkih odnosa iz web podataka mogu dovesti do improviziranih rješenja. Otvoreno X-Utjelovljenje: Skupovi podataka za robotsko učenje i RT-X modeli

Kao što je prikazano u demonstracijama, RT-2 može rukovati uputama koje uključuju neviđene objekte, koristeći unaprijed obučeno znanje iz ogromnih internetskih skupova podataka. To smanjuje potrebu za opsežnim podacima specifičnim za zadatak, potencijalno smanjujući troškove prikupljanja podataka do 90% za startupove u području robotike. RT-X: Otvoreni modeli X-Utjelovljenja

Emergentne sposobnosti i primjene u stvarnom svijetu

nedefinirano: prije i poslije virtualnog uprizorenja

Jedan od najuzbudljivijih aspekata RT-2 je njegov Emergentne sposobnosti u robotici. To uključuje rezoniranje u više koraka, kao što je improvizirano korištenje alata ili shvaćanje semantičkih koncepata poput 'izumrlog dinosaura' za identifikaciju igračke. Takve sposobnosti proizlaze iz obuke modela na raznolikim web podacima, omogućujući robotima da generaliziraju na nova okruženja. Novi AI Google DeepMinda može kontrolirati robote

U praktičnom smislu, RT-2 pokazuje robusnost s stopama uspjeha do 80% na izazovnim zadacima. Za operatere robotike to znači poboljšanu produktivnost u industrijskim okruženjima, s uvidima koji pokazuju 2-3x povećanje stope dovršetka zadataka. Štoviše, smanjenjem ovisnosti o ljudskim teleoperacijama za obuku, VLA modeli poput RT-2 poboljšavaju učinkovitost i smanjuju operativne troškove. Google DeepMind predstavlja RT-2 transformativni AI model za robote

  1. Korak 1: Unaprijed obučite na web-razmjernom tekstu i slikama za široko znanje.
  2. Korak 2: Zajednički fino podesite sa skupovima podataka robotike poput Bridge za integraciju akcija.
  3. Korak 3: Implementirajte u scenarijima stvarnog svijeta za testiranje emergentnih vještina.

Ove sposobnosti također povećavaju ROI u implementaciji robotike AI , jer se roboti prilagođavaju dinamičkim okruženjima, donoseći povrat u roku od 6-12 mjeseci kroz smanjene kvarove hardvera i poboljšanu prilagodljivost. Poticanje lanca misli izaziva rezoniranje u velikim jezičnim M

Učinkovitost podataka i metode obuke

Započnite prikupljati podatke za obuku robota danas

Naši obučeni operateri upravljaju vašim robotima na daljinu. Visokokvalitetne demonstracije za vaše AI modele.

Isprobajte besplatno

RT-2 obuka koristi opsežno unaprijed obučavanje na internetskim podacima, fino podešeno sa skupovima podataka robotike. Ova Učinkovitost podataka u VLA modelima minimizira potrebu za skupim teleoperacijama u stvarnom svijetu, podržavajući učinkovito prikupljanje podataka putem web struganja i simulacije.

AspektRT-1RT-2
Poboljšanje generalizacijeOsnovnoPreko 2x
Stopa uspjeha na novim zadacima~40%Do 80%
Potencijal smanjenja podatakaStandardnoDo 90%

Za tvrtke za robotiku to se prevodi u skalabilno AI treniranje, gdje su mali skupovi podataka specifični za robote dovoljni za fino podešavanje, nudeći brzi ROI kroz brzu izradu prototipa.

Integracija teleoperacija s RT-2 za optimalne rezultate

Iako RT-2 smanjuje potrebu za opsežnim podacima, teleoperacije ostaju ključne za visokokvalitetne skupove podataka robotike. Platforme poput AY-Robots pružaju Najbolje prakse teleoperacija robota , povezujući robote s globalnom mrežom operatera za 24/7 prikupljanje podataka.

Operateri mogu zaraditi konkurentne stope putem Potencijal zarade u prikupljanju podataka robota , dok tvrtke imaju koristi od praktičnih tijekova rada koji integriraju teleoperacije s AI modelima poput RT-2.

Alati kao što su Robot Operating System (ROS) i platforme za označavanje podataka poput Scale AI poboljšavaju ovu integraciju, osiguravajući učinkovitost podataka i robusnost modela.

Ograničenja i budući smjerovi

nedefinirano: prije i poslije virtualnog uprizorenja

Trebate više podataka za obuku za svoje robote?

Profesionalna platforma za teleoperacije za istraživanje robotike i razvoj AI. Plaćanje po satu.

Pogledajte cijene

Unatoč svojim snagama, RT-2 ima ograničenja, uključujući ovisnost o visokokvalitetnim podacima robotike i izazove u zadacima dugog horizonta bez eksplicitnog planiranja. Budući rad može uključivati module iz modela poput Unutarnji monolog za bolje planiranje.

Ipak, RT-2 utire put za Skalabilno AI treniranje robota , posebno u kombinaciji s teleoperacijama za kontinuirano poboljšanje podataka.

Analiza ROI za implementacije robotike

Ulaganje u VLA modele poput RT-2 može donijeti značajan povrat. Omogućavanjem generalizacije na neviđena okruženja, smanjuje troškove ponovnog treniranja i poboljšava učinkovitost zadataka.

MetrikaTradicionalni modeliRT-2 VLA
Vremenski okvir ROI12-24 mjeseca6-12 mjeseci
Povećanje stope dovršetka zadataka1x2-3x
Smanjenje troškova prikupljanja podatakaMinimalnoDo 90%

Za startupove to znači bržu iteraciju i implementaciju, podržanu alatima za Teleoperacije i AI integracija .

Zaključak: Budućnost upravljanja robotima s RT-2

Automatski prelazak u slučaju kvara, nula prekida rada

Ako se operater isključi, drugi preuzima odmah. Vaš robot nikada ne prestaje prikupljati podatke.

Saznajte više

Sposobnost RT-2 da prenese web znanje na upravljanje robotima označava novu eru u robotici. Sa svojom VLA arhitekturom, akcijama kao tokenima i emergentnim sposobnostima, nudi istraživačima robotike, AI inženjerima, tvrtkama i operaterima moćne alate za inovacije.

U AY-Robots, uzbuđeni smo zbog integracije RT-2 s našom platformom za teleoperacije kako bismo vam pomogli da postignete Praktični tijekovi rada za operatere robota . Započnite optimizirati svoju robotiku AI danas.

Razumijevanje VLA arhitekture u RT-2

nedefinirano: prije i poslije virtualnog uprizorenja

VLA arhitektura, ili model vizije, jezika i akcije, predstavlja revolucionarni pristup u robotici AI. U svojoj srži, RT-2 integrira viziju i obradu jezika s generiranjem akcija, omogućujući robotima da tumače i djeluju prema složenim uputama izvedenim iz web-razmjernih podataka. Ova arhitektura se nadograđuje na prethodne modele poput PaLM-E, omogućujući besprijekoran prijenos znanja iz ogromnih internetskih skupova podataka na stvarno upravljanje robotima.

Jedna od ključnih inovacija u VLA arhitekturi je unifikacija senzornih unosa. Vizualni podaci s kamera obrađuju se uz opise prirodnog jezika, proizvodeći djelotvorne izlaze. Ova multimodalna integracija poboljšava sposobnost modela da rukuje raznolikim zadacima bez opsežne obuke specifične za zadatak, kao što je detaljno opisano u Objavi na blogu DeepMind o RT-2.

  • Fuzija vizijskih transformatora za razumijevanje slike
  • Jezični modeli za semantičko rezoniranje
  • Akcijski tokenizatori koji mapiraju predviđanja na pokrete robota
  • Skalabilni cjevovodi za obuku koji koriste web znanje

Korištenjem ove arhitekture, RT-2 postiže superiorne performanse u generalizaciji, što ga čini idealnim za skalabilno AI treniranje robota. Istraživači su primijetili da takvi modeli smanjuju potrebu za ručnim prikupljanjem podataka, čime se poboljšava učinkovitost podataka u VLA modelima.

Akcije kao tokeni: Temeljni mehanizam

Pristup akcija kao tokena ključan je za funkcionalnost RT-2. Umjesto da tretira akcije kao zasebne entitete, RT-2 ih kodira kao tokene unutar rječnika jezičnog modela. To omogućuje modelu da predviđa nizove akcija na isti način na koji generira tekst, kao što je istraženo u izvornom RT-2 radu.

Ova metoda olakšava emergentne sposobnosti u robotici omogućujući robotima da izvode nove zadatke za koje nisu eksplicitno obučeni. Na primjer, povezivanje jednostavnih akcija naučenih iz web podataka može dovesti do složenih ponašanja, kao što je sortiranje objekata na temelju apstraktnih opisa.

ZnačajkaRT-1RT-2
Podaci za obukuPrimarno robotske demonstracijeWeb-razmjerni podaci vizije i jezika + podaci robota
Reprezentacija akcijaDiskretne akcijeAkcije kao tokeni u jezičnom prostoru
GeneralizacijaOgraničeno na viđene zadatkeEmergentne sposobnosti za neviđene scenarije
UčinkovitostVisoki zahtjevi za podacimaPoboljšana učinkovitost podataka

Prednosti za upravljanje robotima

Implementacija akcija kao tokena poboljšava upravljanje robotima iz web znanja, omogućujući AI da crpi iz milijardi online primjera. Ova paradigma prijenosa učenja ključna je za AI treniranje za robotske zadatke, smanjujući vrijeme i troškove povezane s tradicionalnim metodama.

Emergentne sposobnosti i primjene u stvarnom svijetu

RT-2 demonstrira emergentne sposobnosti, gdje model pokazuje vještine izvan svojih podataka za obuku. Na primjer, može rezonirati o mogućnostima objekata ili povezivati misli za planiranje u više koraka, inspirirano tehnikama u poticanju lanca misli.

Ove sposobnosti otvaraju vrata praktičnim primjenama, uključujući integraciju s teleoperacijskim sustavima. Kombiniranjem AI s ljudskim nadzorom, operateri mogu postići veći ROI u implementaciji robotike AI kroz učinkovito izvršavanje zadataka.

  1. Prikupite raznolike skupove podataka putem platformi poput
  2. .
  3. Obučite modele koristeći skalabilne okvire iz
  4. .
  5. Integrirajte teleoperacije za fino podešavanje, slijedeći najbolje prakse u teleoperacijama robota.
  6. Implementirajte u scenarijima stvarnog svijeta za mjerenje performansi i ROI.

Razumijevanje VLA arhitekture u RT-2

VLA (vizija-jezik-akcija) arhitektura u RT-2 predstavlja značajan skok u upravljanju robotima iz web znanja. Integriranjem modela vizije i jezika s akcijskim izlazima, RT-2 omogućuje robotima da tumače i djeluju prema složenim uputama izvedenim iz ogromnih internetskih podataka. Ova arhitektura se nadograđuje na prethodnike poput PaLM-E i Unutarnji monolog modela, omogućujući besprijekoran prijenos znanja.

U svojoj srži, VLA arhitektura obrađuje vizualne unose uz upite prirodnog jezika za generiranje tokeniziranih akcija. Ovaj pristup akcija kao tokena tretira pokrete robota kao dio rječnika jezičnog modela, poboljšavajući skalabilno AI treniranje robota.

Emergentne sposobnosti u robotici s RT-2

RT-2 prikazuje emergentne sposobnosti u robotici koje proizlaze iz obuke na web-razmjernim skupovima podataka. To uključuje rezoniranje lanca misli za zadatke poput sortiranja objekata po boji ili veličini, kao što je istraženo u Poticanje lanca misli. Roboti sada mogu generalizirati na neviđene scenarije, poboljšavajući učinkovitost podataka u VLA modelima.

  • Poboljšano prepoznavanje objekata iz web slika, smanjujući potrebu za specijaliziranim podacima za obuku.
  • Emergentno planiranje u više koraka, omogućujući robotima da rukuju novim zadacima bez eksplicitnog programiranja.
  • Poboljšana sigurnost kroz donošenje odluka utemeljeno na jeziku, minimizirajući pogreške u dinamičkim okruženjima.

Integracija RT-2 s teleoperacijama i AI integracijom omogućuje operaterima da vode robote na daljinu dok model uči u stvarnom vremenu. Najbolje prakse iz RT-X modeli naglašavaju učinkovito prikupljanje podataka, povećavajući podatke za AI treniranje robota.

ROI u implementaciji robotike AI

Implementacija RT-2 nudi značajan ROI u implementaciji robotike AI smanjenjem troškova ručnog programiranja. Prema MIT Technology Review, organizacije mogu postići do 50% bržu prilagodbu zadacima, što se prevodi u veću produktivnost.

AspektRT-2 prednostiUsporedba s RT-1
Podaci za obukuWeb-razmjerni podaci vizije i jezikaOgraničeno na skupove podataka specifične za robote
Generiranje akcijaAkcije kao tokeni za fluidno upravljanjeDiskretni akcijski prostori
Emergentne vještineRezoniranje lanca misliOsnovno izvršavanje zadataka
ROI potencijalVisok, sa skalabilnom implementacijomUmjeren, zahtijeva više teleoperacija

Za one u najboljim praksama teleoperacija robota , RT-2 se integrira s alatima poput Bridge Dataset za učinkovite tijekove rada. To ne samo da pojednostavljuje operacije, već i otvara potencijal zarade u prikupljanju podataka robota kroz freelance uloge teleoperacija.

Praktični tijekovi rada za operatere robota

Operateri mogu koristiti alate za teleoperacije kao što su oni iz RoboNet za prikupljanje visokokvalitetnih podataka. Tipični tijek rada uključuje početne sesije teleoperacija nakon čega slijedi AI fino podešavanje, kao što je detaljno opisano u RT-2 studija.

  1. Postavite sučelje za teleoperacije s kompatibilnim hardverom.
  2. Prikupite raznolike podatke o akcijama u različitim okruženjima.
  3. Fino podesite VLA model koristeći prikupljene skupove podataka.
  4. Implementirajte i nadzirite za emergentne sposobnosti.

Ovaj pristup osigurava praktične tijekove rada za operatere robota , maksimizirajući učinkovitost i usklađujući se s modelima vizije i jezika za upravljanje robotima napretkom.

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started