
Ketahui bagaimana Model Visi-Bahasa-Tindakan RT-2 Google merevolusikan kawalan robot dengan memindahkan pengetahuan web kepada tindakan fizikal. Ketahui tentang seni binanya, kaedah latihan, keupayaan baru muncul, dan implikasi untuk syarikat dan pengendali robotik, termasuk integrasi dengan teleoperasi untuk latihan AI yang cekap.
Memahami Model Visi-Bahasa-Tindakan RT-2
RT-2 melanjutkan model visi-bahasa dengan menggabungkan output tindakan sebagai token, membolehkan ramalan hujung-ke-hujung tindakan robotik daripada input visual dan tekstual. Ini Seni Bina VLA menganggap tindakan robot sebagai sebahagian daripada perbendaharaan kata model bahasa, membolehkan penyepaduan ruang visi, bahasa dan tindakan yang lancar. RT-2: Model Visi-Bahasa-Tindakan Memindahkan Pengetahuan Web kepada Ro
Pada terasnya, RT-2 menggunakan seni bina berasaskan transformer, seperti PaLM-540B atau PaLI-X, digabungkan dengan pengekod visi seperti ViT untuk memproses input imej. Dengan penalaan bersama pada set data skala web bersama data trajektori robotik daripada sumber seperti Bridge atau RoboNet, RT-2 memindahkan pengetahuan internet kepada kawalan robot fizikal. Kaedah ini mencapai generalisasi yang luar biasa, dengan penanda aras menunjukkan peningkatan lebih daripada 2x dalam mengendalikan objek dan persekitaran yang tidak pernah dilihat berbanding RT-1. RT-2: Model Visi-Bahasa-Tindakan Memindahkan Pengetahuan Web kepada Ro
Kuasa Tindakan-sebagai-Token dalam RT-2
Skala latihan robot anda dengan pengendali global
Sambungkan robot anda ke rangkaian seluruh dunia kami. Dapatkan pengumpulan data 24/7 dengan kependaman ultra rendah.
BermulaPendekatan Tindakan-sebagai-Token dalam RT-2 adalah revolusioner. Dengan mewakili tindakan robot—seperti halaju sendi atau kedudukan hujung efektor—sebagai token dalam perbendaharaan kata model bahasa, RT-2 membolehkan pemindahan pengetahuan skala web yang lancar kepada kawalan fizikal. Ini meningkatkan kebolehskalaan untuk penggunaan berbilang robot, menjadikannya sesuai untuk syarikat robotik yang ingin mengoptimumkan armada mereka. Penyahkodan Berasas: Membimbing Penjanaan Teks dengan Model Berasas
Sebagai contoh, melalui gesaan rantaian pemikiran, RT-2 meningkatkan penaakulan untuk tugas yang kompleks, membolehkan robot melakukan tindakan baharu yang tidak dilihat dalam data latihan. Ini amat bermanfaat untuk Latihan AI untuk Tugas Robotik , di mana keupayaan baru muncul seperti memahami hubungan semantik daripada data web boleh membawa kepada penyelesaian yang diubah suai. X-Penjelmaan Terbuka: Set Data Pembelajaran Robotik dan Model RT-X
Seperti yang ditunjukkan dalam demonstrasi, RT-2 boleh mengendalikan arahan yang melibatkan objek yang tidak pernah dilihat, memanfaatkan pengetahuan pra-latihan daripada set data internet yang luas. Ini mengurangkan keperluan untuk data khusus tugas yang meluas, yang berpotensi mengurangkan kos pengumpulan data sehingga 90% untuk syarikat permulaan robotik. RT-X: Model X-Penjelmaan Terbuka
Keupayaan Baru Muncul dan Aplikasi Dunia Sebenar

Salah satu aspek RT-2 yang paling menarik ialah Keupayaan Baru Muncul dalam Robotik. Ini termasuk penaakulan berbilang langkah, seperti menggunakan alat secara improvisasi atau memahami konsep semantik seperti 'dinosaur pupus' untuk mengenal pasti mainan. Keupayaan sedemikian berpunca daripada latihan model pada data web yang pelbagai, membolehkan robot membuat generalisasi kepada persekitaran baharu. AI baharu Google DeepMind boleh mengawal robot
Dari segi praktikal, RT-2 menunjukkan keteguhan dengan kadar kejayaan sehingga 80% pada tugas yang mencabar. Bagi pengendali robotik, ini bermakna peningkatan produktiviti dalam persekitaran perindustrian, dengan cerapan menunjukkan peningkatan 2-3x dalam kadar penyelesaian tugas. Tambahan pula, dengan mengurangkan pergantungan pada teleoperasi manusia untuk latihan, model VLA seperti RT-2 meningkatkan kecekapan dan menurunkan kos operasi. Google DeepMind memperkenalkan RT-2 model AI transformatif untuk robot
- Langkah 1: Pra-latih pada teks dan imej skala web untuk pengetahuan yang luas.
- Langkah 2: Penalaan bersama dengan set data robotik seperti Bridge untuk penyepaduan tindakan.
- Langkah 3: Gunakan dalam senario dunia sebenar untuk ujian kemahiran baru muncul.
Keupayaan ini juga meningkatkan ROI dalam Penggunaan AI Robotik , kerana robot menyesuaikan diri dengan persekitaran dinamik, menghasilkan pulangan dalam masa 6-12 bulan melalui pengurangan kegagalan perkakasan dan peningkatan kebolehsuaian. Gesaan Rantaian Pemikiran Menimbulkan Penaakulan dalam Bahasa Besar M
Kecekapan Data dan Kaedah Latihan
Mula mengumpul data latihan robot hari ini
Pengendali terlatih kami mengawal robot anda dari jauh. Demonstrasi berkualiti tinggi untuk model AI anda.
Cuba PercumaLatihan RT-2 memanfaatkan pra-latihan berskala besar pada data internet, ditala halus dengan set data robotik. Ini Kecekapan Data dalam Model VLA meminimumkan keperluan untuk teleoperasi dunia sebenar yang mahal, menyokong pengumpulan data yang cekap melalui pengikisan web dan simulasi.
| Aspek | RT-1 | RT-2 |
|---|---|---|
| Peningkatan Generalisasi | Garis Dasar | Lebih 2x |
| Kadar Kejayaan pada Tugas Baharu | ~40% | Sehingga 80% |
| Potensi Pengurangan Data | Standard | Sehingga 90% |
Bagi syarikat robotik, ini diterjemahkan kepada latihan AI yang boleh diskalakan, di mana set data khusus robot yang kecil mencukupi untuk penalaan halus, menawarkan ROI pantas melalui prototaip pantas.
Mengintegrasikan Teleoperasi dengan RT-2 untuk Hasil Optimum
Walaupun RT-2 mengurangkan keperluan untuk data yang meluas, teleoperasi kekal penting untuk set data robotik berkualiti tinggi. Platform seperti AY-Robots menyediakan Amalan Terbaik Teleoperasi Robot , menghubungkan robot ke rangkaian pengendali global untuk pengumpulan data 24/7.
Pengendali boleh memperoleh kadar yang kompetitif melalui Potensi Pendapatan dalam Pengumpulan Data Robot , manakala syarikat mendapat manfaat daripada aliran kerja praktikal yang menyepadukan teleoperasi dengan model AI seperti RT-2.
Alat seperti Sistem Operasi Robot (ROS) dan platform pelabelan data seperti Skala AI meningkatkan penyepaduan ini, memastikan kecekapan data dan keteguhan model.
Batasan dan Hala Tuju Masa Depan

Perlukan lebih banyak data latihan untuk robot anda?
Platform teleoperasi profesional untuk penyelidikan robotik dan pembangunan AI. Bayar setiap jam.
Lihat HargaWalaupun mempunyai kekuatan, RT-2 mempunyai batasan, termasuk pergantungan pada data robotik berkualiti tinggi dan cabaran dalam tugas ufuk panjang tanpa perancangan eksplisit. Kerja masa depan mungkin menggabungkan modul daripada model seperti Monolog Dalaman untuk perancangan yang lebih baik.
Walau bagaimanapun, RT-2 membuka jalan untuk Latihan AI Robot Skala Besar , terutamanya apabila digabungkan dengan teleoperasi untuk penambahbaikan data yang berterusan.
Analisis ROI untuk Penggunaan Robotik
Melabur dalam model VLA seperti RT-2 boleh menghasilkan pulangan yang ketara. Dengan membolehkan generalisasi kepada persekitaran yang tidak pernah dilihat, ia mengurangkan perbelanjaan latihan semula dan meningkatkan kecekapan tugas.
| Metrik | Model Tradisional | RT-2 VLA |
|---|---|---|
| Garis Masa ROI | 12-24 bulan | 6-12 bulan |
| Peningkatan Kadar Penyelesaian Tugas | 1x | 2-3x |
| Pengurangan Kos Pengumpulan Data | Minimum | Sehingga 90% |
Bagi syarikat permulaan, ini bermakna lelaran dan penggunaan yang lebih pantas, disokong oleh alat untuk Teleoperasi dan Integrasi AI .
Kesimpulan: Masa Depan Kawalan Robot dengan RT-2
Failover automatik, masa henti sifar
Jika pengendali terputus sambungan, yang lain mengambil alih serta-merta. Robot anda tidak pernah berhenti mengumpul data.
Ketahui Lebih LanjutKeupayaan RT-2 untuk memindahkan pengetahuan web kepada kawalan robot menandakan era baharu dalam robotik. Dengan seni bina VLA, tindakan-sebagai-token dan keupayaan baru muncul, ia menawarkan penyelidik robotik, jurutera AI, syarikat dan pengendali alat yang berkuasa untuk inovasi.
Di AY-Robots, kami teruja untuk menyepadukan RT-2 dengan platform teleoperasi kami untuk membantu anda mencapai Aliran Kerja Praktikal untuk Pengendali Robot . Mula mengoptimumkan AI robotik anda hari ini.
Memahami Seni Bina VLA dalam RT-2

Seni bina VLA, atau model Visi-Bahasa-Tindakan, mewakili pendekatan terobosan dalam AI robotik. Pada terasnya, RT-2 menyepadukan pemprosesan visi dan bahasa dengan penjanaan tindakan, membolehkan robot mentafsir dan bertindak berdasarkan arahan kompleks yang diperoleh daripada data skala web. Seni bina ini dibina berdasarkan model sebelumnya seperti PaLM-E, membolehkan pemindahan pengetahuan yang lancar daripada set data internet yang luas kepada kawalan robotik dunia sebenar.
Satu inovasi utama dalam seni bina VLA ialah penyatuan input deria. Data visi daripada kamera diproses bersama penerangan bahasa semula jadi, menghasilkan output yang boleh diambil tindakan. Penyepaduan multimodal ini meningkatkan keupayaan model untuk mengendalikan pelbagai tugas tanpa latihan khusus tugas yang meluas, seperti yang diperincikan dalam Catatan blog DeepMind mengenai RT-2.
- Penggabungan transformer visi untuk pemahaman imej
- Model bahasa untuk penaakulan semantik
- Penoken tindakan yang memetakan ramalan kepada pergerakan robot
- Saluran paip latihan yang boleh diskalakan memanfaatkan pengetahuan web
Dengan menggunakan seni bina ini, RT-2 mencapai prestasi unggul dalam generalisasi, menjadikannya sesuai untuk latihan AI robot yang boleh diskalakan. Penyelidik telah menyatakan bahawa model sedemikian mengurangkan keperluan untuk pengumpulan data manual, dengan itu meningkatkan kecekapan data dalam model VLA.
Tindakan-sebagai-Token: Mekanisme Teras
Pendekatan tindakan-sebagai-token adalah penting kepada fungsi RT-2. Daripada menganggap tindakan sebagai entiti yang berasingan, RT-2 mengekodkannya sebagai token dalam perbendaharaan kata model bahasa. Ini membolehkan model meramalkan urutan tindakan dengan cara yang sama seperti ia menjana teks, seperti yang diterokai dalam kertas RT-2 asal.
Kaedah ini memudahkan keupayaan baru muncul dalam robotik dengan membolehkan robot melakukan tugas baharu yang tidak dilatih secara eksplisit. Sebagai contoh, merantai tindakan mudah yang dipelajari daripada data web boleh membawa kepada tingkah laku yang kompleks, seperti mengisih objek berdasarkan penerangan abstrak.
| Ciri | RT-1 | RT-2 |
|---|---|---|
| Data Latihan | Terutamanya demonstrasi robot | Data visi-bahasa skala web + data robot |
| Perwakilan Tindakan | Tindakan diskret | Tindakan-sebagai-token dalam ruang bahasa |
| Generalisasi | Terhad kepada tugas yang dilihat | Keupayaan baru muncul untuk senario yang tidak pernah dilihat |
| Kecekapan | Keperluan data yang tinggi | Kecekapan data yang dipertingkatkan |
Faedah untuk Kawalan Robot
Melaksanakan tindakan-sebagai-token meningkatkan kawalan robot daripada pengetahuan web, membolehkan AI mengambil daripada berbilion contoh dalam talian. Paradigma pembelajaran pemindahan ini adalah penting untuk latihan AI untuk tugas robotik, mengurangkan masa dan kos yang berkaitan dengan kaedah tradisional.
Keupayaan Baru Muncul dan Aplikasi Dunia Sebenar
RT-2 menunjukkan keupayaan baru muncul, di mana model mempamerkan kemahiran di luar data latihannya. Sebagai contoh, ia boleh membuat penaakulan tentang kemampuan objek atau merantai pemikiran untuk perancangan berbilang langkah, diilhamkan oleh teknik dalam gesaan rantaian pemikiran.
Keupayaan ini membuka pintu kepada aplikasi praktikal, termasuk penyepaduan dengan sistem teleoperasi. Dengan menggabungkan AI dengan pengawasan manusia, pengendali boleh mencapai ROI yang lebih tinggi dalam penggunaan AI robotik melalui pelaksanaan tugas yang cekap.
- Kumpul set data yang pelbagai melalui platform seperti
- .
- Latih model menggunakan rangka kerja yang boleh diskalakan daripada
- .
- Integrasikan teleoperasi untuk penalaan halus, mengikut amalan terbaik dalam teleoperasi robot.
- Gunakan dalam senario dunia sebenar untuk mengukur prestasi dan ROI.
Memahami Seni Bina VLA dalam RT-2
Seni bina VLA (Visi-Bahasa-Tindakan) dalam RT-2 mewakili lonjakan yang ketara dalam kawalan robot daripada pengetahuan web. Dengan menyepadukan model visi dan bahasa dengan output tindakan, RT-2 membolehkan robot mentafsir dan bertindak berdasarkan arahan kompleks yang diperoleh daripada data internet yang luas. Seni bina ini dibina berdasarkan pendahulu seperti PaLM-E dan Monolog Dalaman model, membolehkan pemindahan pengetahuan yang lancar.
Pada terasnya, seni bina VLA memproses input visual bersama gesaan bahasa semula jadi untuk menjana tindakan yang ditokenkan. Pendekatan tindakan-sebagai-token ini menganggap pergerakan robot sebagai sebahagian daripada perbendaharaan kata model bahasa, meningkatkan latihan AI robot yang boleh diskalakan.
Keupayaan Baru Muncul dalam Robotik dengan RT-2
RT-2 mempamerkan keupayaan baru muncul dalam robotik yang timbul daripada latihan pada set data skala web. Ini termasuk penaakulan rantaian pemikiran untuk tugas seperti mengisih objek mengikut warna atau saiz, seperti yang diterokai dalam Gesaan Rantaian Pemikiran. Robot kini boleh membuat generalisasi kepada senario yang tidak pernah dilihat, meningkatkan kecekapan data dalam model VLA.
- Pengiktirafan objek yang dipertingkatkan daripada imej web, mengurangkan keperluan untuk data latihan khusus.
- Perancangan berbilang langkah baru muncul, membolehkan robot mengendalikan tugas baharu tanpa pengaturcaraan eksplisit.
- Keselamatan yang dipertingkatkan melalui membuat keputusan berasaskan bahasa, meminimumkan ralat dalam persekitaran dinamik.
Mengintegrasikan RT-2 dengan teleoperasi dan penyepaduan AI membolehkan pengendali membimbing robot dari jauh semasa model belajar dalam masa nyata. Amalan terbaik daripada Model RT-X menekankan pengumpulan data yang cekap, meningkatkan data latihan AI untuk robot.
ROI dalam Penggunaan AI Robotik
Menggunakan RT-2 menawarkan ROI yang besar dalam penggunaan AI robotik dengan mengurangkan kos pengaturcaraan manual. Menurut MIT Technology Review, organisasi boleh mencapai penyesuaian tugas sehingga 50% lebih pantas, diterjemahkan kepada produktiviti yang lebih tinggi.
| Aspek | Faedah RT-2 | Perbandingan dengan RT-1 |
|---|---|---|
| Data Latihan | Data visi-bahasa skala web | Terhad kepada set data khusus robot |
| Penjanaan Tindakan | Tindakan-sebagai-token untuk kawalan bendalir | Ruang tindakan diskret |
| Kemahiran Baru Muncul | Penaakulan rantaian pemikiran | Pelaksanaan tugas asas |
| Potensi ROI | Tinggi, dengan penggunaan yang boleh diskalakan | Sederhana, memerlukan lebih banyak teleoperasi |
Bagi mereka yang berada dalam amalan terbaik teleoperasi robot , RT-2 berintegrasi dengan alat seperti Set Data Bridge untuk aliran kerja yang cekap. Ini bukan sahaja menyelaraskan operasi tetapi juga membuka potensi pendapatan dalam pengumpulan data robot melalui peranan teleoperasi bebas.
Aliran Kerja Praktikal untuk Pengendali Robot
Pengendali boleh memanfaatkan alat untuk teleoperasi seperti yang daripada RoboNet untuk mengumpul data berkualiti tinggi. Aliran kerja biasa melibatkan sesi teleoperasi awal diikuti dengan penalaan halus AI, seperti yang diperincikan dalam kajian RT-2.
- Sediakan antara muka teleoperasi dengan perkakasan yang serasi.
- Kumpul data tindakan yang pelbagai dalam persekitaran yang pelbagai.
- Tala halus model VLA menggunakan set data yang dikumpul.
- Gunakan dan pantau untuk keupayaan baru muncul.
Pendekatan ini memastikan aliran kerja praktikal untuk pengendali robot , memaksimumkan kecekapan dan sejajar dengan model visi-bahasa untuk kawalan robot kemajuan.
Sources
- RT-2: Model Visi-Bahasa-Tindakan Memindahkan Pengetahuan Web kepada Kawalan Robotik
- RT-2: Model baharu menterjemahkan visi dan bahasa kepada tindakan
- RT-1: Transformer Robotik untuk Kawalan Dunia Sebenar pada Skala
- Lakukan Seperti Yang Saya Boleh, Bukan Seperti Yang Saya Katakan: Bahasa Berasas dalam Kemampuan Robotik
- PaLM-E: Model Bahasa Multimodal Berjelmaan
- RT-2: Model Visi-Bahasa-Tindakan Memindahkan Pengetahuan Web kepada Kawalan Robotik
- Model visi-bahasa untuk kawalan robot
- Penyahkodan Berasas: Membimbing Penjanaan Teks dengan Model Berasas
- X-Penjelmaan Terbuka: Set Data Pembelajaran Robotik dan Model RT-X
- RT-X: Model X-Penjelmaan Terbuka
- AI baharu Google DeepMind boleh mengawal robot
- Google DeepMind memperkenalkan RT-2, model AI transformatif untuk robot
- Monolog Dalaman: Penaakulan Berjelmaan melalui Perancangan dengan Model Bahasa
- Gesaan Rantaian Pemikiran Menimbulkan Penaakulan dalam Model Bahasa Besar
- Set Data Bridge untuk Manipulasi Robotik
- RoboNet: Pembelajaran Berbilang Robot Skala Besar
- Model Visi-Bahasa dalam Robotik: Tinjauan
- Transformer dalam Robotik: Tinjauan
- Menskalakan Pembelajaran Robot dengan Pengalaman yang Dibayangkan Secara Semantik
- RT-2 Google: Memajukan Kecerdasan Robotik
- Automasi Pengumpulan Data Robot untuk Wawasan Perniagaan
Videos
Sources
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- RT-2: New model translates vision and language into action
- RT-1: Robotics Transformer for Real-World Control at Scale
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
- PaLM-E: An Embodied Multimodal Language Model
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- Vision-language models for robot control
- Grounded Decoding: Guiding Text Generation with Grounded Models
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- RT-X: Open X-Embodiment Models
- Google DeepMind’s new AI can control robots
- Google DeepMind unveils RT-2, a transformative AI model for robots
- Inner Monologue: Embodied Reasoning through Planning with Language Models
- Chain of Thought Prompting Elicits Reasoning in Large Language Models
- Bridge Dataset for Robotic Manipulation
- RoboNet: Large-Scale Multi-Robot Learning
- Vision-Language Models in Robotics: A Survey
- Transformers in Robotics: A Review
- Scaling Robot Learning with Semantically Imagined Experience
- Google's RT-2: Advancing Robotic Intelligence
- Automation of Robot Data Collection for Business Insights
Ready for high-quality robotics data?
AY-Robots connects your robots to skilled operators worldwide.
Get Started