How is pricing calculated?

Pricing is based on the hourly rate of operators in your selected region. You only pay for the time operators spend controlling your robots.

What robots are supported?

We support 9+ robot arms including SO-100, Koch, Franka FR3, Franka Panda, WidowX 250, ViperX 300, ViperX 300s, and ALOHA.

What is the latency for teleoperation?

Our platform provides ultra-low latency of 30-70ms worldwide, enabling real-time responsive robot control.

RT-2: Como os Modelos de Visão-Linguagem-Ação Transferem Conhecimento da Web para o Controle de Robôs

Descubra como o Modelo de Visão-Linguagem-Ação RT-2 do Google revoluciona o controle de robôs, transferindo o conhecimento da web para ações físicas. Aprenda sobre sua arquitetura, métodos de treinamento, capacidades emergentes e implicações para empresas e operadores de robótica, incluindo a integração com a teleoperação para um treinamento eficiente de IA.

Entendendo o Modelo de Visão-Linguagem-Ação RT-2

O RT-2 estende os modelos de visão-linguagem, incorporando saídas de ação como tokens, permitindo a previsão de ponta a ponta de ações robóticas a partir de entradas visuais e textuais. Esta Arquitetura VLA trata as ações do robô como parte do vocabulário do modelo de linguagem, permitindo a integração perfeita de visão, linguagem e espaços de ação. RT-2: Modelos de Visão-Linguagem-Ação Transferem Conhecimento da Web para Ro

Em sua essência, o RT-2 usa arquiteturas baseadas em transformadores, como PaLM-540B ou PaLI-X, combinadas com codificadores de visão como ViT para processar entradas de imagem. Ao co-ajustar em conjuntos de dados de escala web, juntamente com dados de trajetória robótica de fontes como Bridge ou RoboNet, o RT-2 transfere o conhecimento da internet para o controle físico do robô. Este método alcança uma generalização notável, com benchmarks mostrando mais de 2x de melhoria no manuseio de objetos e ambientes não vistos em comparação com o RT-1. RT-2: Modelos de Visão-Linguagem-Ação Transferem Conhecimento da Web para Ro

O Poder das Ações como Tokens no RT-2

Escale o treinamento do seu robô com operadores globais

Conecte seus robôs à nossa rede mundial. Obtenha coleta de dados 24 horas por dia, 7 dias por semana, com latência ultrabaixa.

Começar

A abordagem de Ações como Tokens no RT-2 é revolucionária. Ao representar as ações do robô—como velocidades articulares ou posições do efetuador final—como tokens no vocabulário do modelo de linguagem, o RT-2 permite a transferência perfeita do conhecimento em escala web para o controle físico. Isso aumenta a escalabilidade para implantações multi-robôs, tornando-o ideal para empresas de robótica que buscam otimizar suas frotas. Decodificação Fundamentada: Guiando a Geração de Texto com Modelos Fundamentados

Por exemplo, por meio do prompting de cadeia de pensamento, o RT-2 aprimora o raciocínio para tarefas complexas, permitindo que os robôs executem novas ações não vistas nos dados de treinamento. Isso é particularmente benéfico para Treinamento de IA para Tarefas Robóticas , onde capacidades emergentes como a compreensão de relações semânticas de dados da web podem levar a soluções improvisadas. X-Embodiment Aberto: Conjuntos de Dados de Aprendizagem Robótica e Modelos RT-X

Como mostrado em demonstrações, o RT-2 pode lidar com instruções envolvendo objetos não vistos, aproveitando o conhecimento pré-treinado de vastos conjuntos de dados da internet. Isso reduz a necessidade de extensos dados específicos da tarefa, potencialmente cortando os custos de coleta de dados em até 90% para startups de robótica. RT-X: Modelos X-Embodiment Abertos

Capacidades Emergentes e Aplicações no Mundo Real

indefinido: antes vs depois da encenação virtual

Um dos aspectos mais empolgantes do RT-2 são suas Capacidades Emergentes em Robótica. Isso inclui raciocínio multi-etapas, como usar ferramentas de forma improvisada ou compreender conceitos semânticos como 'dinossauro extinto' para identificar um brinquedo. Tais habilidades decorrem do treinamento do modelo em diversos dados da web, permitindo que os robôs generalizem para novos ambientes. A nova IA do Google DeepMind pode controlar robôs

Em termos práticos, o RT-2 demonstra robustez com taxas de sucesso de até 80% em tarefas desafiadoras. Para operadores de robótica, isso significa melhoria da produtividade em ambientes industriais, com insights mostrando um aumento de 2-3x nas taxas de conclusão de tarefas. Além disso, ao reduzir a dependência da teleoperação humana para treinamento, os modelos VLA como o RT-2 melhoram a eficiência e reduzem os custos operacionais. Google DeepMind revela RT-2, um modelo de IA transformador para robôs

Passo 1: Pré-treinar em texto e imagens em escala web para amplo conhecimento.
Passo 2: Co-ajustar com conjuntos de dados robóticos como Bridge para integração de ações.
Passo 3: Implantar em cenários do mundo real para teste de habilidades emergentes.

Essas capacidades também impulsionam o ROI na Implantação de IA em Robótica , à medida que os robôs se adaptam a ambientes dinâmicos, gerando retornos dentro de 6-12 meses por meio da redução de falhas de hardware e maior adaptabilidade. O Prompting de Cadeia de Pensamento Elicita o Raciocínio em Grandes Linguagens M

Eficiência de Dados e Métodos de Treinamento

Comece a coletar dados de treinamento de robôs hoje

Nossos operadores treinados controlam seus robôs remotamente. Demonstrações de alta qualidade para seus modelos de IA.

Experimente Grátis

O treinamento do RT-2 aproveita o pré-treinamento em larga escala em dados da internet, ajustado com conjuntos de dados robóticos. Esta Eficiência de Dados em Modelos VLA minimiza a necessidade de teleoperação cara no mundo real, apoiando a coleta eficiente de dados por meio de web scraping e simulação.

Aspecto	RT-1	RT-2
Melhoria da Generalização	Linha de base	Mais de 2x
Taxa de Sucesso em Novas Tarefas	~40%	Até 80%
Potencial de Redução de Dados	Padrão	Até 90%

Para empresas de robótica, isso se traduz em treinamento de IA escalável, onde pequenos conjuntos de dados específicos do robô são suficientes para o ajuste fino, oferecendo ROI rápido por meio de prototipagem rápida.

Integrando a Teleoperação com o RT-2 para Resultados Ótimos

Embora o RT-2 reduza a necessidade de dados extensos, a teleoperação permanece crucial para conjuntos de dados robóticos de alta qualidade. Plataformas como AY-Robots fornecem Melhores Práticas de Teleoperação de Robôs , conectando robôs a uma rede global de operadores para coleta de dados 24 horas por dia, 7 dias por semana.

Os operadores podem ganhar taxas competitivas por meio do Potencial de Ganho na Coleta de Dados de Robôs , enquanto as empresas se beneficiam de fluxos de trabalho práticos que integram a teleoperação com modelos de IA como o RT-2.

Ferramentas como Sistema Operacional Robótico (ROS) e plataformas de rotulagem de dados como Scale AI aprimoram essa integração, garantindo a eficiência dos dados e a robustez do modelo.

Limitações e Direções Futuras

Precisa de mais dados de treinamento para seus robôs?

Plataforma de teleoperação profissional para pesquisa em robótica e desenvolvimento de IA. Pague por hora.

Ver Preços

Apesar de seus pontos fortes, o RT-2 tem limitações, incluindo a dependência de dados robóticos de alta qualidade e desafios em tarefas de longo horizonte sem planejamento explícito. Trabalhos futuros podem incorporar módulos de modelos como Monólogo Interno para um melhor planejamento.

No entanto, o RT-2 abre caminho para o Treinamento Escalável de IA para Robôs , especialmente quando combinado com a teleoperação para o refinamento contínuo de dados.

Análise de ROI para Implantações de Robótica

Investir em modelos VLA como o RT-2 pode gerar retornos significativos. Ao permitir a generalização para ambientes não vistos, ele corta as despesas de retreinamento e melhora a eficiência da tarefa.

Métrica	Modelos Tradicionais	RT-2 VLA
Cronograma de ROI	12-24 meses	6-12 meses
Aumento da Taxa de Conclusão de Tarefas	1x	2-3x
Redução de Custo de Coleta de Dados	Mínimo	Até 90%

Para startups, isso significa iteração e implantação mais rápidas, apoiadas por ferramentas para Teleoperação e Integração de IA .

Conclusão: O Futuro do Controle de Robôs com RT-2

Failover automático, tempo de inatividade zero

Se um operador se desconectar, outro assume instantaneamente. Seu robô nunca para de coletar dados.

Saiba Mais

A capacidade do RT-2 de transferir o conhecimento da web para o controle de robôs marca uma nova era na robótica. Com sua arquitetura VLA, ações como tokens e capacidades emergentes, oferece a pesquisadores de robótica, engenheiros de IA, empresas e operadores ferramentas poderosas para inovação.

Na AY-Robots, estamos animados em integrar o RT-2 com nossa plataforma de teleoperação para ajudá-lo a alcançar Fluxos de Trabalho Práticos para Operadores de Robôs . Comece a otimizar sua IA de robótica hoje.

Entendendo a Arquitetura VLA no RT-2

A arquitetura VLA, ou modelo de Visão-Linguagem-Ação, representa uma abordagem inovadora na IA de robótica. Em sua essência, o RT-2 integra o processamento de visão e linguagem com a geração de ações, permitindo que os robôs interpretem e ajam com base em instruções complexas derivadas de dados em escala web. Esta arquitetura se baseia em modelos anteriores como PaLM-E, permitindo a transferência perfeita de conhecimento de vastos conjuntos de dados da internet para o controle robótico do mundo real.

Uma inovação fundamental na arquitetura VLA é a unificação das entradas sensoriais. Os dados de visão das câmeras são processados juntamente com as descrições da linguagem natural, produzindo saídas acionáveis. Esta integração multimodal aprimora a capacidade do modelo de lidar com diversas tarefas sem um extenso treinamento específico da tarefa, conforme detalhado na postagem do blog DeepMind sobre o RT-2.

Fusão de transformadores de visão para compreensão de imagem
Modelos de linguagem para raciocínio semântico
Tokenizadores de ação que mapeiam previsões para movimentos de robôs
Pipelines de treinamento escaláveis aproveitando o conhecimento da web

Ao empregar esta arquitetura, o RT-2 alcança um desempenho superior na generalização, tornando-o ideal para treinamento escalável de IA de robôs. Os pesquisadores observaram que tais modelos reduzem a necessidade de coleta manual de dados, melhorando assim a eficiência dos dados em modelos VLA.

Ações como Tokens: Um Mecanismo Central

A abordagem de ações como tokens é fundamental para a funcionalidade do RT-2. Em vez de tratar as ações como entidades separadas, o RT-2 as codifica como tokens dentro do vocabulário do modelo de linguagem. Isso permite que o modelo preveja sequências de ações da mesma forma que gera texto, conforme explorado no artigo original do RT-2.

Este método facilita as capacidades emergentes na robótica, permitindo que os robôs executem novas tarefas para as quais não foram explicitamente treinados. Por exemplo, encadear ações simples aprendidas com dados da web pode levar a comportamentos complexos, como classificar objetos com base em descrições abstratas.

Recurso	RT-1	RT-2
Dados de Treinamento	Principalmente demonstrações de robôs	Dados de visão-linguagem em escala web + dados de robôs
Representação de Ação	Ações discretas	Ações como tokens no espaço da linguagem
Generalização	Limitada a tarefas vistas	Capacidades emergentes para cenários não vistos
Eficiência	Altos requisitos de dados	Eficiência de dados aprimorada

Benefícios para o Controle de Robôs

Implementar ações como tokens aprimora o controle de robôs a partir do conhecimento da web, permitindo que a IA se baseie em bilhões de exemplos online. Este paradigma de aprendizado por transferência é crucial para o treinamento de IA para tarefas robóticas, reduzindo o tempo e o custo associados aos métodos tradicionais.

Capacidades Emergentes e Aplicações no Mundo Real

O RT-2 demonstra capacidades emergentes, onde o modelo exibe habilidades além de seus dados de treinamento. Por exemplo, ele pode raciocinar sobre as affordances de objetos ou encadear pensamentos para planejamento multi-etapas, inspirado em técnicas em prompting de cadeia de pensamento.

Essas capacidades abrem portas para aplicações práticas, incluindo a integração com sistemas de teleoperação. Ao combinar IA com supervisão humana, os operadores podem alcançar um ROI mais alto na implantação de IA de robótica por meio da execução eficiente de tarefas.

Colete conjuntos de dados diversos por meio de plataformas como
.
Treine modelos usando estruturas escaláveis de
.
Integre a teleoperação para ajuste fino, seguindo as melhores práticas em teleoperação de robôs.
Implante em cenários do mundo real para medir o desempenho e o ROI.

Entendendo a Arquitetura VLA no RT-2

A arquitetura VLA (Visão-Linguagem-Ação) no RT-2 representa um salto significativo no controle de robôs a partir do conhecimento da web. Ao integrar modelos de visão e linguagem com saídas de ação, o RT-2 permite que os robôs interpretem e ajam com base em instruções complexas derivadas de vastos dados da internet. Esta arquitetura se baseia em predecessores como PaLM-E e Monólogo Interno modelos, permitindo a transferência perfeita de conhecimento.

Em sua essência, a arquitetura VLA processa entradas visuais juntamente com prompts de linguagem natural para gerar ações tokenizadas. Esta abordagem de ações como tokens trata os movimentos do robô como parte do vocabulário do modelo de linguagem, aprimorando o treinamento escalável de IA de robôs.

Capacidades Emergentes em Robótica com RT-2

O RT-2 mostra capacidades emergentes em robótica que surgem do treinamento em conjuntos de dados em escala web. Isso inclui raciocínio de cadeia de pensamento para tarefas como classificar objetos por cor ou tamanho, conforme explorado em Prompting de Cadeia de Pensamento. Os robôs agora podem generalizar para cenários não vistos, melhorando a eficiência de dados em modelos VLA.

Reconhecimento de objetos aprimorado de imagens da web, reduzindo a necessidade de dados de treinamento especializados.
Planejamento multi-etapas emergente, permitindo que os robôs lidem com novas tarefas sem programação explícita.
Segurança aprimorada por meio da tomada de decisão baseada em linguagem, minimizando erros em ambientes dinâmicos.

Integrar o RT-2 com teleoperação e integração de IA permite que os operadores guiem os robôs remotamente enquanto o modelo aprende em tempo real. As melhores práticas de modelos RT-X enfatizam a coleta eficiente de dados, impulsionando os dados de treinamento de IA para robôs.

ROI na Implantação de IA de Robótica

Implantar o RT-2 oferece um ROI substancial na implantação de IA de robótica ao reduzir os custos de programação manual. De acordo com MIT Technology Review, as organizações podem alcançar uma adaptação de tarefas até 50% mais rápida, traduzindo-se em maior produtividade.

Aspecto	Benefícios do RT-2	Comparação com o RT-1
Dados de Treinamento	Dados de visão-linguagem em escala web	Limitado a conjuntos de dados específicos do robô
Geração de Ação	Ações como tokens para controle fluido	Espaços de ação discretos
Habilidades Emergentes	Raciocínio de cadeia de pensamento	Execução de tarefas básicas
Potencial de ROI	Alto, com implantação escalável	Moderado, requer mais teleoperação

Para aqueles em melhores práticas de teleoperação de robôs , o RT-2 se integra com ferramentas como Conjunto de Dados Bridge para fluxos de trabalho eficientes. Isso não apenas agiliza as operações, mas também abre o potencial de ganho na coleta de dados de robôs por meio de funções de teleoperação freelance.

Fluxos de Trabalho Práticos para Operadores de Robôs

Os operadores podem aproveitar ferramentas para teleoperação como as da RoboNet para coletar dados de alta qualidade. Um fluxo de trabalho típico envolve sessões iniciais de teleoperação seguidas de ajuste fino de IA, conforme detalhado no estudo RT-2.

Configure a interface de teleoperação com hardware compatível.
Colete dados de ação diversos em ambientes variados.
Ajuste fino do modelo VLA usando conjuntos de dados coletados.
Implante e monitore para capacidades emergentes.

Esta abordagem garante fluxos de trabalho práticos para operadores de robôs , maximizando a eficiência e alinhando-se com os modelos de visão-linguagem para controle de robôs avanços.

RT-2: Como os Modelos de Visão-Linguagem-Ação Transferem Conhecimento da Web para o Controle de Robôs

Entendendo o Modelo de Visão-Linguagem-Ação RT-2

O Poder das Ações como Tokens no RT-2

Escale o treinamento do seu robô com operadores globais

Capacidades Emergentes e Aplicações no Mundo Real

Eficiência de Dados e Métodos de Treinamento

Comece a coletar dados de treinamento de robôs hoje

Integrando a Teleoperação com o RT-2 para Resultados Ótimos

Limitações e Direções Futuras

Precisa de mais dados de treinamento para seus robôs?

Análise de ROI para Implantações de Robótica

Conclusão: O Futuro do Controle de Robôs com RT-2

Failover automático, tempo de inatividade zero

Entendendo a Arquitetura VLA no RT-2

Ações como Tokens: Um Mecanismo Central

Benefícios para o Controle de Robôs

Capacidades Emergentes e Aplicações no Mundo Real

Entendendo a Arquitetura VLA no RT-2

Capacidades Emergentes em Robótica com RT-2

ROI na Implantação de IA de Robótica

Fluxos de Trabalho Práticos para Operadores de Robôs

Sources

Videos

Sources

Ready for high-quality robotics data?