Logo de AiToolGo

IA Incorporada: Um Guia Abrangente sobre Algoritmos, Aprendizado de Robôs e Modelos VLA

Discussão aprofundada
Técnico
 0
 0
 1
O Guia de IA Incorporada fornece uma visão geral abrangente da inteligência incorporada, detalhando algoritmos essenciais, ferramentas e aplicações em robótica. Ele visa ajudar novatos a construir rapidamente conhecimento na área através de conteúdo estruturado, incluindo modelos fundamentais, técnicas de aprendizado de robôs e recursos práticos para exploração futura.
  • pontos principais
  • insights únicos
  • aplicações práticas
  • tópicos-chave
  • insights principais
  • resultados de aprendizagem
  • pontos principais

    • 1
      Cobertura abrangente de conceitos e tecnologias de IA incorporada
    • 2
      Conteúdo estruturado que facilita o aprendizado para novatos
    • 3
      Inclusão de recursos práticos e estudos de caso
  • insights únicos

    • 1
      Exploração detalhada da interseção entre modelos de linguagem grandes e robótica
    • 2
      Abordagens inovadoras para navegação e interação de robôs
  • aplicações práticas

    • O guia serve como um recurso valioso para iniciantes em IA incorporada, fornecendo conhecimento fundamental e insights práticos para facilitar o aprendizado e a aplicação contínuos.
  • tópicos-chave

    • 1
      Fundamentos da inteligência incorporada
    • 2
      Algoritmos de aprendizado em robótica
    • 3
      Modelos de visão-linguagem-ação
  • insights principais

    • 1
      Caminho estruturado para aprender IA incorporada
    • 2
      Recursos diversos para exploração e compreensão adicionais
    • 3
      Foco em aplicações práticas em robótica
  • resultados de aprendizagem

    • 1
      Compreender os fundamentos da inteligência incorporada
    • 2
      Explorar vários algoritmos e ferramentas usados em robótica
    • 3
      Obter insights sobre aplicações práticas e tendências futuras em IA incorporada
exemplos
tutoriais
exemplos de código
visuais
fundamentos
conteúdo avançado
dicas práticas
melhores práticas

Introdução à IA Incorporada

IA Incorporada refere-se a sistemas inteligentes que percebem e agem através de um corpo físico. Esses sistemas interagem com seu ambiente para coletar informações, entender problemas, tomar decisões e executar ações, resultando em comportamentos inteligentes e adaptativos. Este guia fornece um ponto de entrada para novatos entenderem rapidamente as principais tecnologias envolvidas na IA Incorporada, compreenderem suas capacidades de resolução de problemas e obterem direcionamento para futuras explorações aprofundadas.

Recursos Essenciais para Construir Conhecimento em IA Incorporada

Para construir uma base sólida em IA Incorporada, considere os seguintes recursos: * **Roteiro Técnico:** O guia de YunlongDong oferece um roteiro técnico fundamental. * **Mídias Sociais:** Siga contas importantes em plataformas como WeChat (石麻日记, 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub) para insights e atualizações. * **Blogueiros de IA:** Explore listas de blogueiros de IA notáveis em plataformas como Zhihu. * **Laboratórios de Robótica:** Investigue resumos de laboratórios de robótica no Zhihu. * **Conferências e Periódicos:** Mantenha-se atualizado com publicações de alta qualidade em Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI e ACL. * **Introdução à Robótica de Stanford:** Acesse o site Stanford Robotics Introduction para um aprendizado abrangente. * **Bases de Conhecimento:** Contribua e utilize bases de conhecimento impulsionadas pela comunidade. * **Quadros de Vagas:** Explore oportunidades de emprego em IA Incorporada. * **Pesquisadores de Alto Impacto:** Siga listas de pesquisadores influentes na área. * **Comunidades:** Engaje-se com comunidades como Lumina, DeepTimber, 宇树, Simulately, HuggingFace LeRobot e laboratórios K-scale.

Algoritmos para IA Incorporada

Esta seção abrange algoritmos e ferramentas essenciais usados em IA Incorporada. * **Ferramentas Comuns:** * **Downsampling de Nuvem de Pontos:** Técnicas como downsampling aleatório, uniforme, por ponto mais distante e por espaço normal são cruciais para otimizar aplicações 3D. * **Calibração Olho-Mão:** Essencial para determinar as posições relativas entre câmeras e braços robóticos, categorizada como olho-na-mão e olho-fora-da-mão. * **Modelos Fundamentais de Visão:** * **CLIP:** Desenvolvido pela OpenAI, o CLIP calcula a similaridade entre imagens e descrições de linguagem, com suas características visuais intermediárias sendo altamente benéficas para várias aplicações downstream. * **DINO:** Da Meta, o DINO fornece características visuais de alto nível de imagens, auxiliando na extração de informações correspondentes. * **SAM (Segment Anything Model):** Também da Meta, o SAM segmenta objetos em imagens com base em prompts ou caixas. * **SAM2:** Uma versão aprimorada do SAM, capaz de segmentação e rastreamento contínuos de objetos em vídeos. * **Grounding-DINO:** Um framework de detecção de objetos em imagem desenvolvido pela IDEA Research, útil para detectar objetos alvo. * **OmDet-Turbo:** Um projeto de pesquisa de código aberto do OmAI Lab, oferecendo detecção de objetos em vocabulário aberto (OVD) com alta velocidade de inferência. * **Grounded-SAM:** Estende o Grounding-DINO com capacidades de segmentação, suportando detecção e segmentação subsequente. * **FoundationPose:** Um modelo de rastreamento de pose da Nvidia. * **Stable Diffusion:** Um modelo de texto para imagem que pode gerar imagens de objetivo e fornecer características de camada intermediária para aplicações downstream. * **Depth Anything (v1 & v2):** Modelos de estimativa de profundidade monocular da Universidade de Hong Kong e ByteDance. * **Point Transformer (v3):** Um trabalho sobre extração de características de nuvem de pontos. * **RDT-1B:** Um modelo fundamental para manipulação bimanual robótica da Universidade Tsinghua. * **SigLIP:** Semelhante ao CLIP, oferecendo capacidades multimodais.

Técnicas de Aprendizado de Robôs

Aprendizado de Robôs abrange várias técnicas que permitem aos robôs aprender com a experiência e melhorar seu desempenho. Métodos chave incluem: * **Controle Preditivo de Modelo (MPC):** Uma estratégia de controle avançada que usa o modelo dinâmico de um sistema para prever o comportamento futuro em um horizonte de tempo finito. O MPC otimiza as entradas de controle resolvendo um problema de otimização para atender aos critérios de desempenho e restrições. Recursos incluem: * **Vídeos Introdutórios:** Model Predictive Control do Huagong Robotics Laboratory. * **Fundamentos Teóricos:** Model predictive control: Theory and practice—A survey. * **MPC Não Linear:** An Introduction to Nonlinear Model Predictive Control. * **MPC Explícito:** The explicit linear quadratic regulator for constrained systems. * **MPC Robusto:** Predictive End-Effector Control of Manipulators on Moving Platforms Under Disturbance and Min-max feedback model predictive control for constrained linear systems. * **MPC Baseado em Aprendizado:** Learning-Based Model Predictive Control for Safe Exploration and Confidence-Aware Object Capture for a Manipulator Subject to Floating-Base Disturbances. * **Aprendizado por Reforço (RL):** Um paradigma de aprendizado onde um agente aprende a tomar decisões interagindo com um ambiente para maximizar um sinal de recompensa. Recursos incluem: * **Princípios Matemáticos:** Reinforcement Learning por Zhao Shiyu na Westlake University. * **Cursos de Aprendizado por Reforço Profundo:** The Foundations of Deep RL in 6 Lectures, UC Berkeley CS285, e cursos de Li Hongyi. * **Implementação Prática:** Gymnasium para experiência prática. * **Aprendizado por Imitação:** Um método onde um robô aprende observando e imitando demonstrações de especialistas. Recursos incluem: * **Tutoriais:** 《模仿学习简洁教程》 da Nanjing University LAMDA e Supervised Policy Learning for Real Robots, RSS 2024 Workshop.

Modelos de Visão-Linguagem-Ação (VLA)

Modelos de Visão-Linguagem-Ação (Modelos VLA) integram Modelos de Visão-Linguagem (VLMs) com controle de robô para gerar ações de robô diretamente de VLMs pré-treinados. Esses modelos tokenizam ações e ajustam VLMs sem exigir novas arquiteturas. * **Características Principais:** End-to-end, backbones LLM/VLM, modelos pré-treinados. * **Categorização:** Estrutura e tamanho do modelo, estratégias de pré-treinamento e ajuste fino, conjuntos de dados, entradas e saídas, cenários de aplicação. * **Recursos:** * **Blogs:** 具身智能Vision-Language-Action的思考. * **Surveys:** A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28. * **Trabalhos Clássicos:** * **Modelos Autoregressivos:** Série RT (RT-1, RT-2, RT-Trajectory, AUTORT), RoboFlamingo, OpenVLA, TinyVLA, TraceVLA. * **Modelos de Difusão para Cabeça de Ação:** Octo, π0, CogACT, Diffusion-VLA. * **Visão 3D:** 3D-VLA, SpatialVLA. * **Relacionados a VLA:** FAST (π0), RLDG, BYO-VLA. * **Diferentes Locomoções:** RDT-1B (bimanual), QUAR-VLA (quadrúpede), CoVLA (direção autônoma), Mobility-VLA (navegação), NaVILA (navegação de robô com pernas). * **VLA Hierárquico de Sistema Duplo:** * Modelos como Hi-Robot e pi-0.5 usam arquiteturas hierárquicas para imitar mecanismos humanos de resposta rápida e pensamento profundo. * **VLA de Grau Industrial:** Figure: Helix, 智元:GO-1, Physical Intelligence, pi-0.5, Hi Robot, Nvidia: GROOT-N1, 灵初智能:Psi-R1, Google DeepMind: Gemini Robotics. * **Últimos Trabalhos em VLA:** SafeVLA, HybridVLA, DexVLA, DexGraspVLA, UP-VLA, CoT-VLA, UniAct.

Modelos de Linguagem Grandes (LLMs) em Robótica

A IA Incorporada moderna alavanca as poderosas capacidades de processamento de informação e generalização dos Modelos de Linguagem Grandes (LLMs) para um melhor planejamento de robôs. * **Recursos:** * **Série:** Robotics+LLM系列通过大语言模型控制机器人. * **Wikis:** Embodied Agent wiki. * **Blogs:** Lilian Weng's AI Agent System Overview. * **Trabalhos Clássicos:** * **Geração de Estratégia de Alto Nível:** PaLM-E, DO AS I CAN, NOT AS I SAY, Look Before You Leap, EmbodiedGPT. * **Planejamento de Estratégia e Geração de Ação Unificados:** RT-2. * **Integração com Planejadores Tradicionais:** LLM+P, AutoTAMP, Text2Motion. * **Código como Política:** Code as Policy, Instruction2Act. * **Percepção Visual 3D com LLMs:** VoxPoser, OmniManip. * **Colaboração Multi-Robô:** RoCo, Scalable-Multi-Robot.

Visão Computacional em IA Incorporada

Visão Computacional desempenha um papel crucial em permitir que os robôs percebam e entendam seu ambiente. Áreas chave incluem: * **Visão 2D:** * **Modelos Clássicos:** CNN, ResNet, ViT, Swin Transformer. * **Modelos Generativos:** Modelos autorregressivos, modelos de difusão. * **Visão 3D:** * **Cursos:** Andreas Geiger's 三维视觉导论, GAMES203 - 三维重建和理解. * **Artigos Clássicos:** Diffusion Model for 2D/3D Generation, 3D生成相关论文-2024. * **Visão 4D:** * **Compreensão de Vídeo:** 开山之作, 论文串讲, LLM时代的视频理解综述. * **Geração 4D:** Video Generation blog, 4D 生成的论文列表. * **Prompting Visual:** Um método para guiar modelos grandes com entradas visuais. * **Grounding de Afordance:** Localização de regiões interativas em objetos. * **2D:** Cross-View-AG, AffordanceLLM. * **3D:** OpenAD, SceneFun3D.

Ferramentas de Hardware e Software

Esta seção abrange as ferramentas de hardware e software essenciais para desenvolver e implantar sistemas de IA Incorporada. * **Hardware:** * **Sistemas Embarcados:** Plataformas para executar algoritmos de IA em robôs. * **Design Mecânico:** Princípios para projetar corpos de robôs robustos e funcionais. * **Design de Sistemas Robóticos:** Integração de vários componentes em um sistema coeso. * **Sensores:** Dispositivos para coletar dados ambientais (por exemplo, câmeras, LiDAR). * **Sensoriamento Tátil:** Tecnologias para permitir que robôs sintam e interajam com objetos. * **Software:** * **Simuladores:** Ferramentas para simular ambientes e comportamentos de robôs (por exemplo, MuJoCo, Isaac Lab, SAPIEN, Genesis). * **Benchmarks:** Tarefas padronizadas para avaliar o desempenho de robôs. * **Conjuntos de Dados:** Coleções de dados para treinar e testar modelos de IA.

Listas de Artigos e Leitura Adicional

Explore listas curadas de artigos de pesquisa para aprofundar sua compreensão de tópicos específicos em IA Incorporada: * **IA Incorporada Geral:** Listas abrangentes cobrindo vários subcampos. * **Tópicos Específicos:** Listas focando em áreas como aprendizado de robôs, visão computacional e modelos multimodais.

Conclusão

Este guia fornece uma visão geral abrangente da IA Incorporada, cobrindo recursos essenciais, algoritmos e ferramentas. Ao explorar essas áreas, os novatos podem construir uma base sólida e contribuir para o avanço deste campo empolgante. O futuro da IA é incorporado, e a jornada começa aqui.

 Link original: https://github.com/TianxingChen/Embodied-AI-Guide

Comentário(0)

user's avatar

      Ferramentas Relacionadas