IA Corpórea: Una Guía Completa de Algoritmos, Aprendizaje de Robots y Modelos VLA

Discusión en profundidad

Técnico

La Guía de IA Corpórea proporciona una visión general completa de la inteligencia encarnada, detallando algoritmos, herramientas y aplicaciones esenciales en robótica. Su objetivo es ayudar a los recién llegados a construir rápidamente conocimiento en el campo a través de contenido estructurado, incluyendo modelos fundamentales, técnicas de aprendizaje de robots y recursos prácticos para una mayor exploración.

puntos principales
ideas únicas
aplicaciones prácticas
temas clave
ideas clave
resultados de aprendizaje

• puntos principales
- 1
  Cobertura exhaustiva de conceptos y tecnologías de IA Corpórea
- 2
  Contenido estructurado que facilita el aprendizaje para principiantes
- 3
  Inclusión de recursos prácticos y estudios de caso
• ideas únicas
- 1
  Exploración detallada de la intersección entre modelos de lenguaje grandes y robótica
- 2
  Enfoques innovadores para la navegación e interacción robótica
• aplicaciones prácticas
- La guía sirve como un recurso valioso para principiantes en IA Corpórea, proporcionando conocimientos fundamentales y perspectivas prácticas para facilitar un mayor aprendizaje y aplicación.
• temas clave
- 1
  Fundamentos de la inteligencia encarnada
- 2
  Algoritmos de aprendizaje de robótica
- 3
  Modelos visión-lenguaje-acción
• ideas clave
- 1
  Camino estructurado para aprender IA Corpórea
- 2
  Diversos recursos para una mayor exploración y comprensión
- 3
  Enfoque en aplicaciones prácticas en robótica
• resultados de aprendizaje
- 1
  Comprender los fundamentos de la inteligencia encarnada
- 2
  Explorar varios algoritmos y herramientas utilizados en robótica
- 3
  Obtener información sobre aplicaciones prácticas y tendencias futuras en IA Corpórea

ejemplos	tutoriales	ejemplos de código	visuales
fundamentos	contenido avanzado	consejos prácticos	mejores prácticas

Tabla de contenidos

• Introducción a la IA Corpórea
• Recursos Esenciales para Construir Conocimiento en IA Corpórea
• Algoritmos para IA Corpórea
• Técnicas de Aprendizaje de Robots
• Modelos Visión-Lenguaje-Acción (VLA)
• Modelos de Lenguaje Grandes (LLMs) en Robótica
• Visión por Computadora en IA Corpórea
• Herramientas de Hardware y Software
• Listas de Artículos y Lecturas Adicionales
• Conclusión

“ Introducción a la IA Corpórea

La IA Corpórea se refiere a sistemas inteligentes que perciben y actúan a través de un cuerpo físico. Estos sistemas interactúan con su entorno para recopilar información, comprender problemas, tomar decisiones y ejecutar acciones, lo que resulta en comportamientos inteligentes y adaptativos. Esta guía proporciona un punto de entrada para que los recién llegados comprendan rápidamente las principales tecnologías involucradas en la IA Corpórea, entiendan sus capacidades de resolución de problemas y obtengan una dirección para futuras exploraciones en profundidad.

“ Recursos Esenciales para Construir Conocimiento en IA Corpórea

Para construir una base sólida en IA Corpórea, considere los siguientes recursos: * **Hoja de ruta técnica:** La guía de YunlongDong ofrece una hoja de ruta técnica fundamental. * **Redes Sociales:** Siga cuentas clave en plataformas como WeChat (石麻日记, 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub) para obtener información y actualizaciones. * **Bloggers de IA:** Explore listas de bloggers de IA notables en plataformas como Zhihu. * **Laboratorios de Robótica:** Investigue resúmenes de laboratorios de robótica en Zhihu. * **Conferencias y Revistas:** Manténgase actualizado con publicaciones de alta calidad en Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI y ACL. * **Introducción a la Robótica de Stanford:** Acceda al sitio web de Introducción a la Robótica de Stanford para un aprendizaje integral. * **Bases de Conocimiento:** Contribuya y utilice bases de conocimiento impulsadas por la comunidad. * **Bolsas de Trabajo:** Explore oportunidades laborales en IA Corpórea. * **Investigadores de Alto Impacto:** Siga listas de investigadores influyentes en el campo. * **Comunidades:** Participe en comunidades como Lumina, DeepTimber, 宇树, Simulately, HuggingFace LeRobot y K-scale labs.

“ Algoritmos para IA Corpórea

Esta sección cubre algoritmos y herramientas esenciales utilizados en IA Corpórea. * **Herramientas Comunes:** * **Submuestreo de Nubes de Puntos:** Técnicas como el submuestreo aleatorio, uniforme, por puntos más lejanos y por espacio normal son cruciales para optimizar aplicaciones 3D. * **Calibración Ojo-Mano:** Esencial para determinar las posiciones relativas entre cámaras y brazos robóticos, categorizada como ojo-en-mano y ojo-fuera-de-mano. * **Modelos Fundacionales de Visión:** * **CLIP:** Desarrollado por OpenAI, CLIP calcula la similitud entre imágenes y descripciones de lenguaje, con sus características visuales intermedias siendo muy beneficiosas para diversas aplicaciones posteriores. * **DINO:** De Meta, DINO proporciona características visuales de alto nivel de las imágenes, ayudando en la extracción de información correspondiente. * **SAM (Segment Anything Model):** También de Meta, SAM segmenta objetos en imágenes basándose en indicaciones o cuadros. * **SAM2:** Una versión mejorada de SAM, capaz de segmentación y seguimiento de objetos continuos en videos. * **Grounding-DINO:** Un marco de detección de objetos de imágenes desarrollado por IDEA Research, útil para detectar objetos objetivo. * **OmDet-Turbo:** Un proyecto de investigación de código abierto de OmAI Lab, que ofrece detección de objetos de vocabulario abierto (OVD) con alta velocidad de inferencia. * **Grounded-SAM:** Extiende Grounding-DINO con capacidades de segmentación, soportando detección y segmentación posterior. * **FoundationPose:** Un modelo de seguimiento de pose de Nvidia. * **Stable Diffusion:** Un modelo de texto a imagen que puede generar imágenes objetivo y proporcionar características de capa intermedia para aplicaciones posteriores. * **Depth Anything (v1 & v2):** Modelos de estimación de profundidad monocular de la Universidad de Hong Kong y ByteDance. * **Point Transformer (v3):** Un trabajo sobre extracción de características de nubes de puntos. * **RDT-1B:** Un modelo fundacional para manipulación bimanual robótica de la Universidad de Tsinghua. * **SigLIP:** Similar a CLIP, ofrece capacidades multimodales.

“ Técnicas de Aprendizaje de Robots

El Aprendizaje de Robots abarca diversas técnicas que permiten a los robots aprender de la experiencia y mejorar su rendimiento. Los métodos clave incluyen: * **Control Predictivo de Modelo (MPC):** Una estrategia de control avanzada que utiliza un modelo dinámico del sistema para predecir el comportamiento futuro en un horizonte de tiempo finito. MPC optimiza las entradas de control resolviendo un problema de optimización para cumplir criterios de rendimiento y restricciones. Los recursos incluyen: * **Videos Introductorios:** Model Predictive Control del Laboratorio de Robótica Huagong. * **Fundamentos Teóricos:** Model predictive control: Theory and practice—A survey. * **MPC No Lineal:** An Introduction to Nonlinear Model Predictive Control. * **MPC Explícito:** The explicit linear quadratic regulator for constrained systems. * **MPC Robusto:** Predictive End-Effector Control of Manipulators on Moving Platforms Under Disturbance and Min-max feedback model predictive control for constrained linear systems. * **MPC Basado en Aprendizaje:** Learning-Based Model Predictive Control for Safe Exploration and Confidence-Aware Object Capture for a Manipulator Subject to Floating-Base Disturbances. * **Aprendizaje por Refuerzo (RL):** Un paradigma de aprendizaje donde un agente aprende a tomar decisiones interactuando con un entorno para maximizar una señal de recompensa. Los recursos incluyen: * **Principios Matemáticos:** Reinforcement Learning de Zhao Shiyu en la Universidad de Westlake. * **Cursos de Aprendizaje por Refuerzo Profundo:** The Foundations of Deep RL in 6 Lectures, UC Berkeley CS285, y cursos de Li Hongyi. * **Implementación Práctica:** Gymnasium para experiencia práctica. * **Aprendizaje por Imitación:** Un método donde un robot aprende observando e imitando demostraciones de expertos. Los recursos incluyen: * **Tutoriales:** 《模仿学习简洁教程》 de LAMDA de la Universidad de Nanjing y Supervised Policy Learning for Real Robots, Taller RSS 2024.

“ Modelos Visión-Lenguaje-Acción (VLA)

Los Modelos Visión-Lenguaje-Acción (Modelos VLA) integran Modelos Visión-Lenguaje (VLMs) con control robótico para generar acciones robóticas directamente a partir de VLMs pre-entrenados. Estos modelos tokenizan acciones y ajustan VLMs sin requerir nuevas arquitecturas. * **Características Clave:** End-to-end, backbones LLM/VLM, modelos pre-entrenados. * **Categorización:** Estructura y tamaño del modelo, estrategias de pre-entrenamiento y ajuste fino, conjuntos de datos, entradas y salidas, escenarios de aplicación. * **Recursos:** * **Blogs:** 具身智能Vision-Language-Action的思考. * **Encuestas:** A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28. * **Obras Clásicas:** * **Modelos Autorregresivos:** Serie RT (RT-1, RT-2, RT-Trajectory, AUTORT), RoboFlamingo, OpenVLA, TinyVLA, TraceVLA. * **Modelos de Difusión para Cabeza de Acción:** Octo, π0, CogACT, Diffusion-VLA. * **Visión 3D:** 3D-VLA, SpatialVLA. * **Relacionados con VLA:** FAST (π0), RLDG, BYO-VLA. * **Locomoción Diferente:** RDT-1B (bimanual), QUAR-VLA (cuadrúpedo), CoVLA (conducción autónoma), Mobility-VLA (navegación), NaVILA (navegación de robot con patas). * **VLA Jerárquico de Doble Sistema:** * Modelos como Hi-Robot y pi-0.5 utilizan arquitecturas jerárquicas para imitar los mecanismos humanos de respuesta rápida y pensamiento profundo. * **VLA de Grado Industrial:** Figure: Helix, 智元：GO-1, Physical Intelligence, pi-0.5, Hi Robot, Nvidia: GROOT-N1, 灵初智能：Psi-R1, Google DeepMind: Gemini Robotics. * **Últimos Trabajos en VLA:** SafeVLA, HybridVLA, DexVLA, DexGraspVLA, UP-VLA, CoT-VLA, UniAct.

“ Modelos de Lenguaje Grandes (LLMs) en Robótica

La IA Corpórea moderna aprovecha las potentes capacidades de procesamiento de información y generalización de los Modelos de Lenguaje Grandes (LLMs) para una mejor planificación robótica. * **Recursos:** * **Serie:** Robotics+LLM系列通过大语言模型控制机器人. * **Wikis:** Embodied Agent wiki. * **Blogs:** Lilian Weng's AI Agent System Overview. * **Obras Clásicas:** * **Generación de Estrategias de Alto Nivel:** PaLM-E, DO AS I CAN, NOT AS I SAY, Look Before You Leap, EmbodiedGPT. * **Planificación de Estrategias y Generación de Acciones Unificadas:** RT-2. * **Integración con Planificadores Tradicionales:** LLM+P, AutoTAMP, Text2Motion. * **Código como Política:** Code as Policy, Instruction2Act. * **Percepción Visual 3D con LLMs:** VoxPoser, OmniManip. * **Colaboración Multi-Robot:** RoCo, Scalable-Multi-Robot.

“ Visión por Computadora en IA Corpórea

La Visión por Computadora juega un papel crucial para permitir que los robots perciban y comprendan su entorno. Las áreas clave incluyen: * **Visión 2D:** * **Modelos Clásicos:** CNN, ResNet, ViT, Swin Transformer. * **Modelos Generativos:** Modelos autorregresivos, modelos de difusión. * **Visión 3D:** * **Cursos:** Andreas Geiger's 三维视觉导论, GAMES203 - 三维重建和理解. * **Artículos Clásicos:** Diffusion Model for 2D/3D Generation, 3D生成相关论文-2024. * **Visión 4D:** * **Comprensión de Video:** 开山之作, 论文串讲, LLM时代的视频理解综述. * **Generación 4D:** Video Generation blog, 4D 生成的论文列表. * **Prompting Visual:** Un método para guiar modelos grandes con entradas visuales. * **Grounding de Afordancias:** Localización de regiones interactivas en objetos. * **2D:** Cross-View-AG, AffordanceLLM. * **3D:** OpenAD, SceneFun3D.

“ Herramientas de Hardware y Software

Esta sección cubre las herramientas de hardware y software esenciales para desarrollar e implementar sistemas de IA Corpórea. * **Hardware:** * **Sistemas Embebidos:** Plataformas para ejecutar algoritmos de IA en robots. * **Diseño Mecánico:** Principios para diseñar cuerpos de robot robustos y funcionales. * **Diseño de Sistemas Robóticos:** Integración de varios componentes en un sistema cohesivo. * **Sensores:** Dispositivos para recopilar datos del entorno (por ejemplo, cámaras, LiDAR). * **Detección Táctil:** Tecnologías para permitir que los robots sientan e interactúen con objetos. * **Software:** * **Simuladores:** Herramientas para simular entornos y comportamientos robóticos (por ejemplo, MuJoCo, Isaac Lab, SAPIEN, Genesis). * **Benchmarks:** Tareas estandarizadas para evaluar el rendimiento de los robots. * **Conjuntos de Datos:** Colecciones de datos para entrenar y probar modelos de IA.

“ Listas de Artículos y Lecturas Adicionales

Explore listas curadas de artículos de investigación para profundizar su comprensión de temas específicos dentro de la IA Corpórea: * **IA Corpórea General:** Listas completas que cubren varios subcampos. * **Temas Específicos:** Listas centradas en áreas como aprendizaje de robots, visión por computadora y modelos multimodales.

“ Conclusión

Esta guía proporciona una visión general completa de la IA Corpórea, cubriendo recursos, algoritmos y herramientas esenciales. Al explorar estas áreas, los recién llegados pueden construir una base sólida y contribuir al avance de este emocionante campo. El futuro de la IA está encarnado, y el viaje comienza aquí.

Enlace original: https://github.com/TianxingChen/Embodied-AI-Guide

Comentario(0)

Desc

IA Corpórea: Una Guía Completa de Algoritmos, Aprendizaje de Robots y Modelos VLA

• puntos principales

• ideas únicas

• aplicaciones prácticas

• temas clave

• ideas clave

• resultados de aprendizaje

Tabla de contenidos

“ Introducción a la IA Corpórea

“ Recursos Esenciales para Construir Conocimiento en IA Corpórea

“ Algoritmos para IA Corpórea

“ Técnicas de Aprendizaje de Robots

“ Modelos Visión-Lenguaje-Acción (VLA)

“ Modelos de Lenguaje Grandes (LLMs) en Robótica

“ Visión por Computadora en IA Corpórea

“ Herramientas de Hardware y Software

“ Listas de Artículos y Lecturas Adicionales

“ Conclusión

Comentario(0)

Aprendizaje Similar

Dominando la API de OpenAI: Una Guía Completa para Usar GPT-3.5 y GPT-4 en Python

Luma AI: Transformando la Modelación 3D con Innovaciones de IA Visual

Maximizando el Blueprint PIR de Feedly para una Inteligencia de Amenazas Efectiva

Pasos Prácticos para un Modelado de Amenazas Efectivo en Ciberseguridad

Dominando las Acciones de IA: Una Guía para Optimizar Prompts para Obtener Perspectivas Efectivas

Dominando los Heatmaps de Seaborn para una Visualización de Datos Efectiva

Herramientas Relacionadas

Gemini

Grok

DeepSeek

Perplexity AI

Claude

Salesforce Einstein