IA Incarnée : Guide Complet des Algorithmes, de l'Apprentissage Robotique et des Modèles VLA
Discussion approfondie
Technique
0 0 1
Le Guide IA Incarnée offre un aperçu complet de l'intelligence incarnée, détaillant les algorithmes, outils et applications essentiels en robotique. Il vise à aider les nouveaux venus à acquérir rapidement des connaissances dans le domaine grâce à un contenu structuré, incluant les modèles fondamentaux, les techniques d'apprentissage robotique et les ressources pratiques pour une exploration plus approfondie.
points principaux
perspectives uniques
applications pratiques
sujets clés
idées clés
résultats d'apprentissage
• points principaux
1
Couverture complète des concepts et technologies de l'IA incarnée
2
Contenu structuré qui facilite l'apprentissage pour les nouveaux venus
3
Inclusion de ressources pratiques et d'études de cas
• perspectives uniques
1
Exploration détaillée de l'intersection entre les grands modèles linguistiques et la robotique
2
Approches innovantes pour la navigation et l'interaction robotiques
• applications pratiques
Le guide sert de ressource précieuse pour les débutants en IA incarnée, fournissant des connaissances fondamentales et des insights pratiques pour faciliter l'apprentissage et l'application futurs.
• sujets clés
1
Fondamentaux de l'intelligence incarnée
2
Algorithmes d'apprentissage robotique
3
Modèles vision-langage-action
• idées clés
1
Parcours structuré pour l'apprentissage de l'IA incarnée
2
Ressources diverses pour une exploration et une compréhension approfondies
3
Accent sur les applications pratiques en robotique
• résultats d'apprentissage
1
Comprendre les fondamentaux de l'intelligence incarnée
2
Explorer divers algorithmes et outils utilisés en robotique
3
Acquérir des insights sur les applications pratiques et les tendances futures en IA incarnée
L'IA incarnée fait référence à des systèmes intelligents qui perçoivent et agissent à travers un corps physique. Ces systèmes interagissent avec leur environnement pour recueillir des informations, comprendre des problèmes, prendre des décisions et exécuter des actions, ce qui aboutit à des comportements intelligents et adaptatifs. Ce guide offre un point d'entrée pour les nouveaux venus afin de saisir rapidement les principales technologies impliquées dans l'IA incarnée, de comprendre leurs capacités de résolution de problèmes et d'obtenir des orientations pour de futures explorations approfondies.
“ Ressources Essentielles pour Développer des Connaissances en IA Incarnée
Pour bâtir une base solide en IA incarnée, considérez les ressources suivantes :
* **Feuille de route technique :** Le guide de Yunlong Dong offre une feuille de route technique fondamentale.
* **Réseaux sociaux :** Suivez des comptes clés sur des plateformes comme WeChat (石麻日记, 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub) pour des insights et des mises à jour.
* **Blogueurs IA :** Explorez des listes de blogueurs IA notables sur des plateformes comme Zhihu.
* **Laboratoires de robotique :** Étudiez les résumés des laboratoires de robotique sur Zhihu.
* **Conférences et revues :** Restez informé des publications de haute qualité dans Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI et ACL.
* **Introduction à la robotique de Stanford :** Accédez au site web de l'Introduction à la robotique de Stanford pour un apprentissage complet.
* **Bases de connaissances :** Contribuez et utilisez des bases de connaissances communautaires.
* **Tableaux d'offres d'emploi :** Explorez les opportunités d'emploi en IA incarnée.
* **Chercheurs à fort impact :** Suivez des listes de chercheurs influents dans le domaine.
* **Communautés :** Engagez-vous avec des communautés comme Lumina, DeepTimber, 宇树, Simulately, HuggingFace LeRobot et K-scale labs.
“ Algorithmes pour l'IA Incarnée
Cette section couvre les algorithmes et outils essentiels utilisés en IA incarnée.
* **Outils courants :**
* **Sous-échantillonnage de nuages de points :** Des techniques telles que le sous-échantillonnage aléatoire, uniforme, par le point le plus éloigné et par l'espace normal sont cruciales pour optimiser les applications 3D.
* **Calibration œil-main :** Essentielle pour déterminer les positions relatives entre les caméras et les bras robotiques, classée en œil-sur-main et œil-hors-main.
* **Modèles de fondation de vision :**
* **CLIP :** Développé par OpenAI, CLIP calcule la similarité entre les images et les descriptions textuelles, ses caractéristiques visuelles intermédiaires étant très bénéfiques pour diverses applications en aval.
* **DINO :** De Meta, DINO fournit des caractéristiques visuelles de haut niveau des images, aidant à l'extraction d'informations correspondantes.
* **SAM (Segment Anything Model) :** Également de Meta, SAM segmente les objets dans les images en fonction de prompts ou de boîtes.
* **SAM2 :** Une version améliorée de SAM, capable de segmentation et de suivi d'objets continus dans les vidéos.
* **Grounding-DINO :** Un cadre de détection d'objets dans les images développé par IDEA Research, utile pour détecter des objets cibles.
* **OmDet-Turbo :** Un projet de recherche open-source par OmAI Lab, offrant une détection d'objets en vocabulaire ouvert (OVD) avec une vitesse d'inférence élevée.
* **Grounded-SAM :** Étend Grounding-DINO avec des capacités de segmentation, prenant en charge la détection puis la segmentation.
* **FoundationPose :** Un modèle de suivi de pose par Nvidia.
* **Stable Diffusion :** Un modèle texte-vers-image qui peut générer des images cibles et fournir des caractéristiques de couches intermédiaires pour les applications en aval.
* **Depth Anything (v1 & v2) :** Modèles d'estimation de profondeur monoculaire de l'Université de Hong Kong et de ByteDance.
* **Point Transformer (v3) :** Un travail sur l'extraction de caractéristiques de nuages de points.
* **RDT-1B :** Un modèle fondamental pour la manipulation robotique bimanuelles de l'Université de Tsinghua.
* **SigLIP :** Similaire à CLIP, offrant des capacités multimodales.
“ Techniques d'Apprentissage Robotique
L'apprentissage robotique englobe diverses techniques qui permettent aux robots d'apprendre de l'expérience et d'améliorer leurs performances. Les méthodes clés incluent :
* **Contrôle prédictif basé sur modèle (MPC) :** Une stratégie de contrôle avancée qui utilise le modèle dynamique d'un système pour prédire le comportement futur sur un horizon temporel fini. Le MPC optimise les entrées de contrôle en résolvant un problème d'optimisation pour satisfaire les critères de performance et les contraintes. Ressources disponibles :
* **Vidéos d'introduction :** Model Predictive Control du Huagong Robotics Laboratory.
* **Fondements théoriques :** Model predictive control: Theory and practice—A survey.
* **MPC non linéaire :** An Introduction to Nonlinear Model Predictive Control.
* **MPC explicite :** The explicit linear quadratic regulator for constrained systems.
* **MPC robuste :** Predictive End-Effector Control of Manipulators on Moving Platforms Under Disturbance et Min-max feedback model predictive control for constrained linear systems.
* **MPC basé sur l'apprentissage :** Learning-Based Model Predictive Control for Safe Exploration et Confidence-Aware Object Capture for a Manipulator Subject to Floating-Base Disturbances.
* **Apprentissage par renforcement (RL) :** Un paradigme d'apprentissage où un agent apprend à prendre des décisions en interagissant avec un environnement pour maximiser un signal de récompense. Ressources disponibles :
* **Principes mathématiques :** Reinforcement Learning par Zhao Shiyu à l'Université de Westlake.
* **Cours d'apprentissage par renforcement profond :** The Foundations of Deep RL in 6 Lectures, UC Berkeley CS285, et cours par Li Hongyi.
* **Implémentation pratique :** Gymnasium pour une expérience pratique.
* **Apprentissage par imitation :** Une méthode où un robot apprend en observant et en imitant des démonstrations expertes. Ressources disponibles :
* **Tutoriels :** 《模仿学习简洁教程》 de Nanjing University LAMDA et Supervised Policy Learning for Real Robots, RSS 2024 Workshop.
“ Modèles Vision-Langage-Action (VLA)
Les modèles Vision-Langage-Action (VLA) intègrent les modèles Vision-Langage (VLM) au contrôle robotique pour générer des actions robotiques directement à partir de VLM pré-entraînés. Ces modèles tokenisent les actions et affinent les VLM sans nécessiter de nouvelles architectures.
* **Caractéristiques clés :** End-to-end, backbones LLM/VLM, modèles pré-entraînés.
* **Catégorisation :** Structure et taille du modèle, stratégies de pré-entraînement et d'affinage, ensembles de données, entrées et sorties, scénarios d'application.
* **Ressources :**
* **Blogs :** 具身智能Vision-Language-Action的思考.
* **Surveys :** A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28.
* **Œuvres classiques :**
* **Modèles autorégressifs :** Série RT (RT-1, RT-2, RT-Trajectory, AUTORT), RoboFlamingo, OpenVLA, TinyVLA, TraceVLA.
* **Modèles de diffusion pour la tête d'action :** Octo, π0, CogACT, Diffusion-VLA.
* **Vision 3D :** 3D-VLA, SpatialVLA.
* **Liés aux VLA :** FAST (π0), RLDG, BYO-VLA.
* **Locomotion différente :** RDT-1B (bimanuel), QUAR-VLA (quadrupède), CoVLA (conduite autonome), Mobility-VLA (navigation), NaVILA (navigation de robot à pattes).
* **VLA hiérarchique à double système :**
* Des modèles comme Hi-Robot et pi-0.5 utilisent des architectures hiérarchiques pour imiter les mécanismes humains de réponse rapide et de pensée profonde.
* **VLA de qualité industrielle :** Figure : Helix, 智元:GO-1, Physical Intelligence, pi-0.5, Hi Robot, Nvidia : GROOT-N1, 灵初智能 : Psi-R1, Google DeepMind : Gemini Robotics.
* **Dernières œuvres VLA :** SafeVLA, HybridVLA, DexVLA, DexGraspVLA, UP-VLA, CoT-VLA, UniAct.
“ Grands Modèles Linguistiques (LLM) en Robotique
L'IA incarnée moderne exploite les puissantes capacités de traitement de l'information et de généralisation des grands modèles linguistiques (LLM) pour une meilleure planification robotique.
* **Ressources :**
* **Série :** Robotics+LLM系列通过大语言模型控制机器人.
* **Wikis :** Embodied Agent wiki.
* **Blogs :** Lilian Weng's AI Agent System Overview.
* **Œuvres classiques :**
* **Génération de stratégie de haut niveau :** PaLM-E, DO AS I CAN, NOT AS I SAY, Look Before You Leap, EmbodiedGPT.
* **Planification de stratégie et génération d'action unifiées :** RT-2.
* **Intégration avec des planificateurs traditionnels :** LLM+P, AutoTAMP, Text2Motion.
* **Code comme politique :** Code as Policy, Instruction2Act.
* **Perception visuelle 3D avec les LLM :** VoxPoser, OmniManip.
* **Collaboration multi-robots :** RoCo, Scalable-Multi-Robot.
“ Vision par Ordinateur en IA Incarnée
La vision par ordinateur joue un rôle crucial en permettant aux robots de percevoir et de comprendre leur environnement. Les domaines clés comprennent :
* **Vision 2D :**
* **Modèles classiques :** CNN, ResNet, ViT, Swin Transformer.
* **Modèles génératifs :** Modèles autorégressifs, modèles de diffusion.
* **Vision 3D :**
* **Cours :** Andreas Geiger's 三维视觉导论, GAMES203 - 三维重建和理解.
* **Articles classiques :** Diffusion Model for 2D/3D Generation, 3D生成相关论文-2024.
* **Vision 4D :**
* **Compréhension vidéo :** 开山之作, 论文串讲, LLM时代的视频理解综述.
* **Génération 4D :** Video Generation blog, 4D 生成的论文列表.
* **Prompting visuel :** Une méthode pour guider les grands modèles avec des entrées visuelles.
* **Ancrage des affordances :** Localisation des régions interactives sur les objets.
* **2D :** Cross-View-AG, AffordanceLLM.
* **3D :** OpenAD, SceneFun3D.
“ Outils Matériels et Logiciels
Cette section couvre les outils matériels et logiciels essentiels au développement et au déploiement des systèmes d'IA incarnée.
* **Matériel :**
* **Systèmes embarqués :** Plateformes pour exécuter des algorithmes d'IA sur des robots.
* **Conception mécanique :** Principes de conception de corps robotiques robustes et fonctionnels.
* **Conception de systèmes robotiques :** Intégration de divers composants dans un système cohérent.
* **Capteurs :** Dispositifs pour recueillir des données environnementales (par exemple, caméras, LiDAR).
* **Détection tactile :** Technologies permettant aux robots de sentir et d'interagir avec les objets.
* **Logiciel :**
* **Simulateurs :** Outils pour simuler des environnements et des comportements robotiques (par exemple, MuJoCo, Isaac Lab, SAPIEN, Genesis).
* **Benchmarks :** Tâches standardisées pour évaluer les performances des robots.
* **Ensembles de données :** Collections de données pour l'entraînement et le test des modèles d'IA.
“ Listes d'Articles et Lectures Complémentaires
Explorez des listes organisées d'articles de recherche pour approfondir votre compréhension de sujets spécifiques en IA incarnée :
* **IA Incarnée Générale :** Listes complètes couvrant divers sous-domaines.
* **Sujets Spécifiques :** Listes axées sur des domaines tels que l'apprentissage robotique, la vision par ordinateur et les modèles multimodaux.
“ Conclusion
Ce guide offre un aperçu complet de l'IA incarnée, couvrant les ressources, algorithmes et outils essentiels. En explorant ces domaines, les nouveaux venus peuvent bâtir une base solide et contribuer à l'avancement de ce domaine passionnant. L'avenir de l'IA est incarné, et le voyage commence ici.
Nous utilisons des cookies essentiels au fonctionnement de notre site. Pour améliorer notre site, nous aimerions utiliser des cookies supplémentaires pour nous aider à comprendre comment les visiteurs l'utilisent, mesurer le trafic provenant des plateformes de médias sociaux et personnaliser votre expérience. Certains des cookies que nous utilisons sont fournis par des tiers. Pour accepter tous les cookies, cliquez sur 'Accepter'. Pour rejeter tous les cookies optionnels, cliquez sur 'Rejeter'.
Commentaire(0)