具身AI：算法、机器人学习和VLA模型的全面指南

深入讨论

技术性

《具身AI指南》全面概述了具身智能，详细介绍了机器人学中的必备算法、工具和应用。它旨在通过结构化的内容，包括基础模型、机器人学习技术以及用于进一步探索的实用资源，帮助初学者快速建立在该领域的知识。

主要观点
独特见解
实际应用
关键主题
核心洞察
学习成果

• 主要观点
- 1
  全面涵盖具身AI的概念和技术
- 2
  结构化内容，便于初学者学习
- 3
  包含实用资源和案例研究
• 独特见解
- 1
  深入探讨大型语言模型与机器人学的交叉领域
- 2
  机器人导航和交互的创新方法
• 实际应用
- 该指南为具身AI领域的初学者提供了宝贵的资源，提供了基础知识和实用见解，以促进进一步的学习和应用。
• 关键主题
- 1
  具身智能基础
- 2
  机器人学习算法
- 3
  视觉-语言-动作模型
• 核心洞察
- 1
  结构化的具身AI学习路径
- 2
  用于进一步探索和理解的多样化资源
- 3
  侧重于机器人学的实际应用
• 学习成果
- 1
  理解具身智能的基础知识
- 2
  探索机器人学中使用的各种算法和工具
- 3
  深入了解具身AI的实际应用和未来趋势

示例	教程	代码示例	可视化内容
基础知识	高级内容	实用技巧	最佳实践

具身AI（Embodied AI）是指通过物理实体来感知和行动的智能系统。这些系统与环境互动，收集信息，理解问题，做出决策并执行动作，从而产生智能和适应性行为。本指南为初学者提供了一个快速掌握具身AI核心技术、理解其解决问题能力并为未来深入探索指明方向的入口。

“ 构建具身AI知识的必备资源

为了在具身AI领域打下坚实的基础，请考虑以下资源： * **技术路线图：** YunlongDong 的指南提供了一个基础技术路线图。 * **社交媒体：** 在微信等平台关注关键账号（石麻日记、机器之心、新智元、量子位、Xbot具身知识库、具身智能之心、自动驾驶之心、3D视觉工坊、将门创投、RLCN强化学习研究、CVHub），以获取见解和最新动态。 * **AI博主：** 探索知乎等平台上值得关注的AI博主列表。 * **机器人实验室：** 研究知乎上机器人实验室的总结。 * **会议和期刊：** 关注Science Robotics、TRO、IJRR、JFR、RSS、IROS、ICRA、ICCV、ECCV、ICML、CVPR、NIPS、ICLR、AAAI和ACL等高质量出版物。 * **斯坦福机器人导论：** 访问斯坦福机器人导论网站进行全面学习。 * **知识库：** 贡献并利用社区驱动的知识库。 * **招聘信息：** 探索具身AI领域的就业机会。 * **高影响力研究者：** 关注该领域有影响力的研究者列表。 * **社区：** 加入Lumina、DeepTimber、宇树、Simulately、HuggingFace LeRobot和K-scale labs等社区。

“ 具身AI算法

本节涵盖了具身AI中使用的基本算法和工具。 * **常用工具：** * **点云降采样：** 随机、均匀、最远点和法向空间降采样等技术对于优化3D应用至关重要。 * **眼手标定（Eye-Hand Calibration）：** 对于确定相机和机械臂之间的相对位置至关重要，分为眼在手上（eye-on-hand）和眼在手外（eye-outside-hand）两种。 * **视觉基础模型：** * **CLIP：** 由OpenAI开发，CLIP计算图像和语言描述之间的相似度，其中间视觉特征对各种下游应用非常有益。 * **DINO：** 来自Meta，DINO提供图像的高级视觉特征，有助于提取相关信息。 * **SAM（Segment Anything Model）：** 也来自Meta，SAM根据提示或边界框分割图像中的对象。 * **SAM2：** SAM的升级版本，能够实现视频中对象的连续分割和跟踪。 * **Grounding-DINO：** IDEA Research开发的图像目标检测框架，可用于检测目标对象。 * **OmDet-Turbo：** OmAI Lab的开源研究项目，提供高推理速度的开放词汇目标检测（OVD）。 * **Grounded-SAM：** 扩展了Grounding-DINO的分割能力，支持检测和后续分割。 * **FoundationPose：** Nvidia的姿态跟踪模型。 * **Stable Diffusion：** 一种文本到图像模型，可以生成目标图像并为下游应用提供中间层特征。 * **Depth Anything (v1 & v2)：** 来自香港大学和字节跳动的单目深度估计模型。 * **Point Transformer (v3)：** 一项关于点云特征提取的工作。 * **RDT-1B：** 来自清华大学的机器人双臂操作基础模型。 * **SigLIP：** 类似于CLIP，提供多模态能力。

“ 机器人学习技术

机器人学习（Robot Learning）涵盖了使机器人能够从经验中学习并提高其性能的各种技术。关键方法包括： * **模型预测控制（MPC）：** 一种先进的控制策略，利用系统的动态模型在有限的时间范围内预测未来行为。MPC通过解决优化问题来优化控制输入，以满足性能标准和约束。相关资源包括： * **入门视频：** 华工机器人实验室的模型预测控制视频。 * **理论基础：** 《Model predictive control: Theory and practice—A survey》。 * **非线性MPC：** 《An Introduction to Nonlinear Model Predictive Control》。 * **显式MPC：** 《The explicit linear quadratic regulator for constrained systems》。 * **鲁棒MPC：** 《Predictive End-Effector Control of Manipulators on Moving Platforms Under Disturbance》和《Min-max feedback model predictive control for constrained linear systems》。 * **基于学习的MPC：** 《Learning-Based Model Predictive Control for Safe Exploration and Confidence-Aware Object Capture for a Manipulator Subject to Floating-Base Disturbances》。 * **强化学习（RL）：** 一种学习范式，代理通过与环境互动来学习做出决策，以最大化奖励信号。相关资源包括： * **数学原理：** 西湖大学赵士宇的《Reinforcement Learning》。 * **深度强化学习课程：** 《The Foundations of Deep RL in 6 Lectures》、UC Berkeley CS285课程以及李宏毅的课程。 * **实践实现：** Gymnasium用于动手实践。 * **模仿学习（Imitation Learning）：** 一种机器人通过观察和模仿专家演示来学习的方法。相关资源包括： * **教程：** 南京大学LAMDA的《模仿学习简洁教程》以及RSS 2024研讨会的《Supervised Policy Learning for Real Robots》。

“ 视觉-语言-动作（VLA）模型

视觉-语言-动作模型（VLA Models）将视觉-语言模型（VLMs）与机器人控制相结合，直接从预训练的VLMs生成机器人动作。这些模型对动作进行分词（tokenize），并在无需新架构的情况下微调VLMs。 * **关键特征：** 端到端、LLM/VLM骨干、预训练模型。 * **分类：** 模型结构与大小、预训练与微调策略、数据集、输入与输出、应用场景。 * **资源：** * **博客：** 具身智能Vision-Language-Action的思考。 * **综述：** 《A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28》。 * **经典工作：** * **自回归模型：** RT系列（RT-1、RT-2、RT-Trajectory、AUTORT）、RoboFlamingo、OpenVLA、TinyVLA、TraceVLA。 * **用于动作头的扩散模型：** Octo、π0、CogACT、Diffusion-VLA。 * **3D视觉：** 3D-VLA、SpatialVLA。 * **VLA相关：** FAST（π0）、RLDG、BYO-VLA。 * **不同运动方式：** RDT-1B（双臂）、QUAR-VLA（四足）、CoVLA（自动驾驶）、Mobility-VLA（导航）、NaVILA（腿式机器人导航）。 * **双系统分层VLA：** * Hi-Robot和pi-0.5等模型采用分层架构来模仿人类快速响应和深度思考机制。 * **工业级VLA：** Figure: Helix、智元：GO-1、Physical Intelligence、pi-0.5、Hi Robot、Nvidia: GROOT-N1、灵初智能：Psi-R1、Google DeepMind: Gemini Robotics。 * **最新VLA工作：** SafeVLA、HybridVLA、DexVLA、DexGraspVLA、UP-VLA、CoT-VLA、UniAct。

“ 机器人学中的大型语言模型（LLMs）

现代具身AI利用大型语言模型（LLMs）强大的信息处理和泛化能力，以实现更好的机器人规划。 * **资源：** * **系列：** Robotics+LLM系列通过大语言模型控制机器人。 * **维基：** Embodied Agent wiki。 * **博客：** Lilian Weng的AI Agent System Overview。 * **经典工作：** * **高级策略生成：** PaLM-E、DO AS I CAN, NOT AS I SAY、Look Before You Leap、EmbodiedGPT。 * **统一策略规划与动作生成：** RT-2。 * **与传统规划器集成：** LLM+P、AutoTAMP、Text2Motion。 * **代码即策略（Code as Policy）：** Code as Policy、Instruction2Act。 * **LLM的3D视觉感知：** VoxPoser、OmniManip。 * **多机器人协作：** RoCo、Scalable-Multi-Robot。

“ 具身AI中的计算机视觉

计算机视觉在使机器人能够感知和理解其环境方面发挥着至关重要的作用。关键领域包括： * **2D视觉：** * **经典模型：** CNN、ResNet、ViT、Swin Transformer。 * **生成模型：** 自回归模型、扩散模型。 * **3D视觉：** * **课程：** Andreas Geiger的《三维视觉导论》、GAMES203 - 《三维重建和理解》。 * **经典论文：** 《Diffusion Model for 2D/3D Generation》、《3D生成相关论文-2024》。 * **4D视觉：** * **视频理解：** 开山之作、论文串讲、LLM时代的视频理解综述。 * **4D生成：** Video Generation blog、4D 生成的论文列表。 * **视觉提示（Visual Prompting）：** 一种通过视觉输入引导大型模型的方法。 * **可供性接地（Affordance Grounding）：** 定位物体上可交互的区域。 * **2D：** Cross-View-AG、AffordanceLLM。 * **3D：** OpenAD、SceneFun3D。

“ 硬件和软件工具

本节涵盖了开发和部署具身AI系统所需的硬件和软件工具。 * **硬件：** * **嵌入式系统：** 用于在机器人上运行AI算法的平台。 * **机械设计：** 设计坚固耐用且功能齐全的机器人身体的原理。 * **机器人系统设计：** 将各种组件集成到统一系统中的设计。 * **传感器：** 用于收集环境数据的设备（例如，相机、激光雷达）。 * **触觉传感：** 使机器人能够感知和与物体交互的技术。 * **软件：** * **模拟器：** 用于模拟机器人环境和行为的工具（例如，MuJoCo、Isaac Lab、SAPIEN、Genesis）。 * **基准测试（Benchmarks）：** 用于评估机器人性能的标准任务。 * **数据集：** 用于训练和测试AI模型的各种数据集合。

“ 论文列表和进一步阅读

探索精选的研究论文列表，以加深您对具身AI特定主题的理解： * **通用具身AI：** 涵盖各个子领域的综合列表。 * **特定主题：** 侧重于机器人学习、计算机视觉和多模态模型等领域的列表。

“ 结论

本指南全面概述了具身AI，涵盖了必备资源、算法和工具。通过探索这些领域，初学者可以打下坚实的基础，并为该激动人心的领域的发展做出贡献。AI的未来是具身的，而旅程始于此。

原始链接：https://github.com/TianxingChen/Embodied-AI-Guide

降序

具身AI：算法、机器人学习和VLA模型的全面指南

• 主要观点

• 独特见解

• 实际应用

• 关键主题

• 核心洞察

• 学习成果

目录

“ 具身AI简介

“ 构建具身AI知识的必备资源

“ 具身AI算法

“ 机器人学习技术

“ 视觉-语言-动作（VLA）模型

“ 机器人学中的大型语言模型（LLMs）

“ 具身AI中的计算机视觉

“ 硬件和软件工具

“ 论文列表和进一步阅读

“ 结论

评论(0)

相似学习

掌握 OpenAI API：使用 Python 的 GPT-3.5 和 GPT-4 综合指南

Luma AI：通过视觉AI创新变革3D建模

最大化Feedly PIR蓝图以实现有效的威胁情报

掌握AI操作：优化提示以获取有效见解的指南

网络安全中有效威胁建模的实用步骤

掌握 Seaborn 热图以实现有效的数据可视化

相关工具

Gemini

Grok

DeepSeek

Perplexity AI

Claude

Salesforce Einstein