Воплощенный ИИ: Полное руководство по алгоритмам, обучению роботов и моделям VLA
Углубленное обсуждение
Технический
0 0 1
Руководство по воплощенному ИИ предоставляет всесторонний обзор воплощенного интеллекта, подробно описывая основные алгоритмы, инструменты и приложения в робототехнике. Оно призвано помочь новичкам быстро нарастить знания в этой области посредством структурированного контента, включая фундаментальные модели, методы обучения роботов и практические ресурсы для дальнейшего изучения.
основные моменты
уникальные идеи
практическое применение
ключевые темы
ключевые выводы
результаты обучения
• основные моменты
1
Всестороннее освещение концепций и технологий воплощенного ИИ
2
Структурированный контент, облегчающий обучение для новичков
3
Включение практических ресурсов и примеров использования
• уникальные идеи
1
Детальное исследование пересечения больших языковых моделей и робототехники
2
Инновационные подходы к навигации и взаимодействию роботов
• практическое применение
Руководство служит ценным ресурсом для начинающих в области воплощенного ИИ, предоставляя фундаментальные знания и практические идеи для дальнейшего обучения и применения.
• ключевые темы
1
Основы воплощенного интеллекта
2
Алгоритмы обучения роботов
3
Модели «зрение-язык-действие»
• ключевые выводы
1
Структурированный путь для изучения воплощенного ИИ
2
Разнообразные ресурсы для дальнейшего изучения и понимания
3
Акцент на практических применениях в робототехнике
• результаты обучения
1
Понять основы воплощенного интеллекта
2
Изучить различные алгоритмы и инструменты, используемые в робототехнике
3
Получить представление о практических применениях и будущих тенденциях в воплощенном ИИ
Воплощенный ИИ относится к интеллектуальным системам, которые воспринимают и действуют через физическое тело. Эти системы взаимодействуют со своим окружением, чтобы собирать информацию, понимать проблемы, принимать решения и выполнять действия, что приводит к интеллектуальному и адаптивному поведению. Данное руководство предоставляет отправную точку для новичков, чтобы быстро освоить основные технологии, связанные с воплощенным ИИ, понять их возможности решения проблем и получить направление для дальнейшего углубленного изучения.
“ Основные ресурсы для построения знаний в области воплощенного ИИ
Чтобы заложить прочную основу в области воплощенного ИИ, рассмотрите следующие ресурсы:
* **Техническая дорожная карта:** Руководство YunlongDong предлагает фундаментальную техническую дорожную карту.
* **Социальные сети:** Следите за ключевыми аккаунтами на таких платформах, как WeChat (石麻日记, 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub) для получения информации и обновлений.
* **AI-блогеры:** Изучите списки заметных AI-блогеров на таких платформах, как Zhihu.
* **Лаборатории робототехники:** Изучите краткие описания лабораторий робототехники на Zhihu.
* **Конференции и журналы:** Будьте в курсе высококачественных публикаций в Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI и ACL.
* **Введение в робототехнику Стэнфорда:** Посетите веб-сайт Stanford Robotics Introduction для комплексного обучения.
* **Базы знаний:** Вносите вклад и используйте базы знаний, управляемые сообществом.
* **Доски вакансий:** Изучите возможности трудоустройства в области воплощенного ИИ.
* **Исследователи с высоким влиянием:** Следите за списками влиятельных исследователей в этой области.
* **Сообщества:** Присоединяйтесь к сообществам, таким как Lumina, DeepTimber, 宇树, Simulately, HuggingFace LeRobot и K-scale labs.
“ Алгоритмы для воплощенного ИИ
Этот раздел охватывает основные алгоритмы и инструменты, используемые в воплощенном ИИ.
* **Общие инструменты:**
* **Уменьшение дискретизации облаков точек:** Такие методы, как случайная, равномерная, по дальним точкам и по нормальному пространству, имеют решающее значение для оптимизации 3D-приложений.
* **Калибровка глаз-рука:** Важна для определения относительных положений между камерами и роботизированными манипуляторами, классифицируется как eye-on-hand (глаз на руке) и eye-outside-hand (глаз вне руки).
* **Фундаментальные модели зрения:**
* **CLIP:** Разработан OpenAI, CLIP вычисляет сходство между изображениями и текстовыми описаниями, а его промежуточные визуальные признаки очень полезны для различных последующих приложений.
* **DINO:** От Meta, DINO предоставляет высокоуровневые визуальные признаки изображений, помогая извлекать соответствующую информацию.
* **SAM (Segment Anything Model):** Также от Meta, SAM сегментирует объекты на изображениях на основе подсказок или ограничивающих рамок.
* **SAM2:** Обновленная версия SAM, способная к непрерывной сегментации и отслеживанию объектов в видео.
* **Grounding-DINO:** Фреймворк для обнаружения объектов на изображениях, разработанный IDEA Research, полезен для обнаружения целевых объектов.
* **OmDet-Turbo:** Исследовательский проект с открытым исходным кодом от OmAI Lab, предлагающий обнаружение объектов с открытым словарем (OVD) с высокой скоростью инференса.
* **Grounded-SAM:** Расширяет Grounding-DINO возможностями сегментации, поддерживая обнаружение и последующую сегментацию.
* **FoundationPose:** Модель отслеживания позы от Nvidia.
* **Stable Diffusion:** Модель преобразования текста в изображение, которая может генерировать целевые изображения и предоставлять промежуточные признаки для последующих приложений.
* **Depth Anything (v1 & v2):** Модели оценки монокулярной глубины от Университета Гонконга и ByteDance.
* **Point Transformer (v3):** Работа по извлечению признаков облаков точек.
* **RDT-1B:** Фундаментальная модель для двуручной манипуляции роботами от Университета Цинхуа.
* **SigLIP:** Подобно CLIP, предлагает мультимодальные возможности.
“ Методы обучения роботов
Обучение роботов охватывает различные методы, которые позволяют роботам учиться на опыте и улучшать свою производительность. Ключевые методы включают:
* **Модельно-предиктивное управление (MPC):** Продвинутая стратегия управления, которая использует динамическую модель системы для прогнозирования будущего поведения в течение конечного временного горизонта. MPC оптимизирует управляющие воздействия, решая задачу оптимизации для соответствия критериям производительности и ограничениям. Ресурсы включают:
* **Вводные видео:** Model Predictive Control от Huagong Robotics Laboratory.
* **Теоретические основы:** Model predictive control: Theory and practice—A survey.
* **Нелинейное MPC:** An Introduction to Nonlinear Model Predictive Control.
* **Явное MPC:** The explicit linear quadratic regulator for constrained systems.
* **Робастное MPC:** Predictive End-Effector Control of Manipulators on Moving Platforms Under Disturbance and Min-max feedback model predictive control for constrained linear systems.
* **Обучаемое MPC:** Learning-Based Model Predictive Control for Safe Exploration and Confidence-Aware Object Capture for a Manipulator Subject to Floating-Base Disturbances.
* **Обучение с подкреплением (RL):** Парадигма обучения, в которой агент учится принимать решения, взаимодействуя со средой для максимизации сигнала вознаграждения. Ресурсы включают:
* **Математические принципы:** Reinforcement Learning от Zhao Shiyu в Westlake University.
* **Курсы по глубокому обучению с подкреплением:** The Foundations of Deep RL in 6 Lectures, UC Berkeley CS285, и курсы от Li Hongyi.
* **Практическая реализация:** Gymnasium для практического опыта.
* **Обучение по имитации:** Метод, при котором робот учится, наблюдая и имитируя демонстрации экспертов. Ресурсы включают:
* **Учебные пособия:** 《模仿学习简洁教程》 от Nanjing University LAMDA и Supervised Policy Learning for Real Robots, RSS 2024 Workshop.
“ Модели «Зрение-Язык-Действие» (VLA)
Модели «Зрение-Язык-Действие» (VLA) интегрируют модели «Зрение-Язык» (VLM) с управлением роботом для генерации действий робота непосредственно из предварительно обученных VLM. Эти модели токенизируют действия и дообучают VLM без необходимости новых архитектур.
* **Ключевые характеристики:** Сквозные, LLM/VLM-основы, предварительно обученные модели.
* **Категоризация:** Структура и размер модели, стратегии предварительного обучения и дообучения, наборы данных, входные и выходные данные, сценарии применения.
* **Ресурсы:**
* **Блоги:** 具身智能Vision-Language-Action的思考.
* **Обзоры:** A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28.
* **Классические работы:**
* **Авторегрессионные модели:** Серия RT (RT-1, RT-2, RT-Trajectory, AUTORT), RoboFlamingo, OpenVLA, TinyVLA, TraceVLA.
* **Диффузионные модели для блока действий:** Octo, π0, CogACT, Diffusion-VLA.
* **3D-зрение:** 3D-VLA, SpatialVLA.
* **Связанные с VLA:** FAST (π0), RLDG, BYO-VLA.
* **Различные типы передвижения:** RDT-1B (двуручный), QUAR-VLA (четвероногий), CoVLA (автономное вождение), Mobility-VLA (навигация), NaVILA (навигация шагающего робота).
* **Двухсистемные иерархические VLA:**
* Модели, такие как Hi-Robot и pi-0.5, используют иерархические архитектуры для имитации механизмов быстрой реакции и глубокого мышления человека.
* **Промышленные VLA:** Figure: Helix, 智元:GO-1, Physical Intelligence, pi-0.5, Hi Robot, Nvidia: GROOT-N1, 灵初智能:Psi-R1, Google DeepMind: Gemini Robotics.
* **Последние работы в области VLA:** SafeVLA, HybridVLA, DexVLA, DexGraspVLA, UP-VLA, CoT-VLA, UniAct.
“ Большие языковые модели (LLM) в робототехнике
Современный воплощенный ИИ использует мощные возможности обработки информации и обобщения больших языковых моделей (LLM) для лучшего планирования роботов.
* **Ресурсы:**
* **Серия:** Robotics+LLM系列通过大语言模型控制机器人.
* **Вики:** Embodied Agent wiki.
* **Блоги:** Lilian Weng's AI Agent System Overview.
* **Классические работы:**
* **Генерация высокоуровневых стратегий:** PaLM-E, DO AS I CAN, NOT AS I SAY, Look Before You Leap, EmbodiedGPT.
* **Единое планирование стратегий и генерация действий:** RT-2.
* **Интеграция с традиционными планировщиками:** LLM+P, AutoTAMP, Text2Motion.
* **Код как политика:** Code as Policy, Instruction2Act.
* **3D визуальное восприятие с LLM:** VoxPoser, OmniManip.
* **Сотрудничество нескольких роботов:** RoCo, Scalable-Multi-Robot.
“ Компьютерное зрение в воплощенном ИИ
Компьютерное зрение играет решающую роль в обеспечении способности роботов воспринимать и понимать свое окружение. Ключевые области включают:
* **2D-зрение:**
* **Классические модели:** CNN, ResNet, ViT, Swin Transformer.
* **Генеративные модели:** Авторегрессионные модели, диффузионные модели.
* **3D-зрение:**
* **Курсы:** Andreas Geiger's 三维视觉导论, GAMES203 - 三维重建和理解.
* **Классические статьи:** Diffusion Model for 2D/3D Generation, 3D生成相关论文-2024.
* **4D-зрение:**
* **Понимание видео:** 开山之作, 论文串讲, LLM时代的视频理解综述.
* **4D-генерация:** Video Generation blog, 4D 生成的论文列表.
* **Визуальное промптингование:** Метод направления больших моделей с помощью визуальных входных данных.
* **Определение аффордансов:** Определение интерактивных областей на объектах.
* **2D:** Cross-View-AG, AffordanceLLM.
* **3D:** OpenAD, SceneFun3D.
“ Аппаратные и программные средства
Этот раздел охватывает аппаратные и программные средства, необходимые для разработки и развертывания систем воплощенного ИИ.
* **Аппаратное обеспечение:**
* **Встроенные системы:** Платформы для запуска алгоритмов ИИ на роботах.
* **Механический дизайн:** Принципы проектирования прочных и функциональных корпусов роботов.
* **Проектирование систем роботов:** Интеграция различных компонентов в единую систему.
* **Датчики:** Устройства для сбора данных об окружающей среде (например, камеры, LiDAR).
* **Тактильные датчики:** Технологии, позволяющие роботам ощущать объекты и взаимодействовать с ними.
* **Программное обеспечение:**
* **Симуляторы:** Инструменты для моделирования сред и поведения роботов (например, MuJoCo, Isaac Lab, SAPIEN, Genesis).
* **Бенчмарки:** Стандартизированные задачи для оценки производительности роботов.
* **Наборы данных:** Коллекции данных для обучения и тестирования моделей ИИ.
“ Списки статей и дополнительное чтение
Изучите curated списки исследовательских работ, чтобы углубить свое понимание конкретных тем в области воплощенного ИИ:
* **Общий воплощенный ИИ:** Комплексные списки, охватывающие различные подобласти.
* **Конкретные темы:** Списки, посвященные таким областям, как обучение роботов, компьютерное зрение и мультимодальные модели.
“ Заключение
Данное руководство предоставляет всесторонний обзор воплощенного ИИ, охватывая основные ресурсы, алгоритмы и инструменты. Изучая эти области, новички могут заложить прочную основу и внести свой вклад в развитие этой захватывающей области. Будущее ИИ воплощено, и путешествие начинается здесь.
Мы используем файлы cookie, необходимые для работы нашего сайта. Чтобы улучшить наш сайт, мы хотели бы использовать дополнительные файлы cookie, которые помогут нам понять, как посетители используют его, измерить трафик на наш сайт из социальных сетей и персонализировать ваш опыт. Некоторые из используемых нами файлов cookie предоставляются третьими сторонами. Чтобы принять все файлы cookie, нажмите 'Принять'. Чтобы отклонить все необязательные файлы cookie, нажмите 'Отклонить'.
Комментарий(0)