Логотип AiToolGo

Воплощенный ИИ: Полное руководство по алгоритмам, обучению роботов и моделям VLA

Углубленное обсуждение
Технический
 0
 0
 1
Руководство по воплощенному ИИ предоставляет всесторонний обзор воплощенного интеллекта, подробно описывая основные алгоритмы, инструменты и приложения в робототехнике. Оно призвано помочь новичкам быстро нарастить знания в этой области посредством структурированного контента, включая фундаментальные модели, методы обучения роботов и практические ресурсы для дальнейшего изучения.
  • основные моменты
  • уникальные идеи
  • практическое применение
  • ключевые темы
  • ключевые выводы
  • результаты обучения
  • основные моменты

    • 1
      Всестороннее освещение концепций и технологий воплощенного ИИ
    • 2
      Структурированный контент, облегчающий обучение для новичков
    • 3
      Включение практических ресурсов и примеров использования
  • уникальные идеи

    • 1
      Детальное исследование пересечения больших языковых моделей и робототехники
    • 2
      Инновационные подходы к навигации и взаимодействию роботов
  • практическое применение

    • Руководство служит ценным ресурсом для начинающих в области воплощенного ИИ, предоставляя фундаментальные знания и практические идеи для дальнейшего обучения и применения.
  • ключевые темы

    • 1
      Основы воплощенного интеллекта
    • 2
      Алгоритмы обучения роботов
    • 3
      Модели «зрение-язык-действие»
  • ключевые выводы

    • 1
      Структурированный путь для изучения воплощенного ИИ
    • 2
      Разнообразные ресурсы для дальнейшего изучения и понимания
    • 3
      Акцент на практических применениях в робототехнике
  • результаты обучения

    • 1
      Понять основы воплощенного интеллекта
    • 2
      Изучить различные алгоритмы и инструменты, используемые в робототехнике
    • 3
      Получить представление о практических применениях и будущих тенденциях в воплощенном ИИ
примеры
учебные пособия
примеры кода
визуальные материалы
основы
продвинутый контент
практические советы
лучшие практики

Введение в воплощенный ИИ

Воплощенный ИИ относится к интеллектуальным системам, которые воспринимают и действуют через физическое тело. Эти системы взаимодействуют со своим окружением, чтобы собирать информацию, понимать проблемы, принимать решения и выполнять действия, что приводит к интеллектуальному и адаптивному поведению. Данное руководство предоставляет отправную точку для новичков, чтобы быстро освоить основные технологии, связанные с воплощенным ИИ, понять их возможности решения проблем и получить направление для дальнейшего углубленного изучения.

Основные ресурсы для построения знаний в области воплощенного ИИ

Чтобы заложить прочную основу в области воплощенного ИИ, рассмотрите следующие ресурсы: * **Техническая дорожная карта:** Руководство YunlongDong предлагает фундаментальную техническую дорожную карту. * **Социальные сети:** Следите за ключевыми аккаунтами на таких платформах, как WeChat (石麻日记, 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub) для получения информации и обновлений. * **AI-блогеры:** Изучите списки заметных AI-блогеров на таких платформах, как Zhihu. * **Лаборатории робототехники:** Изучите краткие описания лабораторий робототехники на Zhihu. * **Конференции и журналы:** Будьте в курсе высококачественных публикаций в Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI и ACL. * **Введение в робототехнику Стэнфорда:** Посетите веб-сайт Stanford Robotics Introduction для комплексного обучения. * **Базы знаний:** Вносите вклад и используйте базы знаний, управляемые сообществом. * **Доски вакансий:** Изучите возможности трудоустройства в области воплощенного ИИ. * **Исследователи с высоким влиянием:** Следите за списками влиятельных исследователей в этой области. * **Сообщества:** Присоединяйтесь к сообществам, таким как Lumina, DeepTimber, 宇树, Simulately, HuggingFace LeRobot и K-scale labs.

Алгоритмы для воплощенного ИИ

Этот раздел охватывает основные алгоритмы и инструменты, используемые в воплощенном ИИ. * **Общие инструменты:** * **Уменьшение дискретизации облаков точек:** Такие методы, как случайная, равномерная, по дальним точкам и по нормальному пространству, имеют решающее значение для оптимизации 3D-приложений. * **Калибровка глаз-рука:** Важна для определения относительных положений между камерами и роботизированными манипуляторами, классифицируется как eye-on-hand (глаз на руке) и eye-outside-hand (глаз вне руки). * **Фундаментальные модели зрения:** * **CLIP:** Разработан OpenAI, CLIP вычисляет сходство между изображениями и текстовыми описаниями, а его промежуточные визуальные признаки очень полезны для различных последующих приложений. * **DINO:** От Meta, DINO предоставляет высокоуровневые визуальные признаки изображений, помогая извлекать соответствующую информацию. * **SAM (Segment Anything Model):** Также от Meta, SAM сегментирует объекты на изображениях на основе подсказок или ограничивающих рамок. * **SAM2:** Обновленная версия SAM, способная к непрерывной сегментации и отслеживанию объектов в видео. * **Grounding-DINO:** Фреймворк для обнаружения объектов на изображениях, разработанный IDEA Research, полезен для обнаружения целевых объектов. * **OmDet-Turbo:** Исследовательский проект с открытым исходным кодом от OmAI Lab, предлагающий обнаружение объектов с открытым словарем (OVD) с высокой скоростью инференса. * **Grounded-SAM:** Расширяет Grounding-DINO возможностями сегментации, поддерживая обнаружение и последующую сегментацию. * **FoundationPose:** Модель отслеживания позы от Nvidia. * **Stable Diffusion:** Модель преобразования текста в изображение, которая может генерировать целевые изображения и предоставлять промежуточные признаки для последующих приложений. * **Depth Anything (v1 & v2):** Модели оценки монокулярной глубины от Университета Гонконга и ByteDance. * **Point Transformer (v3):** Работа по извлечению признаков облаков точек. * **RDT-1B:** Фундаментальная модель для двуручной манипуляции роботами от Университета Цинхуа. * **SigLIP:** Подобно CLIP, предлагает мультимодальные возможности.

Методы обучения роботов

Обучение роботов охватывает различные методы, которые позволяют роботам учиться на опыте и улучшать свою производительность. Ключевые методы включают: * **Модельно-предиктивное управление (MPC):** Продвинутая стратегия управления, которая использует динамическую модель системы для прогнозирования будущего поведения в течение конечного временного горизонта. MPC оптимизирует управляющие воздействия, решая задачу оптимизации для соответствия критериям производительности и ограничениям. Ресурсы включают: * **Вводные видео:** Model Predictive Control от Huagong Robotics Laboratory. * **Теоретические основы:** Model predictive control: Theory and practice—A survey. * **Нелинейное MPC:** An Introduction to Nonlinear Model Predictive Control. * **Явное MPC:** The explicit linear quadratic regulator for constrained systems. * **Робастное MPC:** Predictive End-Effector Control of Manipulators on Moving Platforms Under Disturbance and Min-max feedback model predictive control for constrained linear systems. * **Обучаемое MPC:** Learning-Based Model Predictive Control for Safe Exploration and Confidence-Aware Object Capture for a Manipulator Subject to Floating-Base Disturbances. * **Обучение с подкреплением (RL):** Парадигма обучения, в которой агент учится принимать решения, взаимодействуя со средой для максимизации сигнала вознаграждения. Ресурсы включают: * **Математические принципы:** Reinforcement Learning от Zhao Shiyu в Westlake University. * **Курсы по глубокому обучению с подкреплением:** The Foundations of Deep RL in 6 Lectures, UC Berkeley CS285, и курсы от Li Hongyi. * **Практическая реализация:** Gymnasium для практического опыта. * **Обучение по имитации:** Метод, при котором робот учится, наблюдая и имитируя демонстрации экспертов. Ресурсы включают: * **Учебные пособия:** 《模仿学习简洁教程》 от Nanjing University LAMDA и Supervised Policy Learning for Real Robots, RSS 2024 Workshop.

Модели «Зрение-Язык-Действие» (VLA)

Модели «Зрение-Язык-Действие» (VLA) интегрируют модели «Зрение-Язык» (VLM) с управлением роботом для генерации действий робота непосредственно из предварительно обученных VLM. Эти модели токенизируют действия и дообучают VLM без необходимости новых архитектур. * **Ключевые характеристики:** Сквозные, LLM/VLM-основы, предварительно обученные модели. * **Категоризация:** Структура и размер модели, стратегии предварительного обучения и дообучения, наборы данных, входные и выходные данные, сценарии применения. * **Ресурсы:** * **Блоги:** 具身智能Vision-Language-Action的思考. * **Обзоры:** A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28. * **Классические работы:** * **Авторегрессионные модели:** Серия RT (RT-1, RT-2, RT-Trajectory, AUTORT), RoboFlamingo, OpenVLA, TinyVLA, TraceVLA. * **Диффузионные модели для блока действий:** Octo, π0, CogACT, Diffusion-VLA. * **3D-зрение:** 3D-VLA, SpatialVLA. * **Связанные с VLA:** FAST (π0), RLDG, BYO-VLA. * **Различные типы передвижения:** RDT-1B (двуручный), QUAR-VLA (четвероногий), CoVLA (автономное вождение), Mobility-VLA (навигация), NaVILA (навигация шагающего робота). * **Двухсистемные иерархические VLA:** * Модели, такие как Hi-Robot и pi-0.5, используют иерархические архитектуры для имитации механизмов быстрой реакции и глубокого мышления человека. * **Промышленные VLA:** Figure: Helix, 智元:GO-1, Physical Intelligence, pi-0.5, Hi Robot, Nvidia: GROOT-N1, 灵初智能:Psi-R1, Google DeepMind: Gemini Robotics. * **Последние работы в области VLA:** SafeVLA, HybridVLA, DexVLA, DexGraspVLA, UP-VLA, CoT-VLA, UniAct.

Большие языковые модели (LLM) в робототехнике

Современный воплощенный ИИ использует мощные возможности обработки информации и обобщения больших языковых моделей (LLM) для лучшего планирования роботов. * **Ресурсы:** * **Серия:** Robotics+LLM系列通过大语言模型控制机器人. * **Вики:** Embodied Agent wiki. * **Блоги:** Lilian Weng's AI Agent System Overview. * **Классические работы:** * **Генерация высокоуровневых стратегий:** PaLM-E, DO AS I CAN, NOT AS I SAY, Look Before You Leap, EmbodiedGPT. * **Единое планирование стратегий и генерация действий:** RT-2. * **Интеграция с традиционными планировщиками:** LLM+P, AutoTAMP, Text2Motion. * **Код как политика:** Code as Policy, Instruction2Act. * **3D визуальное восприятие с LLM:** VoxPoser, OmniManip. * **Сотрудничество нескольких роботов:** RoCo, Scalable-Multi-Robot.

Компьютерное зрение в воплощенном ИИ

Компьютерное зрение играет решающую роль в обеспечении способности роботов воспринимать и понимать свое окружение. Ключевые области включают: * **2D-зрение:** * **Классические модели:** CNN, ResNet, ViT, Swin Transformer. * **Генеративные модели:** Авторегрессионные модели, диффузионные модели. * **3D-зрение:** * **Курсы:** Andreas Geiger's 三维视觉导论, GAMES203 - 三维重建和理解. * **Классические статьи:** Diffusion Model for 2D/3D Generation, 3D生成相关论文-2024. * **4D-зрение:** * **Понимание видео:** 开山之作, 论文串讲, LLM时代的视频理解综述. * **4D-генерация:** Video Generation blog, 4D 生成的论文列表. * **Визуальное промптингование:** Метод направления больших моделей с помощью визуальных входных данных. * **Определение аффордансов:** Определение интерактивных областей на объектах. * **2D:** Cross-View-AG, AffordanceLLM. * **3D:** OpenAD, SceneFun3D.

Аппаратные и программные средства

Этот раздел охватывает аппаратные и программные средства, необходимые для разработки и развертывания систем воплощенного ИИ. * **Аппаратное обеспечение:** * **Встроенные системы:** Платформы для запуска алгоритмов ИИ на роботах. * **Механический дизайн:** Принципы проектирования прочных и функциональных корпусов роботов. * **Проектирование систем роботов:** Интеграция различных компонентов в единую систему. * **Датчики:** Устройства для сбора данных об окружающей среде (например, камеры, LiDAR). * **Тактильные датчики:** Технологии, позволяющие роботам ощущать объекты и взаимодействовать с ними. * **Программное обеспечение:** * **Симуляторы:** Инструменты для моделирования сред и поведения роботов (например, MuJoCo, Isaac Lab, SAPIEN, Genesis). * **Бенчмарки:** Стандартизированные задачи для оценки производительности роботов. * **Наборы данных:** Коллекции данных для обучения и тестирования моделей ИИ.

Списки статей и дополнительное чтение

Изучите curated списки исследовательских работ, чтобы углубить свое понимание конкретных тем в области воплощенного ИИ: * **Общий воплощенный ИИ:** Комплексные списки, охватывающие различные подобласти. * **Конкретные темы:** Списки, посвященные таким областям, как обучение роботов, компьютерное зрение и мультимодальные модели.

Заключение

Данное руководство предоставляет всесторонний обзор воплощенного ИИ, охватывая основные ресурсы, алгоритмы и инструменты. Изучая эти области, новички могут заложить прочную основу и внести свой вклад в развитие этой захватывающей области. Будущее ИИ воплощено, и путешествие начинается здесь.

 Оригинальная ссылка: https://github.com/TianxingChen/Embodied-AI-Guide

Комментарий(0)

user's avatar

      Похожие учебные материалы

      Связанные инструменты