AiToolGo का लोगो

एम्बेडेड AI: एल्गोरिदम, रोबोट लर्निंग और VLA मॉडल का एक व्यापक गाइड

गहन चर्चा
तकनीकी
 0
 0
 1
एम्बेडेड AI गाइड सन्निहित बुद्धिमत्ता का एक व्यापक अवलोकन प्रदान करता है, जिसमें रोबोटिक्स में आवश्यक एल्गोरिदम, उपकरण और अनुप्रयोगों का विवरण दिया गया है। इसका उद्देश्य नए लोगों को संरचित सामग्री के माध्यम से क्षेत्र में ज्ञान का तेजी से निर्माण करने में मदद करना है, जिसमें मूलभूत मॉडल, रोबोट लर्निंग तकनीकें और आगे के अन्वेषण के लिए व्यावहारिक संसाधन शामिल हैं।
  • मुख्य बिंदु
  • अनूठी अंतर्दृष्टि
  • व्यावहारिक अनुप्रयोग
  • प्रमुख विषय
  • प्रमुख अंतर्दृष्टि
  • लर्निंग परिणाम
  • मुख्य बिंदु

    • 1
      एम्बेडेड AI अवधारणाओं और प्रौद्योगिकियों का व्यापक कवरेज
    • 2
      नए लोगों के लिए सीखने की सुविधा प्रदान करने वाली संरचित सामग्री
    • 3
      व्यावहारिक संसाधनों और केस स्टडीज का समावेश
  • अनूठी अंतर्दृष्टि

    • 1
      बड़े भाषा मॉडल और रोबोटिक्स के बीच संबंध का विस्तृत अन्वेषण
    • 2
      रोबोट नेविगेशन और इंटरैक्शन के लिए अभिनव दृष्टिकोण
  • व्यावहारिक अनुप्रयोग

    • यह गाइड एम्बेडेड AI में शुरुआती लोगों के लिए एक मूल्यवान संसाधन के रूप में कार्य करता है, जो आगे सीखने और अनुप्रयोग को सुविधाजनक बनाने के लिए मूलभूत ज्ञान और व्यावहारिक अंतर्दृष्टि प्रदान करता है।
  • प्रमुख विषय

    • 1
      एम्बेडेड बुद्धिमत्ता के मूल सिद्धांत
    • 2
      रोबोटिक्स लर्निंग एल्गोरिदम
    • 3
      विजन-लैंग्वेज-एक्शन मॉडल
  • प्रमुख अंतर्दृष्टि

    • 1
      एम्बेडेड AI सीखने के लिए संरचित मार्ग
    • 2
      आगे अन्वेषण और समझ के लिए विविध संसाधन
    • 3
      रोबोटिक्स में व्यावहारिक अनुप्रयोगों पर ध्यान केंद्रित
  • लर्निंग परिणाम

    • 1
      एम्बेडेड बुद्धिमत्ता के मूल सिद्धांतों को समझना
    • 2
      रोबोटिक्स में उपयोग किए जाने वाले विभिन्न एल्गोरिदम और उपकरणों का अन्वेषण करना
    • 3
      एम्बेडेड AI में व्यावहारिक अनुप्रयोगों और भविष्य के रुझानों में अंतर्दृष्टि प्राप्त करना
उदाहरण
ट्यूटोरियल
कोड नमूने
दृश्य
मूल सिद्धांत
उन्नत सामग्री
व्यावहारिक सुझाव
सर्वोत्तम प्रथाएँ

एम्बेडेड AI का परिचय

एम्बेडेड AI उन बुद्धिमान प्रणालियों को संदर्भित करता है जो एक भौतिक शरीर के माध्यम से महसूस करती हैं और कार्य करती हैं। ये प्रणालियाँ जानकारी एकत्र करने, समस्याओं को समझने, निर्णय लेने और कार्यों को निष्पादित करने के लिए अपने पर्यावरण के साथ बातचीत करती हैं, जिसके परिणामस्वरूप बुद्धिमान और अनुकूली व्यवहार होता है। यह गाइड नए लोगों के लिए एम्बेडेड AI में शामिल मुख्य तकनीकों को जल्दी से समझने, उनकी समस्या-समाधान क्षमताओं को समझने और भविष्य के गहन अन्वेषण के लिए दिशा प्राप्त करने के लिए एक प्रवेश बिंदु प्रदान करता है।

एम्बेडेड AI ज्ञान के निर्माण के लिए आवश्यक संसाधन

एम्बेडेड AI में एक मजबूत नींव बनाने के लिए, निम्नलिखित संसाधनों पर विचार करें: * **तकनीकी रोडमैप:** YunlongDong का गाइड एक मूलभूत तकनीकी रोडमैप प्रदान करता है। * **सोशल मीडिया:** अंतर्दृष्टि और अपडेट के लिए WeChat (石麻日记, 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub) जैसे प्लेटफार्मों पर प्रमुख खातों का पालन करें। * **AI ब्लॉगर्स:** Zhihu जैसे प्लेटफार्मों पर उल्लेखनीय AI ब्लॉगर्स की सूचियों का अन्वेषण करें। * **रोबोटिक्स लैब्स:** Zhihu पर रोबोटिक्स लैब्स के सारांश की जांच करें। * **सम्मेलन और जर्नल:** Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI, और ACL में उच्च-गुणवत्ता वाले प्रकाशनों के साथ अपडेट रहें। * **स्टैनफोर्ड रोबोटिक्स परिचय:** व्यापक सीखने के लिए स्टैनफोर्ड रोबोटिक्स परिचय वेबसाइट तक पहुंचें। * **ज्ञान आधार:** समुदाय-संचालित ज्ञान आधारों में योगदान करें और उनका उपयोग करें। * **नौकरी बोर्ड:** एम्बेडेड AI में नौकरी के अवसरों का अन्वेषण करें। * **उच्च-प्रभाव वाले शोधकर्ता:** क्षेत्र में प्रभावशाली शोधकर्ताओं की सूचियों का पालन करें। * **समुदाय:** Lumina, DeepTimber, 宇树, Simulately, HuggingFace LeRobot, और K-scale labs जैसे समुदायों के साथ जुड़ें।

एम्बेडेड AI के लिए एल्गोरिदम

यह अनुभाग एम्बेडेड AI में उपयोग किए जाने वाले आवश्यक एल्गोरिदम और उपकरणों को कवर करता है। * **सामान्य उपकरण:** * **पॉइंट क्लाउड डाउनसैंपलिंग:** रैंडम, यूनिफ़ॉर्म, फ़ार्देस्ट पॉइंट और नॉर्मल स्पेस डाउनसैंपलिंग जैसी तकनीकें 3D अनुप्रयोगों को अनुकूलित करने के लिए महत्वपूर्ण हैं। * **आई-हैंड कैलिब्रेशन:** कैमरों और रोबोटिक आर्म्स के बीच सापेक्ष स्थिति निर्धारित करने के लिए आवश्यक, जिसे आई-ऑन-हैंड और आई-आउटसाइड-हैंड के रूप में वर्गीकृत किया गया है। * **विजन फाउंडेशन मॉडल:** * **CLIP:** OpenAI द्वारा विकसित, CLIP छवियों और भाषा विवरणों के बीच समानता की गणना करता है, इसके मध्यवर्ती विज़ुअल फीचर्स विभिन्न डाउनस्ट्रीम अनुप्रयोगों के लिए अत्यधिक फायदेमंद होते हैं। * **DINO:** Meta से, DINO छवियों की उच्च-स्तरीय विज़ुअल फीचर्स प्रदान करता है, जो संबंधित जानकारी निकालने में सहायता करता है। * **SAM (सेगमेंट एनीथिंग मॉडल):** Meta से भी, SAM संकेतों या बक्सों के आधार पर छवियों में वस्तुओं को सेगमेंट करता है। * **SAM2:** SAM का एक उन्नत संस्करण, जो वीडियो में निरंतर वस्तु सेगमेंटेशन और ट्रैकिंग में सक्षम है। * **ग्राउंडिंग-DINO:** IDEA रिसर्च द्वारा विकसित एक इमेज ऑब्जेक्ट डिटेक्शन फ्रेमवर्क, जो लक्ष्य वस्तुओं का पता लगाने के लिए उपयोगी है। * **OmDet-Turbo:** OmAI Lab द्वारा एक ओपन-सोर्स रिसर्च प्रोजेक्ट, जो उच्च अनुमान गति के साथ ओपन-वोकैबुलरी ऑब्जेक्ट डिटेक्शन (OVD) प्रदान करता है। * **Grounded-SAM:** ग्राउंडिंग-DINO को सेगमेंटेशन क्षमताओं के साथ विस्तारित करता है, जो डिटेक्शन और उसके बाद सेगमेंटेशन का समर्थन करता है। * **FoundationPose:** Nvidia द्वारा एक पोज़ ट्रैकिंग मॉडल। * **स्टेबल डिफ्यूजन:** एक टेक्स्ट-टू-इमेज मॉडल जो लक्ष्य छवियां उत्पन्न कर सकता है और डाउनस्ट्रीम अनुप्रयोगों के लिए मध्यवर्ती परत फीचर्स प्रदान कर सकता है। * **डेप्थ एनीथिंग (v1 & v2):** हांगकांग विश्वविद्यालय और बाइटडांस से मोनॉकलर डेप्थ अनुमान मॉडल। * **पॉइंट ट्रांसफार्मर (v3):** पॉइंट क्लाउड फीचर निष्कर्षण पर एक कार्य। * **RDT-1B:** सिंघुआ विश्वविद्यालय से रोबोटिक बाइमैनुअल मैनिपुलेशन के लिए एक मूलभूत मॉडल। * **SigLIP:** CLIP के समान, मल्टीमॉडल क्षमताएं प्रदान करता है।

रोबोट लर्निंग तकनीकें

रोबोट लर्निंग में विभिन्न तकनीकें शामिल हैं जो रोबोट को अनुभव से सीखने और उनके प्रदर्शन को बेहतर बनाने में सक्षम बनाती हैं। प्रमुख विधियों में शामिल हैं: * **मॉडल प्रेडिक्टिव कंट्रोल (MPC):** एक उन्नत नियंत्रण रणनीति जो एक सीमित समय क्षितिज पर भविष्य के व्यवहार की भविष्यवाणी करने के लिए सिस्टम के डायनामिक मॉडल का उपयोग करती है। MPC प्रदर्शन मानदंडों और बाधाओं को पूरा करने के लिए एक अनुकूलन समस्या को हल करके नियंत्रण इनपुट को अनुकूलित करता है। संसाधन शामिल हैं: * **परिचयात्मक वीडियो:** हुआगोंग रोबोटिक्स प्रयोगशाला से मॉडल प्रेडिक्टिव कंट्रोल। * **सैद्धांतिक नींव:** मॉडल प्रेडिक्टिव कंट्रोल: थ्योरी एंड प्रैक्टिस—ए सर्वे। * **नॉनलीनियर MPC:** नॉनलीनियर मॉडल प्रेडिक्टिव कंट्रोल का एक परिचय। * **एक्सप्लिसिट MPC:** कंस्ट्रेंड सिस्टम के लिए एक्सप्लिसिट लीनियर क्वाड्रेटिक रेगुलेटर। * **रोबस्ट MPC:** मूविंग प्लेटफॉर्म पर मैनिपुलेटर्स का प्रेडिक्टिव एंड-इफेक्टर कंट्रोल डिस्टर्बेंस के तहत और कंस्ट्रेंड लीनियर सिस्टम के लिए मिन-मैक्स फीडबैक मॉडल प्रेडिक्टिव कंट्रोल। * **लर्निंग-आधारित MPC:** सुरक्षित अन्वेषण के लिए लर्निंग-आधारित मॉडल प्रेडिक्टिव कंट्रोल और फ्लोटिंग-बेस डिस्टर्बेंस के अधीन मैनिपुलेटर के लिए आत्मविश्वास-जागरूक ऑब्जेक्ट कैप्चर। * **रीइन्फोर्समेंट लर्निंग (RL):** एक सीखने का प्रतिमान जहां एक एजेंट एक पुरस्कार संकेत को अधिकतम करने के लिए पर्यावरण के साथ बातचीत करके निर्णय लेना सीखता है। संसाधन शामिल हैं: * **गणितीय सिद्धांत:** वेस्टलेक विश्वविद्यालय में झाओ शियू द्वारा रीइन्फोर्समेंट लर्निंग। * **डीप रीइन्फोर्समेंट लर्निंग पाठ्यक्रम:** डीप RL के सिद्धांत 6 व्याख्यानों में, UC बर्कले CS285, और ली होंगयी के पाठ्यक्रम। * **व्यावहारिक कार्यान्वयन:** हैंड्स-ऑन अनुभव के लिए जिमनाज़ियम। * **इमिटेशन लर्निंग:** एक विधि जहां एक रोबोट विशेषज्ञ प्रदर्शनों को देखकर और उनकी नकल करके सीखता है। संसाधन शामिल हैं: * **ट्यूटोरियल:** नानजिंग विश्वविद्यालय LAMDA से 《模仿学习简洁教程》 और रियल रोबोट के लिए सुपरवाइज्ड पॉलिसी लर्निंग, RSS 2024 वर्कशॉप।

विजन-लैंग्वेज-एक्शन (VLA) मॉडल

विजन-लैंग्वेज-एक्शन मॉडल (VLA मॉडल) प्री-ट्रेन्ड VLM से सीधे रोबोट एक्शन उत्पन्न करने के लिए विजन-लैंग्वेज मॉडल (VLMs) को रोबोट कंट्रोल के साथ एकीकृत करते हैं। ये मॉडल नए आर्किटेक्चर की आवश्यकता के बिना एक्शन को टोकनाइज़ करते हैं और VLM को फाइन-ट्यून करते हैं। * **मुख्य विशेषताएं:** एंड-टू-एंड, LLM/VLM बैकबोन, प्री-ट्रेन्ड मॉडल। * **वर्गीकरण:** मॉडल संरचना और आकार, प्री-ट्रेनिंग और फाइन-ट्यूनिंग रणनीतियाँ, डेटासेट, इनपुट और आउटपुट, अनुप्रयोग परिदृश्य। * **संसाधन:** * **ब्लॉग:** एम्बेडेड इंटेलिजेंस विजन-लैंग्वेज-एक्शन पर विचार। * **सर्वेक्षण:** एम्बेडेड AI के लिए विजन-लैंग्वेज-एक्शन मॉडल पर एक सर्वेक्षण, 2024.11.28। * **क्लासिक कार्य:** * **ऑटोरिग्रेसिव मॉडल:** RT श्रृंखला (RT-1, RT-2, RT-Trajectory, AUTORT), RoboFlamingo, OpenVLA, TinyVLA, TraceVLA। * **एक्शन हेड के लिए डिफ्यूजन मॉडल:** Octo, π0, CogACT, Diffusion-VLA। * **3D विजन:** 3D-VLA, SpatialVLA। * **VLA-संबंधित:** FAST (π0), RLDG, BYO-VLA। * **विभिन्न लोकोमोशन:** RDT-1B (बाइमैनुअल), QUAR-VLA (क्वाड्रुपेड), CoVLA (स्वायत्त ड्राइविंग), Mobility-VLA (नेविगेशन), NaVILA (लेग्ड रोबोट नेविगेशन)। * **डुअल-सिस्टम पदानुक्रमित VLA:** * Hi-Robot और pi-0.5 जैसे मॉडल मानव तीव्र प्रतिक्रिया और गहन सोच तंत्र की नकल करने के लिए पदानुक्रमित आर्किटेक्चर का उपयोग करते हैं। * **औद्योगिक-ग्रेड VLA:** Figure: Helix, 智元:GO-1, Physical Intelligence, pi-0.5, Hi Robot, Nvidia: GROOT-N1, 灵初智能:Psi-R1, Google DeepMind: Gemini Robotics। * **नवीनतम VLA कार्य:** SafeVLA, HybridVLA, DexVLA, DexGraspVLA, UP-VLA, CoT-VLA, UniAct।

रोबोटिक्स में बड़े भाषा मॉडल (LLMs)

आधुनिक एम्बेडेड AI बेहतर रोबोट प्लानिंग के लिए बड़े भाषा मॉडल (LLMs) की शक्तिशाली सूचना प्रसंस्करण और सामान्यीकरण क्षमताओं का लाभ उठाता है। * **संसाधन:** * **श्रृंखला:** रोबोटिक्स+LLM श्रृंखला बड़े भाषा मॉडल के माध्यम से रोबोट को नियंत्रित करती है। * **विकी:** एम्बेडेड एजेंट विकी। * **ब्लॉग:** लिलियन वेंग का AI एजेंट सिस्टम अवलोकन। * **क्लासिक कार्य:** * **उच्च-स्तरीय रणनीति निर्माण:** PaLM-E, DO AS I CAN, NOT AS I SAY, Look Before You Leap, EmbodiedGPT। * **एकीकृत रणनीति योजना और क्रिया निर्माण:** RT-2। * **पारंपरिक योजनाकारों के साथ एकीकरण:** LLM+P, AutoTAMP, Text2Motion। * **कोड एज पॉलिसी:** कोड एज पॉलिसी, Instruction2Act। * **LLMs के साथ 3D विजुअल परसेप्शन:** VoxPoser, OmniManip। * **मल्टी-रोबोट सहयोग:** RoCo, Scalable-Multi-Robot।

एम्बेडेड AI में कंप्यूटर विजन

कंप्यूटर विजन रोबोट को अपने पर्यावरण को महसूस करने और समझने में सक्षम बनाने में महत्वपूर्ण भूमिका निभाता है। प्रमुख क्षेत्रों में शामिल हैं: * **2D विजन:** * **क्लासिक मॉडल:** CNN, ResNet, ViT, Swin Transformer। * **जेनरेटिव मॉडल:** ऑटोरिग्रेसिव मॉडल, डिफ्यूजन मॉडल। * **3D विजन:** * **पाठ्यक्रम:** एंड्रियास गीगर का 3D विजन का परिचय, GAMES203 - 3D पुनर्निर्माण और समझ। * **क्लासिक पेपर:** 2D/3D जनरेशन के लिए डिफ्यूजन मॉडल, 3D जनरेशन से संबंधित पेपर-2024। * **4D विजन:** * **वीडियो समझ:** शुरुआती कार्य, पेपर श्रृंखला, LLM युग में वीडियो समझ का अवलोकन। * **4D जनरेशन:** वीडियो जनरेशन ब्लॉग, 4D जनरेशन के लिए पेपर सूची। * **विजुअल प्रॉम्प्टिंग:** विजुअल इनपुट के साथ बड़े मॉडल को निर्देशित करने की एक विधि। * **एफोर्डेंस ग्राउंडिंग:** वस्तुओं पर इंटरैक्टिव क्षेत्रों का पता लगाना। * **2D:** Cross-View-AG, AffordanceLLM। * **3D:** OpenAD, SceneFun3D।

हार्डवेयर और सॉफ्टवेयर उपकरण

यह अनुभाग एम्बेडेड AI सिस्टम के विकास और परिनियोजन के लिए आवश्यक हार्डवेयर और सॉफ्टवेयर टूल को कवर करता है। * **हार्डवेयर:** * **एम्बेडेड सिस्टम:** रोबोट पर AI एल्गोरिदम चलाने के लिए प्लेटफॉर्म। * **मैकेनिकल डिजाइन:** मजबूत और कार्यात्मक रोबोट बॉडी डिजाइन करने के सिद्धांत। * **रोबोट सिस्टम डिजाइन:** विभिन्न घटकों को एक सुसंगत प्रणाली में एकीकृत करना। * **सेंसर:** पर्यावरण डेटा एकत्र करने के लिए उपकरण (जैसे, कैमरे, LiDAR)। * **टैक्टाइल सेंसिंग:** रोबोट को वस्तुओं को महसूस करने और उनके साथ बातचीत करने में सक्षम बनाने वाली तकनीकें। * **सॉफ्टवेयर:** * **सिम्युलेटर:** रोबोट वातावरण और व्यवहार का अनुकरण करने के लिए उपकरण (जैसे, MuJoCo, Isaac Lab, SAPIEN, Genesis)। * **बेंचमार्क:** रोबोट प्रदर्शन का मूल्यांकन करने के लिए मानकीकृत कार्य। * **डेटासेट:** AI मॉडल को प्रशिक्षित करने और परीक्षण करने के लिए डेटा का संग्रह।

पेपर सूचियाँ और आगे पढ़ना

एम्बेडेड AI के भीतर विशिष्ट विषयों की अपनी समझ को गहरा करने के लिए शोध पत्रों की क्यूरेटेड सूचियों का अन्वेषण करें: * **सामान्य एम्बेडेड AI:** विभिन्न उप-क्षेत्रों को कवर करने वाली व्यापक सूचियाँ। * **विशिष्ट विषय:** रोबोट लर्निंग, कंप्यूटर विजन और मल्टीमॉडल मॉडल जैसे क्षेत्रों पर ध्यान केंद्रित करने वाली सूचियाँ।

निष्कर्ष

यह गाइड एम्बेडेड AI का एक व्यापक अवलोकन प्रदान करता है, जिसमें आवश्यक संसाधन, एल्गोरिदम और उपकरण शामिल हैं। इन क्षेत्रों का अन्वेषण करके, नए लोग एक मजबूत नींव बना सकते हैं और इस रोमांचक क्षेत्र की प्रगति में योगदान कर सकते हैं। AI का भविष्य सन्निहित है, और यात्रा यहीं से शुरू होती है।

 मूल लिंक: https://github.com/TianxingChen/Embodied-AI-Guide

टिप्पणी(0)

user's avatar

      समान लर्निंग

      संबंधित टूल्स