Amazon SageMaker Data Wrangler: मशीन लर्निंग के लिए डेटा तैयारी को सरल बनाएं
गहन चर्चा
तकनीकी, समझने में आसान
0 0 1
यह लेख बताता है कि Amazon SageMaker Data Wrangler को कैसे एक्सेस और उपयोग किया जाए, जिसमें पूर्वापेक्षाएँ, डेटा तैयारी और टाइटैनिक डेटासेट का उपयोग करके मॉडल प्रशिक्षण शामिल है। इसमें डेटा आयात करने, परिवर्तन लागू करने और डेटा फ़्लो निर्यात करने के लिए चरण-दर-चरण निर्देश शामिल हैं।
मुख्य बिंदु
अनूठी अंतर्दृष्टि
व्यावहारिक अनुप्रयोग
प्रमुख विषय
प्रमुख अंतर्दृष्टि
लर्निंग परिणाम
• मुख्य बिंदु
1
Data Wrangler का उपयोग करने के लिए विस्तृत चरण-दर-चरण निर्देश
2
टाइटैनिक डेटासेट का उपयोग करके व्यावहारिक उदाहरण
3
डेटा तैयारी और मॉडल प्रशिक्षण का व्यापक कवरेज
• अनूठी अंतर्दृष्टि
1
डेटा आयात के लिए Amazon S3 के साथ Data Wrangler का एकीकरण
2
डेटा सफाई के लिए अंतर्निहित परिवर्तनों और कस्टम पायथन कोड का उपयोग
• व्यावहारिक अनुप्रयोग
यह लेख उपयोगकर्ताओं को मशीन लर्निंग के लिए डेटा को प्रभावी ढंग से तैयार करने के लिए व्यावहारिक मार्गदर्शन प्रदान करता है, जिससे यह शुरुआती और अनुभवी उपयोगकर्ताओं दोनों के लिए मूल्यवान हो जाता है।
• प्रमुख विषय
1
Data Wrangler का उपयोग करके डेटा तैयारी
2
XGBoost के साथ मॉडल प्रशिक्षण
3
Amazon S3 के साथ एकीकरण
• प्रमुख अंतर्दृष्टि
1
एक वास्तविक डेटासेट के साथ हैंड्स-ऑन ट्यूटोरियल
2
शुरुआती और उन्नत उपयोगकर्ताओं दोनों के लिए स्पष्ट निर्देश
3
डेटा तैयारी उपकरणों के व्यावहारिक अनुप्रयोगों पर ध्यान केंद्रित
• लर्निंग परिणाम
1
Amazon SageMaker Data Wrangler को एक्सेस करने और उपयोग करने का तरीका समझना
2
मशीन लर्निंग मॉडल के लिए डेटा तैयार करने की क्षमता
3
AWS सेवाओं के साथ Data Wrangler को एकीकृत करने का ज्ञान
Amazon SageMaker Data Wrangler, Amazon SageMaker Studio Classic के भीतर एक शक्तिशाली टूल है जिसे मशीन लर्निंग (ML) परियोजनाओं के लिए डेटा तैयारी प्रक्रिया को सुव्यवस्थित और सरल बनाने के लिए डिज़ाइन किया गया है। यह एक उपयोगकर्ता-अनुकूल, विज़ुअल इंटरफ़ेस प्रदान करता है जो डेटा वैज्ञानिकों और ML इंजीनियरों को कुशलतापूर्वक डेटा आयात करने, विश्लेषण करने, बदलने और निर्यात करने की अनुमति देता है। Data Wrangler का उपयोग करके, उपयोगकर्ता डेटा तैयार करने के लिए आवश्यक समय और प्रयास को काफी कम कर सकते हैं, जिससे वे मॉडल विकास और परिनियोजन पर अधिक ध्यान केंद्रित कर सकते हैं। यह व्यापक मार्गदर्शिका आपको Data Wrangler के आवश्यक पहलुओं से अवगत कराएगी, इसे सेट करने से लेकर डेटा हेरफेर और मॉडल प्रशिक्षण के लिए इसकी उन्नत सुविधाओं का लाभ उठाने तक।
“ Data Wrangler का उपयोग करने के लिए पूर्वापेक्षाएँ
इससे पहले कि आप Amazon SageMaker Data Wrangler का उपयोग शुरू कर सकें, आपको यह सुनिश्चित करना होगा कि आपने आवश्यक पूर्वापेक्षाएँ पूरी कर ली हैं। इनमें Amazon EC2 इंस्टेंस तक पहुंच होना, आवश्यक सुरक्षा और अनुमतियों को कॉन्फ़िगर करना और एक सक्रिय Studio Classic इंस्टेंस होना शामिल है।
1. **Amazon EC2 इंस्टेंस**: आपको Amazon Elastic Compute Cloud (Amazon EC2) इंस्टेंस तक पहुंच की आवश्यकता है। उपलब्ध इंस्टेंस प्रकारों और यदि आवश्यक हो तो कोटा बढ़ाने का अनुरोध कैसे करें, इस पर अधिक जानकारी के लिए AWS दस्तावेज़ीकरण देखें।
2. **सुरक्षा और अनुमतियाँ**: सुरक्षा और अनुमतियों के दस्तावेज़ीकरण में उल्लिखित आवश्यक अनुमतियों को कॉन्फ़िगर करें। यह सुनिश्चित करता है कि आपके पास Data Wrangler और संबंधित AWS सेवाओं का उपयोग करने के लिए उचित पहुंच अधिकार हैं।
3. **फ़ायरवॉल एक्सेस**: यदि आपका संगठन एक फ़ायरवॉल का उपयोग करता है जो इंटरनेट ट्रैफ़िक को ब्लॉक करता है, तो सुनिश्चित करें कि आपके पास निम्नलिखित URL तक पहुंच है:
* `https://ui.prod-1.data-wrangler.sagemaker.aws/`
* `https://ui.prod-2.data-wrangler.sagemaker.aws/`
* `https://ui.prod-3.data-wrangler.sagemaker.aws/`
* `https://ui.prod-4.data-wrangler.sagemaker.aws/`
4. **सक्रिय Studio Classic इंस्टेंस**: आपको एक सक्रिय Studio Classic इंस्टेंस की आवश्यकता है। यदि आपके पास पहले से कोई नहीं है तो एक नया इंस्टेंस लॉन्च करने के लिए Amazon SageMaker AI Domain Overview में निर्देशों का पालन करें। सुनिश्चित करें कि आगे बढ़ने से पहले KernelGateway एप्लिकेशन 'Ready' स्थिति में है।
“ SageMaker Studio Classic में Data Wrangler तक पहुँचना
एक बार जब आप पूर्वापेक्षाएँ पूरी कर लेते हैं, तो आप इन चरणों का पालन करके SageMaker Studio Classic के भीतर Data Wrangler तक पहुँच सकते हैं:
1. **Studio Classic में लॉग इन करें**: SageMaker Studio Classic में लॉग इन करने के लिए अपने क्रेडेंशियल्स का उपयोग करें। अधिक जानकारी के लिए Amazon SageMaker AI Domain Overview देखें।
2. **स्टूडियो का चयन करें**: स्टूडियो इंटरफ़ेस पर नेविगेट करें।
3. **एप्लिकेशन लॉन्च करें**: एप्लिकेशन ड्रॉपडाउन सूची से 'Studio' चुनें।
4. **होम पर जाएं**: मुख्य डैशबोर्ड तक पहुंचने के लिए होम आइकन का चयन करें।
5. **डेटा चुनें**: 'Data' विकल्प पर क्लिक करें।
6. **Data Wrangler का चयन करें**: एप्लिकेशन लॉन्च करने के लिए 'Data Wrangler' चुनें।
वैकल्पिक रूप से, आप एक नया Data Wrangler फ़्लो बनाकर कर सकते हैं:
1. **फ़ाइल का चयन करें**: शीर्ष नेविगेशन बार में, 'File' चुनें।
2. **नया चुनें**: 'New' चुनें।
3. **Data Wrangler Flow का चयन करें**: 'Data Wrangler Flow' चुनें।
आप आवश्यकतानुसार नई निर्देशिका और `.flow` फ़ाइल का नाम भी बदल सकते हैं। ध्यान दें कि Data Wrangler के प्रारंभिक लोडिंग में कुछ मिनट लग सकते हैं, और जब तक KernelGateway एप्लिकेशन तैयार न हो जाए तब तक एक कैरोसेल दिखाई दे सकता है।
“ Data Wrangler सुविधाओं का अन्वेषण: एक टाइटैनिक डेटासेट वॉकथ्रू
आपको यह समझने में मदद करने के लिए कि Data Wrangler का उपयोग कैसे करें, यह अनुभाग टाइटैनिक डेटासेट का उपयोग करके एक वॉकथ्रू प्रदान करता है। इस डेटासेट में टाइटैनिक के यात्रियों के बारे में जानकारी शामिल है, जिसमें उनकी जीवित रहने की स्थिति, आयु, लिंग और वर्ग शामिल हैं। इस वॉकथ्रू का पालन करके, आप Data Wrangler का उपयोग करके डेटा आयात करना, विश्लेषण करना, बदलना और निर्यात करना सीखेंगे।
**वॉकथ्रू में चरण:**
1. **Data Wrangler Flow खोलें**: एक नया Data Wrangler Flow खोलें और नमूना डेटासेट का उपयोग करने का विकल्प चुनें, या टाइटैनिक डेटासेट को Amazon S3 पर अपलोड करें और इसे Data Wrangler में आयात करें।
2. **डेटासेट का विश्लेषण करें**: डेटासेट का पता लगाने और अंतर्दृष्टि प्राप्त करने के लिए Data Wrangler के विश्लेषण टूल का उपयोग करें।
3. **डेटा फ़्लो परिभाषित करें**: डेटा परिवर्तन सुविधाओं का उपयोग करके एक डेटा फ़्लो परिभाषित करें।
4. **फ़्लो निर्यात करें**: Data Wrangler जॉब बनाने के लिए अपने फ़्लो को एक Jupyter नोटबुक में निर्यात करें।
5. **डेटा संसाधित करें**: अपने डेटा को संसाधित करें और एक XGBoost बाइनरी क्लासिफायर को प्रशिक्षित करने के लिए एक SageMaker प्रशिक्षण जॉब शुरू करें।
“ Data Wrangler के साथ डेटा आयात करना और तैयार करना
आप निम्नलिखित विधियों में से किसी एक का उपयोग करके टाइटैनिक डेटासेट को Data Wrangler में आयात कर सकते हैं:
1. **सीधे Data Wrangler Flow से आयात करें**: Flow खोलें और 'Use Sample Dataset' चुनें।
2. **Amazon S3 पर अपलोड करें**: डेटासेट को Amazon S3 बकेट पर अपलोड करें और फिर इसे Data Wrangler में आयात करें।
डेटासेट को Amazon S3 पर अपलोड करने के लिए:
1. **टाइटैनिक डेटासेट डाउनलोड करें**: टाइटैनिक डेटासेट डाउनलोड करें।
2. **S3 पर अपलोड करें**: डेटासेट को उस AWS क्षेत्र में एक Amazon S3 बकेट पर अपलोड करें जिसका आप इस प्रदर्शन के लिए उपयोग करने का इरादा रखते हैं। आप फ़ाइल को ड्रैग एंड ड्रॉप करने के लिए Amazon S3 कंसोल का उपयोग कर सकते हैं।
एक बार जब डेटासेट सफलतापूर्वक Amazon S3 पर अपलोड हो जाता है, तो आप इसे Data Wrangler में आयात कर सकते हैं:
1. **डेटा आयात का चयन करें**: डेटा फ़्लो टैब में, 'Import Data' बटन या 'Import' टैब का चयन करें।
2. **Amazon S3 चुनें**: 'Amazon S3' चुनें।
3. **डेटासेट का पता लगाएं**: उस बकेट को खोजने के लिए आयात डेटासेट तालिका का उपयोग करें जहाँ आपने टाइटैनिक डेटासेट जोड़ा था। विवरण फलक खोलने के लिए CSV फ़ाइल का चयन करें।
4. **विवरण कॉन्फ़िगर करें**: सुनिश्चित करें कि फ़ाइल प्रकार CSV है और उस बॉक्स को चेक करें जो इंगित करता है कि पहली पंक्ति हेडर है। आप डेटासेट को एक अनुकूल नाम भी दे सकते हैं, जैसे 'Titanic-train'।
5. **आयात करें**: 'Import' बटन का चयन करें।
डेटासेट आयात करने के बाद, यह डेटा फ़्लो टैब में दिखाई देगा। नोड विवरण दृश्य में प्रवेश करने के लिए नोड पर डबल-क्लिक करें, जहाँ आप परिवर्तन या विश्लेषण जोड़ सकते हैं।
“ डेटा का विश्लेषण और विज़ुअलाइज़ेशन
Data Wrangler आपके डेटा का विश्लेषण, सफाई और परिवर्तन करने के लिए अंतर्निहित परिवर्तन और विज़ुअलाइज़ेशन क्षमताएं प्रदान करता है। नोड विवरण दृश्य में दायां पैनल सभी अंतर्निहित परिवर्तनों को सूचीबद्ध करता है और कस्टम परिवर्तनों को जोड़ने के लिए एक अनुभाग प्रदान करता है।
**डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट बनाना**
अपने डेटा में अंतर्दृष्टि प्राप्त करने के लिए, एक डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट बनाएं। यह रिपोर्ट आपको लापता मानों और आउटलेयर जैसी समस्याओं की पहचान करने में मदद करती है। यह लक्ष्य रिसाव या असंतुलन जैसी संभावित समस्याओं के बारे में भी आपको सचेत करती है।
**तालिका सारांश बनाना**
1. **विश्लेषण जोड़ें**: डेटा फ़्लो में डेटा प्रकार चरण के बगल में '+' का चयन करें और 'Add Analysis' चुनें।
2. **तालिका सारांश का चयन करें**: विश्लेषण क्षेत्र में, ड्रॉपडाउन सूची से 'Table Summary' चुनें।
3. **सारांश का नाम दें**: तालिका सारांश को एक नाम दें।
4. **पूर्वावलोकन**: तालिका का पूर्वावलोकन देखने के लिए 'Preview' का चयन करें।
5. **सहेजें**: इसे अपने डेटा फ़्लो में जोड़ने के लिए 'Save' का चयन करें। डेटा 'All Analyses' के तहत प्रदर्शित होगा।
प्रदान किए गए आँकड़ों से, आप औसत किराया और 'cabin', 'embarked', और 'age' जैसे कॉलम में लापता मानों की उपस्थिति जैसे अवलोकन कर सकते हैं।
“ Data Wrangler के साथ डेटा बदलना
अपने डेटा का विश्लेषण करने के बाद, आप डेटा फ़्लो में परिवर्तन जोड़कर प्रशिक्षण के लिए इसे साफ और तैयार कर सकते हैं। यहां कुछ सामान्य परिवर्तन दिए गए हैं जिन्हें आप कर सकते हैं:
**अप्रयुक्त कॉलम हटाना**
1. **परिवर्तन जोड़ें**: डेटा फ़्लो में डेटा प्रकार चरण के बगल में '+' का चयन करें और 'Add Transformation' चुनें।
2. **कॉलम प्रबंधित करें का चयन करें**: 'All Steps' कॉलम में, 'Add Step' चुनें और फिर मानक परिवर्तनों की सूची से 'Manage Columns' चुनें। सुनिश्चित करें कि 'Drop column' चुना गया है।
3. **हटाने के लिए कॉलम चुनें**: उन कॉलमों का चयन करें जिनका आप प्रशिक्षण के लिए उपयोग नहीं करना चाहते हैं, जैसे 'cabin', 'ticket', 'name', 'sibsp', 'parch', 'home.dest', 'boat', और 'body'।
4. **पूर्वावलोकन और जोड़ें**: सत्यापित करने के लिए 'Preview' का चयन करें कि कॉलम हटा दिए गए हैं, फिर अपने फ़्लो में परिवर्तन जोड़ने के लिए 'Add' का चयन करें।
**लापता मानों को साफ़ करना**
1. **Handle Missing Values का चयन करें**: 'Handle missing values' चुनें।
2. **Drop Missing Values चुनें**: ट्रांसफार्मर के लिए 'Drop missing values' चुनें।
3. **इनपुट कॉलम का चयन करें**: लापता मानों वाले कॉलम का चयन करें, जैसे 'age'।
4. **पूर्वावलोकन और जोड़ें**: नए डेटा फ़्रेम को देखने के लिए 'Preview' का चयन करें, फिर अपने फ़्लो में परिवर्तन जोड़ने के लिए 'Add' का चयन करें।
**Pandas के साथ कस्टम परिवर्तन**
आप अधिक जटिल डेटा हेरफेर करने के लिए Pandas के साथ कस्टम परिवर्तन का भी उपयोग कर सकते हैं। उदाहरण के लिए, आप श्रेणीबद्ध डेटा के लिए वन-हॉट एन्कोडिंग का उपयोग कर सकते हैं:
```python
import pandas as pd
dummies = []
cols = ['pclass','sex','embarked']
for col in cols:
dummies.append(pd.get_dummies(df[col]))
encoded = pd.concat(dummies, axis=1)
df = pd.concat((df, encoded),axis=1)
```
**SQL के साथ कस्टम परिवर्तन**
आप आगे के विश्लेषण के लिए विशिष्ट कॉलम का चयन करने के लिए SQL का उपयोग कर सकते हैं:
```sql
SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df;
```
“ डेटा फ़्लो निर्यात करना और SageMaker के साथ एकीकृत करना
एक बार जब आप अपना डेटा फ़्लो बना लेते हैं, तो आप इसे आगे उपयोग के लिए निर्यात कर सकते हैं। एक सामान्य विकल्प इसे Data Wrangler जॉब नोटबुक में निर्यात करना है। यह प्रक्रिया स्वचालित रूप से एक Jupyter नोटबुक बनाती है जो आपके Data Wrangler डेटा फ़्लो को निष्पादित करने के लिए एक SageMaker प्रसंस्करण जॉब चलाने के लिए कॉन्फ़िगर की जाती है।
**Data Wrangler जॉब नोटबुक में निर्यात करना**
1. **डेटा फ़्लो सहेजें**: 'File' और फिर 'Save Data Wrangler Flow' का चयन करें।
2. **डेटा फ़्लो टैब पर लौटें**: डेटा फ़्लो टैब पर वापस जाएं और अपने डेटा फ़्लो में अंतिम चरण का चयन करें।
3. **निर्यात का चयन करें**: 'Export' और फिर 'Amazon S3 (via Jupyter Notebook)' चुनें। यह एक Jupyter नोटबुक खोलेगा।
4. **कर्नेल का चयन करें**: कोई भी Python 3 (Data Science) कर्नेल चुनें।
5. **नोटबुक चलाएं**: नोटबुक में सेल तब तक चलाएं जब तक आप 'Kick off Training SageMaker Job (optional)' अनुभाग तक नहीं पहुंच जाते।
आप SageMaker AI कंसोल के 'Processing' टैब में अपने Data Wrangler जॉब की स्थिति की निगरानी कर सकते हैं। आप अपने Data Wrangler जॉब की निगरानी के लिए Amazon CloudWatch का भी उपयोग कर सकते हैं।
“ तैयार डेटा के साथ एक XGBoost क्लासिफायर को प्रशिक्षित करना
Data Wrangler के साथ अपने डेटा को तैयार करने के बाद, आप Jupyter नोटबुक या Amazon Autopilot का उपयोग करके एक XGBoost बाइनरी क्लासिफायर को प्रशिक्षित कर सकते हैं। Autopilot सीधे आपके Data Wrangler फ़्लो से डेटा के आधार पर स्वचालित रूप से मॉडल को प्रशिक्षित और अनुकूलित कर सकता है।
**Jupyter नोटबुक के साथ प्रशिक्षण**
उसी नोटबुक में जहां आपने Data Wrangler जॉब लॉन्च किया था, आप तैयार डेटा निकाल सकते हैं और न्यूनतम अतिरिक्त डेटा तैयारी के साथ एक XGBoost बाइनरी क्लासिफायर को प्रशिक्षित कर सकते हैं।
1. **आवश्यक मॉड्यूल अपग्रेड करें**: आवश्यक मॉड्यूल को अपग्रेड करने और `_SUCCESS` फ़ाइल को हटाने के लिए pip का उपयोग करें:
```bash
! pip install --upgrade awscli awswrangler boto sklearn
! aws s3 rm {output_path} --recursive --exclude "*" --include "*_SUCCESS*"
```
2. **Amazon S3 से डेटा पढ़ें**: S3 प्रीफ़िक्स से सभी CSV फ़ाइलों को पुनरावर्ती रूप से पढ़ने के लिए awswrangler का उपयोग करें। फिर, डेटा को सुविधाओं और लेबल में विभाजित करें।
```python
import awswrangler as wr
df = wr.s3.read_csv(path=output_path, dataset=True)
X, y = df.iloc[:,:-1],df.iloc[:,-1]
```
3. **DMatrices बनाएं और क्रॉस-वैलिडेशन करें**: DMatrices (XGBoost के लिए मूल डेटा संरचना) बनाएं और क्रॉस-वैलिडेशन के लिए XGBoost बाइनरी वर्गीकरण का उपयोग करें।
```python
import xgboost as xgb
dmatrix = xgb.DMatrix(data=X, label=y)
params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}
xgb.cv(
dtrain=dmatrix,
params=params,
nfold=3,
num_boost_round=50,
early_stopping_rounds=10,
metrics="rmse",
as_pandas=True,
seed=123)
```
“ Data Wrangler को अपडेट करना और बंद करना
यह सुनिश्चित करने के लिए कि आपके पास नवीनतम सुविधाएँ और अपडेट हैं, Data Wrangler Studio Classic एप्लिकेशन को नियमित रूप से अपडेट करने की अनुशंसा की जाती है। अपडेट करने के लिए, Studio Classic एप्लिकेशन को बंद करने और अपडेट करने पर दस्तावेज़ीकरण देखें।
एक बार जब आप Data Wrangler का उपयोग समाप्त कर लेते हैं, तो अतिरिक्त लागतों से बचने के लिए चल रहे इंस्टेंस को बंद करने की सलाह दी जाती है। एप्लिकेशन और संबंधित इंस्टेंस को बंद करने के तरीके के बारे में निर्देशों के लिए Data Wrangler को बंद करने पर दस्तावेज़ीकरण देखें।
हम ऐसे कुकीज़ का उपयोग करते हैं जो हमारी साइट के काम करने के लिए आवश्यक हैं। हमारी साइट को बेहतर बनाने के लिए, हम अतिरिक्त कुकीज़ का उपयोग करना चाहेंगे जो हमें यह समझने में मदद करेंगे कि आगंतुक इसका उपयोग कैसे करते हैं, सोशल मीडिया प्लेटफॉर्म से हमारी साइट पर ट्रैफिक को मापें और आपके अनुभव को व्यक्तिगत बनाएं। हमारे द्वारा उपयोग किए जाने वाले कुछ कुकीज़ तृतीय पक्षों द्वारा प्रदान किए जाते हैं। सभी कुकीज़ को स्वीकार करने के लिए 'स्वीकार करें' पर क्लिक करें। सभी वैकल्पिक कुकीज़ को अस्वीकार करने के लिए 'अस्वीकार करें' पर क्लिक करें।
टिप्पणी(0)