Pandas ट्यूटोरियल: AI डेटा विश्लेषण के लिए एक शुरुआती गाइड
अवलोकन
समझने में आसान
0 0 1
यह लेख Python में डेटा हेरफेर के लिए Pandas लाइब्रेरी का उपयोग करने के लिए एक परिचयात्मक मार्गदर्शिका के रूप में कार्य करता है। यह सापेक्ष और पूर्ण पथों सहित डेटा लोडिंग तकनीकों को शामिल करता है, और CSV और TSV फ़ाइलों को पढ़ने के बीच के अंतरों पर चर्चा करता है। लेख बड़े डेटासेट के लिए चंक रीडिंग का भी परिचय देता है और डेटा हैंडलिंग के लिए व्यावहारिक सुझाव प्रदान करता है।
मुख्य बिंदु
अनूठी अंतर्दृष्टि
व्यावहारिक अनुप्रयोग
प्रमुख विषय
प्रमुख अंतर्दृष्टि
लर्निंग परिणाम
• मुख्य बिंदु
1
Pandas में डेटा लोडिंग तकनीकों का व्यापक परिचय
2
विभिन्न फ़ाइल स्वरूपों को पढ़ने के लिए व्यावहारिक उदाहरण
3
बड़े डेटासेट के लिए चंक रीडिंग की स्पष्ट व्याख्या
• अनूठी अंतर्दृष्टि
1
pd.read_csv() और pd.read_table() फ़ंक्शन के बीच विस्तृत तुलना
2
प्रभावी डेटा विश्लेषण के लिए डेटा स्वरूपों को समझने के महत्व पर जोर
• व्यावहारिक अनुप्रयोग
लेख Pandas का उपयोग करके डेटा को प्रभावी ढंग से लोड करने और हेरफेर करने के तरीके पर शुरुआती लोगों के लिए व्यावहारिक मार्गदर्शन प्रदान करता है, जो डेटा विश्लेषण में नए लोगों के लिए मूल्यवान है।
Pandas डेटा विज्ञान और AI में डेटा विश्लेषण और हेरफेर के लिए व्यापक रूप से उपयोग की जाने वाली एक शक्तिशाली Python लाइब्रेरी है। यह गाइड AI परियोजनाओं के लिए प्रासंगिक व्यावहारिक उदाहरणों पर ध्यान केंद्रित करते हुए, Pandas का उपयोग करने के लिए मौलिक अवधारणाओं और तकनीकों का परिचय देता है। Pandas लचीले और कुशल डेटा संरचनाएं प्रदान करता है, जो इसे किसी भी डेटा वैज्ञानिक या AI प्रैक्टिशनर के लिए एक आवश्यक उपकरण बनाता है।
“ Pandas के साथ डेटा लोड करना
किसी भी डेटा विश्लेषण कार्य में पहला कदम डेटा लोड करना है। Pandas `pd.read_csv()` और `pd.read_table()` जैसे फ़ंक्शन के साथ इस प्रक्रिया को सरल बनाता है। ये फ़ंक्शन आपको विभिन्न फ़ाइल स्वरूपों, जैसे CSV और TSV से डेटा को Pandas DataFrame में लोड करने की अनुमति देते हैं। यहाँ सापेक्ष और पूर्ण पथों का उपयोग करके डेटा कैसे लोड करें:
```python
import pandas as pd
import numpy as np
# सापेक्ष पथ का उपयोग करके डेटा लोड करें
df = pd.read_csv('./train.csv')
print(df.head())
# पूर्ण पथ का उपयोग करके डेटा लोड करें
df = pd.read_csv(r'D:\Users\LENOVO\Desktop\pandas入门\train.csv')
print(df.head())
```
यदि आपको सापेक्ष पथों के साथ समस्याएँ आती हैं, तो अपनी वर्तमान कार्यशील निर्देशिका की जाँच करने के लिए `os.getcwd()` का उपयोग करें।
“ विभिन्न डेटा सेपरेटर को समझना
`pd.read_csv()` और `pd.read_table()` अपने डिफ़ॉल्ट सेपरेटर में भिन्न होते हैं। `read_csv()` डिफ़ॉल्ट सेपरेटर के रूप में अल्पविराम (`,`) का उपयोग करता है, जबकि `read_table()` टैब (`\t`) का उपयोग करता है। समान प्रभाव प्राप्त करने के लिए, आप `sep` पैरामीटर निर्दिष्ट कर सकते हैं:
```python
# pd.read_csv() का उपयोग करके TSV फ़ाइल पढ़ें
df = pd.read_csv('filename.tsv', sep='\t')
# pd.read_table() का उपयोग करके CSV फ़ाइल पढ़ें
df = pd.read_table('filename.csv', sep=',')
```
विभिन्न फ़ाइल स्वरूपों से डेटा को सही ढंग से लोड करने के लिए इन अंतरों को समझना महत्वपूर्ण है।
“ चंक-वार डेटा लोडिंग
बड़े डेटासेट के लिए, पूरी फ़ाइल को एक बार में मेमोरी में लोड करना अक्षम हो सकता है। Pandas `chunksize` पैरामीटर का उपयोग करके चंक-वार लोडिंग प्रदान करता है। यह आपको छोटे ब्लॉकों में डेटा को संसाधित करने की अनुमति देता है, जिससे मेमोरी की खपत कम होती है।
```python
# 1000 पंक्तियों के चंक में डेटा लोड करें
for chunk in pd.read_csv('train.csv', chunksize=1000):
print(chunk.head())
# चंक पर संचालन करें
```
चंक-वार लोडिंग विशेष रूप से तब उपयोगी होती है जब उपलब्ध मेमोरी से अधिक डेटासेट से निपटना हो।
“ टेबल हेडर और इंडेक्स को संशोधित करना
टेबल हेडर और इंडेक्स को संशोधित करने से आपका डेटा अधिक पठनीय और समझने योग्य बन सकता है। आप कॉलम का नाम अधिक वर्णनात्मक नामों में बदल सकते हैं, खासकर जब विभिन्न भाषाओं में डेटासेट के साथ काम कर रहे हों।
```python
# कॉलम का नाम बदलें
df = df.rename(columns={'PassengerId': 'यात्रीआईडी', 'Survived': 'जीवित', 'Pclass': 'वर्ग'})
print(df.head())
# 'यात्रीआईडी' को इंडेक्स के रूप में सेट करें
df = df.set_index('यात्रीआईडी')
print(df.head())
```
ये संशोधन डेटा पहुंच और स्पष्टता में सुधार करते हैं।
“ डेटा विश्लेषण और हेरफेर के उदाहरण
Pandas डेटा विश्लेषण और हेरफेर के लिए कार्यों की एक विस्तृत श्रृंखला प्रदान करता है। यहाँ कुछ उदाहरण दिए गए हैं:
* **डेटा फ़िल्टर करना:**
```python
# जीवित बचे यात्रियों को फ़िल्टर करें
survived = df[df['जीवित'] == 1]
print(survived.head())
```
* **डेटा समूहीकरण:**
```python
# 'वर्ग' द्वारा डेटा को समूहित करें और औसत आयु की गणना करें
grouped = df.groupby('वर्ग')['आयु'].mean()
print(grouped)
```
* **लुप्त मानों को संभालना:**
```python
# लुप्त आयु मानों को औसत आयु से भरें
df['आयु'] = df['आयु'].fillna(df['आयु'].mean())
```
ये उदाहरण डेटा विश्लेषण कार्यों में Pandas की बहुमुखी प्रतिभा को प्रदर्शित करते हैं।
“ निष्कर्ष: कुशल डेटा हैंडलिंग के लिए Pandas
Pandas AI और डेटा विज्ञान में डेटा विश्लेषण के लिए एक अनिवार्य उपकरण है। डेटा को कुशलतापूर्वक लोड करने, हेरफेर करने और विश्लेषण करने की इसकी क्षमता इसे किसी भी डेटा-संचालित परियोजना का आधार बनाती है। इस गाइड में चर्चा की गई तकनीकों में महारत हासिल करके, आप अपने डेटा विश्लेषण वर्कफ़्लो को सुव्यवस्थित कर सकते हैं और अपने डेटा से मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं। अपनी समझ और कौशल को गहरा करने के लिए हमेशा Pandas दस्तावेज़ीकरण से परामर्श करना और अतिरिक्त संसाधनों का पता लगाना याद रखें।
हम ऐसे कुकीज़ का उपयोग करते हैं जो हमारी साइट के काम करने के लिए आवश्यक हैं। हमारी साइट को बेहतर बनाने के लिए, हम अतिरिक्त कुकीज़ का उपयोग करना चाहेंगे जो हमें यह समझने में मदद करेंगे कि आगंतुक इसका उपयोग कैसे करते हैं, सोशल मीडिया प्लेटफॉर्म से हमारी साइट पर ट्रैफिक को मापें और आपके अनुभव को व्यक्तिगत बनाएं। हमारे द्वारा उपयोग किए जाने वाले कुछ कुकीज़ तृतीय पक्षों द्वारा प्रदान किए जाते हैं। सभी कुकीज़ को स्वीकार करने के लिए 'स्वीकार करें' पर क्लिक करें। सभी वैकल्पिक कुकीज़ को अस्वीकार करने के लिए 'अस्वीकार करें' पर क्लिक करें।
टिप्पणी(0)