AiToolGo का लोगो

डेटा विश्लेषण के लिए पांडास: एक व्यापक गाइड

गहन चर्चा
तकनीकी
 0
 0
 1
यह लेख डेटा विश्लेषण के लिए पायथन की पांडास लाइब्रेरी में सामान्य रूप से उपयोग की जाने वाली विधियों का एक व्यापक अवलोकन प्रदान करता है, जिसमें फ़ाइल पढ़ना/लिखना, डेटा चयन, गणना और लापता मानों को संभालना शामिल है। यह विभिन्न कार्यात्मकताओं को दर्शाने के लिए व्यावहारिक उदाहरण और कोड स्निपेट प्रदान करता है।
  • मुख्य बिंदु
  • अनूठी अंतर्दृष्टि
  • व्यावहारिक अनुप्रयोग
  • प्रमुख विषय
  • प्रमुख अंतर्दृष्टि
  • लर्निंग परिणाम
  • मुख्य बिंदु

    • 1
      कोड उदाहरणों के साथ व्यावहारिक पांडास विधियों की एक विस्तृत श्रृंखला प्रदान करता है
    • 2
      बुनियादी और उन्नत डेटा मैनिपुलेशन तकनीकों दोनों को कवर करता है
    • 3
      डेटा हैंडलिंग और विश्लेषण प्रक्रियाओं की विस्तृत व्याख्या शामिल है
  • अनूठी अंतर्दृष्टि

    • 1
      लापता मानों और डेटा सफाई को संभालने के लिए नवीन विधियाँ
    • 2
      डेटा एकत्रीकरण और सांख्यिकीय विश्लेषण के लिए कुशल तकनीकें
  • व्यावहारिक अनुप्रयोग

    • यह लेख पांडास का उपयोग करके अपने डेटा विश्लेषण कौशल को बढ़ाने के इच्छुक उपयोगकर्ताओं के लिए एक व्यावहारिक मार्गदर्शिका के रूप में कार्य करता है, जो इसे वास्तविक दुनिया के अनुप्रयोगों के लिए उपयुक्त बनाता है।
  • प्रमुख विषय

    • 1
      पांडास में फ़ाइल I/O संचालन
    • 2
      डेटा चयन और फ़िल्टरिंग तकनीकें
    • 3
      सांख्यिकीय गणना और डेटा एकत्रीकरण
  • प्रमुख अंतर्दृष्टि

    • 1
      पांडास कार्यात्मकताओं का व्यापक कवरेज
    • 2
      व्यावहारिक उदाहरण जो सीखने और अनुप्रयोग को बढ़ाते हैं
    • 3
      विविध उपयोगकर्ता आवश्यकताओं के लिए बुनियादी और उन्नत दोनों तकनीकों पर ध्यान केंद्रित
  • लर्निंग परिणाम

    • 1
      पांडास का उपयोग करके डेटा को पढ़ना और लिखना समझना
    • 2
      विभिन्न डेटा चयन और फ़िल्टरिंग तकनीकों को सीखना
    • 3
      सांख्यिकीय गणनाओं और डेटा एकत्रीकरण विधियों में अंतर्दृष्टि प्राप्त करना
उदाहरण
ट्यूटोरियल
कोड नमूने
दृश्य
मूल सिद्धांत
उन्नत सामग्री
व्यावहारिक सुझाव
सर्वोत्तम प्रथाएँ

डेटा विश्लेषण के लिए पांडास का परिचय

पांडास डेटा मैनिपुलेशन और विश्लेषण के लिए एक शक्तिशाली पायथन लाइब्रेरी है। यह डेटाफ्रेम और सीरीज़ जैसे डेटा स्ट्रक्चर प्रदान करता है जो संरचित डेटा के साथ काम करना आसान बनाते हैं। यह लेख आपको डेटा विश्लेषण के लिए आवश्यक पांडास विधियों के माध्यम से मार्गदर्शन करेगा, जिसमें डेटा पढ़ने से लेकर जटिल गणना करने तक सब कुछ शामिल है।

पांडास के साथ डेटा पढ़ना और लिखना

पांडास विभिन्न फ़ाइल स्वरूपों से डेटा पढ़ने और लिखने का समर्थन करता है। यहाँ कुछ सामान्य विधियाँ दी गई हैं: * `read_csv()`: CSV फ़ाइल से डेटा पढ़ता है। * `to_csv()`: CSV फ़ाइल में डेटा लिखता है। * `read_excel()`: एक्सेल फ़ाइल से डेटा पढ़ता है। * `to_excel()`: एक्सेल फ़ाइल में डेटा लिखता है। * `read_sql()`: SQL डेटाबेस से डेटा पढ़ता है। * `to_sql()`: SQL डेटाबेस में डेटा लिखता है। उदाहरण: ```python import pandas as pd df = pd.read_csv('data.csv') df.to_csv('output.csv', index=False) ```

पांडास में डेटा का चयन और फ़िल्टर करना

पांडास डेटाफ्रेम के भीतर डेटा का चयन और फ़िल्टर करने के कई तरीके प्रदान करता है: * `[]`: नाम से कॉलम या इंडेक्स से पंक्तियों का चयन करता है। * `loc[]`: लेबल द्वारा डेटा का चयन करता है। * `iloc[]`: पूर्णांक स्थिति द्वारा डेटा का चयन करता है। उदाहरण: ```python # कॉलम 'A' का चयन करें df['A'] # पंक्तियों 0 से 3 का चयन करें df[0:3] # उन पंक्तियों का चयन करें जहाँ कॉलम 'A' > 0 है df[df['A'] > 0] # loc का उपयोग करके विशिष्ट पंक्तियों और कॉलम का चयन करें df.loc[df['Age'].isnull(), 'BB'] # iloc का उपयोग करके विशिष्ट पंक्तियों और कॉलम का चयन करें df.iloc[3:5, 0:2] ```

डेटा की गणना और सारांश

पांडास डेटा की गणना और सारांश के लिए कई फ़ंक्शन प्रदान करता है: * `value_counts()`: सीरीज़ में अद्वितीय मानों की घटनाओं की गणना करता है। * `median()`: सीरीज़ का माध्यिका (median) गणना करता है। * `mean()`: सीरीज़ या डेटाफ्रेम का माध्य (mean) गणना करता है। * `std()`: मानक विचलन (standard deviation) गणना करता है। * `describe()`: वर्णनात्मक आँकड़े उत्पन्न करता है। * `sum()`: मानों का योग गणना करता है। * `count()`: गैर-NA मानों की संख्या की गणना करता है। उदाहरण: ```python # कॉलम 'Category' में अद्वितीय मानों की गणना करें df['Category'].value_counts() # कॉलम 'Price' का माध्य गणना करें df['Price'].mean() # डेटाफ्रेम के लिए वर्णनात्मक आँकड़े उत्पन्न करें df.describe() ```

लापता डेटा को संभालना

पांडास लापता डेटा को संभालने के लिए विधियाँ प्रदान करता है: * `isnull()`: लापता मानों का पता लगाता है। * `notnull()`: गैर-लापता मानों का पता लगाता है। * `dropna()`: लापता मानों वाली पंक्तियों या कॉलम को हटाता है। * `fillna()`: एक निर्दिष्ट मान या विधि के साथ लापता मानों को भरता है। उदाहरण: ```python # लापता मानों के लिए जाँच करें df.isnull().sum() # लापता मानों को 0 से भरें df.fillna(0) # लापता मानों को कॉलम के माध्य से भरें df['Age'].fillna(df['Age'].mean(), inplace=True) ```

डेटा मैनिपुलेशन तकनीकें

पांडास शक्तिशाली डेटा मैनिपुलेशन तकनीकें प्रदान करता है: * `groupby()`: एक या अधिक कॉलम के आधार पर डेटा को समूहित करता है। * `pivot_table()`: डेटाफ्रेम से एक पिवट टेबल बनाता है। * `apply()`: डेटाफ्रेम के एक अक्ष के साथ एक फ़ंक्शन लागू करता है। * `merge()`: एक सामान्य कॉलम के आधार पर दो डेटाफ्रेम को मर्ज करता है। * `concat()`: डेटाफ्रेम को जोड़ता है। उदाहरण: ```python # 'Category' द्वारा डेटा को समूहित करें और 'Price' का माध्य गणना करें df.groupby('Category')['Price'].mean() # प्रत्येक पंक्ति पर एक फ़ंक्शन लागू करें def calculate_discount(row): return row['Price'] * 0.9 df['Discounted_Price'] = df.apply(calculate_discount, axis=1) ```

डेटाफ्रेम को मर्ज और जॉइन करना

पांडास SQL जॉइन के समान डेटाफ्रेम को मर्ज और जॉइन करने का समर्थन करता है: * `merge()`: एक सामान्य कॉलम के आधार पर दो डेटाफ्रेम को मर्ज करता है। * `join()`: उनके इंडेक्स के आधार पर दो डेटाफ्रेम को जॉइन करता है। * `concat()`: पंक्तियों या कॉलम के साथ डेटाफ्रेम को जोड़ता है। उदाहरण: ```python # 'ID' कॉलम के आधार पर दो डेटाफ्रेम को मर्ज करें merged_df = pd.merge(df1, df2, on='ID', how='inner') # दो डेटाफ्रेम को पंक्तियों के साथ जोड़ें concatenated_df = pd.concat([df1, df2]) ```

डेटा संबंधों का विश्लेषण

पांडास आपको डेटा के बीच संबंधों का विश्लेषण करने की अनुमति देता है: * `corr()`: कॉलम के बीच सहसंबंध (correlation) की गणना करता है। * `crosstab()`: दो या दो से अधिक कारकों का क्रॉस-टेबुलेशन (cross-tabulation) गणना करता है। उदाहरण: ```python # 'Age' और 'Salary' के बीच सहसंबंध की गणना करें df[['Age', 'Salary']].corr() # 'Gender' और 'Category' का क्रॉस-टेबुलेशन बनाएँ pd.crosstab(df['Gender'], df['Category']) ```

डेटा परिवर्तन

पांडास डेटा को बदलने के लिए विधियाँ प्रदान करता है: * `cut()`: मानों को असतत अंतराल (discrete intervals) में विभाजित करता है। * `qcut()`: क्वांटाइल-आधारित विवेकीकरण फ़ंक्शन (quantile-based discretization function)। * `get_dummies()`: श्रेणीबद्ध चर को डमी/संकेतक चर में परिवर्तित करता है। उदाहरण: ```python # 'Age' को आयु समूहों में विभाजित करें df['Age_Group'] = pd.cut(df['Age'], bins=[0, 18, 35, 60, 100], labels=['Child', 'Young Adult', 'Adult', 'Senior']) # 'Gender' को डमी चर में परिवर्तित करें gender_dummies = pd.get_dummies(df['Gender']) ```

निष्कर्ष

पांडास पायथन में डेटा विश्लेषण के लिए एक आवश्यक उपकरण है। इस लेख में डेटा पढ़ने, लिखने, चयन करने, गणना करने, लापता डेटा को संभालने, हेरफेर करने, मर्ज करने और बदलने के लिए मौलिक विधियों को शामिल किया गया है। इन तकनीकों में महारत हासिल करके, आप अपने डेटा से कुशलतापूर्वक विश्लेषण कर सकते हैं और अंतर्दृष्टि प्राप्त कर सकते हैं।

 मूल लिंक: https://developer.aliyun.com/article/423072

टिप्पणी(0)

user's avatar

      समान लर्निंग

      संबंधित टूल्स