“ 使用Pandas加载数据任何数据分析任务的第一步都是加载数据。Pandas通过`pd.read_csv()`和`pd.read_table()`等函数简化了这一过程。这些函数允许您从CSV和TSV等各种文件格式加载数据到Pandas DataFrame中。以下是如何使用相对路径和绝对路径加载数据的方法:
```python
import pandas as pd
import numpy as np
# 使用相对路径加载数据
df = pd.read_csv('./train.csv')
print(df.head())
# 使用绝对路径加载数据
df = pd.read_csv(r'D:\Users\LENOVO\Desktop\pandas入门\train.csv')
print(df.head())
```
如果在使用相对路径时遇到问题,可以使用`os.getcwd()`检查当前工作目录。
“ 理解不同的数据分隔符`pd.read_csv()`和`pd.read_table()`在默认分隔符上有所不同。`read_csv()`默认使用逗号(`,`)作为分隔符,而`read_table()`默认使用制表符(`\t`)。为了达到相同的效果,您可以指定`sep`参数:
```python
# 使用pd.read_csv()读取TSV文件
df = pd.read_csv('filename.tsv', sep='\t')
# 使用pd.read_table()读取CSV文件
df = pd.read_table('filename.csv', sep=',')
```
理解这些差异对于正确加载各种文件格式的数据至关重要。
“ 分块数据加载对于大型数据集,一次性将整个文件加载到内存中可能效率低下。Pandas通过`chunksize`参数提供分块加载功能。这允许您以较小的块处理数据,从而减少内存消耗。
```python
# 以1000行的数据块加载数据
for chunk in pd.read_csv('train.csv', chunksize=1000):
print(chunk.head())
# 对数据块执行操作
```
当处理超出可用内存的数据集时,分块加载尤其有用。
“ 修改表格表头和索引修改表格的表头和索引可以使您的数据更具可读性和可理解性。您可以将列名重命名为更具描述性的名称,尤其是在处理不同语言的数据集时。
```python
# 重命名列
df = df.rename(columns={'PassengerId': '乘客ID', 'Survived': '是否幸存', 'Pclass': '客舱等级'})
print(df.head())
# 将'乘客ID'设置为索引
df = df.set_index('乘客ID')
print(df.head())
```
这些修改提高了数据的可访问性和清晰度。
“ 数据分析和处理示例Pandas提供了广泛的数据分析和处理函数。以下是一些示例:
* **过滤数据:**
```python
# 过滤幸存的乘客
survived = df[df['是否幸存'] == 1]
print(survived.head())
```
* **分组数据:**
```python
# 按'客舱等级'分组并计算平均年龄
grouped = df.groupby('客舱等级')['年龄'].mean()
print(grouped)
```
* **处理缺失值:**
```python
# 用平均年龄填充缺失的年龄值
df['年龄'] = df['年龄'].fillna(df['年龄'].mean())
```
这些示例展示了Pandas在数据分析任务中的多功能性。
原始链接:https://blog.csdn.net/2301_80259885/article/details/140608335
评论(0)