AI学习路线图：Python Pandas 基础

1. Series 与 DataFrame

Series 是一维带标签的数组，类似于一列数据。DataFrame 是一个二维带标签的数据结构，可以看作是一个由多个 Series 组成的表格。

从一个字典创建一个 DataFrame。您可以添加自己的数据行！

import pandas as pd

data = ...
df = pd.DataFrame(data)

print(df)

运行结果:

Pandas 可以轻松地从各种文件格式中读取数据。读取数据后，通常需要进行清洗，例如处理缺失值。

每次加载数据都会随机产生缺失值 (NaN)，然后尝试不同的清洗方法。

# 模拟读取 CSV
# df = pd.read_csv('sales.csv')

# 清洗操作
# 1. 丢弃缺失值
df_dropped = df.dropna()

# 2. 填充缺失值
df_filled = df.fillna(0)
                        

数据框预览:

Pandas 提供了强大的索引功能。`loc` 用于基于标签的索引，而 `iloc` 用于基于整数位置的索引。

从下面的数据框中选择数据，代码会实时变化。

# 初始数据框
# ...

# 动态选择:

当前数据框:

loc[行标签, 列名]

iloc[行号]

选择结果:

分组操作涉及将数据拆分-应用-组合。合并则用于根据共同的列或索引将不同的 DataFrame 连接在一起。

按不同类别对员工数据进行分组，并计算平均薪资。

# 员工数据
# ...

# 分组并计算平均值
avg_salary = df.groupby('部门').mean()
print(avg_salary)
                        

选择分组列:

运行结果: