AI学习路线图:Pandas 基础
Pandas 是构建在 NumPy 之上的开源数据分析和操作库。它提供了名为 `Series` 和 `DataFrame` 的数据结构,使处理结构化数据变得直观而高效。
1. Series 与 DataFrame
Series 是一维带标签的数组,类似于一列数据。DataFrame 是一个二维带标签的数据结构,可以看作是一个由多个 Series 组成的表格。
动手试试:
从一个字典创建一个 DataFrame。您可以添加自己的数据行!
import pandas as pd
data = ...
df = pd.DataFrame(data)
print(df)
运行结果:
2. 数据读取与清洗
Pandas 可以轻松地从各种文件格式中读取数据。读取数据后,通常需要进行清洗,例如处理缺失值。
动手试试:
每次加载数据都会随机产生缺失值 (NaN),然后尝试不同的清洗方法。
# 模拟读取 CSV
# df = pd.read_csv('sales.csv')
# 清洗操作
# 1. 丢弃缺失值
df_dropped = df.dropna()
# 2. 填充缺失值
df_filled = df.fillna(0)
数据框预览:
3. 索引 (loc & iloc)
Pandas 提供了强大的索引功能。`loc` 用于基于标签的索引,而 `iloc` 用于基于整数位置的索引。
动手试试:
从下面的数据框中选择数据,代码会实时变化。
# 初始数据框
# ...
# 动态选择:
当前数据框:
选择结果:
4. 分组 (groupby) 与合并
分组操作涉及将数据拆分-应用-组合。合并则用于根据共同的列或索引将不同的 DataFrame 连接在一起。
动手试试 `groupby`:
按不同类别对员工数据进行分组,并计算平均薪资。
# 员工数据
# ...
# 分组并计算平均值
avg_salary = df.groupby('部门').mean()
print(avg_salary)
运行结果: