1. Series 与 DataFrame

Series 是一维带标签的数组,类似于一列数据。DataFrame 是一个二维带标签的数据结构,可以看作是一个由多个 Series 组成的表格。

动手试试:

从一个字典创建一个 DataFrame。您可以添加自己的数据行!

import pandas as pd data = ... df = pd.DataFrame(data) print(df)
运行结果:

2. 数据读取与清洗

Pandas 可以轻松地从各种文件格式中读取数据。读取数据后,通常需要进行清洗,例如处理缺失值。

动手试试:

每次加载数据都会随机产生缺失值 (NaN),然后尝试不同的清洗方法。

# 模拟读取 CSV # df = pd.read_csv('sales.csv') # 清洗操作 # 1. 丢弃缺失值 df_dropped = df.dropna() # 2. 填充缺失值 df_filled = df.fillna(0)
数据框预览:

3. 索引 (loc & iloc)

Pandas 提供了强大的索引功能。`loc` 用于基于标签的索引,而 `iloc` 用于基于整数位置的索引。

动手试试:

从下面的数据框中选择数据,代码会实时变化。

# 初始数据框 # ... # 动态选择:
当前数据框:
选择结果:

4. 分组 (groupby) 与合并

分组操作涉及将数据拆分-应用-组合。合并则用于根据共同的列或索引将不同的 DataFrame 连接在一起。

动手试试 `groupby`:

按不同类别对员工数据进行分组,并计算平均薪资。

# 员工数据 # ... # 分组并计算平均值 avg_salary = df.groupby('部门').mean() print(avg_salary)
运行结果: