Pandas 简介
Pandas 简介
Pandas 是 Python 中最流行的开源数据分析和处理库,基于 NumPy 构建,提供了高性能、易于使用的数据结构和数据分析工具。
核心特点
1. 主要数据结构
- Series(系列):一维带标签的数组,类似于带名字的列
- DataFrame(数据框):二维带标签的数据表,类似 Excel 或 SQL 表格
2. 核心优势
- 标签索引:支持基于标签和位置的索引操作
- 缺失数据处理:内置对 NaN、None 的处理机制
- 数据清洗和转换:强大的数据清洗、格式化、合并功能
- 时间序列处理:专门的日期时间数据类型和功能
- 高效性能:基于 NumPy 和 C 实现的底层优化
安装方式
pip install pandas
# 或者
conda install pandas
基本使用示例
1. 创建 DataFrame
import pandas as pd
# 从 Python 列表创建
data = {
'姓名': ['张三', '李四', '王五'],
'年龄': [25, 30, 28],
'城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
print(df)
2. 读取数据
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 读取 Excel 文件
df = pd.read_excel('data.xlsx')
# 读取 JSON
df = pd.read_json('data.json')
3. 基本操作
# 查看数据
print(df.head()) # 前5行
print(df.info()) # 数据信息
print(df.describe()) # 统计摘要
# 选择数据
print(df['姓名']) # 选择列
print(df.loc[0]) # 按标签选择行
print(df.iloc[0:2]) # 按位置选择行
# 数据操作
df['年龄'].mean() # 计算平均值
df.groupby('城市').mean() # 分组统计
主要功能模块
数据导入/导出
- CSV, Excel, JSON, SQL, Parquet 等多种格式
read_*()
和to_*()
方法
数据清洗
- 缺失值处理:
fillna()
,dropna()
- 重复值处理:
drop_duplicates()
- 数据类型转换:
astype()
,pd.to_datetime()
数据转换
- 透视表:
pivot_table()
- 合并操作:
merge()
,concat()
,join()
- 重塑:
melt()
,pivot()
数据分析
- 统计函数:
mean()
,std()
,corr()
- 分组聚合:
groupby()
,agg()
- 时间序列:
resample()
,rolling()
与其他库的关系
NumPy (基础数组计算)
↓
Pandas (数据结构和分析)
↓
Matplotlib/Seaborn (可视化)
↓
Scikit-learn/Statsmodels (机器学习)
典型应用场景
- 数据清洗和预处理
- 探索性数据分析 (EDA)
- 金融数据分析
- 时间序列分析
- 数据管道构建
- 报表生成
学习建议
- 基础掌握:Series、DataFrame 创建和基本索引
- 数据清洗:缺失值、重复值、数据类型处理
- 分组聚合:groupby 和多级索引
- 合并操作:不同类型的数据合并
- 时间序列:日期处理和重采样
- 性能优化:向量化操作和内存管理
Pandas 是数据科学工作流中的核心工具,几乎所有数据分析项目都会用到。建议通过实际项目练习来深入掌握其功能。