Pandas 简介

Pandas 简介

Pandas 是 Python 中最流行的开源数据分析和处理库,基于 NumPy 构建,提供了高性能、易于使用的数据结构数据分析工具

核心特点

1. 主要数据结构

  • Series(系列):一维带标签的数组,类似于带名字的列
  • DataFrame(数据框):二维带标签的数据表,类似 Excel 或 SQL 表格

2. 核心优势

  • 标签索引:支持基于标签和位置的索引操作
  • 缺失数据处理:内置对 NaN、None 的处理机制
  • 数据清洗和转换:强大的数据清洗、格式化、合并功能
  • 时间序列处理:专门的日期时间数据类型和功能
  • 高效性能:基于 NumPy 和 C 实现的底层优化

安装方式

pip install pandas
# 或者
conda install pandas

基本使用示例

1. 创建 DataFrame

import pandas as pd

# 从 Python 列表创建
data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 28],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
print(df)

2. 读取数据

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 读取 Excel 文件
df = pd.read_excel('data.xlsx')

# 读取 JSON
df = pd.read_json('data.json')

3. 基本操作

# 查看数据
print(df.head())      # 前5行
print(df.info())      # 数据信息
print(df.describe())  # 统计摘要

# 选择数据
print(df['姓名'])     # 选择列
print(df.loc[0])      # 按标签选择行
print(df.iloc[0:2])   # 按位置选择行

# 数据操作
df['年龄'].mean()     # 计算平均值
df.groupby('城市').mean()  # 分组统计

主要功能模块

数据导入/导出

  • CSV, Excel, JSON, SQL, Parquet 等多种格式
  • read_*()to_*() 方法

数据清洗

  • 缺失值处理:fillna(), dropna()
  • 重复值处理:drop_duplicates()
  • 数据类型转换:astype(), pd.to_datetime()

数据转换

  • 透视表:pivot_table()
  • 合并操作:merge(), concat(), join()
  • 重塑:melt(), pivot()

数据分析

  • 统计函数:mean(), std(), corr()
  • 分组聚合:groupby(), agg()
  • 时间序列:resample(), rolling()

与其他库的关系

NumPy (基础数组计算)
    ↓
Pandas (数据结构和分析)
    ↓
Matplotlib/Seaborn (可视化)
    ↓
Scikit-learn/Statsmodels (机器学习)

典型应用场景

  1. 数据清洗和预处理
  2. 探索性数据分析 (EDA)
  3. 金融数据分析
  4. 时间序列分析
  5. 数据管道构建
  6. 报表生成

学习建议

  1. 基础掌握:Series、DataFrame 创建和基本索引
  2. 数据清洗:缺失值、重复值、数据类型处理
  3. 分组聚合:groupby 和多级索引
  4. 合并操作:不同类型的数据合并
  5. 时间序列:日期处理和重采样
  6. 性能优化:向量化操作和内存管理

Pandas 是数据科学工作流中的核心工具,几乎所有数据分析项目都会用到。建议通过实际项目练习来深入掌握其功能。

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注