PyTorch 数据转换

在 PyTorch 中，数据转换（Data Transformation）通常通过 torchvision.transforms 模块或其他自定义方法实现，用于对输入数据（尤其是图像、视频或张量）进行预处理和增强。数据转换在数据加载 pipeline 中与 Dataset 和 DataLoader 紧密结合，用于标准化、增强或格式化数据以适应模型训练的需求。以下是对 PyTorch 数据转换的详细说明：

1. 什么是数据转换？

数据转换是指对原始数据进行的处理操作，通常包括：

预处理：如调整大小、归一化、格式转换等，确保数据适合模型输入。
数据增强：如随机翻转、裁剪、旋转等，增加数据多样性以提高模型泛化能力。
自定义操作：根据特定任务需求对数据进行处理。

在 PyTorch 中，torchvision.transforms 提供了大量内置的转换方法，同时也支持自定义转换。

2. `torchvision.transforms` 常用转换

torchvision.transforms 模块提供了一系列用于图像处理的转换操作，适用于 PIL.Image、张量或 NumPy 数组。以下是一些常用的转换方法：

(1) 基本转换

ToTensor()
将 PIL 图像或 NumPy 数组转换为 PyTorch 张量（形状从 [H, W, C] 转为 [C, H, W]，并将像素值从 [0, 255] 归一化到 [0, 1]）。

  transforms.ToTensor()

Normalize(mean, std)
对张量进行归一化，公式为 (x - mean) / std。通常用于将数据标准化到特定范围（如 ImageNet 的均值和标准差）。

  transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

Resize(size)
将图像调整到指定大小（可以是整数或 (height, width) 元组）。

  transforms.Resize((224, 224))

CenterCrop(size)
从图像中心裁剪出指定大小的区域。

  transforms.CenterCrop(224)

(2) 数据增强

RandomHorizontalFlip(p=0.5)
以概率 p 随机水平翻转图像。

  transforms.RandomHorizontalFlip()

RandomRotation(degrees)
随机旋转图像，角度在 [-degrees, degrees] 范围内。

  transforms.RandomRotation(30)

RandomResizedCrop(size, scale=(0.08, 1.0))
随机裁剪并调整图像大小，常用于增强。

  transforms.RandomResizedCrop(224)

ColorJitter(brightness, contrast, saturation, hue)
随机调整图像的亮度、对比度、饱和度和色调。

  transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1)

(3) 其他转换

ToPILImage()
将张量或 NumPy 数组转换为 PIL 图像。
Grayscale(num_output_channels=1)
将图像转换为灰度图。
RandomErasing(p=0.5)
随机擦除图像的一部分区域，用于增强。

3. 组合转换

通过 transforms.Compose 可以将多个转换按顺序组合成一个 pipeline。

from torchvision import transforms

# 训练集转换（包含数据增强）
train_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 测试集转换（无数据增强）
test_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

4. 应用到 `Dataset`

将转换应用到 PyTorch 的 Dataset 或 torchvision.datasets 中，通常在构造数据集时通过 transform 参数指定。

示例（以 MNIST 为例）：

from torchvision import datasets

# 加载数据集并应用转换
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=train_transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=test_transform)

5. 自定义转换

如果内置转换无法满足需求，可以通过以下方式创建自定义转换：

(1) 使用函数

定义一个函数并通过 transforms.Lambda 应用：

import numpy as np

# 自定义转换：随机将图像像素值加噪声
custom_transform = transforms.Lambda(lambda x: x + 0.1 * torch.randn_like(x))

transform = transforms.Compose([
    transforms.ToTensor(),
    custom_transform
])

(2) 定义类

继承 torchvision.transforms 或直接定义可调用对象：

import torch

class AddGaussianNoise:
    def __init__(self, mean=0.0, std=0.1):
        self.mean = mean
        self.std = std

    def __call__(self, tensor):
        return tensor + torch.randn(tensor.size()) * self.std + self.mean

transform = transforms.Compose([
    transforms.ToTensor(),
    AddGaussianNoise(mean=0.0, std=0.1)
])

6. 张量操作的转换

对于已经是张量的数据，可以使用 torchvision.transforms.functional 提供的函数进行更细粒度的控制：

from torchvision.transforms import functional as F

# 示例：手动调整图像亮度
image = F.adjust_brightness(image, brightness_factor=1.2)

7. 常见问题与注意事项

训练与测试分离：训练集通常使用数据增强（如随机翻转、裁剪），而测试集只使用确定性转换（如调整大小、归一化）。
输入格式：确保输入数据与转换方法兼容（例如，ToTensor() 需要 PIL 图像或 NumPy 数组）。
性能优化：尽量将昂贵的操作（如 Resize）放在 Compose 的前面，减少重复计算。
可逆性：某些转换（如归一化）需要记录参数，以便在推理时反转（例如，用于可视化）。

  # 反归一化
  def denormalize(tensor, mean, std):
      for t, m, s in zip(tensor, mean, std):
          t.mul_(s).add_(m)
      return tensor

8. 进阶用法

动态转换：根据条件动态选择转换，例如在 __getitem__ 中根据样本索引应用不同增强。
多模态数据：为不同类型的数据（如图像和文本）定义不同的转换 pipeline。
第三方库：结合 albumentations 或 imgaug 等库实现更复杂的数据增强。
示例（使用 albumentations）：

  import albumentations as A
  from albumentations.pytorch import ToTensorV2

  transform = A.Compose([
      A.Resize(224, 224),
      A.HorizontalFlip(p=0.5),
      ToTensorV2()
  ])

9. 参考资源

PyTorch 官方文档：https://pytorch.org/vision/stable/transforms.html
torchvision.transforms API：https://pytorch.org/vision/stable/transforms.html
社区教程：如 PyTorch 官方教程、GitHub 项目或博客。

如果你有具体的数据转换需求（例如处理特定数据类型、优化增强策略等），请提供更多细节，我可以为你提供更具体的代码或建议！

1. 什么是数据转换？

2. `torchvision.transforms` 常用转换

(1) 基本转换

(2) 数据增强

(3) 其他转换

3. 组合转换

4. 应用到 `Dataset`

5. 自定义转换

(1) 使用函数

(2) 定义类

6. 张量操作的转换

7. 常见问题与注意事项

8. 进阶用法

9. 参考资源

likuolei

发表回复取消回复

归档

分类

2026 年 3 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

1. 什么是数据转换？

2. torchvision.transforms 常用转换

(1) 基本转换

(2) 数据增强

(3) 其他转换

3. 组合转换

4. 应用到 Dataset

5. 自定义转换

(1) 使用函数

(2) 定义类

6. 张量操作的转换

7. 常见问题与注意事项

8. 进阶用法

9. 参考资源

likuolei

发表回复 取消回复

相关文章

2. `torchvision.transforms` 常用转换

4. 应用到 `Dataset`

发表回复取消回复