当前位置：首页 > news >正文

【深度学习】Pytorch：加载自定义数据集

news 来源：原创 2025/9/18 6:51:11

本教程将使用 flower_photos 数据集演示如何在 PyTorch 中加载和导入自定义数据集。该数据集包含不同花种的图像，每种花的图像存储在以花名命名的子文件夹中。我们将深入讲解每个函数和对象的使用方法，使读者能够推广应用到其他数据集任务中。

flower_photos/
├── daisy/
│   ├── image1.jpg
│   ├── image2.jpg
└── rose/├── image1.jpg├── image2.jpg
...

环境配置

所需工具和库

pip install torch torchvision matplotlib

导入必要的库

import os
import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
from PIL import Image
import pathlib

数据集导入方法

定义数据转换

图像转换在计算机视觉任务中至关重要。通过 transforms 对象，我们可以实现图像大小调整、归一化、随机变换等预处理操作。

# 定义图像转换  
transform = transforms.Compose([  transforms.Resize((150, 150)),  # 调整图像大小为 150x150  transforms.ToTensor(),  # 将图像转换为 PyTorch 张量  transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])  # 归一化图像数据  
])  # 数据路径  
data_dir = r"E:\CodeSpace\Deep\data\flower_photos"  # 使用 ImageFolder 加载数据  
full_dataset = datasets.ImageFolder(root=data_dir, transform=transform)  # 计算训练集和测试集的样本数量（80%和20%的划分）  
train_size = int(0.8 * len(full_dataset))  
test_size = len(full_dataset) - train_size  # 随机划分数据集  
train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size])  # 创建数据加载器  
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)  
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)  # 获取类别名  
class_names = full_dataset.classes  
print("类别名:", class_names)

显示部分样本图像

可视化样本数据有助于理解数据集结构和数据质量。

# 定义函数以绘制样本图像
def plot_images(images, labels, class_names):plt.figure(figsize=(10, 10))for i in range(9):  # 绘制前 9 张图像plt.subplot(3, 3, i + 1)img = images[i].permute(1, 2, 0)  # 将张量维度从 (C, H, W) 转为 (H, W, C)plt.imshow(img * 0.5 + 0.5)  # 反归一化处理，恢复到原始像素范围 [0, 1]plt.title(class_names[labels[i]])  # 显示类别标签plt.axis('off')  # 去掉坐标轴# 获取部分样本数据用于展示
sample_images, sample_labels = next(iter(train_loader))
plot_images(sample_images, sample_labels, class_names)

自定义数据加载方法

当数据结构复杂或需要额外处理时，可以通过继承 torch.utils.data.Dataset 创建自定义数据加载类。

Dataset 类详解

Dataset 是 PyTorch 中的一个抽象类，用户需要实现以下核心方法：

__init__()：初始化方法
- 传入数据路径和转换方法。
- 加载所有图像路径并生成类别标签。
__len__()：返回数据集大小
- 指定数据集中样本数量。
__getitem__()：根据索引获取样本数据
- 加载指定位置的图像和标签，并进行必要的转换。

代码实现

class CustomFlowerDataset(torch.utils.data.Dataset):def __init__(self, data_dir, transform=None):# 初始化数据集路径和图像转换方法self.data_dir = pathlib.Path(data_dir)self.transform = transformself.image_paths = list(self.data_dir.glob('*/*.jpg'))  # 获取所有图像路径self.label_names = sorted(item.name for item in self.data_dir.glob('*/') if item.is_dir())self.label_to_index = {name: idx for idx, name in enumerate(self.label_names)}  # 将类别名映射为索引def __len__(self):# 返回数据集大小return len(self.image_paths)def __getitem__(self, idx):# 根据索引获取图像及其标签img_path = self.image_paths[idx]label = self.label_to_index[img_path.parent.name]  # 通过父文件夹名获取标签image = Image.open(img_path).convert("RGB")  # 确保图像是 RGB 模式if self.transform:image = self.transform(image)  # 进行图像预处理return image, label# 使用自定义数据集
custom_dataset = CustomFlowerDataset(data_dir, transform=transform)
custom_loader = DataLoader(custom_dataset, batch_size=32, shuffle=True)

随机划分数据集

如果你还希望在这个自定义数据集上随机划分训练集和测试集，可以使用 torch.utils.data.random_split。以下是示例代码：

from torch.utils.data import random_split  # 获取数据集长度  
full_dataset = CustomFlowerDataset(data_dir, transform=transform)  # 计算训练集和测试集的样本数量（80%和20%的划分）  
train_size = int(0.8 * len(full_dataset))  
test_size = len(full_dataset) - train_size  # 随机划分数据集  
train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size])  # 创建数据加载器  
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)  
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)  print(f"训练集大小: {len(train_dataset)}, 测试集大小: {len(test_dataset)}")

数据加载性能优化

num_workers 参数：设置并行数据加载线程数。对于多核 CPU，可以显著提高数据加载效率。
prefetch_factor 参数：控制每个工作线程预取的批次数量。

custom_loader = DataLoader(custom_dataset, batch_size=32, shuffle=True, num_workers=4, prefetch_factor=2)

Dataset 类扩展建议

支持多格式数据读取：通过扩展 __getitem__() 来支持其他格式如 PNG、BMP。
数据过滤：在 __init__() 中根据文件名或元数据筛选特定样本。
标签增强：为每个样本生成附加信息，例如图像的元数据或分布特征。

数据集的使用方法

遍历数据集

模型训练前需要遍历数据集以加载图像和标签：

for images, labels in custom_loader:# images 是图像张量，labels 是对应的类别标签print(f"图像张量大小: {images.shape}, 标签: {labels}")

模型输入

数据集加载完成后可直接用于模型训练：

import torch.nn as nn
import torch.optim as optim# 定义一个简单的神经网络模型
model = nn.Sequential(nn.Flatten(),  # 将输入张量展平成一维nn.Linear(150*150*3, 128),  # 输入层到隐藏层的全连接层nn.ReLU(),  # 激活函数nn.Linear(128, len(class_names))  # 输出层，类别数量等于花的种类数
)# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()  # 交叉熵损失适用于多分类问题
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam 优化器# 示例训练过程
for epoch in range(2):  # 简单训练两轮for images, labels in custom_loader:outputs = model(images)  # 前向传播计算输出loss = criterion(outputs, labels)  # 计算损失optimizer.zero_grad()  # 梯度清零loss.backward()  # 反向传播计算梯度optimizer.step()  # 更新模型参数print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

模型评估

加载后的数据集也可用于验证模型性能：

correct = 0
total = 0
model.eval()  # 设置模型为评估模式
with torch.no_grad():for images, labels in test_loader:outputs = model(images)_, predicted = torch.max(outputs, 1)total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = 100 * correct / total
print(f"模型准确率: {accuracy:.2f}%")

方法对比与扩展

`ImageFolder` vs 自定义 `Dataset`

ImageFolder：适合简单目录结构，快速加载标准图像数据。
自定义 Dataset：更适合复杂数据结构及自定义逻辑，例如多模态数据处理。

提高模型泛化能力

数据增强：通过 transforms.RandomHorizontalFlip()、transforms.ColorJitter() 等方法增加数据多样性。
归一化技巧：根据数据集的特性调整 mean 和 std 参数。

总结

本教程详细讲解了如何在 PyTorch 中加载和导入 flower_photos 数据集，结合不同方法的讲解使你能根据项目需求灵活选择适合的数据加载方案。同时，我们探讨了优化和扩展方法，希望这些内容能为你的深度学习项目提供有力支持。

【深度学习】Pytorch：加载自定义数据集

本教程将使用 flower_photos 数据集演示如何在 PyTorch 中加载和导入自定义数据集。该数据集包含不同花种的图像，每种花的图像存储在以花名命名的子文件夹中。我们将深入讲解每个函数和对象的使用方法，使读者能够推广应用到其他数据集任务中。 flower_ph…...

编程日记 2025/9/18 6:51:11

vue js实现时钟以及刻度效果

2025.01.08今天我学习如何用js实现时钟样式，效果如下： 一、html代码如下： <template><div class"notice_border"><div class"notice_position notice_name_class" v-for"item in …...

编程日记 2025/9/10 16:52:26

js基础---注释与结束符

JavaScript 基础：注释与结束符注释注释是代码中用于解释说明的部分，不会被执行，主要有两种类型： 单行注释符号：//作用：从符号开始到该行末尾的所有内容都会被忽略，不会被执行。示例代码&…...

编程日记 2025/9/11 1:48:36

from pytorch3d import _C问题

离线安装pytorch3d后，先测试： import pytorch3d 没问题后，再测试： from pytorch3d import _C 单独测试会出现： ImportError: libc10.so: cannot open shared object file: No such file or directory 或者类似不…...

编程日记 2025/8/16 20:01:28

PHP进阶-在Ubuntu上搭建LAMP环境教程

本文将为您提供一个在Ubuntu服务器上搭建LAMP（Linux, Apache, MySQL, PHP）环境的完整指南。通过本文，您将学习如何安装和配置Apache、MySQL、PHP，并将您的PHP项目部署到服务器上。本文适用于Ubuntu 20.04及更高版本。一、系统更新…...

编程日记 2025/9/16 0:36:53

SQLite 命令

关于《SQLite 命令》的文章，我可以为您提供一个概要。SQLite是一个轻量级的嵌入式关系数据库管理系统，它以单个文件的形式存储数据，非常适合用于不需要传统数据库服务器的场景。SQLite3的命令行工具（sqlite3.exe）是一个…...

编程日记 2025/9/11 13:10:59

ASP.NET Core 实现微服务 - Consul 配置中心

这一次我们继续介绍微服务相关组件配置中心的使用方法。本来打算介绍下携程开源的重型配置中心框架 apollo 但是体系实在是太过于庞大，还是让我爱不起来。因为前面我们已经介绍了使用Consul 做为服务注册发现的组件 ，那么干脆继续使用 Consul 来作为配置…...

编程日记 2025/9/15 19:56:31

自定义Java注解及其应用

上一篇博客：Java注解写在前面：大家好！我是晴空๓。如果博客中有不足或者的错误的地方欢迎在评论区或者私信我指正，感谢大家的不吝赐教。我的唯一博客更新地址是：https://ac-fun.blog.csdn.net/。非常感谢大家的支持。…...

编程日记 2025/9/16 7:25:23

回归预测 | MATLAB实GRU多输入单输出回归预测

回归预测 | MATLAB实GRU多输入单输出回归预测目录回归预测 | MATLAB实GRU多输入单输出回归预测预测效果基本介绍程序设计参考资料预测效果基本介绍回归预测 | MATLAB实GRU多输入单输出回归预测。使用GRU作为RNN的一种变体来处理时间序列数据。GRU相比传统的RNN有较好的记…...

编程日记 2025/9/18 6:49:34

ISP流程--去马赛克详解

前言本期我们将深入讨论ISP流程中的去马赛克处理。我们熟知，彩色图像由一个个像元组成，每个像元又由红、绿、蓝（RGB）三通道构成。而相机传感器只能感知光的强度，无法直接感知光谱信息，即只有亮暗而没有颜色…...

编程日记 2025/9/16 5:24:35

用户注册模块用户校验（头条项目-05）

1 用户注册后端逻辑 1.1 接收参数 username request.POST.get(username) password request.POST.get(password) phone request.POST.get(phone) 1.2 校验参数前端校验过的后端也要校验，后端的校验和前端的校验是⼀致的 # 判断参数是否⻬全 # 判断⽤户名是否…...

编程日记 2025/9/13 22:09:47

【大数据】Apache Superset：可视化开源架构

Apache Superset是什么 Apache Superset 是一个开源的现代化数据可视化和数据探索平台，主要用于帮助用户以交互式的方式分析和展示数据。有不少丰富的可视化组件，可以将数据从多种数据源（如 SQL 数据库、数据仓库、NoSQL 数据库等&#xff0…...

编程日记 2025/9/14 2:01:33

如何搭建 Vue.js 开源项目的 CI/CD 流水线

网罗开发 （小红书、快手、视频号同名） 大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等…...

编程日记 2025/9/18 6:51:10

OCR文字识别—基于PP-OCR模型实现ONNX C++推理部署

概述 PaddleOCR 是一款基于 PaddlePaddle 深度学习平台的开源 OCR 工具。PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。它是一个两阶段的OCR系统，其中文本检测算法选用DB，文本识别算法选用CRNN，并在检测和识别模块之间添加文本方向分类器&a…...

编程日记 2025/9/14 22:27:39

国产3D CAD将逐步取代国外软件

在工业软件的关键领域，计算机辅助设计（CAD）软件对于制造业的重要性不言而喻。近年来，国产 CAD 的发展态势迅猛，展现出巨大的潜力与机遇，正逐步改变着 CAD 市场长期由国外软件主导的格局。国产CAD发展现状 …...

编程日记 2025/9/6 19:02:21

GoLand 如何集成 Netty？

目录 1.回答问题： 2.以下是实现类似 Netty 功能的步骤： 2.1 实现基本的网络通信功能： 3. 使用 Go 的第三方库实现 Netty 功能 4.实现类似 Netty 的事件循环： 5. 运用场景： 1.回答问题： 要在 GoLand 中…...

编程日记 2025/9/15 10:43:34

C++中为什么要把基类指针指向子类对象？

为什么要把基类指针指向子类对象？ 1）实现多态性动态绑定行为：通过基类指针指向子类对象，可以利用 C 的多态机制。当基类中有虚函数，并且子类重写了这些虚函数时，通过基类指针调用虚函数，实际调…...

编程日记 2025/9/14 15:16:59

2025年第三届“华数杯”国际赛A题解题思路与代码（Matlab版）

游泳竞技策略优化模型代码详解（MATLAB版） 第一题：速度优化模型本部分使用MATLAB实现游泳运动员在不同距离比赛中的速度分配策略优化。 1. 模型概述模型包含三个主要文件： speed_optimization.m: 核心优化类plot_speeds.m: …...

编程日记 2025/9/14 8:21:45

做一个简单的Django 《股票自选助手》显示用akshare 库（A股数据获取）

图： 股票自选助手这是一个基于 Django 开发的 A 股自选股票信息查看系统。系统使用 akshare 库获取实时股票数据，支持添加、删除和更新股票信息。功能特点支持添加自选股票实时显示股票价格和涨跌幅一键更新所有股票数据支持删除不需要的股票使用中…...

编程日记 2025/9/12 18:47:59

深入探索 ScottPlot.WPF：在 Windows 桌面应用中绘制精美图表的利器

一、ScottPlot.WPF 简介 ScottPlot.WPF 是基于 ScottPlot 绘图库专门为 Windows Presentation Foundation (WPF) 框架量身定制的强大绘图组件。它无缝集成到 WPF 应用程序中，为开发者提供了一种简洁、高效的方式来可视化数据，无论是科学研究中的实验数据展示、金融领域的行情…...

编程日记 2025/9/18 6:51:10

Spring bean的生命周期和扩展

接AnnotationConfigApplicationContext流程看实例化的beanPostProcessor-CSDN博客，以具体实例看bean生命周期的一些执行阶段 bean生命周期流程生命周期扩展处理说明实例化:createBeanInstance 构造方法， 如Autowired的构造方法注入依赖bean 如UserSer…...

编程日记 2025/9/14 21:39:20

【Docker】docker compose 安装 Redis Stack

注：整理不易，请不要吝啬你的赞和收藏。前文 Redis Stack 什么是？ 简单来说，Redis Stack 是增强版的 Redis ，它在传统的 Redis 数据库基础上增加了一些高级功能和模块，以支持更多的使用场景和需求。Redis…...

编程日记 2025/9/18 6:51:10

Life Long Learning（李宏毅）机器学习 2023 Spring HW14 (Boss Baseline)

1. 终身学习简介神经网络的典型应用场景是，我们有一个固定的数据集，在其上训练并获得模型参数，然后将模型应用于特定任务而无需进一步更改模型参数。然而，在许多实际工程应用中，常见的情况是系统可以不断地获取新数据，例如 Web 应用程序中的新用户数据或自动驾驶中的…...

编程日记 2025/9/14 20:06:49

JavaEE之线程池

前面我们了解了多个任务可以通过创建多个线程去处理，达到节约时间的效果，但是每一次的线程创建和销毁也是会消耗计算机资源的，那么我们是否可以将线程进阶一下，让消耗计算机的资源尽可能缩小呢？线程池可以达到此效果&a…...

编程日记 2025/9/14 4:39:37

错误修改系列---基于RNN模型的心脏病预测(pytorch实现)

前言前几天发布了pytorch实现，TensorFlow实现为：基于RNN模型的心脏病预测(tensorflow实现)，但是一处繁琐地方一处错误，这篇文章进行修改，修改效果还是好了不少；源文章为：基于RNN模型的心脏病…...

编程日记 2025/9/14 12:39:30

修改之前的代码使得利用设备树文件和Platform总线设备驱动实现对多个LED的驱动【只是假想对LED进行驱动,并没有实际的硬件操作】

引言在下面这篇博文中： 利用Linux的Platform总线设备驱动实现对多个LED的驱动【只是假想对LED进行驱动,并没有实际的硬件操作】我们利用Platform总线设备驱动的思想实现了对多个LED的驱动。 Platform总线设备驱动以及其它的总线设备驱动都将驱动分成了三个部分…...

编程日记 2025/9/13 6:56:05

从CentOS到龙蜥：企业级Linux迁移实践记录（龙蜥开局）

引言： 在我们之前的文章中，我们详细探讨了从CentOS迁移到龙蜥操作系统的基本过程和考虑因素。今天，我们将继续这个系列，重点关注龙蜥系统的实际应用——特别是常用软件的安装和配置。龙蜥操作系统（OpenAnolis&#…...

编程日记 2025/9/14 1:15:51

多云架构，JuiceFS 如何实现一致性与低延迟的数据分发

随着大模型的普及，GPU 算力成为稀缺资源，单一数据中心或云区域的 GPU 资源常常难以满足用户的全面需求。同时，跨地域团队的协作需求也推动了企业在不同云平台之间调度数据和计算任务。多云架构正逐渐成为一种趋势，然而该架构下的数…...

编程日记 2025/9/11 1:32:18

Jenkins持续集成与交付安装配置

Jenkins 是一款开源的持续集成（CI）和持续交付（CD）工具，它主要用于自动化软件的构建、测试和部署流程。为项目持续集成与交付功能强大的应用。下面我们来介绍下它的安装与配置。环境准备更新系统组件（这…...

编程日记 2025/9/13 22:47:26

十大排序简介

十大排序简介一、排序分类二、排序思路1．冒泡排序（Bubble Sort）2．选择排序（Selection Sort）3．插入排序（Insertion Sort）4．希尔排序（Shell Sort&a…...

编程日记 2025/9/18 6:51:10

uniapp小程序中隐藏顶部导航栏和指定某页面去掉顶部导航栏小程序

uniappvue3开发小程序过程中隐藏顶部导航栏和指定某页面去掉顶部导航栏方法在page.json中 "globalStyle": {"navigationStyle":"custom",}, 如果是指定某个页面关闭顶部导航栏，在style中添加"navigationStyle": "cus…...

编程日记 2025/8/16 22:33:28

echarts：dataZoom属性横向滚动条拖拽不生效

问： 拖拽的过程中，第一次向右拖拽正常，然后就报错： echarts报错： var pointerOption pointerShapeBuilder[axisPointerType](axis,pixeValue,otherExtent),(axis,pixeValue,otherExtent)下划线红色报错：…...

编程日记 2025/9/15 17:45:56

【Leetcode 热题 100】739. 每日温度

问题背景给定一个整数数组 t e m p e r a t u r e s temperatures temperatures，表示每天的温度，返回一个数组 a n s w e r answer answer，其中 a n s w e r [ i ] answer[i] answer[i] 是指对于第 i i i 天，下一个更高温度…...

编程日记 2025/9/15 17:19:10

R数据分析：多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多…...

编程日记 2025/9/15 3:37:11

如何用 SSH 访问 QNX 虚拟机

QNX 虚拟机默认是开启 SSH 服务的，如果要用 SSH 访问 QNX 虚拟机，就需要知道虚拟机的 IP 地址，用户和密码。本文我们来看看如何获取这些参数。 1. 启动虚拟机启动过程很慢，请耐心等待。 2. 查看 IP 地址等待 IDE 连接到虚拟机。…...

编程日记 2025/9/11 10:15:56

交响曲-24-3-单细胞CNV分析及聚类

CNV概述小于1kb是常见的插入、移位、缺失等的变异人体内包含<10% 的正常CNV，我们的染色体数是两倍体，正常情况下，只有一条染色体表达，另一条沉默，当表达的那条染色体发生CNV之后，表达数量就会成倍增加…...

编程日记 2025/9/1 15:53:55

java远程调试debug

文章目录首先被调试的服务配置idea 中配置远程调试连接上被调试服务打断点开始调试首先被调试的服务配置被调试的 java 服务需要开启允许被远程调试的配置，具体就是启动脚本中，加上允许被远程调试以及相应端口 # 针对JDK15.-1.8 -agentlib:jdwptran…...

编程日记 2025/9/13 22:47:26

操作系统之系统调用

系统调用从上文简介得知，操作系统是计算机硬件和软件之间的桥梁，通过管理计算机软件和硬件资源，最终为我们用户提供服务。就如同一个管家帮助我们对CPU（进程）的管理、内存的管理、设备的管理、文件的管理。而我们如何…...

编程日记 2025/9/16 1:20:43

【docker】exec /entrypoint.sh: no such file or directory

dockerfile生成的image 报错内容： exec /entrypoint.sh: no such file or directory查看文件正常在此路径，但是就是报错没找到。可能是因为sh文件的换行符使用了win的。...

编程日记 2025/9/18 3:12:05

CAPL概述与环境搭建目录 CAPL概述与环境搭建1. CAPL简介与应用领域1.1 CAPL简介1.2 CAPL的应用领域 2. CANoe/CANalyzer 安装与配置2.1 CANoe/CANalyzer 简介2.2 安装CANoe/CANalyzer2.2.1 系统要求2.2.2 安装步骤 2.3 配置CANoe/CANalyzer2.3.1 配置CAN通道2.3.2 配置CAPL节点…...

编程日记 2025/9/15 1:19:03

ML-Agents：智能体（三）

注：本文章为官方文档翻译，如有侵权行为请联系作者删除 Agent - Unity ML-Agents Toolkit–原文链接> ML-Agents：智能体（一） ML-Agents：智能体（二） ML-Agents：智能体&a…...

编程日记 2025/9/11 20:12:40

【harbor】离线安装2.9.0-arm64架构服务制作和升级部署

执行: .prepare 【作用就是产生一些配置信息和docker-compose.yaml文件，然后docker-compose发布docker】 harbor官网地址：Harbor 参考文档可以看这里：部署 harbor 2.10.1 arm64 - 简书。前提环境准备： 安装docker 和 docker…...

编程日记 2025/8/16 20:01:36

可视化-Visualization

可视化-Visualization 1.Introduction Visualization in Open CASCADE Technology is based on the separation of: on the one hand – the data which stores the geometry and topology of the entities you want to display and select, andon the other hand – its pr…...

编程日记 2025/9/17 13:28:22

环境配置

所需工具和库

导入必要的库

数据集导入方法

定义数据转换

显示部分样本图像

自定义数据加载方法

Dataset 类详解

代码实现

随机划分数据集

数据加载性能优化

Dataset 类扩展建议

数据集的使用方法

遍历数据集

模型输入

模型评估

方法对比与扩展

ImageFolder vs 自定义 Dataset

提高模型泛化能力

总结

相关文章：

`ImageFolder` vs 自定义 `Dataset`