huggingface datasets库中的load_dataset方法-------deepseek问答记录
1. 基本介绍
Hugging Face 的 datasets
库中的 load_dataset
方法是用于加载数据集的核心工具,它支持从多种来源(如本地文件、Hugging Face Hub、内存数据等)加载数据集,并返回标准的 Dataset
或 DatasetDict
对象,方便进行高效的数据处理和训练。以下是详细介绍:
基本用法
from datasets import load_datasetdataset = load_dataset(path, name=None, split=None, **kwargs)
主要参数说明
-
path
(必填):
• Hugging Face Hub 数据集: 直接传入 Hub 上的数据集名称,例如"glue"
、"squad"
、"imdb"
等。
• 本地文件/目录: 传入本地文件路径(支持 CSV/JSON/TXT 等格式),例如"path/to/data.csv"
。
• 自定义脚本: 传入本地数据集生成脚本的路径(需符合datasets
库格式)。 -
name
(可选):
• 指定数据集的子配置(例如"glue"
数据集下有"cola"
、"sst2"
等子任务)。
• 示例:load_dataset("glue", name="sst2")
加载 GLUE 的 SST-2 子任务。 -
split
(可选):
• 指定加载的数据集划分,如"train"
、"test"
、"validation"
,或组合(如"train+test"
)。
• 示例:split="train[:10%]"
加载训练集的前 10%。 -
其他常用参数:
•data_dir
: 数据集文件的存储目录(适用于需要额外数据的场景)。
•data_files
: 直接指定文件路径(支持通配符*
),例如data_files={"train": "train.csv", "test": "test.csv"}
。
•cache_dir
: 自定义缓存目录(默认在~/.cache/huggingface/datasets
)。
•streaming
: 设为True
时启用流式加载(适用于超大数据集,无需全量加载到内存)。
常见使用场景
1. 从 Hugging Face Hub 加载数据集
# 加载 GLUE 数据集的 SST-2 子任务,训练集
dataset = load_dataset("glue", "sst2", split="train")# 加载 SQuAD 问答数据集(返回 DatasetDict 包含 train 和 validation)
dataset_dict = load_dataset("squad")
2. 加载本地文件
# 加载 CSV 文件(自动推断格式)
dataset = load_dataset("csv", data_files="data.csv")# 加载多个 JSON 文件
dataset = load_dataset("json", data_files={"train": "train.json", "test": "test.json"})
3. 流式模式(处理大型数据集)
# 逐样本加载,避免内存不足
streaming_dataset = load_dataset("big_dataset", streaming=True)
for example in iter(streaming_dataset["train"]):process(example)
4. 自定义数据集脚本
若数据集未在 Hub 上,可编写脚本定义数据加载逻辑(需符合 Dataset Script 规范):
dataset = load_dataset("path/to/dataset_script.py", name="my_config")
返回对象
• Dataset
: 单一切片的数据集(如 split="train"
),支持类似 Pandas 的索引和操作。
• DatasetDict
: 包含多个切片的字典(例如 {"train": Dataset, "test": Dataset}
)。
数据处理特性
- 内存高效:基于 Apache Arrow 格式,支持零拷贝读取。
- 预处理:可通过
.map()
方法快速应用预处理函数。 - 兼容性:可轻松转换为 Pandas DataFrame(
.to_pandas()
)或 NumPy 数组。
示例代码
# 加载 IMDb 电影评论数据集
dataset = load_dataset("imdb")# 查看训练集前 3 条样本
print(dataset["train"][:3])# 预处理:分词
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")def tokenize_function(examples):return tokenizer(examples["text"], truncation=True)tokenized_dataset = dataset.map(tokenize_function, batched=True)
注意事项
• 缓存机制:首次加载数据集时会下载或处理数据,后续调用直接读取缓存。
• 依赖安装:加载某些格式(如 Parquet)需安装额外依赖(pip install datasets[parquet]
)。
• 版本控制:通过 revision
参数指定数据集版本(如 Git 分支、commit hash)。
通过 load_dataset
,Hugging Face 提供了统一且高效的接口,极大简化了 NLP 任务中的数据加载流程。
2. load_datase返回值
load_dataset
方法返回的数据类型取决于传入的参数,通常是 Dataset
或 DatasetDict
对象。以下是具体规则:
1. 默认情况:返回 DatasetDict
• 当不指定 split
参数,且数据集包含预定义的多个划分(如 train
/test
/validation
)时,返回一个 DatasetDict
对象。
• 示例:
from datasets import load_dataset# 加载 SQuAD 数据集(包含 train 和 validation)
dataset_dict = load_dataset("squad")
print(type(dataset_dict)) # 输出: <class 'datasets.dataset_dict.DatasetDict'># 访问训练集
train_data = dataset_dict["train"]
2. 指定 split
参数:返回 Dataset
• 当明确指定 split
(如 split="train"
),返回单个 Dataset
对象。
• 示例:
# 仅加载 IMDb 数据集的测试集
dataset = load_dataset("imdb", split="test")
print(type(dataset)) # 输出: <class 'datasets.arrow_dataset.Dataset'># 访问第一条数据
print(dataset[0]) # 输出: {"text": "Great movie!", "label": 1, ...}
3. 自定义数据文件:返回类型灵活
• 通过 data_files
参数加载本地文件时:
• 如果指定单个文件(如 data_files="data.csv"
),返回 Dataset
。
• 如果指定多个文件(如 data_files={"train": "train.csv", "test": "test.csv"}
),返回 DatasetDict
。
示例:
# 加载单个 CSV 文件
dataset = load_dataset("csv", data_files="data.csv", split="train")# 加载多个 JSON 文件
dataset_dict = load_dataset("json", data_files={"train": "train.json", "test": "test.json"})
4. 流式模式 (streaming=True
):返回迭代器
• 当启用流式加载(streaming=True
)时,返回的是 IterableDataset
或 IterableDatasetDict
,适合逐样本处理超大数据集。
• 示例:
# 流式加载维基百科数据集
dataset = load_dataset("wikipedia", "20220301.en", split="train", streaming=True)
print(type(dataset)) # 输出: <class 'datasets.iterable_dataset.IterableDataset'># 逐样本读取(无需全量加载到内存)
for example in dataset:print(example["text"])break # 仅读取第一条
关键区别
返回类型 | 适用场景 | 数据访问方式 |
---|---|---|
DatasetDict | 多划分数据集(如 train/test) | 通过字典键访问:dataset_dict["train"] |
Dataset | 单划分数据集 | 直接索引或切片:dataset[0] |
IterableDataset(Dict) | 流式处理超大数据集(避免内存爆炸) | 通过迭代器逐条访问:for example in dataset: ... |
常用操作
转换为其他格式:
# 转 Pandas DataFrame
df = dataset.to_pandas()# 转 Python 字典列表
data_list = dataset.to_list()
数据预处理:
# 使用 .map() 方法批量处理
def preprocess(example):example["text_length"] = len(example["text"])return exampleprocessed_dataset = dataset.map(preprocess)
过滤数据:
# 过滤短文本
filtered_dataset = dataset.filter(lambda x: len(x["text"]) > 100)
注意事项
- 缓存机制:首次加载数据集会下载或处理数据,之后直接从缓存读取(路径默认在
~/.cache/huggingface/datasets
)。 - 内存优化:
Dataset
基于 Apache Arrow 格式,内存占用低,支持快速随机访问。 - 版本控制:通过
revision
参数加载特定版本的数据集(如 Git 分支、commit hash)。
简单总结
• 需要处理多个划分(如训练集、测试集) → DatasetDict
。
• 只需单个划分 → Dataset
。
• 处理超大数据集 → IterableDataset
+ 流式模式。
相关文章:
huggingface datasets库中的load_dataset方法-------deepseek问答记录
1. 基本介绍 Hugging Face 的 datasets 库中的 load_dataset 方法是用于加载数据集的核心工具,它支持从多种来源(如本地文件、Hugging Face Hub、内存数据等)加载数据集,并返回标准的 Dataset 或 DatasetDict 对象,方…...
网络故障排查
网络故障排查 导航 一、电脑端排查 引起网络故障的原因有很多,我按照实际处理遇到的问题的频率还有检测所需时间尽可能短开始进行排查,建议按下面的顺序来排查 电脑网口 首先,应该检查该网口是否正常闪烁黄灯 如果没有亮灯,抓…...
字符串匹配问题(strs)(信息学奥赛一本通-1355)
【题目描述】 字符串中只含有括号 (),[],<>,{},判断输入的字符串中括号是否匹配。如果括号有互相包含的形式,从内到外必须是<>,(),[],{},例如。输入: [()] 输出:YES,而输入([]),([)]都应该输出NO。 【输入】 第一行为…...
MD2Card(markdown)
MD2Card 介绍: 1.小红书爆款神器,Markdown笔记秒转高颜值卡片 2.实时预览15种主题,自动拆长文,图片/SVG导出即用 3.零门槛不登录,免费无限生成,专治排版废和设计手残党 网站地址: https://md2…...
企业微信实现“关联外部选项“、“审批控件中的外部选项“
企业微信实现"关联外部选项"、"审批控件中的外部选项" 需求背景参考文档 需求背景 公司自定义了运营成本审批流程的模板,需要调用公司API获取小区列表(关联外部选项),将选中的值带入到审批里面来。开通配置权限请参考下面参考文档&…...
[实操]MySQL8 读写分离后,配合redis的方法与步骤
之前的文章已经提供相关MySQL8的主从与读写分离操作,为了在高并发场景中有更多的实际用处,于是编写该文章说明MySQL8在实现读写分离后结合Redis的方法与步骤。 以下是文中提到的中间件及其版本: 以下是更新后的表格,包含了中间件…...
深度学习技术与应用的未来展望:从基础理论到实际实现
深度学习作为人工智能领域的核心技术之一,近年来引起了极大的关注。它不仅在学术界带来了革命性的进展,也在工业界展现出了广泛的应用前景。从图像识别到自然语言处理,再到强化学习和生成对抗网络(GAN),深度…...
JavaScript中匿名函数与箭头函数之间的区别与联系
什么是匿名函数和箭头函数? 匿名函数:顾名思义,是没有名称的函数,通常在定义时立即使用或赋值给变量。它是JavaScript中传统的函数定义方式。 箭头函数:是ES6(ECMAScript 2015)引入的一种新语法…...
ARCGIS PRO SDK ProWindow自定义窗口DataGrid控件的应用
ProWindow 是ArcGIS Pro SDK中用于创建自定义窗口的关键类,帮助开发者扩展ArcGIS Pro的功能和用户界面。这些窗口可以嵌入到ArcGIS Pro的主界面中,提供与核心功能的无缝集成。 创建一个窗体xml: controls:ProWindowxmlns"http://schem…...
高效PDF翻译解决方案:多引擎支持+格式零丢失
软件介绍 在AI翻译工具大行其道的今天,传统翻译软件市场逐渐饱和,但专业领域的深度需求依然存在。本文推荐的PDF翻译工具凭借20余种专业翻译接口,为学术文献、技术文档等复杂内容提供更精准的翻译服务,在保留文档原始排版的同时…...
Spring Boot
一.SpringBoot配置文件 有三种种配置文件:application.yaml,application.yml,application.properties,但是我们一般使用yml结尾的配置文件其它一般不用。 1.properties 配置⽂件说明 ①基本语法和配置文件的读取 // 配置文件的…...
使用CSS3实现炫酷的3D翻转卡片效果
使用CSS3实现炫酷的3D翻转卡片效果 这里写目录标题 使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1. 3D空间设置2. 核心CSS属性3. 布局和定位 实现难点和解决方案1. 3D效果的流畅性2. 卡片内容布局3. 响应式设计 性能优化建议浏览器兼容性总结 项目介绍 在这个项目中…...
Excel 小黑第19套
对应大猫19 鼠标右键标签修改颜色 将文本文件导入工作表中:数据 -现有链接 -浏览更多 选择员工档案 (若预览是乱七八糟的文字,将文件格式改成简体中文)分隔符号看题目要求 注意:将身份证号设置为文本格式 将一列数…...
IDEA批量替换项目下所有文件中的特定内容
文章目录 1. 问题引入2. 批量替换项目下所有文件中的特定内容2.1 右键项目的根目录,点击在文件中替换2.2 输入要替换的内容 3. 解决替换一整行文本后出现空行的问题4. 增加筛选条件提高匹配的精确度 更多 IDEA 的使用技巧可以查看 IDEA 专栏: IDEA 1. 问…...
从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.1.1自注意力机制(Scaled Dot-Product Attention)的逐行代码实现
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 2.1.1 自注意力机制(Scaled Dot-Product Attention)的逐行代码实现1. 自注意力机制的核心原理与数学表达1.1 注意力计算的三元组:`Q, K, V`2. 逐行代码实现与解析2.1 输入嵌入与权重矩阵初始化2.2 完…...
深入理解 Collections.emptyList():优雅处理空列表的利器!!!
🚀 深入理解 Collections.emptyList():优雅处理空列表的利器!🔧 大家好!👋 今天我们来聊聊 Java 中一个非常实用但容易被忽视的小工具——Collections.emptyList()。🎉 如果你经常需要返回一个…...
数据结构-ArrayList
文章目录 1. 线性表2. 顺序表3. ArrayList4. ArrayList的问题以及思考4.2 增容的性能消耗问题4.3 空间浪费问题 1. 线性表 线性表(Linear List)是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构,常见线性表&…...
[快乐学坊_2] 后端api测试
[快乐学坊management_1] With Cursor | Mysql设计 | 服务接口设计与开发 在 apifox 测试发现,500 报错,因为AI 辅助配置的数据库有点问题我们要来进行更改一下 重连一下我们上一篇文章中 配置好了的 mysql 然后就可以观察到,连接 成功了。我…...
盛铂科技国产SLMF315超低相位噪声频率综合器介绍
SLMF315频率综合器简介: 盛铂科技SLMF315超低相位噪声频率综合器的频率范围覆盖200MHz至15GHz。频率的最小步进仅为0.1Hz,在不考虑频率精度的情况下频率步进可达0.04Hz。SLMF315内部采用多环路设计从而获得极优秀的相位噪声特性,频率输出为1…...
用 pytorch 从零开始创建大语言模型(六):对分类进行微调
用 pytorch 从零开始创建大语言模型(六):对分类进行微调 6 微调用于分类6.1 微调的不同类别6.2 准备数据集6.3 创建数据加载器6.4 使用预训练权重初始化模型6.5 添加分类头部6.6 计算分类损失和准确率6.7 在监督数据上微调模型6.8 使用LLM进…...
Android Compose 层叠布局(ZStack、Surface)源码深度剖析(十三)
Android Compose 层叠布局(ZStack、Surface)源码深度剖析 一、引言 在 Android 应用开发领域,用户界面(UI)的设计与实现一直是至关重要的环节。随着技术的不断演进,Android Compose 作为一种全新的声明式…...
计算机网络-2 物理层
【考纲内容】 (一)通信基础 信道、信号、带宽、码元、波特、速率、信源与信宿等基本概念; 奈奎斯特定理与香农定理;编码与调制; 电路交换、报文交换与分组交换;数据报与虚电路① 视频讲解 (二…...
如何解决微服务调用链性能问题(优化 JVM 配置,降低 Full GC 频率)
1. 问题背景 在微服务架构中,服务之间的调用链较长,且频繁的远程调用可能导致性能瓶颈。同时,JVM 的 Full GC(Full Garbage Collection)频繁发生会导致应用暂停时间过长,影响用户体验。具体问题表现为&…...
深入理解 C# 反射 的使用
总目录 前言 反射是.NET框架中一个强大的特性,允许程序在运行时检查和操作类型信息。通过反射,开发者可以动态地创建对象、调用方法、访问属性等,为程序提供了极大的灵活性。本文将详细讲解C#反射的使用方法及其应用场景。 一、什么是反射&a…...
Java面试第十三山!《设计模式》
大家好,我是陈一。如果文章对你有帮助,请留下一个宝贵的三连哦~ 万分感谢! 一、设计模式入门指南 1. 什么是设计模式? 设计模式是可复用的解决方案模板,用于解决软件开发中常见的架构问题。如同建筑领域的…...
AI+视频赋能智慧农业:EasyCVR打造全域可视化农场监管平台
随着科技的飞速发展,传统农业正加速向智慧农业转型,农场管理也迎来了前所未有的变革机遇。在这一进程中,如何有效整合先进的信息技术,实现农场的精准化、智能化管理,成为了摆在农场主和农业管理者面前的关键课题。 基于…...
wsl2配置xv6全解(包括22.04Jammy)
文章目录 获取xv6源代码Ubuntu20.04 Version安装指令成功测试参考MIT2021年官方文档 24.04 Version安装指令成功测试参考MIT2024年官方文档 Ubuntu 22.04没有官方文档? 配置大体流程1. 卸载原本qemu(如果之前安装了)2. clone qemu官方源代码&…...
区块链技术的应用场景和优势
区块链技术是一种分布式数据库技术,它的应用场景和优势包括但不限于以下几点: 金融领域:区块链可以用于数字货币的交易和结算,实现去中心化的金融交易,提供更安全、透明和高效的支付方式;另外,也…...
基于深度学习的相位调制算法步骤
1.构建网络结构 2.制作数据集 3.训练网络 4.引入评价指标 5.迭代优化 总结 通过以上步骤,可以实现基于深度学习的相位调制算法: 使用 U-Net 构建神经网络。 生成数据集并训练网络。 使用训练好的网络预测相位分布。 通过相关系数 γ 评估调制效果&…...
Linux的I2C总线的原理和结构详解
Linux的I2C总线的原理和结构讲解 我前面基本已经吃透了Platform总线,关于Platform总线的原理和结构,详情见下面三篇博文: https://blog.csdn.net/wenhao_ir/article/details/145023181 https://blog.csdn.net/wenhao_ir/article/details/14…...
深入理解Linux中的SCP命令:使用与原理
在Linux系统中,文件传输是一个常见的操作。无论是将文件从本地传输到远程服务器,还是从远程服务器下载文件到本地,SCP(Secure Copy Protocol)都是一个非常实用的工具。本文将详细介绍SCP命令的使用方法,并深…...
【Android】VehiclePropertyAccess引起CarService崩溃
VehiclePropertyAccess引起CarService崩溃 VehiclePropertyAccess VehiclePropertyAccess属性,用于定义车辆属性的访问权限。权限包括 读:READ,只可以读取,不能写入。 VehiclePropertyAccess:READ写:WRITE…...
小米AX6000解锁ssh避坑笔记
经过网上教程不断尝试,终于解锁成功。 环境信息: Win10 笔记本 + AX210 WIFI6E网卡Vmware 16小米AX60000.可以先备份路由器的配置信息 1.首先降级小米AX6000到1.0.55 1.0.55下载路径 升级时注意: 清除当前所有用户配置升级完成后,选择不自动升级2.升级完成后,笔记本重新…...
论华为 Pura X 折叠屏性能检测
在科技浪潮中,折叠屏手机以其创新形态掀起市场热潮。华为 Pura X 作为华为最新折叠手机,承载前沿科技与精湛工艺,成为行业焦点。它融合先进折叠屏技术与优质材质,致力于打破传统手机使用边界,为用户开启全新体验。但产…...
关于极端场景下,数据库更新与 MQ 消息一致性保障方案的详细总结
目录 一、核心问题场景 二、RocketMQ 事务消息方案 1. 核心机制 2. 执行流程 3. 关键优势 4. 局限性 三、消息表方案 1. 核心机制 2. 执行流程 3. 关键优势 4. 局限性 四、方案对比与选择 五、实施建议 六、总结 一、核心问题场景 当数据库更新后,若 MQ 消息未…...
面试题精选《剑指Offer》:JVM类加载机制与Spring设计哲学深度剖析-大厂必考
一、JVM类加载核心机制 🔥 问题5:类从编译到执行的全链路过程 完整生命周期流程图 关键技术拆解 编译阶段 查看字节码指令:javap -v Robot.class 常量池结构解析(CONSTANT_Class_info等) 类加载阶段 // 手动加载…...
透析主流CSS预处理器的区别
Sass 和 Less 是两种主流的 CSS 预处理器(CSS Preprocessor),它们通过扩展原生 CSS 的语法,提供了变量、嵌套、混合(Mixins)、函数等高级功能,帮助开发者编写更高效、可维护的样式代码。以下是它…...
Redis 本地安装
首先安装: https://redis.io/docs/latest/operate/oss_and_stack/install/install-redis/install-redis-from-source/ 进入root目录 tar -xzvf redis-stable.tar.gz cd redis-stable make然后 install sudo make install最后可以直接启动 redis-server但是此时启…...
Android Launcher3 首屏图标锁定技术方案解析
一、需求背景与技术挑战 在Android 13系统定制开发中,需实现Launcher首屏图标固定功能。该需求需在以下技术维度进行突破: 拖拽事件拦截机制:需精准识别拖拽目标区域 布局层级判定:准确识别第一屏的布局标识 跨屏操作限制&…...
MySQL 处理重复数据:保留一条与两条的实现方案
在数据库管理中,处理重复数据是一项常见的任务。本文将详细介绍如何在 MySQL 数据库里,针对 test 表中 fd 和 fe 字段存在的重复数据进行处理,分别实现保留一条和两条数据的操作。 表结构与需求概述 假设 test 表包含三个字段:id…...
Go红队开发—CLI框架(一)
CLI开发框架 命令行工具开发,主要是介绍开发用到的包,集成了一个框架,只要学会了基本每个人都能开发安全工具了。 该文章先学flags包,是比较经典的一个包,相比后面要学习的集成框架这个比较自由比较细化点࿰…...
deque
deque概念 双端数组,可以对头端进行插入删除操作 deque和vector差别(就像数据结构中的栈和队列) vector对于头部的插入删除效率低,而deque则相对高效 vector和deque都支持随机访问,但是vector的随机访问效率低,而deque则相对高效…...
【Oracle资源损坏类故障】:详细了解坏块
目录 1、物理坏块与逻辑坏块 1.1、物理坏块 1.2、逻辑坏块 2、两个坏块相关的参数 2.1、db_block_checksum 2.2、db_block_checking 3、检测坏块 3.1、告警日志 3.2、RMAN 3.3、ANALYZE 3.4、数据字典 3.5、DBVERIFY 4、修复坏块 4.1、RMAN修复 4.2、DBMS_REPA…...
数据分析处理库-Pandas
1.1 Pandas概述 核心概念: Pandas 是基于 NumPy 的数据分析库,核心数据结构:Series(一维)和 DataFrame(二维)。 应用场景:数据清洗、转换、统计分析、时间序列处理。 特点&#x…...
阿里云平台Vue项目打包发布
目录: 1、vue项目打包2、通过ngixn发布vue的打包文件 1、vue项目打包 在你的vue项目下执行npm run build命令进行打包。 2、通过ngixn发布vue的打包文件 直接将打包的dist文件拷贝到nginx目录下即可。 修改nginx.conf的配置文件的相关配置,如端口或者ro…...
2025/03/19 Cursor使用方法(Java方向,适合Java后端把家从idea搬家到cursor)
Cursor介绍 官网:Cursor - The AI Code Editor 中文教程网:学习 Cursor ,拥抱 AI 编程 | Cursor 101 Cursor 是一款专为程序员打造的集成开发环境(IDE),它结合了大语言模型的能力,旨在提高开发效率. 与传统的 IDE&…...
平台与架构:深度解析与开发实践
平台与架构:深度解析与开发实践 1. 什么是平台与架构? 平台(Platform):指操作系统或运行环境,例如 linux、windows、darwin(macOS)、android 等。架构(Architecture&…...
xss-labs第八、九关卡以及XSS GAME的Ok,Boomer关卡
第八关 靶场代码 <!DOCTYPE html><!--STATUS OK--><html> <head> <meta http-equiv"content-type" content"text/html;charsetutf-8"> <script> window.alert function() { confirm("完成的不错&#…...
electron框架(1.0)认识electron和基础创建
----什么是electron框架 中文网地址(https://electronjs.p2hp.com/docs/latest/tutorial/quick-start) ----electron流程模型 ----项目搭建 --起步(需下载): node -v npm -v--创建初始文件: mkdir my-e…...
考OCP认证要交哪些费用?
考OCP认证要交哪些费用? 考OCP认证,指的是Oracle数据库管理员中级认证 Oracle Certified Professional,这是Oracle非常有名的一个认证,对于个人帮助巨大。 OCP认证要交不少钱,些费用因考试版本、培训机构和地区差异而有所不同&a…...