当前位置: 首页 > news >正文

huggingface下载数据和模型,部分下载,本地缓存等常见问题踩坑

huggingface

注:系统环境为windows11 23H2,macOS和Linux用户可以查看下【参考】里的链接文档,差异不大

安装huggingface-cli

虽然可以通过代码下载模型和数据集(下文会提及),但我依然推荐你用此方法来管理和下载,更直观可控一些。
pip install huggingface-cli 将hugginface-cli安装到全局的python环境下,这样打开terminal就能直接使用命令。

可选:修改huggingface镜像地址和缓存地址

win+r 搜索 修改系统环境变量(或者edit system variables 在用户变量或者系统变量分区下添加如下新变量:
HF_HOME=F:\hf_home (huggingface根地址)
HF_DATASETS_CACHE = F:\hf_home\datasets (数据集的存放地址,之后也会再说明)
HF_ENDPOINT=https://hf-mirror.com (镜像地址,新的模型同步需要时间)
HF_HUB_DOWNLOAD_TIMEOUT=60 (超时重试间隔,秒数)

预下载

以whisper-small为例,在网页点击按钮复制完整模型名,
在这里插入图片描述
terminal中输入命令下载:
huggingface-cli download --resume-download openai/whisper-small
下载数据集的命令:
huggingface-cli download --resume-download --repo-type dataset mozilla-foundation/common_voice_13_0

等待下载完成,就可以在ollaMA或者脚本里直接使用下载好的模型了。

边用边下载

  • 模型
from huggingface_hub import hf_hub_download
import joblibmodel = joblib.load(hf_hub_download(repo_id='openai/whisper-small', repo_type="model", local_dir="./downloaded_models", filename='model.safetensors')
)
''' 加入local_dir可以指定下载位置:如 model = joblib.load(hf_hub_download(repo_id='openai/whisper-small', repo_type="model", local_dir="./downloaded_models", filename='model.safetensors'))'''
  • 数据集
from huggingface_hub.hf_api import HfFolder
from huggingface_hub import snapshot_downloadsnapshot_download(repo_id="mozilla-foundation/common_voice_13_0", force_download=True, repo_type="dataset")
  • 只下载&加载部分数据集

有的数据集非常之大但我们只需要部分进行训练,例如commonvoice包含了几百种世界语言,但我想使用单语言(如中文或者英文)的语音文件(全部下载大约需要500g以上)

from datasets import load_datasetcache_dir = "F:/hf_home/datasets"  # 这里指定了dataset的缓存目录,和上文提到的HF_DATASETS_CACHE 系统环境变量一致common_voice['train'] = load_dataset('mozilla-foundation/common_voice_13_0', 'en', split='train+validation', trust_remote_code=True, cache_dir=cache_dir, data_files="audio/en/*", download_mode="reuse_cache_if_exists" )
common_voice['test'] = load_dataset('mozilla-foundation/common_voice_13_0', 'en', split='test', trust_remote_code=True, cache_dir=cache_dir, data_files="audio/en/*", download_mode="reuse_cache_if_exists")

另外,有的数据集下载前需要登录huggngface账号,先前往HF个人资料在token设置页创建一个只读的token,
在这里插入图片描述
获取到token值,如hf_abc12345efg 后在snapshot_download 执行前新建一行:

hf_token = HfFolder.save_token('hf_abc12345efg')

使用命令行下载时候先huggingface-cli login 输入token登录后再下载即可,token会存储在%hf_home% 下同名文件里。

下载之后的数据集和模型在哪儿?

模型还好32b的ds也不过几十G,数据集动辄几十甚至上百g接近1T 不是小数目,这里我做了大概的总结,反复删除下载的确是个恼人的工作。
这里我做了大概总结,没什么必要的东西就可以删掉节约空间了。

如果你没按我先前说的修改huggingface根地址,那么你的数据集和模型都会下载到:C:\Users\用户名\.cache\huggingface,这就是 %hf_home%。也可以在资源管理器使用 %hf_home% 直接访问hf根目录:

  • 模型
    这个位置是固定的,一直在%hf_home%/models 下除非你手动修改下载模型到的地址:
    F:\hf_home\hub\models--openai--whisper-small

  • 数据集
    这里有两个目录,一个用来存放真正的(未解压的数据集),均以mozzila/commonvoice/en/* 为例,即只下载和加载部分数据集

    • 通过cli下载的模型, 和模型一样放在%hf_home%/hub/ 下,如F:\hf_home\hub\datasets--distil-whisper--librispeech_long
    • 未解压的数据集:%hf_home%/datasets/downloads/extracted/... (这里不能确定具体的文件)
    • 解压的数据集(在加载过程中会越来越大,删掉的话下次load会重新生成):%hf_home%/datasets//mozilla-foundation___common_voice_13_0/en-93cf6a7a474e4b7d/

参考

https://huggingface.co/docs/huggingface_hub/en/guides/cli

https://huggingface.co/docs/datasets/v1.12.0/cache.html

https://huggingface.co/docs/datasets/en/loading#local-and-remote-files

https://zhuanlan.zhihu.com/p/684178533

相关文章:

huggingface下载数据和模型,部分下载,本地缓存等常见问题踩坑

huggingface 注:系统环境为windows11 23H2,macOS和Linux用户可以查看下【参考】里的链接文档,差异不大 安装huggingface-cli 虽然可以通过代码下载模型和数据集(下文会提及),但我依然推荐你用此方法来管理…...

分布式架构:Dubbo 协议如何做接口测试

传统单体架构是一个应用程序进程内处理完所有的逻辑:一个系统糅合了多个功能,如注册 --登录–充值–余额管理–用户积分等,所有的功能模块都是在一个应用程度里处理完的;一个请求过来–> 到应用程序系统–>数据库处理–>…...

Python math 库教学指南

Python math 库教学指南 一、概述 math 库是 Python 标准库中用于数学运算的核心模块,提供以下主要功能: 数学常数(如 π 和 e)基本数学函数(绝对值、取整等)幂与对数运算三角函数双曲函数特殊函数&…...

Antd Upload组件连续回车会多次触发文件夹弹窗的bug修复

看了看issue一大堆,没一个解决的,真恼火:Upload 上传组件,当上传完一个文件后,我按下键盘回车键,自动又打开了“选择文件窗口”,点击“选择文件窗口”下面的取消按钮,再次打开了“选…...

数据仓库与数据湖的对比分析

目录 一、数据来源 数据仓库 数据湖 二、数据模式转换时机 数据仓库 数据湖 三、数据存储成本 数据仓库 数据湖 四、数据质量 数据仓库 数据湖 五、面向用户 数据仓库 数据湖 六、主要支撑的应用类型 数据仓库 数据湖 在企业数据管理领域,数据仓库…...

Windows系统下MinerU的CUDA加速配置指南

Windows系统下MinerU的CUDA加速配置指南 快速解锁GPU性能,提升文档解析效率 1、简介 MinerU是一款高效的文档解析工具,支持通过CUDA加速显著提升处理速度。本指南详细说明如何在Windows系统中配置CUDA环境,并启用MinerU的GPU加速功能,帮助用户充分利用NVIDIA显卡的计算能…...

LeetCode路径总和系列问题解析:I、II、III的解决方案与优化

文章目录 引言一、路径总和 I(LeetCode 112)问题描述方法思路Java代码实现复杂度分析 二、路径总和 II(LeetCode 113)问题描述方法思路Java代码实现复杂度分析 三、路径总和 III(LeetCode 437)问题描述方法…...

【漫话机器学习系列】233.激活阈(Threshold Activation)

深度学习入门:了解“阈值激活函数”(Threshold Activation Function) 激活函数是神经网络中至关重要的一环。今天,我们通过一幅简单直观的手绘图,一起理解最早期也最基础的激活函数之一 —— 阈值激活函数(…...

使用vue开发electron

1.全局安装electron npm i electron -g 查看是否安装成功 electron -v 在vue项目中添加electron模块 vue add electron-builder 添加成功后,目录中多了background.js文件 可以在background.js配置 例如 窗口大小,是否可以缩放,是否可以移…...

安全企业内部im,BeeWorks即时通讯

BeeWorks企业即时通讯软件具备哪些优势? 1. 多样的沟通方式 文本消息:支持发送文字消息,包括富文本格式(如加粗、斜体、下划线、颜色等)。 语音消息:支持发送语音消息,方便快捷,适…...

网易爆米花 1.8.8 | 免费无广告,支持多网盘聚合和智能刮削技术,提供顶级画质和逼真音效的影视管理应用

网易爆米花TV是一款专为家庭设计的影视管理应用,旨在提供一个简洁易用的家庭影视库。它支持从多个网盘(如阿里、百度、天翼等)、WebDAV以及本地资源导入,聚合用户的影视资源,并通过智能刮削技术将视频信息形成精美的影…...

蓝牙语音遥控国产适用芯片HS6621

蓝牙语音遥控器一般是通过按下语音键,遥控器会发送一个 HID 编码通知智能电视或者机顶盒打开识音功能,此时,遥控器LED灯保持闪烁或者长亮,用户开始录音同时将语音数据上传给智能电视或者机顶盒。而智能电视或者机顶盒,…...

【Vue2】1-创建一个Vue实例

Vue2官方文档 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </head&g…...

销售与金融领域的数据处理与分析方法

一、引言 在销售和金融领域&#xff0c;除了常见的同比、环比和移动平均等数据处理方法外&#xff0c;还有众多方法可供选择&#xff0c;这些方法分布于不同的专业方向&#xff0c;旨在帮助分析和解决问题&#xff0c;以下将按类别对这些方法进行详细梳理。 二、按类别划分的…...

DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型,AI 效能再升级!

刚刚&#xff0c;阿里云一站式智能大数据开发治理平台 DataWorks 正式接入 Qwen3 模型&#xff0c;可支持235B最大尺寸。用户通过 DataWorks Copilot 智能助手即可调用该模型&#xff0c;通过自然语言交互完成多种代码操作&#xff0c;实现数据开发、数据分析的快速实现。 Qwen…...

芯片软错误概率探究:基于汽车芯片安全设计视角

摘要&#xff1a; 本文深入剖析了芯片软错误概率问题&#xff0c;结合 AEC-Q100 与 IEC61508 标准&#xff0c;以 130 纳米工艺 1Mbit RAM 芯片为例阐述其软错误概率&#xff0c;探讨汽车芯片安全等级划分及软错误对汽车关键系统的影响&#xff0c;分析先进工艺下软错误变化趋势…...

青少年抑郁症患者亚群结构和功能连接耦合的重构

目录 1 研究背景及目的 2 研究方法 2.1 数据来源与参与者 2.1.1 MDD患者&#xff1a; 2.1.2 健康对照组&#xff1a; 2.2 神经影像分析流程 2.2.1 图像采集与预处理&#xff1a; 2.2.2 网络构建&#xff1a; 2.2.3 区域结构-功能耦合&#xff08;SC-FC耦合&#xff09…...

汽车OTA在线升级法规分析

摘要 本文介绍了R156法规即《关于批准车辆的软件升级和软件升级管理体系统一规定的法规》、该法规专注于汽车软件升级功能&#xff0c;并为此提出了一系列具体要求&#xff0c;旨在确保软件升级流程的安全性、可控性和合规性&#xff0c;从而顺应汽车行业智能化、联网化的发展趋…...

【上海大学数据库原理实验报告】MySQL基础操作

实验目的 熟悉MySQL基础操作。 实验内容 创建四张工程项目的关系表。 图 1 四张工程项目关系表的结构 检索供应零件编号为J1的工程的供应商编号SNO。检索供应零件给工程J1&#xff0c;且零件编号为P1的供应商编号SNO。查询没有正余额的工程编号、名称及城市&#xff0c;结果…...

FUSE 3.0.0 | 聚合7大直播平台的免费电视直播软件,支持原画清晰度及弹幕、收藏功能

FUSE是一款第三方娱乐直播软件&#xff0c;它聚合了多个直播平台的内容&#xff0c;为用户提供丰富的观看选择。首次进入软件后点击左上角logo&#xff0c;然后点击‘我已诚信付款&#xff0c;解锁LIVEPRO’按钮即可解锁所有功能。该软件聚合了7大直播平台&#xff0c;每个平台…...

在企业微信中,回调地址 redirect_uri 是允许包含端口号

在企业微信中&#xff0c;回调地址&#xff08;redirect_uri&#xff09;允许包含端口号的原因主要有以下几点&#xff1a; 1. 企业微信的开放设计 企业微信对回调地址的校验相对灵活&#xff0c;允许开发者根据实际业务需求配置带端口号的域名。这与部分严格限制端口的平台&a…...

Rust 学习笔记:枚举与模式匹配

Rust 学习笔记&#xff1a;枚举与模式匹配 Rust 学习笔记&#xff1a;枚举与模式匹配定义枚举&#xff08;Enum&#xff09;枚举变量Option 枚举及其相对于 NULL 的优势match 和枚举与 Option\<T\> 匹配match 应该是详尽的Catch-all 模式和 _ 占位符使用 if let 和 let e…...

UI自动化测试的优势

1. UI自动化测试的优势(提升效率的场景) ✅ 适合自动化的场景 (1) 高频回归测试 典型场景:每次版本迭代都要验证的核心功能(如登录、支付流程)。 效率提升:自动化脚本执行速度远高于手动测试,尤其适合敏捷开发中的快速验证。 (2) 跨平台/多环境测试 典型场景:需要在不…...

【Android】轻松实现实时FPS功能

文章目录 实时FPS 实时FPS 初始化 choreographer Choreographer.getInstance();lastFrameTimeNanos System.nanoTime();choreographer.postFrameCallback(frameCallback);监听并显示 Choreographer.FrameCallback frameCallback new Choreographer.FrameCallback() {Overri…...

BI平台是什么意思?一文讲清BI平台的具体应用!

目录 一、BI平台是什么意思 1. 基本概念 2. 核心功能 3. 重要性 二、BI平台的分类 1. 按部署方式分类 2. 按功能特点分类 3. 按行业应用分类 三、BI平台的使用场景 1. 销售与营销分析 2. 财务分析 3. 人力资源管理 4. 供应链管理 5. 运营管理 总结 “BI 平台是什…...

玩转MCP

玩转MCP 0.环境1.自定义stdio交互1.1.server1.2.client1.3.效果 2.自定义sse交互2.1.server2.2.client2.3.效果 3.使用官方文件 mcp火了好一阵了&#xff0c;最近一直在大院干活儿&#xff0c;好不容易抽出时间&#xff0c;赶紧来学习学习。 官方文档&#xff0c; mcp广场可以…...

2025华东杯A/B/C题解题思路+可运行代码参考

A题:跳台滑雪问题 选题分析: 跳台滑雪问题涉及物理学、运动学和优化算法。需要建立数学模型来分析运动员在不同阶段的最佳姿势和策略,以提高运动成绩。问题分为三个小问,分别是助滑坡姿势、空中飞行控制和着陆策略。 解题思路: 1. 助滑坡姿势: 分析助滑坡的物理特性,…...

IsaacLab最新2025教程(7)-创建Interactive Scene

在isaaclab中创建的强化学习训练环境有两种&#xff1a;direct workflow&#xff0c;风格与isaacgym一样。另外一种是manager-based workflow更加模块化&#xff0c;它主要是两部分包括仿真环境也就是即将介绍的interactive scene&#xff0c;与mdp的内容&#xff0c;比如奖励函…...

Linux远程管理

1.网络管理获取计算机的网络信息基本语法&#xff1a;windows ipconfig<img src"ReadMe.assets/image-20250318152355476.png" alt"image-20250318152355476" style"zoom:33%;" />powershell ifconfig 也可以通过上面的网络处获取powershe…...

双指针(4)——盛水最多的容器

题目&#xff1a; 这题可以暴力枚举&#xff0c;但会超时&#xff0c;所以我们要用其他方法。 我们就用示例1的数组为例&#xff0c;我们先取出一部分研究。 虽然我们不能用暴力枚举&#xff0c;但可以借用其思想。 对于6和4组成的容器&#xff0c;它可以储存24个单位的水。…...

sd webui 安装插件sd-webui-EasyPhoto依赖安装失败解决办法

在最新版的SD webui中&#xff0c;可以安装easyphoto插件&#xff0c;官方建议通过github安装&#xff0c;对无法科学上网的用户很不友好。对我自己来说是通过地址&#xff1a; https://gitee.com/wowai/sd-webui-EasyPhoto.git 分支&#xff1a;anyid 点击安装即可。 在安装…...

虚拟机对前端开发的实用价值:提升效率与解决痛点的完整指南

作为前端开发者&#xff0c;虚拟机可能不是你日常工作的核心工具&#xff0c;但它确实能在多个方面为前端开发提供强大支持。下面我将详细解析虚拟机如何帮助前端开发者提升工作效率、解决开发难题。 一、跨浏览器/跨平台测试环境搭建 1.1 多浏览器测试 真实IE测试&#xff…...

用Playwright自动化网页测试,不只是“点点点”

如果你接触过网页自动化测试&#xff0c;可能听说过 Selenium、Puppeteer 这些工具。但最近几年&#xff0c;一个新的开源项目在测试圈子里悄然兴起——它就是 Playwright 。 Playwright 是微软开发的一个自动化库&#xff0c;支持多种浏览器&#xff08;包括 Chrome、Firefox…...

合并两个有序数组

题目 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2&#xff0c;另有两个整数 m 和 n &#xff0c;分别表示 nums1 和 nums2 中的元素数目。 请你 合并 nums2 到 nums1 中&#xff0c;使合并后的数组同样按 非递减顺序 排列。 注意&#xff1a;最终&#xff0c;合并…...

系统思考:局部最优与全局失衡

最近遇到一家创业公司的创始人&#xff0c;在复盘时说了一句扎心的话&#xff1a;“我们真的已经很努力了&#xff0c;大家每天都在拼&#xff0c;连周末都不休息……但事还是做不完&#xff0c;进展还是很慢。” 我和几个关键岗位员工聊了聊&#xff0c;他们也说&#xff1a;“…...

Windows 系统中安装 flash - attn

#工作记录 一、下载 flash_attn 在 Windows 系统中&#xff0c;直接使用 pip 在线安装 flash_attn 很可能失败。 建议从 kingbri1/flash-attention 的 GitHub 发布页面 下载与当前 Python、torch 和 CUDA 版本匹配的 .whl 文件&#xff0c;并从本地进行安装。 Linux版本&am…...

理想药用植物的特征综述-理想中药材”的系统定义-文献精读125

Decoding and designing: Promising routes to tailor-made herbs 解码与设计&#xff1a;定制化草药的潜力路径 摘要 理想药用植物的特征可归纳为高次生代谢产物含量、高抗逆性、理想的形态以及高产量。本研究提出了两种策略&#xff0c;用于解析中药活性成分的生物合成与质…...

Cline原理分析-prompt

Cline 抓包-prompt原文 You are Cline, a highly skilled software engineer with extensive knowledge in many programming languages, frameworks, design patterns, and best practices. TOOL USE You have access to a set of tools that are executed upon the user’s…...

allegro 怎样显示/隐藏铜皮shape?

1、setup–>User preferences&#xff1b; 2、Display -->shape_fill &#xff1b; 3、5个方框打“√”代表隐藏铜皮&#xff1b; 4、不打√代表显示铜皮;...

URP - 公告牌的效果实现

效果&#xff1a; 【太妃糖耶】我的最新作品&#xff0c;快来一睹为快&#xff01; 原理&#xff1a;使面片的正面永远跟随摄像机的旋转 首先我们可以了解一下顶点旋转的原理 B点是由原坐标系中的基向量和A点坐标值相乘得到的 当旋转此基向量后&#xff0c;B点的坐标值会发生…...

在VTK中使用VTKCamera

文章目录 概要Cpp代码概要 在VTK(Visualization Toolkit)中,vtkCamera 类用于控制三维场景中相机的视角。相机决定了你从哪个角度和位置观察三维场景。使用 vtkCamera 的一般步骤包括创建相机对象、配置相机参数、将相机设置为渲染器的活动相机,以及更新相机视图。 Cpp代…...

牛客:AB4 逆波兰表达式求值

链接&#xff1a;逆波兰表达式求值_牛客题霸_牛客网 题解&#xff1a; 利用栈&#xff0c;遍历字符串数组&#xff0c;遇到运算数则入栈&#xff0c;遇到运算符则取出栈顶两个运算数进行运算&#xff0c;并将运算结果入栈。 class Solution { public:/*** 代码中的类名、方法…...

Linux:文件操作

在C语言中&#xff0c;我们可以使用fopen() fclose() fread() fwrite()等接口进行文件操作&#xff0c;而由于文件是储存于磁盘中的&#xff0c;且磁盘是由操作系统来管理的&#xff0c;因此在用户层面对文件的操作必然要调用操作系统对文件的操作。 我们接下来就要了解操作系…...

Gin 集成 prometheus 客户端实现注册和暴露指标

在 Gin 框架中集成 Prometheus 监控系统&#xff0c;可以帮助开发者实时收集和展示应用程序的性能指标&#xff0c;便于监控和故障排查。 Prometheus 是一个开源的监控和告警系统&#xff0c;最初由 SoundCloud 开发&#xff0c;现已成为 Cloud Native Computing Foundation (…...

欢度我们的节日

众所周知&#xff0c;一年一度的“五一”小长假就要来了。先预祝各位兄弟姐妹们假期快乐&#xff0c;天天好心情&#xff01; 你们在节前的最后一天是处于什么状态呢&#xff1f;是不是已经处理好手中的工作静待明日的旅程&#xff1f;还是忙忙碌碌担心搞不完要加班&#xff1f…...

03_Mybatis-Plus LambadaQueryWrapper 表达式爆空指针异常

&#x1f31f; 03_MyBatis-Plus LambdaQueryWrapper 爆出空指针异常的坑点分析 ❓ 场景描述 来看一段常见的 MyBatis-Plus 查询写法&#xff0c;是否存在问题&#xff1f; Page<VideoInfoVo> videoInfoVosPage videoMapper.selectPage(page, new LambdaQueryWrapper&…...

左右分屏电商带货视频批量混剪自动剪辑生产技术软件:智能剪辑与合规化方案解析

一、引言&#xff1a;电商视频营销的工业化生产需求 在电商带货领域&#xff0c;高效产出差异化视频内容是提升转化率的核心竞争力。本文结合实战经验&#xff0c;解析基于智能分屏算法、动态素材重组、多维度参数配置的工业化剪辑方案&#xff0c;构建可复用的自动化生产流水…...

全面解析SimHash算法:原理、对比与Spring Boot实践指南

一、SimHash算法概述 SimHash是一种局部敏感哈希算法&#xff0c;由Google工程师Moses Charikar提出&#xff0c;主要用于海量文本的快速去重与相似度检测。其核心思想是将高维特征向量映射为固定长度的二进制指纹&#xff08;如64位&#xff09;&#xff0c;通过计算指纹间的…...

【Docker】Docker拉取部分常用中间件

一、拉取MySQL 这里以Docker拉取MySQL5.7为例 #拉取镜像 docker pull mysql:5.7 docker run -d --name oj-mysql -p 3306:3306 -e "TZAsia/Shanghai" -e "MYSQL_ROOT_PASSWORD123456" mysql:5.7 -e 参数用于设置容器内的环境变量。TZ 是用于设置时区的环…...

表征(Representations)、嵌入(Embeddings)及潜空间(Latent space)

文章目录 1. 表征 (Representations)2. 嵌入 (Embeddings)3. 潜空间 (Latent Space)4. 关系总结5. 学习思考 1. 表征 (Representations) 定义: 表征是指数据的一种编码或描述形式。在机器学习和深度学习中&#xff0c;它特指模型在处理数据时&#xff0c;将原始输入数据转换成…...