当前位置：首页 > news >正文

《AI大模型应知应会100篇》第53篇：Hugging Face生态系统入门

news 来源：原创 2025/8/1 17:42:41

第53篇：Hugging Face生态系统入门

——从模型获取到部署的全流程实战指南

在这里插入图片描述

📌 摘要

在人工智能快速发展的今天，Hugging Face已成为自然语言处理（NLP）领域最具影响力的开源平台之一。它不仅提供丰富的预训练模型、强大的工具库，还构建了一个开放的模型共享社区。

本文将深入介绍 Hugging Face 生态系统的核心组件，包括 Transformers、Datasets、Tokenizers 和 Hub 平台，并结合实际案例，带领你完成一个完整的 AI 应用开发流程：从数据准备、模型加载与微调，到本地部署和线上服务搭建。

✅ 目标读者：AI初中级开发者
🧪 实战内容：代码示例、安装部署、性能优化
📈 扩展思考：生态对比、未来趋势

🔍 核心概念与知识点

1. Hugging Face核心组件【实战部分】

1.1 Transformers库：架构设计与核心API详解

transformers 是 Hugging Face 最著名的库，封装了大量主流 NLP 模型（如 BERT、GPT、T5 等），并提供统一接口。

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline# 加载预训练模型与分词器
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("textattack/bert-base-uncased-SST-2")# 使用Pipeline API进行情感分析
nlp = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
result = nlp("I love using Hugging Face libraries!")
print(result)  # 输出: [{'label': 'POSITIVE', 'score': 0.9998}]

📌 解释说明：

AutoTokenizer 自动识别模型所需的分词器；
AutoModelForSequenceClassification 支持多种任务；
pipeline() 是高层封装，适合快速原型开发。

1.2 Datasets库：高效数据处理工作流程

datasets 提供了标准化的数据集接口，支持在线加载、缓存、切片等操作。

from datasets import load_dataset# 加载GLUE中的SST-2数据集
dataset = load_dataset("glue", "sst2")
print(dataset["train"][0])  # 查看第一条样本

输出示例：

{"sentence": "This film was a great waste of my time.","label": 0,"idx": 0
}

📌 解释说明：

load_dataset() 支持数百个公开数据集；
数据格式统一为 DatasetDict，便于后续处理。

1.3 Tokenizers库：自定义分词器开发指南

有时我们需要训练自己的分词器来适配特定语料或语言：

pip install tokenizers

from tokenizers import BertWordPieceTokenizer# 初始化并训练BPE分词器
tokenizer = BertWordPieceTokenizer()
tokenizer.train(files=["your_corpus.txt"], vocab_size=30_000)
tokenizer.save_model("custom_tokenizer")

📌 解释说明：

BertWordPieceTokenizer 是BERT常用的子词分词方式；
train() 接受文本文件列表进行训练；
save_model() 可导出为标准模型目录。

1.4 Hub平台：模型共享与版本管理最佳实践

Hugging Face Hub 是一个模型仓库，你可以上传、下载、版本化你的模型。

# 登录HF账户
huggingface-cli login

from huggingface_hub import HfApiapi = HfApi()
api.upload_folder(folder_path="my_model",repo_id="username/my_new_model",repo_type="model"
)

📌 解释说明：

upload_folder() 可以上传整个模型目录；
支持 Git 式版本控制（tag、branch）；
支持私有/公开仓库设置。

2. 模型使用与适配【实战部分】

2.1 预训练模型加载：不同架构模型的加载技巧

from transformers import AutoModel# 自动加载任意架构的模型
model = AutoModel.from_pretrained("distilbert-base-uncased")
print(model.config)  # 查看模型配置

📌 解释说明：

AutoModel 是泛型类，自动识别模型类型；
支持 GPT、T5、DistilBERT、XLM-RoBERTa 等多种架构。

2.2 模型转换工具：格式转换与兼容性处理

如果你需要将模型转成 ONNX 或 TorchScript：

transformers-cli convert --model bert-base-uncased --to onnx --output ./onnx_model/

📌 解释说明：

支持 ONNX、TensorRT、CoreML 等格式；
可用于加速推理或跨平台部署。

2.3 Pipeline API：快速应用开发的最佳实践

from transformers import pipeline# 文本摘要
summarizer = pipeline("summarization")
text = "Hugging Face is an open-source company that develops tools for building NLP applications."
summary = summarizer(text, max_length=30, min_length=10, do_sample=False)
print(summary[0]['summary_text'])

输出：

"Hugging Face develops tools for NLP applications."

📌 解释说明：

pipeline() 内部已集成分词、推理、后处理；
支持多种任务，如问答、翻译、NER、文本生成等。

2.4 AutoClass体系：模型兼容性与代码简化技巧

from transformers import AutoTokenizer, AutoModelForMaskedLM# 自动加载掩码语言模型
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")

📌 解释说明：

AutoModelForXXX 系列类根据任务自动选择模型头；
减少手动判断模型类型的麻烦。

3. 微调与训练【实战部分】

3.1 Trainer API实战：完整训练流程示例

from transformers import TrainingArguments, Trainertraining_args = TrainingArguments(output_dir="./results",evaluation_strategy="epoch",learning_rate=2e-5,per_device_train_batch_size=16,num_train_epochs=3,
)trainer = Trainer(model=model,args=training_args,train_dataset=dataset["train"],eval_dataset=dataset["validation"]
)trainer.train()

📌 解释说明：

TrainingArguments 控制训练参数；
Trainer 封装了训练循环、评估、日志等功能；
支持混合精度、多GPU训练等高级特性。

3.2 分布式训练配置：多GPU/TPU训练设置

# 使用Accelerate库配置分布式训练
from accelerate import Acceleratoraccelerator = Accelerator(mixed_precision="fp16")
device = accelerator.device

📌 解释说明：

Accelerator 简化了设备管理和训练流程；
支持 GPU、TPU、CPU 多种设备；
自动处理梯度同步、损失计算等。

3.3 PEFT高效微调：LoRA、P-Tuning实现教程

pip install peft

from peft import LoraConfig, get_peft_modelconfig = LoraConfig(r=8, lora_alpha=16, target_modules=["query", "value"])
model = get_peft_model(model, config)

📌 解释说明：

LoRA 在原始权重矩阵上添加低秩矩阵，显著减少参数量；
适用于大模型微调时节省显存和训练时间。

3.4 Accelerate库应用：混合精度与设备优化

from accelerate import notebook_launcherdef training_function():...notebook_launcher(training_function, num_processes=2)

📌 解释说明：

支持多进程训练；
可用于 Colab、Kaggle、Slurm 等环境；
自动检测可用设备并分配资源。

4. 部署与生产环境【实战部分】

4.1 模型压缩技术：量化与裁剪的实战指南

pip install optimum

from optimum.onnxruntime import ORTQuantizerquantizer = ORTQuantizer.from_pretrained("bert-base-uncased")
quantizer.quantize(save_dir="quantized_bert")

📌 解释说明：

optimum 是 Hugging Face 的模型优化库；
支持动态/静态量化、剪枝、蒸馏等技术；
显著提升推理速度和降低内存占用。

4.2 Inference Endpoints：模型部署与API服务设置

在 Hugging Face Inference Endpoints 上部署模型只需几步：

# 创建端点
curl -X POST https://api.huggingface.co/v1/endpoints \-H "Authorization: Bearer YOUR_API_TOKEN" \-d '{"name":"my-model","model":"bert-base-uncased"}'

📌 解释说明：

支持自动扩缩容；
提供 RESTful API；
可对接 AWS、Azure、Google Cloud 等云厂商。

4.3 Gradio与Spaces：快速原型与演示应用搭建

pip install gradio

import gradio as grdef greet(name):return f"Hello {name}!"demo = gr.Interface(fn=greet, inputs="text", outputs="text")
demo.launch()

📌 解释说明：

Gradio 是交互式界面构建工具；
支持图像、音频、文本等多种输入输出；
可一键发布到 Hugging Face Spaces。

4.4 本地部署优化：高效推理服务器配置

使用 FastAPI + Transformers 构建本地推理服务：

pip install fastapi uvicorn transformers torch

from fastapi import FastAPI
from transformers import pipelineapp = FastAPI()
classifier = pipeline("sentiment-analysis")@app.post("/predict")
def predict(text: str):return classifier(text)[0]if __name__ == "__main__":import uvicornuvicorn.run(app, host="0.0.0.0", port=8000)

运行服务：

uvicorn main:app --reload

📌 解释说明：

使用 FastAPI 构建高性能 Web 接口；
可扩展支持多模型、多任务；
支持异步请求处理。

🧩 案例与实例

5.1 文本分类系统：从数据准备到部署的完整案例

数据加载 → datasets.load_dataset("imdb")
模型加载 → AutoModelForSequenceClassification
微调训练 → Trainer
推理服务 → FastAPI + Transformers
前端展示 → Gradio

5.2 多语言翻译服务：基于Hugging Face的翻译系统构建

translator = pipeline("translation_en_to_fr")
print(translator("Hello, how are you?", max_length=40))

支持中英互译、多语言翻译，模型可选 Helsinki-NLP/opus-mt-en-zh 等。

5.3 企业级搜索引擎：结合Sentence Transformers的实现

pip install sentence-transformers

from sentence_transformers import SentenceTransformer, utilmodel = SentenceTransformer('all-MiniLM-L6-v2')
sentences = ["Apple is looking at buying U.K. startup for $1 billion","Google is considering a bid for the same startup"]embeddings = model.encode(sentences)
cos_sim = util.cos_sim(embeddings[0], embeddings[1])
print(f"Cosine similarity: {cos_sim.item():.4f}")

📌 解释说明：

利用句子嵌入做语义搜索；
可用于文档检索、问答系统等场景。

🛠️ 实战指南与代码

6.1 环境搭建脚本：开发环境完整配置指南

# 安装基础依赖
pip install transformers datasets tokenizers peft optimum accelerate gradio fastapi uvicorn torch

6.2 微调流程模板：通用微调工作流程代码

见前面章节中的 Trainer 示例。

6.3 模型部署Dockerfile：生产级部署容器配置

FROM python:3.9-slimWORKDIR /appCOPY requirements.txt .
RUN pip install -r requirements.txtCOPY . .CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]

6.4 自动评估脚本：模型性能评估自动化工具

from sklearn.metrics import classification_reportpreds = trainer.predict(dataset["test"]).predictions.argmax(-1)
labels = dataset["test"]["label"]
print(classification_report(labels, preds))

❓常见问题与优化

问题	解决方案
OOM错误	使用 `mixed_precision=True` 或 `gradient_checkpointing=True`
推理慢	使用 ONNX/TorchScript 导出模型
模型不收敛	调整学习率、warmup_steps、weight_decay
版本冲突	使用 `pip install transformers==4.28.0` 固定版本

🧠 总结与扩展思考

7.1 Hugging Face生态与商业平台的对比分析

功能	Hugging Face	Google Vertex AI	Azure Cognitive Services
模型丰富度	✅ 开源模型最多	⚠️ 主要自家模型	⚠️ 闭源
成本	✅ 免费+付费灵活	💰 企业级收费	💰 企业级收费
社区支持	✅ 强大活跃	❌	❌
部署便捷性	✅ HF Inference Endpoints	✅	✅

7.2 社区贡献与开源协作的最佳实践

Fork项目 → 修改代码 → 提PR
参与Hackathon、论文复现挑战
提交Issue、Bug修复、文档完善

7.3 Hugging Face技术路线图与未来发展趋势

更多模态融合（视觉+语言）
模型即服务（MaaS）模式深化
低代码/可视化工具持续增强
与LangChain、LlamaIndex深度整合

📚 参考资料

Hugging Face官方文档：https://huggingface.co/docs
Transformers GitHub仓库：https://github.com/huggingface/transformers
Peft GitHub仓库：https://github.com/huggingface/peft
Sentence-Transformers官网：https://www.sbert.net/

🧑‍💻 结语

Hugging Face 不只是一个模型库，而是一个完整的 AI 开发生态系统。掌握它的核心组件与实战技巧，不仅能帮助你快速构建 AI 应用，还能让你更好地理解现代 NLP 技术的发展方向。

欢迎关注《AI大模型应知应会100篇》专栏，持续更新前沿技术干货！

💬 如果你对某一部分特别感兴趣（如模型压缩、微调策略、部署优化），欢迎留言，我们将安排专题深入讲解！

《AI大模型应知应会100篇》第53篇：Hugging Face生态系统入门

第53篇：Hugging Face生态系统入门 ——从模型获取到部署的全流程实战指南 📌 摘要在人工智能快速发展的今天，Hugging Face已成为自然语言处理（NLP）领域最具影响力的开源平台之一。它不仅提供丰富的预训练模型、强大…...

编程日记 2025/8/1 17:42:41

计网学习笔记———网络

🌿网络是泛化的概念网络是泛化的概念 🍂泛化理解网络的概念在生活中无处不在举例：社交网络、电话网路、电网、计算机网络 🌿网络的定义定义： 离散的个体通过通讯手段连成群体，实现资源的共享与交流、个…...

编程日记 2025/7/29 15:21:04

Vue3 怎么在ElMessage消息提示组件中添加自定义icon图标

1、定义icon组件代码： <template><svg :class"svgClass" aria-hidden"true"><use :xlink:href"iconName" :fill"color"/></svg> </template><script> export default defineComponen…...

编程日记 2025/7/29 15:21:02

17.Excel：实用的 VBA 自动化程序

一 excel 设置开始-选项二批量创建工作表某工作簿用于保存31天的东西，手动创建31个工作表不方便。 A1单元格输入内容，或者空着。从A2单元格开始，一定要以字符形式的，不能以数值和日期形式。12345这是数值形式，1月…...

编程日记 2025/8/1 12:55:53

Kubernetes生产实战(十六)：集群安全加固全攻略

Kubernetes集群安全加固全攻略：生产环境必备的12个关键策略在容器化时代，Kubernetes已成为企业应用部署的核心基础设施。但根据CNCF 2023年云原生安全报告显示，75%的安全事件源于K8s配置错误。本文将基于生产环境实践，系统讲解集…...

编程日记 2025/7/29 15:20:58

Cadence学习笔记之---导入PCB板框、网表

编程日记 2025/7/29 15:20:56

嵌入式硬件篇---麦克纳姆轮（简单运动实现）

文章目录前言1. 麦克纳姆轮的基本布局X型布局O型布局 2. 运动模式实现原理(1) 前进/后退前进后退 (2) 左右平移向左平移向右平移 (3) 原地旋转顺时针旋转（右旋）逆时针旋转（左旋） (4) 斜向移动左上45移动 (5) 180旋转 3. 数学原理…...

编程日记 2025/7/29 14:05:26

en33网络配置文件未托管

从 nmcli device status 的输出可以看到，所有网络设备（包括 ens33）都处于 "未托管"（unmanaged）状态，这导致 NetworkManager 和传统的 network.service 都无法管理网络接口，从而引发 n…...

编程日记 2025/7/29 15:20:52

嵌入式学习--江协51单片机day4

昨天周五没有学习，因为中午没有睡觉，下午和晚上挤不出整块的时间。周日有考试今天也没有学很多啊，但以后周末会是学一天，另一天休息和写周总结。今天学了串口通信和LED点阵屏，硬件原理是真的很迷，一但想搞…...

编程日记 2025/7/31 10:19:58

Hadoop 2.x设计理念解析

目录一、背景二、整体架构三、组件详解 3.1 yarn 3.2 hdfs 四、计算流程 4.1 上传资源到 HDFS 4.2 向 RM 提交作业请求 4.3 RM 调度资源启动 AM 4.4 AM运行用户代码 4.5 NodeManager运行用户代码 4.6 资源释放五、设计不足一、背景有人可能会好奇&#xf…...

编程日记 2025/7/29 1:09:41

diy装机成功录

三天前，我正式开启了这次装机之旅，购入了一颗性能强劲的 i5-12400 CPU，一块绘图能力出色的 3060ti 显卡，还有技嘉主板、高效散热器、16G 内存条、2T 固态硬盘，以及气派的机箱和风扇，满心期待能亲手打造一台…...

编程日记 2025/7/29 13:15:21

睿思量化小程序

睿思量化小程序是成都睿思商智科技有限公司最新研发和运营的金融数据统计分析工具，旨在通过量化指标筛选与多策略历史回测，帮助用户科学配置基金资产，成为个人投资者与机构用户的“智能化财富管家”。核心功能：数据驱动决策&…...

编程日记 2025/7/28 22:26:25

STM32实现九轴IMU的卡尔曼滤波

在嵌入式系统中，精确的姿态估计对于无人机、机器人和虚拟现实等应用至关重要。九轴惯性测量单元（IMU）通过三轴加速度计、陀螺仪和磁力计提供全面的运动数据。然而，这些传感器数据常伴随噪声和漂移，单独使用无法满足高精…...

编程日记 2025/7/29 13:15:18

JS DOM操作与事件处理从入门到实践

对于前端开发者来说，让静态的 HTML 页面变得生动、可交互是核心技能之一。实现这一切的关键在于理解和运用文档对象模型 (DOM) 以及 JavaScript 的事件处理机制。本文将带你深入浅出地探索 DOM 操作的奥秘，并掌握JavaScript 事件处理的方方面面。目录 …...

编程日记 2025/8/1 13:38:19

Hive表JOIN性能问

在处理100TB的Hive表JOIN性能问题时，需采用分层优化策略，结合数据分布特征、存储格式和计算引擎特性。以下是系统性优化方案： 1. 数据倾斜优化（Skew Join） 1.1 识别倾斜键方法：统计JOIN键的分布频率&…...

编程日记 2025/7/30 23:43:29

关键点检测--使用YOLOv8对Leeds Sports Pose（LSP）关键点检测

目录 1. Leeds Sports Pose数据集下载2. 数据集处理2.1 获取标签2.2 将图像文件和标签文件处理成YOLO能使用的格式 3. 用YOLOv8进行训练3.1 训练3.2 预测 1. Leeds Sports Pose数据集下载从kaggle官网下载这个数据集，地址为link，下载好的数据集文件如下…...

编程日记 2025/7/29 13:15:11

2025年客运从业资格证备考单选练习题

客运从业资格证备考单选练习题 1、从事道路旅客运输活动时，应当采取必要措施保证旅客的人身和财产安全，发生紧急情况时，首先应（ ）。 A. 抢救财产 B. 抢救伤员 C. 向公司汇报答案：B 解析：…...

编程日记 2025/7/31 18:41:09

QMK自定义4*4键盘固件创建教程：最新架构详解

QMK自定义4*4键盘固件创建教程：最新架构详解前言通过本教程，你将学习如何在QMK框架下创建自己的键盘固件。QMK是一个强大的开源键盘固件框架，广泛用于DIY机械键盘的制作。本文将详细介绍最新架构下所需创建的文件及其功能。准备工作在…...

编程日记 2025/7/28 17:20:39

1、获取conan离线安装包 # apt-get install python3.12-venv pip #缓存的安装存放在/var/cache/apt/archives目录 # mkdir /myenv && cd /myenv #创建虚拟环境目录 # python3 -m venv myenv #创建虚拟环境 # source myenv/bin/activate #激活虚拟环境&#xff…...

编程日记 2025/7/29 11:44:50

【Java ee初阶】网络原理

应用层由于下面的四层都是系统已经实现好了的，但是应用层是程序员自己写的，因此应用层是程序员最重要的一层。应用层中，程序员通常需要定义好数据传输格式，调用传输层api（socket api）进行真正的网络通信…...

编程日记 2025/7/29 13:15:02

Makefile中链接库，同一个库的静态库与动态库都链接了，生效的是哪个库

Makefile中链接库，同一个库的静态库与动态库都链接了，生效的是哪个库在 Makefile 中同时链接同一个库的静态库（.a）和动态库（.so）时，具体哪个库生效取决于链接顺序和编译器行为。以下是详细分析…...

编程日记 2025/7/30 15:35:56

【AI提示词】金字塔模型应用专家

提示说明专业运用金字塔原理优化信息结构与逻辑表达，实现高效精准的思维传达。提示词 # Role: 金字塔模型应用专家 ## Profile - **language**: 中文/英文 - **description**: 专业运用金字塔原理优化信息结构与逻辑表达，实现高效精准的思维传…...

编程日记 2025/7/29 13:14:58

电子电器架构 --- 车载以太网拓扑

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：钝感力的“钝”，不是木讷、迟钝，而是直面困境的韧劲和耐力，是面对外界噪音的通透淡然。生活中有两种人，一种人格外在意别人的眼光;另一种人无论…...

编程日记 2025/7/28 14:58:48

使用FastAPI微服务在AWS EKS上实现AI会话历史的管理

架构概述本文介绍如何使用FastAPI构建微服务架构，在AWS EKS上部署两个微服务： 服务A：接收用户提示服务B：处理对话逻辑，与Redis缓存和MongoDB数据库交互该架构利用AWS ElastiCache(Redis)实现快速响应，…...

编程日记 2025/7/31 8:18:39

Flutter PIP 插件 ---- 为iOS 重构PipController, Demo界面，更好的体验

接上文 Flutter PIP 插件 ---- 新增PipActivity，Android 11以下支持自动进入PIP Mode 项目地址 PIP， pub.dev也已经同步发布 pip 0.0.3，你的加星和点赞，将是我继续改进最大的动力在之前的界面设计中，还原动画等体验一…...

编程日记 2025/7/29 13:14:52

vue开发用户注册功能

文章目录一、开发步骤二、效果图三、搭建页面创建views/Login.vue在App.vue中导入Login.vue 四、数据绑定五、表单校验六、访问后端 API 接口，完成注册七、完整的Login.vue代码八、参考资料一、开发步骤二、效果图三、搭建页面创建views/Login.vue 完整内容在…...

编程日记 2025/7/30 8:23:01

Qt中的RCC

Qt资源系统(Qt resource system)是一种独立于平台的机制，用于在应用程序中传输资源文件。如果你的应用程序始终需要一组特定的文件(例如图标、翻译文件和图片)，并且你不想使用特定于系统的方式来打包和定位这些资源，则可以使用Qt资源系统。最…...

编程日记 2025/7/30 21:51:26

muduo源码解析

1.对类进行禁止拷贝 class noncopyable {public:noncopyable(const noncopyable&) delete;void operator(const noncopyable&) delete;protected:noncopyable() default;~noncopyable() default; }; 2.日志使用枚举定义日志等级 enum LogLevel{TRACE,DEBUG,IN…...

编程日记 2025/8/1 17:22:11

Qt QCheckBox 使用

1.开发背景 Qt QCheckBox 是勾选组件，具体使用方法可以参考 Qt 官方文档，这里只是记录使用过程中常用的方法示例和遇到的一些问题。 2.开发需求 QCheckBox 使用和踩坑 3.开发环境 Window10 Qt5.12.2 QtCreator4.8.2 4.功能简介 4.1 简单接口 QChec…...

编程日记 2025/7/30 18:10:58

【工具记录分享】提取bilibili视频字幕

F12大法教程很多但方法比较统一例快速提取视频字幕！适用B站、AI字幕等等。好用 - 哔哩哔哩无脑小工具哔哩哔哩B站字幕下载_在线字幕解析-飞鱼视频下载助手把链接扔进去就会自动生成srt文件需要txt可以配合： SRT转为TXT...

编程日记 2025/7/29 13:14:42

设计模式【cpp实现版本】

文章目录设计模式1.单例模式代码设计1.饿汉式单例模式2.懒汉式单例模式 2.简单工厂和工厂方法1.简单工厂2.工厂方法 3.抽象工厂模式4.代理模式5.装饰器模式6.适配器模式7.观察者模式设计模式 1.单例模式代码设计为什么需要单例模式，在我们的项目设计中&…...

编程日记 2025/7/29 11:06:23

Python数据分析案例74——基于内容的深度学习推荐系统（电影推荐）

背景之前都是标准的表格建模和时间序列的预测，现在做一点不一样的数据结构的模型方法。推荐系统一直是想学想做的，以前读研时候想学没多少相关代码，现在AI资源多了，虽然上班没用到这方面的知识，但是还是想熟悉一下…...

编程日记 2025/8/1 15:10:08

C PRIMER PLUS——第8节：字符串和字符串函数

目录 1. 字符串的定义与表示 2. 获取字符串的两种方式 3.字符串数组 4. 字符串输入函数 4.1 gets()（不推荐使用，有缓冲区溢出风险） 4.2 fgets()（推荐使用） 4.3 scanf() 4.4 gets_s()（C11 标准&…...

编程日记 2025/7/29 11:06:20

Dia浏览器：AI驱动浏览网页，究竟怎么样？（含注册申请体验流程）

名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊） 目录一、Dia浏览器简介1. 什么是Dia浏览器2. 开发背景与公司简介3. 与传统浏览器的区别 …...

编程日记 2025/7/29 8:02:02

milvus+flask山寨复刻《从零构建向量数据库》第7章

常规练手，图片搜索山寨版。拜读罗云大佬著作，结果只有操作层的东西可以上上手。书中是自己写的向量数据库，这边直接用python拼个现成的milvus向量数据库。 1. 创建一个向量数据库以及对应的相应数据表： # Milvus Setup Argume…...

编程日记 2025/7/29 11:06:17

【大数据技术-HBase-关于Hmaster、RegionServer、Region等组件功能和读写流程总结】

Hmaster的作用负责命名空间、表的创建和删除等一些DDL操作、region分配和负载均衡，并不参与数据读写，相比与其他大数据组件，如hdfs的namenode，在hbase中，Hmaster的作用是比较弱化的，即使挂掉，也暂时不影响现有表的读写。 RegionServer的作用一个机器上一个regionse…...

编程日记 2025/8/1 8:24:09

用c语言实现——一个交互式的中序线索二叉树系统，支持用户动态构建、线索化、遍历和查询功能

知识补充：什么是中序线索化中序遍历是什么一、代码解释 1.结构体定义 Node 结构体： 成员说明： int data：存储节点的数据值。 struct Node* lchild：该节点的左孩子 struct Node* rchild：该节点的右孩子…...

编程日记 2025/7/31 1:22:56

Pale Moon：速度优化的Firefox定制浏览器

Pale Moon是一款基于Firefox浏览器的定制版浏览器，专为追求速度和性能的用户设计。它使用开放源代码创建，经过高度优化，适用于现代处理器，提供了更快的页面加载速度和更高效的脚本处理能力。Pale Moon不仅继承了Firefox的安全性和…...

编程日记 2025/7/29 22:27:03

广东省省考备考（第七天5.10）—言语：逻辑填空（每日一练）

错题解析第一空，搭配“各个环节”，根据“我国已经形成了相对完善的中药质量标准控制体系”可知，横线处应体现“包含”之意，C项“涵盖”指包括、覆盖，D项“囊括”指把全部包罗在内，均与“各个环节”搭配得…...

编程日记 2025/8/1 4:48:50

Gartner《Container发布与生命周期管理最佳实践》学习心得

近日，Gartner发布了《Best Practices for Container Release and Life Cycle Management》， 报告为技术专业人士提供了关于容器发布和生命周期管理的深入指导。这份报告强调了容器在现代应用开发和部署中的核心地位，并提供了一系列最佳实践&…...

编程日记 2025/7/31 1:19:58

内存、磁盘、CPU区别，Hadoop/Spark与哪个联系密切

1. 内存、磁盘、CPU的区别和作用 1.1 内存（Memory） 作用： 内存是计算机的短期存储器，用于存储正在运行的程序和数据。它的访问速度非常快，比磁盘快几个数量级。在分布式计算中，内存用于缓存中间结果、存储…...

编程日记 2025/7/29 19:48:36

SpringCloud之Eureka基础认识-服务注册中心

0、认识Eureka Eureka 是 Netflix 开源的服务发现组件，后来被集成到 Spring Cloud 生态中，成为 Spring Cloud Netflix 的核心模块之一。它主要用于解决分布式系统中服务注册与发现的问题。 Eureka Server 有必要的话，也可以做成集群…...

编程日记 2025/8/1 11:48:56

MySQL 中如何进行 SQL 调优？

在MySQL中进行SQL调优是一个系统性工程，需结合索引优化、查询改写、性能分析工具、数据库设计及硬件配置等多方面策略。以下是具体优化方法及案例说明： 一、索引优化：精准提速的关键索引类型选择普通索引：加速频繁查询的列&…...

编程日记 2025/7/29 13:14:37

Linux平台下SSH 协议克隆Github远程仓库并配置密钥

目录注意：先提前配置好SSH密钥，然后再git clone 1. 检查现有 SSH 密钥 2. 生成新的 SSH 密钥 3. 将 SSH 密钥添加到 ssh-agent 4. 将公钥添加到 GitHub 5. 测试 SSH 连接 6. 配置 Git 使用 SSH 注意：先提前配置好SSH密钥，然…...

编程日记 2025/7/31 19:32:06

Android平台FFmpeg音视频开发深度指南

一、FFmpeg在Android开发中的核心价值 FFmpeg作为业界领先的多媒体处理框架，在Android音视频开发中扮演着至关重要的角色。它提供了： 跨平台支持：统一的API处理各种音视频格式完整功能链：从解码、编码到滤镜处理的全套解决方案灵…...

编程日记 2025/8/1 1:35:26

QSFP+、QSFP28、QSFP-DD接口分别实现40G、100G、200G/400G以太网接口

常用的光模块结构形式： 1）QSFP等效于4个SFP，支持410Gbit/s通道传输，可通过4个通道实现40Gbps传输速率。与SFP相比，QSFP光模块的传输速率可达SFP光模块的四倍，在部署40G网络时可直接使用QSFP光模块&#xf…...

编程日记 2025/7/29 13:14:30

MySQL事务和JDBC中的事务操作

一、什么是事务事务是数据库操作的最小逻辑单元，具有"全有或全无"的特性。以银行转账为例： 典型场景： 从A账户扣除1000元向B账户增加1000元这两个操作必须作为一个整体执行，要么全部成功，要么全部失败…...

编程日记 2025/7/31 15:47:18

Linux系统下安装mongodb

1. 配置MongoDB的yum仓库创建仓库文件 sudo vi /etc/yum.repos.d/mongodb-org.repo添加仓库配置根据系统版本选择配置（以下示例为CentOS 7和CentOS 9的配置）： CentOS 7（安装MongoDB 5.0/4.2等旧版本）： In…...

编程日记 2025/8/1 12:23:59

JavaScript篇：async/await 错误处理指南：优雅捕获异常，告别失控的 Promise！

大家好，我是江城开朗的豌豆，一名拥有6年以上前端开发经验的工程师。我精通HTML、CSS、JavaScript等基础前端技术，并深入掌握Vue、React、Uniapp、Flutter等主流框架，能够高效解决各类前端开发问题。在我的技术栈中，除了…...

编程日记 2025/7/30 23:10:09

智能时代下，水利安全员证如何引领行业变革？

当 5G、AI、物联网等技术深度融入水利工程，传统安全管理模式正经历颠覆性变革。在这场智能化浪潮中，水利安全员证扮演着怎样的角色？又将如何重塑行业人才需求格局？ 水利工程智能化转型对安全管理提出新挑战。无人机巡检、智能监测…...

编程日记 2025/7/29 13:14:22

第53篇：Hugging Face生态系统入门

📌 摘要

🔍 核心概念与知识点

1. Hugging Face核心组件【实战部分】

1.1 Transformers库：架构设计与核心API详解

1.2 Datasets库：高效数据处理工作流程

1.3 Tokenizers库：自定义分词器开发指南

1.4 Hub平台：模型共享与版本管理最佳实践

2. 模型使用与适配【实战部分】

2.1 预训练模型加载：不同架构模型的加载技巧

2.2 模型转换工具：格式转换与兼容性处理

2.3 Pipeline API：快速应用开发的最佳实践

2.4 AutoClass体系：模型兼容性与代码简化技巧

3. 微调与训练【实战部分】

3.1 Trainer API实战：完整训练流程示例

3.2 分布式训练配置：多GPU/TPU训练设置

3.3 PEFT高效微调：LoRA、P-Tuning实现教程

3.4 Accelerate库应用：混合精度与设备优化

4. 部署与生产环境【实战部分】

4.1 模型压缩技术：量化与裁剪的实战指南

4.2 Inference Endpoints：模型部署与API服务设置

4.3 Gradio与Spaces：快速原型与演示应用搭建

4.4 本地部署优化：高效推理服务器配置

🧩 案例与实例

5.1 文本分类系统：从数据准备到部署的完整案例

5.2 多语言翻译服务：基于Hugging Face的翻译系统构建

5.3 企业级搜索引擎：结合Sentence Transformers的实现

🛠️ 实战指南与代码

6.1 环境搭建脚本：开发环境完整配置指南

6.2 微调流程模板：通用微调工作流程代码

6.3 模型部署Dockerfile：生产级部署容器配置

6.4 自动评估脚本：模型性能评估自动化工具

❓常见问题与优化

🧠 总结与扩展思考

7.1 Hugging Face生态与商业平台的对比分析

7.2 社区贡献与开源协作的最佳实践

7.3 Hugging Face技术路线图与未来发展趋势

📚 参考资料

🧑‍💻 结语

相关文章：