当前位置：首页 > news >正文

DeepSeek-R1 大模型本地部署指南

news 来源：原创 2025/9/22 11:04:37

在这里插入图片描述

文章目录

- 一、系统要求
- - 硬件要求
  - 软件环境
- 二、部署流程
- - 1. 环境准备
  - 2. 模型获取
  - 3. 推理代码配置
  - 4. 启动推理服务
- 三、优化方案
- - 1. 显存优化技术
  - 2. 性能加速方案
- 四、部署验证
- - 健康检查脚本
  - 预期输出特征
- 五、常见问题解决
- - 1. CUDA内存不足
  - 2. 分词器警告处理
  - 3. 多GPU部署
- 六、安全合规建议

一、系统要求

硬件要求

部署前需确保硬件满足最低要求：NVIDIA显卡（RTX 3090及以上）、24GB显存、64GB内存及500GB固态存储。

资源类型	最低配置	推荐配置
GPU	NVIDIA GTX 1080Ti	RTX 3090/A100(40GB+)
VRAM	12GB	24GB+
内存	32GB DDR4	64GB DDR4
存储	100GB SSD	500GB NVMe SSD

软件环境

软件环境需安装Ubuntu 22.04系统、CUDA 11.7+驱动、Python 3.9及PyTorch 2.1框架，建议使用conda创建独立虚拟环境，安装transformers、accelerate等核心依赖库，并配置Flash Attention等加速组件。

CUDA 11.7+
cuDNN 8.5+
Python 3.8-3.10
PyTorch 2.0+

二、部署流程

1. 环境准备

# 创建虚拟环境
conda create -n deepseek-r1 python=3.9 -y
conda activate deepseek-r1# 安装基础依赖
pip install torch==2.1.2+cu117 --extra-index-url https://download.pytorch.org/whl/cu117
pip install transformers==4.35.0 accelerate sentencepiece

2. 模型获取

通过官方授权获取模型访问权限后，使用Git LFS克隆HuggingFace仓库下载模型文件（约70GB）。下载完成后需进行SHA256哈希校验，确保模型完整性。模型目录应包含pytorch_model.bin主权重文件、tokenizer分词器及配置文件，部署前需确认文件结构完整。
通过官方渠道获取模型权重（需申请权限）：

git lfs install
git clone https://huggingface.co/deepseek-ai/deepseek-r1-7b-base

3. 推理代码配置

编写基础推理脚本，使用AutoModelForCausalLM加载模型至GPU，通过tokenizer处理输入文本。生产环境建议集成FastAPI搭建RESTful服务，配置Gunicorn多进程管理，启用HTTPS加密通信。启动时需设置温度参数（temperature）、重复惩罚系数（repetition_penalty）等生成策略，平衡输出质量与多样性。
创建inference.py：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torchmodel_path = "./deepseek-r1-7b-base"
device = "cuda" if torch.cuda.is_available() else "cpu"# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype=torch.bfloat16,device_map="auto"
)# 推理示例
prompt = "北京的著名景点有哪些？"
inputs = tokenizer(prompt, return_tensors="pt").to(device)outputs = model.generate(**inputs,max_new_tokens=500,temperature=0.7,do_sample=True
)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

4. 启动推理服务

# 基础启动
python inference.py# 启用量化（节省显存）
python inference.py --load_in_4bit# API服务模式（需安装fastapi）
uvicorn api:app --port 8000

三、优化方案

1. 显存优化技术

技术	命令参数	VRAM节省量
4-bit量化	`--load_in_4bit`	60%
8-bit量化	`--load_in_8bit`	40%
梯度检查点	`--use_gradient_checkpointing`	25%

2. 性能加速方案

针对显存限制可采用4/8-bit量化技术，降低50%-75%显存占用。启用Flash Attention 2加速注意力计算，提升30%推理速度。多GPU环境使用Deepspeed进行分布式推理，通过TensorRT转换模型提升计算效率。同时配置显存分块加载机制，支持大文本生成场景。

# 使用Flash Attention 2
pip install flash-attn --no-build-isolation
model = AutoModelForCausalLM.from_pretrained(..., use_flash_attention_2=True)# 启用TensorRT加速
pip install transformers[torch-tensorrt]
model = torch_tensorrt.compile(model, inputs=...)

四、部署验证

健康检查脚本

import requestsAPI_ENDPOINT = "http://localhost:8000/generate"def health_check():test_payload = {"prompt": "你好","max_tokens": 50}response = requests.post(API_ENDPOINT, json=test_payload)return response.json()print("Service status:", health_check()["status"])

预期输出特征

响应时间：<5秒（首次加载除外）
Token生成速度：>20 tokens/sec（3090）
显存占用波动范围：±5%

五、常见问题解决

1. CUDA内存不足

# 解决方案：启用分块加载
model = AutoModelForCausalLM.from_pretrained(...,device_map="auto",offload_folder="offload",offload_state_dict=True
)

2. 分词器警告处理

tokenizer = AutoTokenizer.from_pretrained(model_path,trust_remote_code=True,use_fast=False
)

3. 多GPU部署

# 指定GPU设备
CUDA_VISIBLE_DEVICES=0,1 python inference.py --tensor_parallel_size=2

六、安全合规建议

网络隔离：建议在内网环境部署
访问控制：配置API密钥认证
日志审计：记录所有推理请求
内容过滤：集成敏感词过滤模块

注意事项：

模型权重需从官方授权渠道获取
首次运行会自动下载分词器文件（约500MB）
建议使用NVIDIA驱动版本525.85+
完整部署流程耗时约30-60分钟（依赖网络速度）

DeepSeek-R1 大模型本地部署指南

文章目录一、系统要求硬件要求软件环境二、部署流程1. 环境准备2. 模型获取3. 推理代码配置4. 启动推理服务三、优化方案1. 显存优化技术2. 性能加速方案四、部署验证健康检查脚本预期输出特征五、常见问题解决1. CUDA内存不足2. 分词器警告处理3. 多GPU部署六、安全合规…...

编程日记 2025/9/22 11:04:37

【数据结构】栈和队列

在计算机科学的世界里，数据结构是构建高效算法的基础。栈（Stack）和队列（Queue）作为两种基本且重要的数据结构，在软件开发、算法设计等众多领域都有着广泛的应用。今天，我们就来深入探讨一下栈和…...

编程日记 2025/9/19 18:16:42

用Python构建Mad Libs经典文字游戏

前言 Mad Libs 是一种经典的文字游戏，其中一名玩家向其他玩家询问各种词汇，如名词、动词、形容词等，而不提供任何上下文。然后将这些提示词插入到一个充满空白的故事模板中，从而创造出一个搞笑或荒谬的故事，供玩家大声朗读以获取乐趣。自1950年代发明以来，Mad Libs 一…...

编程日记 2025/9/20 0:39:48

ReactiveSwift模拟登录功能

通过使用ReactiveSwift模拟一个简单的登录功能，该功能如下要求： 账号不能为空密码必须大于6位登录按钮方可点击 LoginViewModel： import ReactiveSwiftclass LoginViewModel {// 创建两个信号let userName MutableProperty<String&g…...

编程日记 2025/9/21 17:24:37

亲测有效！使用Ollama本地部署DeepSeekR1模型，指定目录安装并实现可视化聊天与接口调用

文章目录一、引言二、准备工作（Ollama 工具介绍与下载）2.1 Ollama介绍2.2 Ollama安装三、指定目录安装 DeepSeek R1四、Chatbox 可视化聊天搭建4.1 Chatbox下载安装4.2 关联 DeepSeek R1 与 Chatbox 的步骤五、使用 Ollama 调用 DeepSeek 接口5.1 请求…...

编程日记 2025/9/18 8:37:41

【第11章：生成式AI与创意应用—11.3 AI艺术创作的实现与案例分析：DeepArt、GANBreeder等】

凌晨三点的画室里，数字艺术家小美盯着屏幕上的GANBreeder界面——她将梵高的《星月夜》与显微镜下的癌细胞切片图进行混合，生成的新图像在柏林电子艺术展上引发轰动。这场由算法驱动的艺术革命，正在重写人类对创造力的定义。一、机器视觉的觉醒之路 1.1 数字艺术的三次浪…...

编程日记 2025/9/22 9:46:47

MySQL的基本使用

MySQL 是一个强大且广泛使用的开源关系型数据库管理系统，适用于各种规模的应用程序。无论是初学者还是经验丰富的开发者，掌握 MySQL 的基本操作都是至关重要的。本文将带你了解 MySQL 的基础概念，并通过实例介绍如何执行一些常见的数据库操作…...

编程日记 2025/9/18 8:39:40

WEB安全--SQL注入--PDO与绕过

一、PDO介绍： 1.1、原理： PDO支持使用预处理语句（Prepared Statements），这可以有效防止SQL注入攻击。预处理语句将SQL语句与数据分开处理，使得用户输入的数据始终作为参数传递给数据库，而不会直…...

编程日记 2025/9/19 12:08:13

微信小程序image组件mode属性详解

今天学习微信小程序开发的image组件，mode属性的属性值不少，一开始有点整不明白。后来从网上下载了一张图片，把每个属性都试验了一番，总算明白了。现总结归纳如下： 1.使用scaleToFill。这是mode的默认值，sc…...

编程日记 2025/9/21 1:04:13

大模型炼丹基础--GPU内存计算

一、摘要选择合适的GPU对成本和效率都至关重要，合理分析GPU 二、硬件计算基础 1 个字节可以表示零（00000000）和 255（11111111）之间的数字模型参数常用的数据类型如下： float（32 位浮点&a…...

编程日记 2025/9/18 8:39:56

istio入门篇（一）

一、背景一直以来“微服务”都是一个热门的词汇，在各种技术文章、大会上，关于微服务的讨论和主题都很多。对于基于 Dubbo、SpringCloud 技术体系的微服务架构，已经相当成熟并被大家所知晓，但伴随着互联网场景的复杂度提升、业务…...

编程日记 2025/9/19 12:42:19

Ubuntu 24.04.1 LTS 本地部署 DeepSeek 私有化知识库

文章目录前言工具介绍与作用工具的关联与协同工作必要性分析 1、DeepSeek 简介1.1、DeepSeek-R1 硬件要求 2、Linux 环境说明2.1、最小部署（Ollama DeepSeek）2.1.1、扩展（非必须） - Ollama 后台运行、开机自启： 2.2、…...

编程日记 2025/9/20 16:27:02

沃德校园助手系统php+uniapp

一款基于FastAdminThinkPHPUniapp开发的为校园团队提供全套的技术系统及运营的方案（目前仅适配微信小程序），可以更好的帮助你打造自己的线上助手平台。成本低，见效快。各种场景都可以自主选择服务。更新日志 V1.2.1小程序需要更…...

编程日记 2025/9/17 20:01:00

Visual Studio Code使用ai大模型编成

1、在Visual Studio Code搜索安装roo code 2、去https://openrouter.ai/settings/keys官网申请个免费的配置使用...

编程日记 2025/9/21 10:35:28

工业软件测试方案

一、方案概述本测试方案致力于全面、系统地评估工业仿真软件的综合性能，涵盖性能表现、功能完整性以及用户体验层面的易用性。同时，将其与行业内广泛应用的MATLAB进行深入的对比分析，旨在为用户提供极具价值的参考依据，助力其在…...

编程日记 2025/9/18 22:18:49

红队视角出发的k8s敏感信息收集——Kubernetes API 扩展与未授权访问

针对 Kubernetes API 扩展与未授权访问的详细攻击视角分析，聚焦 Custom Resource Definitions (CRD) 和 Aggregated API Servers 的潜在攻击面及利用方法： 攻击链示例 1. 攻击者通过 ServiceAccount Token 访问集群 → 2. 枚举 CRD 发现数据库配…...

编程日记 2025/9/20 14:37:57

一种 SQL Server 数据库恢复方案：解密、恢复并导出 MDF/NDF/BAK文件

方案特色本方案可以轻松恢复和导出SQL数据库：MDF、NDF 和 BAK 文件。恢复和导出SQL数据库：主（MDF），辅助（NDF）和备份（BAK）文件分析 SQL Server LOG 数据库事务日志将 …...

编程日记 2025/9/21 17:34:00

Pygame中自定义事件处理的方法2-1

1 Pygame事件处理流程 Pygame中的事件处理流程如图1所示。图1 Pygame中事件处理流程系统事件包括鼠标事件和键盘事件等，当用户点击了鼠标或者键盘时，这些事件会自动被放入系统的事件队列中。用户自定义事件需要通过代码才能被放入事件队列中。Pygame…...

编程日记 2025/9/18 8:38:10

langchain学习笔记之消息存储在内存中的实现方法

langchain学习笔记之消息存储在内存中的实现方法引言背景消息存储在内存的实现方法消息完整存储：完整代码引言本节将介绍 langchain \text{langchain} langchain将历史消息存储在内存中的实现方法。背景在与大模型交互过程中，经常出现消息管理方…...

编程日记 2025/9/22 10:00:18

HarmonyOS组件之Tabs

Tabs 1.1概念 Tabs 视图切换容器，通过相适应的页签进行视图页面的切换的容器组件每一个页签对应一个内容视图Tabs拥有一种唯一的子集元素TabContent 1.2子组件不支持自定义组件为子组件，仅可包含子组件TabContent，以及渲染控制类型 if/e…...

编程日记 2025/9/19 9:54:19

【C++】基础入门（详解）

🌟 Hello，我是egoist2023！ 🌍 种一棵树最好是十年前，其次是现在！ 目录输入&输出缺省参数(默认参数) 函数重载引用概念及定义特性及使用 const引用与指针的关系内联inline和nullptr in…...

编程日记 2025/9/21 18:16:27

bps是什么意思

本文来自DeepSeek "bps" 是 "bits per second" 的缩写，表示每秒传输的比特数，用于衡量数据传输速率。1 bps 即每秒传输 1 比特。常见单位 bps：比特每秒 Kbps：千比特每秒（1 Kbps 1,000 bps&am…...

编程日记 2025/9/21 8:10:24

OceanBase使用ob-loader-dumper导出表报ORA-00600

执行下面的语句导出表报错，同样的语句之前都没有报错。 ob-loader-dumper-4.2.8-RELEASE/bin/obdumper -h xxx.xxx.xxx.xxx -P 2883 -p 密码 --column-splitter| --no-sys-t gzuat_ss#ob8（集群） -D 数据库名 --cut --table teacher --no-ne…...

编程日记 2025/9/21 12:52:03

JUC并发总结一

大纲 1.Java集合包源码 2.Thread源码分析 3.volatile关键字的原理 4.Java内存模型JMM 5.JMM如何处理并发中的原子性可见性有序性 6.volatile如何保证可见性 7.volatile的原理(Lock前缀指令 + 内存屏障) 8.双重检查单例模式的volatile优化 9.synchronized关键字的原理 …...

编程日记 2025/9/21 18:45:02

hive:分区＞＞静态分区,动态分区,混合分区

分区表使用场景：数据量庞大且经常用来做查询的表特点：将数据分别存储到不同的目录里优点：避免全盘扫描，提高查询效率分区的类型它们的默认值分别是: false, strict, 要求至少有一个静态分区列，而 nonstr…...

编程日记 2025/9/18 8:41:11

深入解析PID控制算法：从理论到实践的完整指南

前言大家好，今天我们介绍一下经典控制理论中的PID控制算法，并着重讲解该算法的编码实现，为实现后续的倒立摆样例内容做准备。众所周知，掌握了 PID ，就相当于进入了控制工程的大门，也能为更高阶的控制理论…...

编程日记 2025/9/21 19:24:48

linux--关于GCC、动态库静态库

gcc和g的异同他们是不同的编译器， 在linux中，生成可执行文件不像和windows一样。 linux中是以**.out作为可执行文件**的无论是什么系统，生成可执行文件分为4步： 预处理–>编译–>汇编–>链接。从.c/.cpp–>.i文件…...

编程日记 2025/9/21 23:31:40

matlab汽车动力学半车垂向振动模型

1、内容简介 matlab141-半车垂向振动模型可以交流、咨询、答疑 2、内容说明略 3、仿真分析略 4、参考论文略...

编程日记 2025/9/18 8:40:40

Pygame中自定义事件处理的方法2-2

在《Pygame中自定义事件处理的方法2-1》中提到了处理自定义事件的方法。通过处理自定义事件，可以实现动画等效果。 1 弹跳小球程序通过处理自定义事件，可以实现弹跳小球程序，如图1所示。图1 弹跳小球程序 2 弹跳小球程序原理实现弹跳小…...

编程日记 2025/9/21 1:54:36

time limit per test 2 seconds memory limit per test 256 megabytes Given a positive integer nn, find the maximum size of an interval [l,r][l,r] of positive integers such that, for every ii in the interval (i.e., l≤i≤rl≤i≤r), nn is a multiple of ii. …...

编程日记 2025/9/18 8:42:48