【AI】模型与权重的基本概念
在 ModelScope 平台上,「模型」和「权重」的定义与工程实践紧密结合,理解它们的区别需要从实际的文件结构和加载逻辑入手。以下是一个典型 ModelScope 模型仓库的组成及其概念解析:
1. ModelScope 模型仓库的典型结构
以 deepseek-ai/deepseek-llm-7b-base 为例,模型仓库通常包含以下文件:
bash
复制
下载
Deepseek-R1-bf16-hfd-w8a8/ ├── config.json # 模型结构定义与超参数 ├── configuration_deepseek.py # 模型结构代码(PyTorch/TF定义) ├── modeling_deepseek.py # 核心网络层实现 ├── tokenizer.json # 分词器配置 ├── generation_config.json # 生成参数(如温度、top_p) ├── pytorch_model.safetensors # 模型权重(以安全格式存储) ├── special_tokens_map.json # 特殊token映射 └── README.md # 使用说明
2. 核心概念详解
(1) 模型(Model)
-
定义:模型是一个完整的、可执行的函数系统,包含:
-
结构定义(代码层):网络层设计(如Transformer层数、注意力头数)、激活函数、连接方式等;
-
权重参数(数值层):训练后确定的参数值;
-
配置与工具(辅助层):分词器、生成策略、硬件适配逻辑。
-
-
功能:接受输入(如文本)→ 执行计算 → 输出预测结果(如生成文本)。
(2) 权重(Weights)
-
定义:模型在训练过程中学习到的参数数值,存储为张量(Tensor)形式,决定模型的具体行为。
-
物理存在:通常以
.safetensors
、.bin
或.pth
文件存储; -
作用:权重是模型的“记忆”,例如:
-
在 LLM 中,权重编码了词语的语义关联(如“猫→动物,4条腿”);
-
在视觉模型中,权重可能对应边缘检测滤波器或纹理模式识别器。
-
3. 模型与权重的加载流程
在 ModelScope 中,用户通过以下代码加载模型:
python
复制
下载
from modelscope import AutoModelForCausalLM, AutoTokenizer# 加载完整模型(结构+权重+配置) model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b-base") tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-llm-7b-base")# 使用模型生成文本 inputs = tokenizer("你好,世界", return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0]))
背后发生的关键步骤:
-
解析
config.json
:确定模型结构(如 hidden_size=4096, num_layers=32); -
执行
modeling_deepseek.py
:动态构建 PyTorch/TensorFlow 计算图; -
加载
pytorch_model.safetensors
:将权重数值填充到计算图的对应位置; -
集成
tokenizer.json
:处理输入文本的切分与编码。
4. 为何需要区分“模型”与“权重”?
(1) 技术必要性
-
代码与数据分离:
-
模型结构是算法设计(人类可读的代码);
-
权重是训练结果(机器可读的数值);
-
分离后,开发者可以复用同一结构加载不同权重(如微调后的版本)。
-
-
硬件与框架适配:
-
同一组权重(如
.safetensors
)可被 PyTorch、TensorFlow 或昇腾框架加载; -
模型结构可能需要针对不同框架调整(如动态图 vs 静态图)。
-
(2) 工程实践场景
场景 | 模型文件需求 | 权重文件需求 |
---|---|---|
训练 | 需完整结构代码 + 随机初始化的权重 | 权重在训练中逐步更新 |
推理 | 可仅加载最终权重 + 固定结构(如 ONNX 导出) | 需量化/剪枝后的权重 |
迁移学习 | 复用原始结构代码 | 加载预训练权重后微调 |
5. 总结:术语的灵活性与一致性
-
广义“模型”:日常交流中可指代“完整可运行的AI系统”(包含结构+权重);
-
狭义“模型”:技术文档中可能特指“结构代码”(如
modeling_deepseek.py
); -
权重:始终指代参数数值,但不同平台可能扩展其含义(如包含量化元数据)。
建议实践:
-
在 ModelScope 中,将整个仓库称为“模型”,
.safetensors
称为“权重文件”; -
在昇腾生态中,接受其术语扩展(“权重”可能隐含硬件优化配置)。
理解这种灵活性,是跨越不同技术生态协作的关键!
参考
DeepSeek
相关文章:
【AI】模型与权重的基本概念
在 ModelScope 平台上,「模型」和「权重」的定义与工程实践紧密结合,理解它们的区别需要从实际的文件结构和加载逻辑入手。以下是一个典型 ModelScope 模型仓库的组成及其概念解析: 1. ModelScope 模型仓库的典型结构 以 deepseek-ai/deepse…...
k8s 中 deployment 管理的多个 pod 构成集群吗
在 Kubernetes (k8s) 中,通过 Deployment 创建的多个 Pod 本身并不构成一个“集群”,而是属于同一个 工作负载(Workload) 的多个副本实例。它们的角色是 无状态服务副本,而非独立的集群节点。以下是详细解释࿱…...
「动态规划」线性DP:股票问题合集 / LeetCode 121|122|123|188 (C++)
目录 概述 Question1 思路 算法过程 Code 复杂度 Question2 思路 解题过程 Code 复杂度 Question3 思路 解题过程 Code 复杂度 Question4 思路 解题过程 Code 复杂度 总结 概述 我们已经了解过了线性DP: 「动态规划」线性DP:最长…...
【Python os模块完全指南】从基础到高效文件操作
目录 🌟 前言🧩 技术背景与价值🚧 当前技术痛点🛠️ 解决方案概述👥 目标读者说明 📚 一、技术原理剖析🎨 核心概念图解💡 核心作用讲解🔑 关键技术模块说明⚖️ 技术选型…...
Ubuntu 安装 Keepalived、LVS
Keepalived Keepalived 是什么(高可用) Keepalived 是一个用于实现 高可用 性(High Availability, HA)的服务,是一款基于 VRRP 协议的高可用软件,常用于主备切换和虚拟IP漂移,在服务故障时自动…...
记录一个rabbitmq因为linux主机名服务无法启动的问题
https://g.co/gemini/share/fb5a55644f6f 过程因为主机名为数字导致之间无法进行网络访问,导致无法开启。修改主机名解决这一问题,debian在系统安装时会指定一个用户名,一般为IP地址的第一块,数字导致了无法访问。 #使用命令查看…...
打造个人知识库,wsl+ollama部署deepseek与vscode集成
目前大模型应用如火如荼,各大LLM如Deepseek也都提供了在线的助手服务,结合mcp-server还可以进一步拓展到本地的工具能力。 但对于一些和本地业务和数据强相关的资料,在线的大模型训练数据集一般并不能涵盖,特别还有一些敏感或对安全要求很高的数据,使用在线大模型并不现实…...
Spring 项目无法连接 MySQL:Nacos 配置误区排查与解决
在开发过程中,我们使用 Nacos 来管理 Spring Boot 项目的配置,其中包括数据库连接配置。然而,在实际操作中,由于一些概念的混淆,我们遇到了一些连接问题。本文将分享我的故障排查过程,帮助大家避免类似的错…...
P值、置信度与置信区间的关系:统计推断的三大支柱
目录 引言一、P值是什么?——假设检验的“证据强度”1.1 定义1.2 判断标准:显著性水平 α \alpha α(阿尔法)1.3 示例说明 二、置信区间与置信度:参数估计的“不确定性范围”2.1 置信区间的定义2.2 置信度的含义 三、显…...
探索智能仓颉:Cangjie Magic开发体验
探索智能仓颉:Cangjie Magic 的开发体验与技术革新 在大型语言模型(LLM)驱动的智能体开发领域,2025年3月开源的 Cangjie Magic 以其独特的原生仓颉语言基因和三大核心技术突破,为开发者提供了一种全新的开发范式。本文将从技术架构、实际应用、开发体验及未来潜力等角度,…...
$在R语言中的作用
在 R 语言中,$ 是一个非常重要的操作符,主要用于访问对象的成员或组件。它的用途非常广泛,不仅限于数据框(data frame),还可以用于列表(list)、环境(environment…...
【Pandas】pandas DataFrame rolling
Pandas2.2 DataFrame Function application, GroupBy & window 方法描述DataFrame.apply(func[, axis, raw, …])用于沿 DataFrame 的轴(行或列)应用一个函数DataFrame.map(func[, na_action])用于对 DataFrame 的每个元素应用一个函数DataFrame.a…...
新疆地区主要灾害链总结
新疆地处亚欧大陆腹地,拥有高山(如天山、昆仑山)、盆地(如塔里木盆地、准噶尔盆地)、沙漠(如塔克拉玛干沙漠)、绿洲、内陆河流和冰川等复杂多样的地貌单元。其气候极端,干旱少雨是常态,但山区夏季暴雨集中、冬季积雪深厚,地质构造活跃,地震风险高。这些特点共同决定…...
在 Vue 2 中使用 qrcode 库生成二维码
🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…...
在 Ubuntu 系统中,挂起(Suspend)和休眠(Hibernate)
在 Ubuntu 系统中,挂起(Suspend)和休眠(Hibernate)是两种常见的电源管理模式。以下是相关命令及说明: --- ### **1. 挂起(Suspend)** 挂起会将当前系统状态保存到内存中࿰…...
什么是声明式UI什么是命令式UI?鸿蒙ArkTS为什么是声明式UI-优雅草卓伊凡
什么是声明式UI什么是命令式UI?鸿蒙ArkTS为什么是声明式UI-优雅草卓伊凡 一、UI编程范式的根本分野 在软件开发领域,用户界面(UI)构建方式经历了三次重大范式转换。作为优雅草科技CTO,卓伊凡在多个操作系统开发实践中发现,UI框架…...
nRF Connect SDK system off模式介绍
目录 概述 1. 软硬件环境 1.1 软件开发环境 1.2 硬件环境 2 System Off 模式 2.1 模式介绍 2.2 注意事项 3 功能实现 3.1 框架结构介绍 3.2 代码介绍 4 功能验证 4.1 编译和下载代码 4.2 测试 4.3 使能CONFIG_APP_USE_RETAINED_MEM的测试 5 main.c的源代码文件…...
node.js 实战——餐厅静态主页编写(express+node+ejs+bootstrap)
ejs页面 <!DOCTYPE html> <html> <head><title><% title %></title><link relstylesheet href/stylesheets/style.css/><link relstylesheet href/stylesheets/font-awesome.css/><link relstylesheet href/stylesheets/f…...
晶体布局布线
1Clock时钟电路 时钟电路就是类似像时钟一样准确运动的震荡电路,任何工作都是依照时间顺序,那么产生这个时间的电路就是时钟电路,时钟电路一般是由晶体振荡器、晶振、控制芯片以及匹配电容组成 2.时钟电路布局 晶体电路布局需要优先考虑&…...
数据结构--树
一、树的概念 树是由n(n≥0)个节点组成的有限集合,它满足以下条件: 1. 当n0时,称为空树 2. 当n>0时,有且仅有一个特定的节点称为根节点(root) 3. 其余节点可分为m(m≥0)个互不相交的有限集合,每个集合本身又是一…...
5月7号.
flex布局: 表单标签: 表单标签-表单项:...
Spark 之 YarnCoarseGrainedExecutorBackend
YarnCoarseGrainedExecutorBackend executor ID , 在日志里也有体现。 25/05/06 12:41:58 INFO YarnCoarseGrainedExecutorBackend: Successfully registered with driver 25/05...
Webug4.0靶场通关笔记19- 第24关邮箱轰炸
目录 第24关 邮箱轰炸 1.配置环境 2.打开靶场 3.源码分析 4.邮箱轰炸 (1)注册界面bp抓包 (2)发送到intruder (3)配置position (4)配置payload (5)开…...
机器学习实战:6种数据集划分方法详解与代码实现
在机器学习项目中,合理划分数据集是模型开发的关键第一步。本文将全面介绍6种常见数据格式的划分方法,并附完整Python代码示例,帮助初学者掌握这一核心技能。 一、数据集划分基础函数 1. 核心函数:train_test_split from sklea…...
PostgreSQL 查询历史最大进程数方法
PostgreSQL 查询历史最大进程数方法 PostgreSQL 提供了多种方式来查询数据库的历史最大进程数(连接数)。以下是几种有效的方法: 一、使用统计收集器数据 1. 查看当前统计信息 SELECT max_connections, (SELECT setting FROM pg_settings …...
第十二节:图像处理基础-图像平滑处理 (均值滤波、高斯滤波、中值滤波)
在数字图像处理中,图像平滑(Image Smoothing)是去除噪声、改善图像质量的关键技术之一。通过滤波算法,可以有效地抑制高频噪声,但同时可能牺牲部分图像细节。本文将以均值滤波、高斯滤波和中值滤波为核心,结…...
Python中的global与nonlocal关键字详解
一、前言 在Python编程中,变量作用域是一个非常重要的概念。对于初学者来说,经常会遇到在函数内部无法修改外部变量的问题。这时候,global和nonlocal关键字就能派上用场了。本文将详细介绍这两个关键字的用法、区别以及适用场景,…...
LVGL-对象 lv_obj_t
LVGL-对象 lv_obj_t **LVGL 对象核心概念总结****1. 对象与控件的关系****2. 对象的基本属性****3. 父子对象结构****4. 屏幕与图层管理****活动屏幕(Active Screen)****图层(Layers)** **5. 关键函数与操作****6. 面向对象设计的…...
【C/C++】ARM处理器对齐_伪共享问题
文章目录 1 什么是伪共享?2 为什么对齐?3 伪共享的实际影响4 为什么必须是 64 字节?5 其他替代方案6 验证对齐效果总结 1 什么是伪共享? 伪共享是 多线程编程中的一种性能问题,其本质是: 缓存行ÿ…...
【优化策略】离散化
概念 离散化是算法设计中处理大数据范围时的关键技巧,它将大范围的数据映射到有较小的的离散空间中,同时保持数据的相对关系。 本质:将原始数据映射到紧凑的连续整数空间 数学表示:建立映射函数 f: ℝ → ℤ,满足 x…...
微粉助手 1.1.0 | 专为社交电商用户设计的一站式营销工具,集成了群发消息、智能加好友、清理僵尸粉等功能
微粉助手是一款专为社交电商用户设计的一站式营销工具。此会员版无需登录,去除了更新检测,并优化了启动速度。它集成了群发消息、智能添加好友、精准清理僵尸粉、自动跟圈以及短视频获客等核心功能,是企业实现社交媒体营销自动化的理想选择。…...
【代码优化篇】强缓存和协商缓存
强缓存和协商缓存 一、强缓存与协商缓存的区别二、Vue2 前端实现强缓存(静态资源)三、Spring Boot 后端实现协商缓存(动态接口)四、测试缓存效果五、注意事项 一、强缓存与协商缓存的区别 强缓存:浏览器直接读取本地缓…...
分区器(2)
2. 设置ReduceTask 在MapReduce框架中,Reducer的数量(即ReduceTask的数量)可以通过配置参数来设置。 设置方法 通过配置文件: 在mapred-site.xml文件中设置mapreduce.job.reduces参数: xml <property><nam…...
外包团队协作效率低,如何优化
外包团队协作效率低是许多公司面临的挑战,尤其是在跨地域、跨文化和远程工作环境下。 优化外包团队的协作效率需要从沟通方式、项目管理工具、文化差异及团队结构等多个方面入手。首先,明确的沟通与及时的反馈是提高团队效率的基础, 通过定期…...
2020年NCA CCF-C,改进灰狼算法RSMGWO+大规模函数优化,深度解析+性能实测
目录 1.摘要2.灰狼算法GWO原理3.改进策略4.结果展示5.参考文献6.代码获取7.读者交流 1.摘要 灰狼优化算法(GWO)是一种新型自然启发式算法,具备较强的局部搜索能力,但在处理大规模问题时全局搜索能力较弱。本文提出了改进灰狼算法…...
【EasyPan】saveShare代码分析
【EasyPan】项目常见问题解答(自用&持续更新中…)汇总版 保存分享文件到个人网盘代码分析 一、代码结构概览 该代码实现了一个将他人分享的文件保存到自己网盘的功能,主要分为三个部分: 控制器层(Controller&a…...
基于Django框架开发的B2C天天生鲜电商平台
天天生鲜 介绍 天天生鲜是一个基于Django框架开发的B2C(Business-to-Customer)电商平台,专注于生鲜食品的在线销售。该项目采用了主流的Python Web开发框架Django,结合MySQL数据库、Redis缓存等技术,实现了一个功能完整、界面友好的电商网站…...
[数据库之九] 数据库索引之顺序索引
1、什么是索引? 拿到一本书,想直接跳到感兴趣的章节,而不是从头看到尾,这时需要看书的目录,上面列出章节和对应的页码,这里的目录可以看成是书的索引,如果没有索引,要查找书中某块内…...
使用 Celery + Redis + Eventlet 实现 Python 异步编程(Windows 环境)
一、环境搭建与依赖安装 1. 安装依赖包 pip install celery redis eventletcelery:异步任务队列框架。redis:作为消息中间件(Broker)和结果存储(Backend)。eventlet:用于 Windows 环境下的协程…...
Selenium Web自动化测试学习笔记(二)--八大元素定位
前置设置及代码 目录结构如下,将驱动器chromedriver.exe复制粘贴到此目录下,具体环境配置参考笔记一: Selenium Web自动化测试学习笔记(一)-CSDN博客 首先和笔记(一)一样导入一些包用于设置谷…...
如何设置飞书多维表格,可以在扣子平台上使用
扣子可以链接到飞书多维表格,但很多人不知道具体如何操作,今天给大家分享下操作流程。 大家好,我是涛涛,欢迎来到我的空间。因为需要管理员审核,所以最好有管理员的手机就在旁边方便操作。 (一) 进入应用中心 https…...
C++初阶-string类的简单应用
目录 1.仅仅反转字母 2.字符串中第一个唯一字符 3.字符串最后一个单词的长度 4.验证回文串 5.字符串相加 6.总结 1.仅仅反转字母 题目链接:https://leetcode.cn/problems/reverse-only-letters/description/ 在数据结构中我们学了一种方法叫做前后指针法&…...
企业数字化转型第二课:接受不完美(1/2)
一.引言 先看一组中国企业数字化转型相关的数据: 战略认知层面:92%中国企业将数字化纳入战略核心(麦肯锡2023)执行困境层面:63%企业转型首年遭遇重大挫折(BCG 2024追踪)价值释放周期࿱…...
【MCP】function call与mcp若干问题整理
前言:大模型里agent 的 funcation call 是什么概念 在大模型中,Agent是一个能够理解目标、进行自主规划,并利用可用工具(包括Function Call)来执行任务以达成目标的系统或程序。Function Call是大型语言模型提供的一项…...
QT聊天项目DAY09
1. 安装Redis 直接从老师的网盘下载 链接: https://pan.baidu.com/s/1v_foHZLvBeJQMePSGnp4Ow?pwdyid3 提取码: yid3 启动Redis服务看一下,启动成功了 .\redis-server.exe .\redis.windows.conf 启动客户端看一下 2. 配置redis库,调用API 编译一下 …...
JAVA八股文
一、JAVA基础 1.面向对象: 面向对象编程是一种以对象为核心的编程,通过封装、继承、多态和抽象管理代码。 1.封装:将数据(属性)和行为(方法)绑定在一个对象中,隐藏内部细节&#…...
『深夜_MySQL』数据库操作 字符集与检验规则
2.库的操作 2.1 创建数据库 语法: CREATE DATABASE [IF NOT EXISTS] db_name [create_specification [,create_specification]….]create_spcification:[DEFAULT] CHARACTER SET charset_nam[DEFAULT] COLLATE collation_name说明: 大写的表示关键字 …...
1688拍立淘搜索相似商品API接口概述,json数据示例参考
1688拍立淘搜索相似商品API接口概述 1688拍立淘是阿里巴巴1688平台提供的以图搜图功能,允许开发者通过上传商品图片或图片URL,快速检索1688平台上的相似商品。该接口基于图像识别技术,结合1688的海量商品库,为商家、采购商或开发…...
使用 Java 11 的 HttpClient 处理 RESTful Web 服务
在现代 Web 开发中,与 RESTful Web 服务交互是一项核心任务。Java 作为一种广泛使用的编程语言,提供了多种处理 HTTP 请求的方法。在 Java 11 之前,开发者通常使用 HttpURLConnection 或第三方库(如 Apache HttpClient)。然而,这些方法要么过于底层,要么需要额外依赖。J…...
学习笔记:黑马程序员JavaWeb开发教程(2025.3.30)
11.6 案例-文件上传-阿里云OSS-集成 从程序中获取URL给前端,前端显示图片 拿到URL,但是在浏览器里面是直接下载,展示可以使用html中的<image>标签 Spring环境下,不建议再去new对象,将其交给IOC容器管理ÿ…...