当前位置: 首页 > news >正文

【AI】模型与权重的基本概念

在 ModelScope 平台上,「模型」和「权重」的定义与工程实践紧密结合,理解它们的区别需要从实际的文件结构和加载逻辑入手。以下是一个典型 ModelScope 模型仓库的组成及其概念解析:


1. ModelScope 模型仓库的典型结构

以 deepseek-ai/deepseek-llm-7b-base 为例,模型仓库通常包含以下文件:

bash

复制

下载

Deepseek-R1-bf16-hfd-w8a8/
├── config.json                # 模型结构定义与超参数
├── configuration_deepseek.py  # 模型结构代码(PyTorch/TF定义)
├── modeling_deepseek.py       # 核心网络层实现
├── tokenizer.json             # 分词器配置
├── generation_config.json     # 生成参数(如温度、top_p)
├── pytorch_model.safetensors  # 模型权重(以安全格式存储)
├── special_tokens_map.json    # 特殊token映射
└── README.md                  # 使用说明

2. 核心概念详解

(1) 模型(Model)
  • 定义:模型是一个完整的、可执行的函数系统,包含:

    • 结构定义(代码层):网络层设计(如Transformer层数、注意力头数)、激活函数、连接方式等;

    • 权重参数(数值层):训练后确定的参数值;

    • 配置与工具(辅助层):分词器、生成策略、硬件适配逻辑。

  • 功能:接受输入(如文本)→ 执行计算 → 输出预测结果(如生成文本)。

(2) 权重(Weights)
  • 定义:模型在训练过程中学习到的参数数值,存储为张量(Tensor)形式,决定模型的具体行为。

  • 物理存在:通常以 .safetensors.bin 或 .pth 文件存储;

  • 作用:权重是模型的“记忆”,例如:

    • 在 LLM 中,权重编码了词语的语义关联(如“猫→动物,4条腿”);

    • 在视觉模型中,权重可能对应边缘检测滤波器或纹理模式识别器。


3. 模型与权重的加载流程

在 ModelScope 中,用户通过以下代码加载模型:

python

复制

下载

from modelscope import AutoModelForCausalLM, AutoTokenizer# 加载完整模型(结构+权重+配置)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b-base")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-llm-7b-base")# 使用模型生成文本
inputs = tokenizer("你好,世界", return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0]))

背后发生的关键步骤

  1. 解析 config.json:确定模型结构(如 hidden_size=4096, num_layers=32);

  2. 执行 modeling_deepseek.py:动态构建 PyTorch/TensorFlow 计算图;

  3. 加载 pytorch_model.safetensors:将权重数值填充到计算图的对应位置;

  4. 集成 tokenizer.json:处理输入文本的切分与编码。


4. 为何需要区分“模型”与“权重”?

(1) 技术必要性
  • 代码与数据分离

    • 模型结构是算法设计(人类可读的代码);

    • 权重是训练结果(机器可读的数值);

    • 分离后,开发者可以复用同一结构加载不同权重(如微调后的版本)。

  • 硬件与框架适配

    • 同一组权重(如 .safetensors)可被 PyTorch、TensorFlow 或昇腾框架加载;

    • 模型结构可能需要针对不同框架调整(如动态图 vs 静态图)。

(2) 工程实践场景
场景模型文件需求权重文件需求
训练需完整结构代码 + 随机初始化的权重权重在训练中逐步更新
推理可仅加载最终权重 + 固定结构(如 ONNX 导出)需量化/剪枝后的权重
迁移学习复用原始结构代码加载预训练权重后微调

    5. 总结:术语的灵活性与一致性

    • 广义“模型”:日常交流中可指代“完整可运行的AI系统”(包含结构+权重);

    • 狭义“模型”:技术文档中可能特指“结构代码”(如 modeling_deepseek.py);

    • 权重:始终指代参数数值,但不同平台可能扩展其含义(如包含量化元数据)。

    建议实践

    • 在 ModelScope 中,将整个仓库称为“模型”,.safetensors 称为“权重文件”;

    • 在昇腾生态中,接受其术语扩展(“权重”可能隐含硬件优化配置)。

    理解这种灵活性,是跨越不同技术生态协作的关键!

    参考

    DeepSeek

    相关文章:

    【AI】模型与权重的基本概念

    在 ModelScope 平台上,「模型」和「权重」的定义与工程实践紧密结合,理解它们的区别需要从实际的文件结构和加载逻辑入手。以下是一个典型 ModelScope 模型仓库的组成及其概念解析: 1. ModelScope 模型仓库的典型结构 以 deepseek-ai/deepse…...

    k8s 中 deployment 管理的多个 pod 构成集群吗

    在 Kubernetes (k8s) 中,通过 Deployment 创建的多个 Pod 本身并不构成一个“集群”,而是属于同一个 工作负载(Workload) 的多个副本实例。它们的角色是 无状态服务副本,而非独立的集群节点。以下是详细解释&#xff1…...

    「动态规划」线性DP:股票问题合集 / LeetCode 121|122|123|188 (C++)

    目录 概述 Question1 思路 算法过程 Code 复杂度 Question2 思路 解题过程 Code 复杂度 Question3 思路 解题过程 Code 复杂度 Question4 思路 解题过程 Code 复杂度 总结 概述 我们已经了解过了线性DP: 「动态规划」线性DP:最长…...

    【Python os模块完全指南】从基础到高效文件操作

    目录 🌟 前言🧩 技术背景与价值🚧 当前技术痛点🛠️ 解决方案概述👥 目标读者说明 📚 一、技术原理剖析🎨 核心概念图解💡 核心作用讲解🔑 关键技术模块说明⚖️ 技术选型…...

    Ubuntu 安装 Keepalived、LVS

    Keepalived Keepalived 是什么(高可用) Keepalived 是一个用于实现 高可用 性(High Availability, HA)的服务,是一款基于 VRRP 协议的高可用软件,常用于主备切换和虚拟IP漂移,在服务故障时自动…...

    记录一个rabbitmq因为linux主机名服务无法启动的问题

    https://g.co/gemini/share/fb5a55644f6f 过程因为主机名为数字导致之间无法进行网络访问,导致无法开启。修改主机名解决这一问题,debian在系统安装时会指定一个用户名,一般为IP地址的第一块,数字导致了无法访问。 #使用命令查看…...

    打造个人知识库,wsl+ollama部署deepseek与vscode集成

    目前大模型应用如火如荼,各大LLM如Deepseek也都提供了在线的助手服务,结合mcp-server还可以进一步拓展到本地的工具能力。 但对于一些和本地业务和数据强相关的资料,在线的大模型训练数据集一般并不能涵盖,特别还有一些敏感或对安全要求很高的数据,使用在线大模型并不现实…...

    Spring 项目无法连接 MySQL:Nacos 配置误区排查与解决

    在开发过程中,我们使用 Nacos 来管理 Spring Boot 项目的配置,其中包括数据库连接配置。然而,在实际操作中,由于一些概念的混淆,我们遇到了一些连接问题。本文将分享我的故障排查过程,帮助大家避免类似的错…...

    P值、置信度与置信区间的关系:统计推断的三大支柱

    目录 引言一、P值是什么?——假设检验的“证据强度”1.1 定义1.2 判断标准:显著性水平 α \alpha α(阿尔法)1.3 示例说明 二、置信区间与置信度:参数估计的“不确定性范围”2.1 置信区间的定义2.2 置信度的含义 三、显…...

    探索智能仓颉:Cangjie Magic开发体验

    探索智能仓颉:Cangjie Magic 的开发体验与技术革新 在大型语言模型(LLM)驱动的智能体开发领域,2025年3月开源的 Cangjie Magic 以其独特的原生仓颉语言基因和三大核心技术突破,为开发者提供了一种全新的开发范式。本文将从技术架构、实际应用、开发体验及未来潜力等角度,…...

    $在R语言中的作用

    在 R 语言中,$ 是一个非常重要的操作符,主要用于访问对象的成员或组件。它的用途非常广泛,不仅限于数据框(data frame),还可以用于列表(list)、环境(environment&#xf…...

    【Pandas】pandas DataFrame rolling

    Pandas2.2 DataFrame Function application, GroupBy & window 方法描述DataFrame.apply(func[, axis, raw, …])用于沿 DataFrame 的轴(行或列)应用一个函数DataFrame.map(func[, na_action])用于对 DataFrame 的每个元素应用一个函数DataFrame.a…...

    新疆地区主要灾害链总结

    新疆地处亚欧大陆腹地,拥有高山(如天山、昆仑山)、盆地(如塔里木盆地、准噶尔盆地)、沙漠(如塔克拉玛干沙漠)、绿洲、内陆河流和冰川等复杂多样的地貌单元。其气候极端,干旱少雨是常态,但山区夏季暴雨集中、冬季积雪深厚,地质构造活跃,地震风险高。这些特点共同决定…...

    在 Vue 2 中使用 qrcode 库生成二维码

    🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…...

    在 Ubuntu 系统中,挂起(Suspend)和休眠(Hibernate)

    在 Ubuntu 系统中,挂起(Suspend)和休眠(Hibernate)是两种常见的电源管理模式。以下是相关命令及说明: --- ### **1. 挂起(Suspend)** 挂起会将当前系统状态保存到内存中&#xff0…...

    什么是声明式UI什么是命令式UI?鸿蒙ArkTS为什么是声明式UI-优雅草卓伊凡

    什么是声明式UI什么是命令式UI?鸿蒙ArkTS为什么是声明式UI-优雅草卓伊凡 一、UI编程范式的根本分野 在软件开发领域,用户界面(UI)构建方式经历了三次重大范式转换。作为优雅草科技CTO,卓伊凡在多个操作系统开发实践中发现,UI框架…...

    nRF Connect SDK system off模式介绍

    目录 概述 1. 软硬件环境 1.1 软件开发环境 1.2 硬件环境 2 System Off 模式 2.1 模式介绍 2.2 注意事项 3 功能实现 3.1 框架结构介绍 3.2 代码介绍 4 功能验证 4.1 编译和下载代码 4.2 测试 4.3 使能CONFIG_APP_USE_RETAINED_MEM的测试 5 main.c的源代码文件…...

    node.js 实战——餐厅静态主页编写(express+node+ejs+bootstrap)

    ejs页面 <!DOCTYPE html> <html> <head><title><% title %></title><link relstylesheet href/stylesheets/style.css/><link relstylesheet href/stylesheets/font-awesome.css/><link relstylesheet href/stylesheets/f…...

    晶体布局布线

    1Clock时钟电路 时钟电路就是类似像时钟一样准确运动的震荡电路&#xff0c;任何工作都是依照时间顺序&#xff0c;那么产生这个时间的电路就是时钟电路&#xff0c;时钟电路一般是由晶体振荡器、晶振、控制芯片以及匹配电容组成 2.时钟电路布局 晶体电路布局需要优先考虑&…...

    数据结构--树

    一、树的概念 树是由n(n≥0)个节点组成的有限集合&#xff0c;它满足以下条件&#xff1a; 1. 当n0时&#xff0c;称为空树 2. 当n>0时&#xff0c;有且仅有一个特定的节点称为根节点(root) 3. 其余节点可分为m(m≥0)个互不相交的有限集合&#xff0c;每个集合本身又是一…...

    5月7号.

    flex布局: 表单标签: 表单标签-表单项:...

    Spark 之 YarnCoarseGrainedExecutorBackend

    YarnCoarseGrainedExecutorBackend executor ID , 在日志里也有体现。 25/05/06 12:41:58 INFO YarnCoarseGrainedExecutorBackend: Successfully registered with driver 25/05...

    Webug4.0靶场通关笔记19- 第24关邮箱轰炸

    目录 第24关 邮箱轰炸 1.配置环境 2.打开靶场 3.源码分析 4.邮箱轰炸 &#xff08;1&#xff09;注册界面bp抓包 &#xff08;2&#xff09;发送到intruder &#xff08;3&#xff09;配置position &#xff08;4&#xff09;配置payload &#xff08;5&#xff09;开…...

    机器学习实战:6种数据集划分方法详解与代码实现

    在机器学习项目中&#xff0c;合理划分数据集是模型开发的关键第一步。本文将全面介绍6种常见数据格式的划分方法&#xff0c;并附完整Python代码示例&#xff0c;帮助初学者掌握这一核心技能。 一、数据集划分基础函数 1. 核心函数&#xff1a;train_test_split from sklea…...

    PostgreSQL 查询历史最大进程数方法

    PostgreSQL 查询历史最大进程数方法 PostgreSQL 提供了多种方式来查询数据库的历史最大进程数&#xff08;连接数&#xff09;。以下是几种有效的方法&#xff1a; 一、使用统计收集器数据 1. 查看当前统计信息 SELECT max_connections, (SELECT setting FROM pg_settings …...

    第十二节:图像处理基础-图像平滑处理 (均值滤波、高斯滤波、中值滤波)

    在数字图像处理中&#xff0c;图像平滑&#xff08;Image Smoothing&#xff09;是去除噪声、改善图像质量的关键技术之一。通过滤波算法&#xff0c;可以有效地抑制高频噪声&#xff0c;但同时可能牺牲部分图像细节。本文将以均值滤波、高斯滤波和中值滤波为核心&#xff0c;结…...

    Python中的global与nonlocal关键字详解

    一、前言 在Python编程中&#xff0c;变量作用域是一个非常重要的概念。对于初学者来说&#xff0c;经常会遇到在函数内部无法修改外部变量的问题。这时候&#xff0c;global和nonlocal关键字就能派上用场了。本文将详细介绍这两个关键字的用法、区别以及适用场景&#xff0c;…...

    LVGL-对象 lv_obj_t

    LVGL-对象 lv_obj_t **LVGL 对象核心概念总结****1. 对象与控件的关系****2. 对象的基本属性****3. 父子对象结构****4. 屏幕与图层管理****活动屏幕&#xff08;Active Screen&#xff09;****图层&#xff08;Layers&#xff09;** **5. 关键函数与操作****6. 面向对象设计的…...

    【C/C++】ARM处理器对齐_伪共享问题

    文章目录 1 什么是伪共享&#xff1f;2 为什么对齐&#xff1f;3 伪共享的实际影响4 为什么必须是 64 字节&#xff1f;5 其他替代方案6 验证对齐效果总结 1 什么是伪共享&#xff1f; 伪共享是 多线程编程中的一种性能问题&#xff0c;其本质是&#xff1a; 缓存行&#xff…...

    【优化策略】离散化

    概念 离散化是算法设计中处理大数据范围时的关键技巧&#xff0c;它将大范围的数据映射到有较小的的离散空间中&#xff0c;同时保持数据的相对关系。 本质&#xff1a;将原始数据映射到紧凑的连续整数空间 数学表示&#xff1a;建立映射函数 f: ℝ → ℤ&#xff0c;满足 x…...

    微粉助手 1.1.0 | 专为社交电商用户设计的一站式营销工具,集成了群发消息、智能加好友、清理僵尸粉等功能

    微粉助手是一款专为社交电商用户设计的一站式营销工具。此会员版无需登录&#xff0c;去除了更新检测&#xff0c;并优化了启动速度。它集成了群发消息、智能添加好友、精准清理僵尸粉、自动跟圈以及短视频获客等核心功能&#xff0c;是企业实现社交媒体营销自动化的理想选择。…...

    【代码优化篇】强缓存和协商缓存

    强缓存和协商缓存 一、强缓存与协商缓存的区别二、Vue2 前端实现强缓存&#xff08;静态资源&#xff09;三、Spring Boot 后端实现协商缓存&#xff08;动态接口&#xff09;四、测试缓存效果五、注意事项 一、强缓存与协商缓存的区别 强缓存&#xff1a;浏览器直接读取本地缓…...

    分区器(2)

    2. 设置ReduceTask 在MapReduce框架中&#xff0c;Reducer的数量&#xff08;即ReduceTask的数量&#xff09;可以通过配置参数来设置。 设置方法 通过配置文件&#xff1a; 在mapred-site.xml文件中设置mapreduce.job.reduces参数&#xff1a; xml <property><nam…...

    外包团队协作效率低,如何优化

    外包团队协作效率低是许多公司面临的挑战&#xff0c;尤其是在跨地域、跨文化和远程工作环境下。 优化外包团队的协作效率需要从沟通方式、项目管理工具、文化差异及团队结构等多个方面入手。首先&#xff0c;明确的沟通与及时的反馈是提高团队效率的基础&#xff0c; 通过定期…...

    2020年NCA CCF-C,改进灰狼算法RSMGWO+大规模函数优化,深度解析+性能实测

    目录 1.摘要2.灰狼算法GWO原理3.改进策略4.结果展示5.参考文献6.代码获取7.读者交流 1.摘要 灰狼优化算法&#xff08;GWO&#xff09;是一种新型自然启发式算法&#xff0c;具备较强的局部搜索能力&#xff0c;但在处理大规模问题时全局搜索能力较弱。本文提出了改进灰狼算法…...

    【EasyPan】saveShare代码分析

    【EasyPan】项目常见问题解答&#xff08;自用&持续更新中…&#xff09;汇总版 保存分享文件到个人网盘代码分析 一、代码结构概览 该代码实现了一个将他人分享的文件保存到自己网盘的功能&#xff0c;主要分为三个部分&#xff1a; 控制器层&#xff08;Controller&a…...

    基于Django框架开发的B2C天天生鲜电商平台

    天天生鲜 介绍 天天生鲜是一个基于Django框架开发的B2C(Business-to-Customer)电商平台&#xff0c;专注于生鲜食品的在线销售。该项目采用了主流的Python Web开发框架Django&#xff0c;结合MySQL数据库、Redis缓存等技术&#xff0c;实现了一个功能完整、界面友好的电商网站…...

    [数据库之九] 数据库索引之顺序索引

    1、什么是索引&#xff1f; 拿到一本书&#xff0c;想直接跳到感兴趣的章节&#xff0c;而不是从头看到尾&#xff0c;这时需要看书的目录&#xff0c;上面列出章节和对应的页码&#xff0c;这里的目录可以看成是书的索引&#xff0c;如果没有索引&#xff0c;要查找书中某块内…...

    使用 Celery + Redis + Eventlet 实现 Python 异步编程(Windows 环境)

    一、环境搭建与依赖安装 1. 安装依赖包 pip install celery redis eventletcelery&#xff1a;异步任务队列框架。redis&#xff1a;作为消息中间件&#xff08;Broker&#xff09;和结果存储&#xff08;Backend&#xff09;。eventlet&#xff1a;用于 Windows 环境下的协程…...

    Selenium Web自动化测试学习笔记(二)--八大元素定位

    前置设置及代码 目录结构如下&#xff0c;将驱动器chromedriver.exe复制粘贴到此目录下&#xff0c;具体环境配置参考笔记一&#xff1a; Selenium Web自动化测试学习笔记&#xff08;一&#xff09;-CSDN博客 首先和笔记&#xff08;一&#xff09;一样导入一些包用于设置谷…...

    如何设置飞书多维表格,可以在扣子平台上使用

    扣子可以链接到飞书多维表格&#xff0c;但很多人不知道具体如何操作&#xff0c;今天给大家分享下操作流程。 大家好&#xff0c;我是涛涛&#xff0c;欢迎来到我的空间。因为需要管理员审核&#xff0c;所以最好有管理员的手机就在旁边方便操作。 (一) 进入应用中心 https…...

    C++初阶-string类的简单应用

    目录 1.仅仅反转字母 2.字符串中第一个唯一字符 3.字符串最后一个单词的长度 4.验证回文串 5.字符串相加 6.总结 1.仅仅反转字母 题目链接&#xff1a;https://leetcode.cn/problems/reverse-only-letters/description/ 在数据结构中我们学了一种方法叫做前后指针法&…...

    企业数字化转型第二课:接受不完美(1/2)

    一.引言 先看一组中国企业数字化转型相关的数据&#xff1a; 战略认知层面&#xff1a;92%中国企业将数字化纳入战略核心&#xff08;麦肯锡2023&#xff09;执行困境层面&#xff1a;63%企业转型首年遭遇重大挫折&#xff08;BCG 2024追踪&#xff09;价值释放周期&#xff1…...

    【MCP】function call与mcp若干问题整理

    前言&#xff1a;大模型里agent 的 funcation call 是什么概念 在大模型中&#xff0c;Agent是一个能够理解目标、进行自主规划&#xff0c;并利用可用工具&#xff08;包括Function Call&#xff09;来执行任务以达成目标的系统或程序。Function Call是大型语言模型提供的一项…...

    QT聊天项目DAY09

    1. 安装Redis 直接从老师的网盘下载 链接: https://pan.baidu.com/s/1v_foHZLvBeJQMePSGnp4Ow?pwdyid3 提取码: yid3 启动Redis服务看一下&#xff0c;启动成功了 .\redis-server.exe .\redis.windows.conf 启动客户端看一下 2. 配置redis库&#xff0c;调用API 编译一下 …...

    JAVA八股文

    一、JAVA基础 1.面向对象&#xff1a; 面向对象编程是一种以对象为核心的编程&#xff0c;通过封装、继承、多态和抽象管理代码。 1.封装&#xff1a;将数据&#xff08;属性&#xff09;和行为&#xff08;方法&#xff09;绑定在一个对象中&#xff0c;隐藏内部细节&#…...

    『深夜_MySQL』数据库操作 字符集与检验规则

    2.库的操作 2.1 创建数据库 语法&#xff1a; CREATE DATABASE [IF NOT EXISTS] db_name [create_specification [,create_specification]….]create_spcification:[DEFAULT] CHARACTER SET charset_nam[DEFAULT] COLLATE collation_name说明&#xff1a; 大写的表示关键字 …...

    1688拍立淘搜索相似商品API接口概述,json数据示例参考

    1688拍立淘搜索相似商品API接口概述 1688拍立淘是阿里巴巴1688平台提供的以图搜图功能&#xff0c;允许开发者通过上传商品图片或图片URL&#xff0c;快速检索1688平台上的相似商品。该接口基于图像识别技术&#xff0c;结合1688的海量商品库&#xff0c;为商家、采购商或开发…...

    使用 Java 11 的 HttpClient 处理 RESTful Web 服务

    在现代 Web 开发中,与 RESTful Web 服务交互是一项核心任务。Java 作为一种广泛使用的编程语言,提供了多种处理 HTTP 请求的方法。在 Java 11 之前,开发者通常使用 HttpURLConnection 或第三方库(如 Apache HttpClient)。然而,这些方法要么过于底层,要么需要额外依赖。J…...

    学习笔记:黑马程序员JavaWeb开发教程(2025.3.30)

    11.6 案例-文件上传-阿里云OSS-集成 从程序中获取URL给前端&#xff0c;前端显示图片 拿到URL&#xff0c;但是在浏览器里面是直接下载&#xff0c;展示可以使用html中的<image>标签 Spring环境下&#xff0c;不建议再去new对象&#xff0c;将其交给IOC容器管理&#xff…...