5.2创新架构
一、MoE(Mixture of Experts,混合专家模型)
了解混合专家模型架构,与 Dense 架构相比有什么优劣
是一种提升大模型推理效率和参数利用率的关键技术
核心思想:在模型中增加多个“专家模块”(Experts),每个 Expert 是一个子网络(如一个 MLP)。通过一个 门控网络(Router/Gating Function) 控制,每次只激活少数几个 Experts 来参与计算,达到稀疏激活效果。不是每次推理都激活所有参数,而是“按需”激活部分专家网络,从而降低计算开销、扩大模型容量。
关键部分:
-
MoE 层:MoE 代替了传统的 transformer 模型中的 FFN。MoE 层包含若干“专家”,每个专家是独立的神经网络。在实际应用中,这些专家通常是 FFN,但也可以是更复杂的网络结构
-
门控网络:用来决定哪些 token 被发送到哪个专家。有时一个 token 可以被发送到多个专家。
门控网络本质上是一个可学习的模型组件,参数是可训练的。当输入数据进入门控网络后,门控网络会对输入数据的特征进行提取和分析(比如可能会分析输入文本的语义、语法、关键词等特征)然后根据这些特征计算每个专家模型的分数。(比如有 n 个专家模型,门控网络会输出一个 n 维向量,向量中的每个元素对应一个专家模型的分数。)经过 softmax 函数后被转化为概率值,概率值最大的那个专家模型就会被选择来处理该输入数据。当然也有可能存在多个专家模型以不同权重共同处理输入数据的情况,这个具体取决于 MoE 模型的设计方式。
稠密模型、稀疏模型:
传统的 transformer 的 FNN 是稠密模型,因为它所有的参数(包括权重和偏置)都会被激活,所有参数都被用于计算输出,没有任何部分被遗弃。
而 MoE 因为有专家的选择,所以仅激活总参数中的一部分,所以是稀疏模型。
某些专家模型过度使用或不足使用应该如何解决(负载平衡问题) ?
如果门控网络倾向于频繁选择某些特定专家,可能导致这些专家过载,而其他专家则闲置,致这些专家未能充分训练。整体而言容易造成计算资源的浪费和模型性能的下降。
解决方法:
可以引入负载平衡损失函数,每个 MoE 层都集成一个损失函数,鼓励门控网络将每批次的 token 均匀分配给各个专家,确保所有专家的负载相对均衡。
5. MoE 模型训练过程中存在不稳定的问题如何解决?
门控网络根据输入数据的 logits 值来选择合适的专家。但是在训练过程中过大的 logits 值可能导致数溢出,影响模型的训练效果。
可以引入 router z-loss 来缓解这个问题,loss 的计算方式如下:
简单来说就是对每个专家的 logits 进行指数运算,然后对所有专家的结果求和,并取对数。接着,将该值平方后在批次上取平均。
deepseekMoE 比 MoE 做了哪些改进?
https://www.xiaohongshu.com/explore/67a6d320000000002a00f26f?xsec_source=pc_feed¬e_flow_source=wechat
-
专家细粒度分割:MoE 可使不同专家聚焦不同领域的任务,在特定领域上表现出色,但是处理通用知识领域的问题时,专家工作不如垂直领域明显,效果不如 Dense 模型好。因训练和微调的稀疏激活机制,MoE 模型微调不如 Dense 模型直接有效,需要更复杂的调参数和策略 -> 细粒度专家分割。在保持专家总参数数量不变的情况下,通过将 N 个 FFN 中间隐藏维度缩小为原来的 m 分之 1,即每个专家 FFN 分割成 m 个更小的专家,即总共得到 mN 个细粒度专家。由于每个专家变小,为保持计算成本不变,激活的专家数量增加原来的 m 倍。细粒度分割后,不同知识可被更精确地分解到不同细化后的专家中学习,每个专家能保持更高专业化水平。从组合角度看,显著提升了激活专家的组合灵活性。
-
负载均衡问题-> 无辅助损失策略。传统解决方案是增加《负载平衡损失函数》,
(1)但是 deepspeekV3 通过为每个专家引入一个可动态调整的偏差项,并将其添加到选择专家分数中来确定 top-K 路由。在训练过程中,根据专家的负载情况动态调整偏差项:如果专家负载过高,则减小偏差项;如果负载不足,则增加偏差项。同时通过互补的序列级辅助损失来防止单个序列内的极端不平衡。
(2)还增加节点限制路由机制,使每个 token 最多路由至 M 个节点,减少跨节点通信量,并结合无 token 丢弃策略,在训练和推理阶段均保持负载均衡,确保数据完整性和性能稳定,同时通过计算与通信并行化提升训练吞吐量
优点:
- 计算稀疏化每个 token 只激活少数 experts(比如 2/64),节省计算量
- 提升表达能力:各专家负责不同特征区域,提升泛化能力和任务表现
缺点:
- 可能出现专家负载不平衡的问题
- 训练过程中不稳定问题,使用 router z-loss
- 调优门槛高:超参数多(expert 数、top-k、均衡损失)
与 Dense 架构(传统大模型架构)对比:
对比项 | Dense 架构 | MoE 架构 |
---|---|---|
激活方式 | 所有层都计算 | 仅激活部分专家 |
参数量 vs 计算量 | 参数和计算成正比 | 参数多,计算少 |
训练效率 | 简单但慢 | 快但路由复杂 |
表达能力 | 泛化能力有限 | 各专家可专精不同任务 |
可扩展性 | 难以突破 100B | 轻松扩展至万亿参数 |
应用难度 | 部署简单 | 通信调度复杂,需要高效系统支持(如 DeepSpeed) |
适用场景:
场景 | 是否适用 | 理由 |
---|---|---|
✅ 超大模型预训练 | ✅ | 如 Google Switch Transformer(1.6T)、DeepSeek-MoE(236B) |
✅ 推理效率优化 | ✅ | 在不损失性能前提下降低 GPU 计算 |
❌ 小模型或小任务 | ❌ | 稀疏调度、路由器训练反而成了负担 |
✅ 多任务学习/多语种 | ✅ | 不同专家可适配不同语言或任务,天然适合多任务 |
代表性 MoE 模型:
模型 | 参数量 | 特点 |
---|---|---|
Switch Transformer(Google) | 1.6T | 每 token 激活 1 个 expert,极简高效 |
GLaM(Google) | 1.2T | MoE + mixture routing,多任务适配好 |
DeepSeek-MoE(字节) | 236B | top-4-of-128 expert 稀疏激活 |
Mixtral (Mistral) | 12.9B x 2-of-8 experts | MoE 架构高效对话,延迟低,性能优 |
GShard(Google) | MoE 并行化框架 | 支持亿级 token 并行训练 |
二、Mamba、RWKV
了解 Mamba、RWKV 等前沿架构,它们的创新之处。与 transformer 架构的优劣对比
为什么要寻找 Transformer 替代方案?
Transformer 架构虽然强大,但它有几个固有缺点:
- 🚫 自注意力计算复杂度高:时间复杂度是 O ( n 2 ) O(n^2) O(n2)(n 为序列长度)
- 🧠 不擅长处理超长序列(比如 >10K tokens)
- 🚧 硬件瓶颈:显存占用大、推理效率低
所以一些研究者提出新的结构:Mamba、RWKV 等,目标是用线性复杂度的结构替代 Transformer 的 Attention 机制,同时保留其建模能力。
1. Mamba(2023,Stanford,曼巴)
Mamba 是一种基于 状态空间模型(State Space Model,SSM) 的序列建模架构,用于替代 Attention。SSM 可以看作是 RNN 的变体
核心思想:用**连续状态空间模型(State Space Models)**构建序列依赖关系。
输入序列通过一个“可学习的滤波器”进行卷积变换,捕捉上下文依赖。
模型中采用一种称为 selective SSM 的机制,它可以高效地只关注重要的上下文片段。
📌 类似于“只在需要的地方应用注意机制”,但计算是线性复杂度 O ( n ) O(n) O(n)。
三大创新:
https://blog.csdn.net/v_JULY_v/article/details/134923301
- 对输入信息有选择性处理(Selection Mechanism)
- 硬件感知的算法(Hardware-aware Algorithm)
该算法采用“并行扫描算法”而非“卷积”来进行模型的循环计算(使得不用 CNN 也能并行训练),但为了减少 GPU 内存层次结构中不同级别之间的 IO 访问,它没有具体化扩展状态
当然,这点也是受到了 S5(Simplified State Space Layers for Sequence Modeling)的启发 - 更简单的架构
将 SSM 架构的设计与 transformer 的 MLP 块合并为一个块(combining the design of prior SSM architectures with the MLP block of Transformers into a single block),来简化过去的深度序列模型架构,从而得到一个包含 selective state space 的架构设计
优点:
优点 | 描述 |
---|---|
⚡ 线性时间复杂度 | 高效处理超长文本,如 64K+ token |
🔍 可解释性更强 | 通过分析状态的变化来理解傻姑娘下文学习等现象(SSM 是动态系统建模的经典形式 |
🧠 具备长距记忆能力 | 比标准 Transformer 更好地建模长依赖 |
缺点:
- 架构复杂,训练调参困难
- 目前缺乏 Chat 类大模型落地经验(仍在发展阶段)
- 高性能训练还依赖特殊优化(如 FlashConv)
适用场景:
序列长度很长的任务,如 DNA 序列、生成长视频、写小说
2.RWKV(R(Receptance)- W(Weight)- K(Key)- V(Value))
RNNs:在处理长序列时,内存与计算成本低,但梯度消失与非并行化的特性限制了其扩展性和性能。
Transformers:通过自注意力机制能高效管理依赖关系并支持并行化,但计算复杂度高,尤其在处理长序列时,内存和计算成本极为庞大。
为解决这些问题,RWKV 应运而生。
核心理念是结合 RNN 与 Transformer 的优势,避免各自的局限。
RWKV 是一种融合 RNN 和 Transformer 的混合架构,具有线性复杂度,完全可以 GPU 并行。
(RWKV 的贡献在于:采用线性计算与内存复杂度,解决 Transformer 的二次复杂度问题。支持并行化训练与推理,
提高计算效率。通过新架构实现类似 Transformer 的性能,同时处理大规模参数,达到与同规模 Transformer 相当的效果。
整体架构:
RWKV 的核心包括时间混合(Time Mixing)与通道混合(Channel Mixing)模块。它通过引入可训练的时间衰减向量 W来捕捉长程依赖,同时支持高效的并行化操作。RWKV 中的 R、W、K、V 代表四个关键元素:
R(Receptance):接收过去输入信息,决定历史数据对当前状态的影响程度。
W(Weight):控制信息随时间的衰减,确保每个时间步的权重逐渐减小。
K 与 V:帮助计算输入之间的相似度并传递实际信息,支持历史信息的选择性聚合。
(Token Shift 与模块设计
Token Shift 机制通过线性插值结合当前时间步与上一时间步的输入,以便更好地捕捉动态变化。这一机制在时间混合与通道混合中均有应用,有效增强了长程依赖关系的捕捉。
时间与通道混合
Time Mix:就是 RWKV
Channel Mix :主要增强模型的非线性能力。
RWKV 通过 Time Mix 与 Channel Mix 模块的结合,提高了模型在长序列处理中的表现,使得模型能够在保持高效计算的同时,捕捉更复杂的时间与通道依赖。
优点
优点 | 描述 |
---|---|
✅ 支持 token-by-token 推理 | 非常适合边生成边计算的任务 |
⚡ 推理速度快 | 可媲美或超越 GPT 类模型 |
🧠 参数效率高 | 训练出来的模型更轻量,效果仍强 |
缺点:
- 社区支持较弱,主力是开源志愿者
- 没有强大的生态(对比 HuggingFace 或 OpenAI)
- 架构仍然在快速迭代中,不够稳定
与 Transformer 的对比总结
项目 | Transformer | Mamba | RWKV |
---|---|---|---|
架构类型 | Attention | 状态空间模型 (SSM) | RNN + Transformer 融合 |
时间复杂度 | O ( n 2 ) O(n^2) O(n2) | O ( n ) O(n) O(n) | O ( n ) O(n) O(n) |
训练并行性 | 强 | 中等 | 强 |
推理效率 | 中等 | 高 | 高(可边推理边生成) |
长序列能力 | 一般 | 很强 | 强 |
工程成熟度 | 非常高 | 尚在发展 | 较低 |
- 为什么 Transformer 不适合长文本建模?
- Mamba 和 Attention 的区别是什么?
- RWKV 是怎么实现并行 RNN 的?
- 请比较 Transformer、Mamba、RWKV 的计算复杂度与推理能力
- 你会选择哪个架构用于边生成边推理的应用场景?为什么?
相关文章:
5.2创新架构
一、MoE(Mixture of Experts,混合专家模型) 了解混合专家模型架构,与 Dense 架构相比有什么优劣 是一种提升大模型推理效率和参数利用率的关键技术 核心思想:在模型中增加多个“专家模块”(Experts&#x…...
驱动开发系列57 - Linux Graphics QXL显卡驱动代码分析(四)显示区域更新
一:概述 前面在介绍了显示模式设置(分辨率,刷新率)之后,本文继续分析下,显示区域的绘制,详细看看虚拟机的画面是如何由QXL显卡绘制出来的。 二:相关数据结构介绍 struct qxl_moni…...
疗愈服务预约小程序源码介绍
基于ThinkPHP、FastAdmin和UniApp开发的疗愈服务预约小程序源码,这款小程序在功能设计和用户体验上都表现出色,为疗愈行业提供了一种全新的服务模式。 该小程序源码采用了ThinkPHP作为后端框架,保证了系统的稳定性和高效性。同时,…...
力扣118,1920题解
记录 2525.5.6 题目: 思路: 用一个二维数组dp[numRows][numRows]保存每一次动态规划的结果 1.令dp[0][0]1(第一列) 2.找规律 3.得到如下规律(以下情况均为列数大于1) if(col0){ dp[row][col]1 } else { dp[row][col]dp[row-1][col-1]dp[row-1][col] }…...
电池热管理CFD解决方案,为新能源汽车筑安全防线
在全球能源结构加速转型的大背景下,新能源汽车产业异军突起,成为可持续发展的重要驱动力。而作为新能源汽车 “心脏” 的电池系统,其热管理技术的优劣,直接决定了车辆的安全性、续航里程和使用寿命。电池在充放电过程中会产生大量…...
(一)毛子整洁架构(Domain Layer/Repository Pattern/Result Pattern/Error Pattern)
文章目录 项目地址一、整洁架构概念1.1 各个分层的功能1. Domain核心部件2. Application Layer3. Infrastructure layer3. Presenetation layer1.2 项目数据库二、Domain Layer2.1 Apartments 实体1. Current Value Obj2. Money Value Obj3. Apartment 类2.2 User 实体1. User类…...
XSS ..
Web安全中的XSS攻击详细教学,Xss-Labs靶场通关全教程(建议收藏) - 白小雨 - 博客园跨站脚本攻击(XSS)主要是攻击者通过注入恶意脚本到网页中,当用户访问该页面时,恶意脚本会在用户的浏览器中执行…...
Github Action部署node项目
Github Action部署node项目 个人学习的时候,作为前端感觉这个CICD基本流程还是有必要了解的,这里记录一下Github Action部署node项目的流程,也算是一个学习的过程 首先肯定是要有一个可运行的node项目 编写部署文件 部署文件放置在.githu…...
高频面试题:设计秒杀系统,用Redis+Lua解决超卖
高频面试题:设计秒杀系统,用RedisLua解决超卖 **1. 问题背景****2. 解决方案:Redis Lua****为什么选择Redis Lua?****核心代码逻辑****Java调用示例(Spring Boot)** **3. 方案优势****4. 面试回答话术***…...
2、Kafka Replica机制与ISR、HW、LEO、AR、OSR详解
Kafka 作为分布式高可用消息队列,其副本(Replica)机制是实现高可靠性和数据一致性的核心。本文将系统介绍 Kafka 的 Replica 机制,并详细解释 ISR、HW、LEO、AR、OSR 等关键概念。 一、Kafka Replica机制概述 在分布式系统中&am…...
生成式 AI:从工具革命到智能体觉醒,2025 年的质变与突破
在上海胸科医院的手术室里,一束全息投影正精准勾勒出患者肺部的三维血管模型。主刀医生手持机械臂的瞬间,AI 导航系统已同步完成 200 次路径演算,将毫米级误差控制在 0.3 毫米以内 —— 这个真实发生在 2025 年的临床场景,标志着生…...
安卓基础(拖拽)
当用户长按或拖拽某个视图(如按钮、图片)时,需要提供视觉反馈(即阴影)。这行代码通常在拖拽事件的处理逻辑中,例如: view.setOnLongClickListener(v -> {// 创建拖拽阴影DragShadowBuilder …...
IoTDB磁盘I/O性能监控与优化指南
一、磁盘I/O性能观测核心指标 在现代计算机系统中,磁盘I/O性能对整体系统表现至关重要。为有效监控和优化磁盘I/O性能,需关注以下核心指标: I/O读写延迟:衡量从发起I/O请求到接收响应的时间间隔。IOPS(Input/O…...
java每日精进 5.06【框架之功能权限】
0.概述 0.1 整体架构概述 这个RBAC权限系统基于Spring Security和Token认证机制,主要包含以下核心组件: 用户-角色-菜单的多对多关系模型 基于Token的认证流程 细粒度的权限控制(菜单权限、按钮权限) 灵活的权限配置方式 1…...
静态NAT
实验需求 PC1和PC2通过静态NAT去访问服务器 实验拓扑 图13-1 静态NAT 实验步骤 步骤1:IP地址的配置 PC1的配置 PC2的配置 R1的配置 <Huawei>system-view [Huawei]undo info-center enable [Huawei]sysname R1 [R1]interface g0/0/0 [R1-GigabitEt…...
RabbitMQ-api开发
前言 MQ就是接收并转发消息 核心概念 admin是用户 每个虚拟机上都有多个交换机 快速入门 引入依赖 <dependency><groupId>com.rabbitmq</groupId><artifactId>amqp-client</artifactId><version>5.22.0</version></dependen…...
const MachineTree getMachineTree() ; MachineTree getMachineTree() const; 区别?
这两个函数声明在语法和语义上有明显的区别,它们的用途和行为也不同。让我们逐一分析它们的区别: 1. const MachineTree &getMachineTree(); 这个函数声明表示: 返回类型:const MachineTree &,即返回一个 M…...
使用DevTools工具调试前端页面,便捷脚本,鸿蒙调试webView
参考官方文章 便捷脚本 创建文本,复制修改后缀为bat 建立bat文件 echo off setlocal enabledelayedexpansion:: Initialize port number and PID list set PORT9222 set PID_LIST:: Get the list of all forwarded ports and PIDs for /f "tokens2,5 delims…...
浏览器存储 Cookie,Local Storage和Session Storage
什么是Cookie? 存储容量:一般限制在 4KB 以内。数据有效期:可以设置过期时间,若未设置,则在浏览器关闭时失效。数据共享:在同一域名下,不同页面可以共享cookie数据。并且在每次 HTTP 请求时&am…...
校内周赛题(思维题)
这次周赛的题目没有什么很难的代码实现,基本上都是对思路的把握。 与君共勉🌹 选取x个数,看能不能使得这x个数相加的结果是奇数。 如果x是偶数,他的分布肯定是一个奇数一个偶数若干个两两配对的奇数若干个两两配对的偶数。 如果…...
在 GitLab 中部署Python定时任务
在 GitLab 中部署定时任务(如每天早8点运行Python脚本并存储结果)可以通过 GitLab CI/CD 结合 计划任务(Scheduled Pipelines) 实现。以下是详细步骤和准备工作: 1. 准备工作 (1) 项目结构准备 确保项目包含: Python脚本(如 main.py):执行核心算法逻辑。 结果存储模…...
学习黑客Windows权限体系
已思考 24 秒 借着 Week 2 Day 4 的号角,我们把权限系统这条「双持长枪」摆上擂台:一边是 Windows DACL/icacls,另一边是 Linux sudoers。你将看到二者在授权语法、常见配置漏洞与提权打法上的一一对照——尤其关注 可写服务(Wr…...
DXFViewer进行中2 -> 直线 解析+渲染 ✅已完成
DXFViewer进行中 : ->封装OpenGL -> 解析DXF直线-CSDN博客https://blog.csdn.net/qq_25547755/article/details/147723906 上篇博文 解析dxf直线635条 1. DXFViewer.h #pragma once #include "Application.h" #include <stdio.h> #inc…...
当智能科技遇上医疗行业会帮助疫苗如何方便管理呢?
随着科技的发展,智能科技在医疗行业的应用日益广泛,在疫苗管理方面,温湿度监控设备的安装可以简化管理流程,提高监测效率,降低疫苗损坏的风险。 疫苗管理面临着诸多挑战和需求。疫苗的存储、运输、接种等环节都…...
Excel 数据 可视化 + 自动化!Excel 对比软件
各位Excel小能手们!你们有没有过要对比两个Excel表格数据差异,却看得眼睛都花了的经历?其实啊,现在有专门的Excel文件比较软件能帮咱解决这大难题。这软件就是用来快速找出两个或多个Excel表格数据不同之处,还能把修改…...
Selenium模拟人类行为,操作网页的方法(全)
看到有朋友评论问,用selenium怎么模仿人类行为,去操作网页的页面呢? 我想了想,这确实是一个很大的点,不应该是一段代码能解决的, 就像是,如果让程序模拟人类的行为。例如模拟人类买菜,做饭&am…...
LVS负载均衡群集解析:理解LVS-NAT的工作原理
目录 一、LVS群集应用基础 1.群集技术概述 2.LVS虚拟服务器 3.NFS共享存储服务 二、案例:地址转换模式(LVS-NAT) 1.资源清单 2.修改主机名 3.配置负载调度器(LVS上) 4.配置节点服务器(web1、web2) 5.测试LVS…...
Leetcode Hot 100最长连续序列
题目描述 思路 思路1 我们对数组进行排序,通过遍历数组,如果前一个数组的值1等于当前数组的值,计数count,如果中断了,计算当前最大连续长度的值ans,并且统计值count重新置为1,最后返回count与…...
【东枫科技】代理英伟达产品:交换机系统
文章目录 总体详细:NVIDIA Spectrum SN5000详细:NVIDIA Spectrum SN2100详细:NVIDIA Spectrum SN4700详细:NVIDIA Spectrum SN2010详细:NVIDIA Spectrum SN4600详细:NVIDIA Spectrum SN3700详细:…...
[前端]Javascript获取元素宽度
元素宽度属性对比示意图 ---------------------------------- | 外边距(margin) | -------------------------------- | | 边框(border) | | | -------------------------- | | | …...
MySQL + Qwen3-0.5B + Flask + Dify 工作流部署指南
1. 安装MySQL和PyMySQL 安装MySQL # 在Ubuntu/Debian上安装 sudo apt update sudo apt install mysql-server sudo mysql_secure_installation# 启动MySQL服务 sudo systemctl start mysql sudo systemctl enable mysql 安装PyMySQL pip install pymysql 使用 apt 安装 My…...
项目三 - 任务3:学生多态方式喂养宠物
在本次实战中,我们通过创建动物类及其子类(猫、狗、鸟),并设计学生类的喂养方法,深入学习了Java中的多态和方法重载。学生类通过重载方式为每种动物提供专门的喂养方法,而通过多态方式则仅用一个方法即可喂…...
TypeScript速成
1、类型推断 这里的str已经推断为string类型,不能像JavaScript一样直接给str赋值number类型 2、类型注解 let str:stringabc 或者 let str:string strabc 3、类型断言 因为typescript会判定这个item可能为undefined类型,但是我们人为可以确定item一…...
CompletableFuture的底层ForkJoinPool
什么是 ForkJoinPool?它和普通线程池(ThreadPoolExecutor)有什么区别? 答案要点: ForkJoinPool 是 Java 7 引入的线程池,专为 分治任务 设计,支持递归任务拆分(Fork)和…...
高等数学第五章---定积分(§5.1定积分的概念、性质和应用)
5.1 定积分的概念及性质 一、引例 在学习定积分之前,我们先通过两个具体的例子来感受其思想和方法。 例1 曲边梯形的面积 定义:曲边梯形 由连续曲线 y f ( x ) y f(x) yf(x)(假设 f ( x ) ≥ 0 f(x) \ge 0 f(x)≥0 在所讨论的区间上&…...
Java基础学完,继续深耕(0506)SQL--多表关系
多表关系 一对多(多对一) 一对一 多对多 一对多 场景:部门与员工的关系 (一个部门下有多个员工)。 实现:在数据库表中多的一方,添加字段,来关联一的一方的主键。 现在只是在语法上关联了,…...
python打卡day17
聚类的基础知识 知识点 聚类的指标聚类常见算法:kmeans聚类、dbscan聚类、层次聚类三种算法对应的流程 实际在论文中聚类的策略不一定是针对所有特征,可以针对其中几个可以解释的特征进行聚类,得到聚类后的类别,这样后续进行解释也…...
洛谷---P1629 邮递员送信
题目描述 有一个邮递员要送东西,邮局在节点 1。他总共要送 n−1 样东西,其目的地分别是节点 2 到节点 n。由于这个城市的交通比较繁忙,因此所有的道路都是单行的,共有 m 条道路。这个邮递员每次只能带一样东西,并且运…...
第11次:用户注册(简要版)
1、定义模板 在templates文件夹下边新建register.html,代码如下: <html lang"en"> <head><meta charset"UTF-8"><title>注册</title> </head> <body><!--{%是模板标签, …...
【IP101】图像特征提取技术:从传统方法到深度学习的完整指南
🌟 特征提取魔法指南 🎨 在图像处理的世界里,特征提取就像是寻找图像的"指纹",让我们能够识别和理解图像的独特性。让我们一起来探索这些神奇的特征提取术吧! 📚 目录 基础概念 - 特征的"体…...
对windows的简单介绍
目录 一、Windows 操作系统概述 1. 定义与定位 2. 核心目标 二、历史与版本演变 1. 早期阶段(1985–1995) 2. NT 内核时代(1996–2009) 3. 现代操作系统(2012–至今) 三、系统架构与技术特性 1. 内…...
Waymo公司正在加快其位于亚利桑那州新工厂的无人驾驶出租车(robotaxi)生产进度
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
JavaSE核心知识点01基础语法01-03(流程控制:顺序、分支、循环)
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 JavaSE核心知识点01基础语法01-03࿰…...
信息论01:从通信到理论的飞跃
信息论01:从通信到理论的飞跃 1. 信息论的诞生与发展 1.1 前信息论时代(1920s之前) 信息与消息的混淆:传统认知中将信息等同于消息本身先驱者奠基: 哈里奈奎斯特 (1924):提出《影响电报速度的某些因素》…...
Pandas 的透视与逆透视
目录 1. 透视 1.1 pivot 1.2 pivot_table 2.逆透视 1. 透视 透视是长表变宽表。 pivot() 和 pivot_table()两个函数都可以做到,后者可以聚合前者不行。 特性df.pivot()df.pivot_table()重复值处理要求索引和列的组合唯一,否则报错 ValueError允许…...
AI大模型驱动的智能座舱研发体系重构
随着AI大模型(如LLM、多模态模型)的快速发展,传统智能座舱研发流程面临巨大挑战。传统座舱研发以需求驱动、功能固定、架构封闭为特点,而AI大模型的引入使得座舱系统向自主决策、动态适应、持续进化的方向发展。 因此思考并提出一…...
【东枫科技】代理英伟达产品:DPU
NVIDIA BlueField-3 DPU 400Gb/s 基础设施计算平台 NVIDIA BlueField -3 数据处理单元 (DPU) 是第三代基础设施计算平台,使企业能够构建从云端到核心数据中心再到边缘的软件定义、硬件加速的 IT 基础设施。借助 400Gb/s 以太网或 NDR 400Gb/s InfiniBand 网络连接…...
【KWDB 创作者计划】一文掌握KWDB的时序表管理
前言 本文是在对时序数据库有一定了解,并且KWDB的数据库操作了解后进行学习的文章安排,如果对时序数据库与KWDB的数据库操作还不怎么了解的可以查阅官网的文档进行提前学习,当有了这些基础后,本文就是对时序数据表的一个管理操作…...
《算法导论(第4版)》阅读笔记:p9-p9
《算法导论(第4版)》学习第 6 天,p9-p9 总结,总计 1 页。 一、技术总结 1. data structure A data structure is a way to store and organize data in order to facilitate access and modifications(数据结构是一种存储和组织数据的方式,…...
Facebook隐私保护措施的优缺点解析
在这个数字化的时代,隐私保护已成为公众关注的热点话题。Facebook,作为全球最大的社交媒体平台之一,其隐私保护措施自然也受到了广泛的关注和讨论。本文将对Facebook的隐私保护措施进行解析,探讨其优点与缺点,并探讨如…...