当前位置: 首页 > news >正文

GPU、NPU与LPU:大语言模型(LLM)硬件加速器全面对比分析

引言:大语言模型计算基础设施的演进

随着大语言模型(LLM)的快速发展与广泛应用,高性能计算硬件已成为支撑LLM训练与推理的关键基础设施。目前市场上主要有三类处理器用于加速LLM相关任务:GPU(图形处理单元)、NPU(神经处理单元)和LPU(语言处理单元)。本文将深入分析这三类AI芯片的架构特点、技术原理及在LLM应用中的优劣势,并结合市场上的代表性产品进行对比,为读者建立一个全面的LLM基础设施硬件视角,帮助开发者和企业做出更明智的硬件选择。

处理器架构对比

处理器架构与设计理念:三种不同的计算范式

GPU:通用并行计算的中坚力量

GPU最初为图形渲染而设计,后扩展为通用计算加速器。其核心特点是包含数千个小型计算核心(如NVIDIA的CUDA核心),约80%以上为算术逻辑单元(ALU),特别适合高吞吐量的浮点运算和矩阵计算。

GPU的架构主要包含以下关键组件:

  • 流式多处理器(SM):GPU的核心计算单元,以NVIDIA H100为例拥有114个SM,每个SM包含128个FP32 CUDA核心、寄存器、共享内存和缓存
  • 显存(VRAM):采用HBM3高带宽内存,H100配备80GB内存,通过5个HBM3堆栈和10个512位内存控制器实现3.35TB/s的带宽
  • Tensor核心:第四代Tensor核心,每个SM配备4个(H100总共456个),专用于加速AI和科学计算的矩阵运算

GPU的设计理念是通过大规模并行处理提升计算能力,采用SIMD(单指令多数据)架构,能同时对大量数据执行相同操作。这种架构与LLM训练中的矩阵运算高度匹配,使GPU成为目前LLM训练的主流硬件选择。

市场代表产品

  • NVIDIA H100:拥有16896个CUDA核心,80GB HBM3显存,提供1000 TFLOPS的FP8性能,是目前LLM训练的首选硬件
  • AMD MI300X:拥有304个计算单元,192GB HBM3显存,适合大规模LLM训练和推理
  • Intel Gaudi 3:专为AI工作负载优化的GPU,支持BF16和FP8精度,性价比较高

NPU:专为神经网络优化的高效处理器

NPU专为AI和神经网络计算设计,针对矩阵乘法、激活函数等神经网络核心操作进行了硬件级优化。NPU采用"数据驱动并行计算"的方式,模仿生物神经元和突触的工作模式。其架构包括:

  • 神经元处理单元:基本计算单元,由多个权重和激活函数组成,专为神经网络计算优化
  • 突触互联:优化的数据传输通路,减少内存访问延迟,提高数据流效率
  • 片上缓存:采用3D Cube架构,提升数据访问效率,降低功耗

以华为昇腾NPU为例,其达芬奇架构采用3D Cube设计针对矩阵运算做加速,在单位功耗下可实现比传统CPU和GPU数量级的性能提升,特别适合边缘计算场景。

市场代表产品

  • 华为昇腾910:提供256 TFLOPS的AI计算能力,功耗仅310W,能效比领先
  • 谷歌TPU v5p:专为大规模AI训练设计,每个Pod提供9 exaFLOPS算力,适合大型语言模型训练
  • 高通Cloud AI 100:边缘AI推理加速器,每瓦性能是GPU的10倍,适合移动设备部署LLM

LPU:专注语言模型的新兴高性能处理器

LPU采用张量流处理架构(TSP),专注于序列处理和推理加速。以Groq LPU为例,其创新特点包括:

  • 230MB片上SRAM:采用高效内存架构,片上内存带宽高达80TB/s(约为传统GPU HBM带宽的10倍)
  • 确定性执行引擎:采用VLIW架构,可精确预知执行时间和顺序,显著优化序列处理性能
  • 可编程流水线架构:通过高效的片上内存和确定性执行,实现高吞吐量的数据处理

LPU的内存分为L0缓存、L1工作区和L2参数库,通过优化的内存层级和访问模式,实现了极低的延迟和高吞吐量,特别适合LLM的推理任务。

市场代表产品

  • Groq LPU:每秒可生成500个推理令牌,延迟低至毫秒级,是目前LLM推理速度最快的处理器之一
  • Cerebras CS-2:拥有850,000个AI优化核心,2.6万亿晶体管,适合大规模语言模型训练
  • Tenstorrent Grayskull:基于张量处理的AI芯片,支持稀疏计算,能效比高

LLM应用中的性能对比:训练与推理的不同需求

训练能力对比:GPU的主场优势

GPU优势

  • 强大的并行计算能力,能同时处理大量矩阵运算和向量运算,加速模型训练
  • NVIDIA H100提供1000 TFLOPS的FP8性能,适合大规模语言模型训练
  • 高内存带宽(H100达3.35TB/s)满足大规模参数更新需求,减少训练瓶颈
  • 成熟的软件生态(CUDA、cuDNN等)降低开发难度,支持主流深度学习框架
  • 分布式训练支持(如DeepSpeed在1,024个A100上实现万亿参数模型训练)

NPU表现

  • 部分高端NPU(如谷歌TPU)支持训练,但生态不如GPU完善,适用性有限
  • 在特定精度下(如INT8)训练效率高于GPU,但通用性较差
  • 软件栈兼容性问题限制了广泛应用,需要专门的适配工作

LPU劣势

  • 目前主流LPU产品(如Groq)不支持模型训练,主要聚焦于推理优化
  • 架构偏向推理优化,不适合反向传播等训练操作,难以支持大规模模型训练
  • 训练软件生态几乎空白,缺乏成熟的开发工具和框架支持

性能对比

推理性能对比:LPU的突破性优势

GPU表现

  • 中等推理速度(H100每秒约40-60个令牌),适合批量处理
  • 批处理模式下吞吐量高,但单请求延迟较大,实时性不足
  • 功耗高(300-700W),能效比较低,运营成本高

NPU优势

  • 低功耗场景下性能优异(如手机NPU),适合移动设备部署
  • 量化后推理速度提升显著(INT8量化后速度提升22.4倍),适合边缘计算
  • 能效比高(每瓦性能是GPU的3-10倍),运营成本低

LPU突出优势

  • 极高的推理速度(Groq LPU处理Mixtral模型可达每秒500个令牌),远超GPU和NPU
  • 超低延迟(毫秒级响应),适合实时交互和对话场景
  • 内存访问效率高(带宽利用率92%),减少数据传输瓶颈
  • 确定性执行模式避免了GPU的性能波动问题,提供稳定的服务质量

能效比与成本对比:不同场景下的最优选择

alt text

软件生态与开发难度:从成熟到新兴的技术栈

GPU:成熟完善的生态系统与开发工具

NVIDIA GPU拥有业内最成熟的软件生态,主要优势包括:

  • CUDA平台15年以上的发展历史,支持所有主流AI框架(PyTorch、TensorFlow等)
  • 丰富的优化工具:cuDNN(深度学习原语)、TensorRT(推理优化)、NCCL(多卡通信)
  • LLM专用工具:FasterTransformer(推理加速)、TensorRT-LLM(自动优化)、Triton推理服务器
  • 完善的开发文档和活跃的社区支持,降低开发门槛

开发难度:低(大量文档、示例和社区支持,学习资源丰富)

NPU:厂商分割的生态与兼容性挑战

NPU生态相对分散,各厂商有自己的软件栈:华为的CANN(昇腾AI计算架构)、谷歌的JAX/XLA(用于TPU)、高通的SNPE(神经处理引擎SDK)等。这种分割导致开发者需要针对不同NPU重新适配代码,增加了开发和维护成本。

开发难度:中(需要学习厂商特定API,跨平台兼容性差,文档质量参差不齐)

LPU:新兴但快速发展的生态与简化的部署流程

作为新兴技术,LPU的软件生态相对不成熟。以Groq为例,其GroqWare软件栈支持PyTorch和ONNX模型转换,但优化选项和调试工具有限。不过,LPU厂商正在快速改进开发工具,如Groq推出的GroqFlow自动优化框架,简化了模型部署流程。

开发难度:高(工具链不完善,最佳实践缺乏,但部署流程相对简化)

实际应用场景分析:不同处理器的最佳使用场景

大规模LLM训练:GPU集群的不可替代性

最佳选择:GPU集群(如NVIDIA DGX SuperPOD)

实际案例与最佳实践

  • OpenAI使用超过10,000个NVIDIA A100 GPU训练GPT-4,实现了突破性的语言理解能力
  • 微软DeepSpeed在1,024个A100上实现万亿参数模型训练,优化了大规模分布式训练效率
  • Anthropic使用数千个NVIDIA H100训练Claude 3,提高了模型的推理质量和安全性

高并发LLM推理服务:LPU的性能优势

最佳选择:LPU阵列或GPU+LPU混合部署

实际案例与最佳实践

  • Claude AI使用Groq LPU,实现每秒处理数百请求,延迟降低90%,大幅提升用户体验
  • Together AI采用LPU+GPU混合架构,优化成本和性能,根据不同模型特点选择最适合的硬件
  • Anthropic在云端部署中引入LPU,显著提升推理效率,降低运营成本

边缘设备LLM部署:NPU的能效优势

最佳选择:NPU或低功耗GPU

实际案例与最佳实践

  • 高通骁龙8 Gen 3的NPU支持在手机上运行7B参数量化LLM,实现本地AI助手功能
  • 苹果A17 Pro神经引擎在iPhone上本地运行小型LLM,保护用户隐私同时提供AI功能
  • 华为昇腾NPU在IoT设备上实现实时语音助手,低功耗高性能

应用场景

未来发展趋势:AI硬件加速的新方向

  1. 异构计算融合与智能调度

    • GPU+NPU+LPU混合部署成为趋势,根据任务特点动态分配最适合的处理器
    • 智能调度系统自动选择最优处理器,优化资源利用和性能表现
    • 统一编程模型简化异构开发,降低开发门槛和维护成本
  2. 专用LLM加速器与定制化芯片

    • Microsoft的Maia和Athena芯片针对LLM优化,提供更高的性能和能效
    • Groq下一代TSP架构进一步提升推理速度,降低延迟
    • 新兴厂商的创新设计带来更多选择,促进行业竞争和技术进步
  3. 软件栈统一与开发工具优化

    • MLIR等开源编译器促进标准化,提高跨平台兼容性
    • 跨平台优化工具链简化开发流程,降低学习成本
    • 自动化部署和优化方案提高开发效率,加速模型上线
  4. 量化与稀疏计算技术突破

    • 8位和4位量化成为标准,大幅降低模型部署资源需求
    • 结构化稀疏性优化提高计算效率,减少内存占用
    • 动态精度调整技术平衡性能和精度,适应不同应用场景

结论:选择合适的硬件加速器是LLM应用成功的关键

GPU、NPU和LPU在支持大语言模型方面各有优劣:GPU凭借强大的通用计算能力和成熟生态系统,仍是LLM训练的首选;NPU在边缘设备和能效敏感场景中表现出色;而新兴的LPU则在推理速度和延迟方面实现了革命性突破。

对于LLM开发者和部署者,理想的策略是根据应用场景选择合适的处理器组合:使用GPU进行模型训练和开发,LPU处理高并发低延迟的在线服务,NPU负责边缘设备的本地推理。随着技术发展和软件生态成熟,这三类处理器的界限可能逐渐模糊,形成更加融合的计算平台,为LLM的进一步发展提供更强大的硬件支持。

相关文章:

GPU、NPU与LPU:大语言模型(LLM)硬件加速器全面对比分析

引言:大语言模型计算基础设施的演进 随着大语言模型(LLM)的快速发展与广泛应用,高性能计算硬件已成为支撑LLM训练与推理的关键基础设施。目前市场上主要有三类处理器用于加速LLM相关任务:GPU(图形处理单元…...

常见限流算法

限流是指在高并发、大流量请求的情况下,限制新的流量对系统的访问,以保证系统服务的安全性。常见的限流算法及其详细介绍如下: 计数器算法(Fixed Window Counter) 原理:使用一个固定时间窗口内的计数器来…...

美国国家航空航天局(NASA)的PUNCH任务

地球浸没在来自太阳的物质流中。这种被称为太阳风的流正在冲刷我们的星球,造成令人叹为观止的极光,影响太空中的卫星和宇航员,甚至影响地面基础设施。 美国宇航局 (NASA) 的 PUNCH(统一日冕和日球层旋光仪 Polarimeter to Unify the Corona and Heliosphere)任务将首次…...

REST API前端请求和后端接收

1、get请求&#xff0c;带"?" http://localhost:8080/api/aop/getResult?param123 GetMapping("getResult")public ResponseEntity<String> getResult(RequestParam("param") String param){return new ResponseEntity<>("12…...

OpenBMC:BmcWeb构造connect对象

OpenBMC:BmcWeb server.run-CSDN博客 server在接收了tcp连接请求后,会构造一个ConnectionType对象,然后通过post调度,运行该对象的start函数 1.ConnectionType类型 其实也就是using ConnectionType = Connection<Adaptor, Handler>;类型 由于ConnectionType实例化于…...

ESLint 深度解析:原理、规则与插件开发实践

在前端开发的复杂生态中&#xff0c;保障代码质量与规范性是构建稳健、可维护项目的基石。ESLint 作为一款强大的代码检查工具&#xff0c;其默认规则与插件能满足多数常见需求&#xff0c;但面对特定团队规范或项目独特要求&#xff0c;自定义 ESLint 插件便成为有力的扩展手段…...

ios使用swift调用deepseek或SiliconFlow接口

调用SiliconFlow API 注册并获取API密钥&#xff1a;打开硅基流动平台官网Models&#xff0c;进行注册和认证。登录后&#xff0c;进入首页&#xff0c;点击左上角三个横杠&#xff0c;选择API密钥&#xff0c;生成密钥并复制。配置第三方应用&#xff1a;打开安装好的Chatbox…...

贪心算法一

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;了解什么是贪心算法&#xff0c;并且掌握贪心算法。 > 毒鸡汤&#xff1a;有些事情&#xff0c;总是不明白&#xff0c;所以我不会坚持。早安! >…...

Java进阶:Dubbo

分布式RPC框架Apache Dubbo 1. 软件架构的演进过程 软件架构的发展经历了由单体架构、垂直架构、SOA架构到微服务架构的演进过程&#xff0c;下面我们分别了解一下这几个架构。 1.1 单体架构 架构说明&#xff1a; 全部功能集中在一个项目内&#xff08;All in one&#xf…...

【Day9】make/makeFile如何让项目构建自动化起飞

【Day9】make/makeFile如何让项目构建自动化起飞 使用make命令编写makefile文件依赖管理增量构建makefile注释&#xff1a;#makefile其他语法 make/makefile递归式工作过程 在Linux中&#xff0c;项目自动化构建是指使用一系列工具和脚本来自动执行软件项目的编译、测试、打包和…...

SCI1区TOP:自适应学习粒子群算法SLPSO,深度解析+性能实测

目录 1.摘要2.改进策略3.自适应学习粒子群算法4.结果展示5.参考文献6.获取代码 1.摘要 粒子群算法&#xff08;PSO&#xff09;是一种基于种群的随机搜索方法&#xff0c;广泛应用于科学和工程领域的连续空间优化问题&#xff0c;并已证明其高效性和有效性。许多实际问题的往往…...

迷你世界脚本显示板管理接口:DisPlayBoard

显示板管理接口&#xff1a;DisPlayBoard 迷你世界 更新时间: 2023-04-26 10:21:14 具体函数名及描述如下: 序号 函数名 函数描述 1 showBoard(...) 对玩家显示显示板 2 hideBoard(...) 对玩家隐藏显示板 3 setBoardPicture 对玩家设置显示板的图片…...

如何使用 LLM 生成的术语自动在搜索应用程序上构建 autocomplete 功能

作者&#xff1a;来自 Elastic Michael Supangkat 了解如何在 Elastic Cloud 中&#xff0c;通过使用 LLM 生成的词汇&#xff0c;为搜索应用增强自动补全功能&#xff0c;实现更智能、更动态的搜索建议。 自动补全是搜索应用中的一项关键功能&#xff0c;它通过在用户输入时实…...

电路基础:【1】PN结二极管制作电桥点亮LED灯

第一章&#xff1a;PN结二极管制作电桥点亮LED灯 文章目录 第一章&#xff1a;PN结二极管制作电桥点亮LED灯前言一、电路原理二、电路图与元器件1.电路图 做实验总结 前言 在本章中&#xff0c;我们将探讨如何通过PN结二极管制作电桥电路&#xff0c;并利用该电路点亮LED灯。L…...

蓝桥与力扣刷题(蓝桥 门牌制作)

题目&#xff1a;小蓝要为一条街的住户制作门牌号。 这条街一共有 2020 位住户&#xff0c;门牌号从 1 到 2020编号。 小蓝制作门牌的方法是先制作 0 到 9 这几个数字字符&#xff0c;最后根据需要将字符粘贴到门牌上&#xff0c;例如门牌 1017 需要依次粘贴字符 1、0、1、7&…...

unity console日志双击响应事件扩展

1 对于项目中一些比较长的日志&#xff0c;比如前后端交互协议具体数据等&#xff0c;这些日志内容可能会比较长&#xff0c;在unity控制面板上查看不是十分方便&#xff0c;我们可以对双击事件进行扩展&#xff0c;将日志保存到一个文本中&#xff0c;然后用系统默认的文本查看…...

基于Django创建一个WEB后端框架(DjangoRestFramework+MySQL)流程

一、Django项目初始化 1.创建Django项目 Django-admin startproject 项目名 2.安装 djangorestframework pip install djangorestframework 解释: Django REST Framework (DRF) 是基于 Django 框架的一个强大的 Web API 框架&#xff0c;提供了多种工具和库来构建 RESTf…...

unittest框架 核心知识的系统复习及与pytest的对比

1. unittest 介绍 是什么&#xff1a;Python 标准库自带的单元测试框架&#xff0c;遵循 xUnit 架构&#xff08;类似Java的JUnit&#xff09;。 核心概念&#xff1a; TestCase&#xff1a;测试用例的基类&#xff0c;所有测试类需继承它。 TestSuite&#xff1a;测试套件&a…...

嵌入式硬件设计SPI时需要注意什么?

嵌入式硬件设计SPI时需要注意什么? 1. 硬件设计注意事项 关键点注意事项1. 信号完整性- 缩短SCK、MOSI、MISO的走线长度,避免反射干扰。- 使用屏蔽线或差分信号(高速场景)。- 阻抗匹配(特别是高频信号,如50Ω端接)。2. 电源与地线- 电源去耦:每个SPI芯片的VCC附近放置0…...

vscode远程ssh链接服务器

前提&#xff1a;安装并配置好 ssh 服务,并且远程主机和本地主机在同一个局域网。 降级到1.85.2版本并禁用自动更新&#xff0c;因为最新的vscode不支持remote SSH。 【VS Code】VS Code不再支持remote SSH 1.在vscode 扩展中搜索Remote - SSH,下载安装扩展 2.点击 远程资源管理…...

97k倍区间

97k倍区间 ⭐️难度&#xff1a;中等 &#x1f31f;考点&#xff1a;暴力&#xff0c;2017省赛 &#x1f4d6; &#x1f4da; import java.util.Scanner;public class Main {static int N 100010;public static void main(String[] args) {Scanner sc new Scanner(System.…...

绝美焦糖暖色调复古风景画面Lr调色教程,手机滤镜PS+Lightroom预设下载!

调色教程 通过 Lr 软件丰富的工具和功能&#xff0c;对风景照片在色彩、影调等方面进行调整。例如利用基本参数调整选项&#xff0c;精准控制照片亮度、对比度、色温、色调等基础要素&#xff1b;运用 HSL 面板可对不同色彩的色相、饱和度以及明亮度进行单独调节&#xff1b;利…...

双王炸爆单,问界M8、M9怎么选?

文 | AUTO芯球 作者 | 雷慢 问界M8一小时小订7500台&#xff0c; 新问界M9一小时订单3800台。 余承东这次直接把一对王炸打了出来&#xff0c; 来看这对大小王&#xff0c; 问界M8预售价36.8万到45.8万&#xff0c; 问界M9预售价47.8万到57.8万&#xff0c; 这两款车&…...

【自学笔记】OpenStack基础知识点总览-持续更新

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 OpenStack基础知识点总览一、OpenStack概述1.1 OpenStack起源1.2 OpenStack的目标与优势1.3 OpenStack的常见核心项目 二、OpenStack的节点类型2.1 控制节点2.2 网络…...

同步 Fork 仓库的命令

同步 Fork 仓库的命令 要将您 fork 的仓库的 main 分支与原始仓库&#xff08;fork 源&#xff09;同步&#xff0c;您可以使用以下命令&#xff1a; 首先&#xff0c;确保您已经添加了原始仓库作为远程仓库&#xff08;如果尚未添加&#xff09;&#xff1a; git remote add…...

2025-03-04 学习记录--C/C++-C语言 判断是否是素数

合抱之木&#xff0c;生于毫末&#xff1b;九层之台&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; C语言 判断是否是素数 一、代码 ⭐️ #include <stdio.h> #include <stdbool.h> // 使用 bool 类型// 判断是否是…...

1、CI/CD 平台安装部署(Gitlab+Jenkins)

CI/CD 平台安装部署 安装部署Gitlab安装Gitlab添加组、创建用户、创建项目 Jenkins 安装Maven 安装和配置Tomcat 安装和配置Jenkins 构建 Maven 项目自由风格项目构建 什么是CI/CD&#xff1f; 通俗来说就是启动一个服务&#xff0c;能够监听代码变化&#xff0c;然后自动执行构…...

数据集路径出错.yaml‘ images not found , missing path

方法一&#xff1a;删除settings.yaml 方法二&#xff1a;dataset_name.yaml改用绝对路径&#xff0c;如最后一张图 错误分析&#xff1a; dataset_name.yaml中的path的路径仅支持绝对路径&#xff0c;写相对路径就会搜索不到&#xff0c;使用settings.json中的路径&#xff0…...

零基础学习Python 之类(Class)和实例(Instance)_我的学习Python记录12

零基础学习Python 之类&#xff08;Class&#xff09;和实例&#xff08;Instance&#xff09;_我的学习Python记录12 目录 什么是类和实例&#xff1f;类的作用如何定义类&#xff1f;如何创建实例&#xff1f;类的属性和方法 属性方法 实际案例 案例 1&#xff1a;学生信息…...

Map<String,Object>转换为XML报文的方法

1. 使用 JAXB (Java Architecture for XML Binding) JAXB 是 Java 标准库的一部分&#xff0c;支持将 Java 对象与 XML 相互转换。虽然 JAXB 主要用于将 Java 对象转换为 XML&#xff0c;但可以通过一些技巧将 Map<String, Object> 转换为 XML。 示例代码 import java…...

Linux:如何安装虚拟机

Linux&#xff1a;如何安装虚拟机 第一步首先打开阿里巴巴开源镜像网站然后点击相应要下载链接 选择自己需要的 这个是完整版 这个是联网进行安装系统 这个是基础版只有命令行界面 这里我选择下载基础版 下载好打开vmwareworkstation 开始安装...

HTML 编辑器推荐与 VS Code 使用教程

在进行 HTML 编程时&#xff0c;选择一款合适的 HTML 编辑器能极大地提高开发效率。以下为大家推荐几款常用且功能强大的 HTML 编辑器&#xff0c;同时详细介绍如何使用 VS Code 创建和预览 HTML 文件。 一、HTML 编辑器推荐 VS Code&#xff1a;由微软开发&#xff0c;是一款…...

Python的Pandas和matplotlib库:让数据可视化贼简单

在数据爆炸的时代&#xff0c;数据可视化已成为数据分析的关键环节。Python 作为强大的编程语言&#xff0c;拥有众多用于数据可视化的库&#xff0c;而 pandas 库在其中扮演着重要角色。它不仅能高效处理和分析数据&#xff0c;还具备强大的数据可视化功能&#xff0c;让我们轻…...

私有云基础架构与运维(二)

二.私有云基础架构 【项目概述】 经过云计算基础知识及核心技术的学习后&#xff0c;希望进一步了解 IT 基础架构的演变过 程&#xff0c;通过学习传统架构、集群架构以及私有云基础架构的相关知识&#xff0c;认识企业从传统 IT 基 础架构到私有云基础架构转型的必要性。…...

Java Maven 项目问题:org.dom4j:dom4j:pom:2.1.3 failed to transfer from...

问题与处理策略 问题描述 IDEA 中打开一个 Java 项目&#xff0c;使用 Maven 构建时&#xff0c;报如下错误 org.dom4j:dom4j:pom:2.1.3 failed to transfer from https://repo.maven.apache.org/maven2 during a previous attempt. This failure was cached in the local r…...

DeepSeek group-limited expert routing和负载均衡

Ref https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/model.py GitHub - deepseek-ai/EPLB: Expert Parallelism Load Balancer DeepSeek-V3 Technical Report DeepSeek的路由方法 class Gate(nn.Module):def __init__(self, args: ModelArgs):super().__…...

nvidia驱动升级-ubuntu 1804

升级 1.从官网下载*.run驱动文件 2.卸载原始驱动 sudo /usr/bin/nvidia-uninstall sudo apt-get --purge remove nvidia-\* # 可能不需要加-\ sudo apt-get purge nvidia-\* # 可能不需要加-\ sudo apt-get purge libnvidia-\* # 可能不需要…...

金融合规测试:金融系统稳健运行的“定海神针“

一、什么是金融合规测试&#xff1f; 金融行业是受监管最严格的领域之一&#xff0c;各国政府和监管机构&#xff08;如中国人民银行、银保监会、证监会、美国SEC、欧盟ESMA等&#xff09;都制定了严格的法律法规&#xff0c;要求金融机构确保系统安全、交易透明、公平竞争&am…...

[Windows] 多系统键鼠共享工具 轻松跨系统控制多台电脑

参考原文&#xff1a;[Windows] 多系统键鼠共享工具 轻松跨系统控制多台电脑 还在为多台电脑需要多套键盘鼠标而烦恼吗&#xff1f;是不是在操控 Windows、macOS、Linux 不同系统电脑时手忙脚乱&#xff1f;现在&#xff0c;这些问题通通能解决&#xff01;Deskflow 软件闪亮登…...

vue3 组合式API:透传 Attributes(v-bing与:)—setup() 上下文对象ctx.attrs

一、概念及举例说明透传 attribute与模板语法中的Attribute(v-bind) 透传 attribute:传递给一个组件没有通过 props 与 emits 的attribute或者v-on事件监听(常见的:calss、style、id) 举例:当一个组件以单个元素为根元素渲染时,透传 attribute 会自动被添加到根元素上 …...

记录一次利用条件索引优化接口性能的实践

一、业务背景 某表数据量达到4000w&#xff0c;需要每天定时任务处理20w条。前2周内SQL执行无任何问题&#xff0c;非常快&#xff0c;效率比较高。随着处理完的数据量变大&#xff0c;处理完数据状态设置为1&#xff0c;SQL执行效率越来越差&#xff0c;已经达到了惊人的4.6秒…...

Anaconda 部署 DeepSeek

可以通过 Anaconda 环境部署 DeepSeek 模型&#xff0c;但需结合 PyTorch 或 TensorFlow 等深度学习框架&#xff0c;并手动配置依赖项。 一、Anaconda 部署 DeepSeek 1. 创建并激活 Conda 环境 conda create -n deepseek python3.10 # 推荐 Python 3.8-3.10 conda activate…...

MATLAB中lookAheadBoundary函数用法

目录 语法 说明 示例 匹配指定模式之前的位置 匹配指定模式之前的边界以外的边界 lookAheadBoundary函数的功能是匹配指定模式之前的边界。 语法 newpat lookAheadBoundary(pat) 说明 newpat lookAheadBoundary(pat) 创建匹配 pat 的开头的模式。结果中不包含 pat 匹…...

Unity HDR颜色、基础颜色、强度强度、HDR面板Intensity之间的相互转换

目录 前言&#xff1a; 一、UnityHDR面板的规律 二、HDR与基础颜色转换&#xff0c;HDR强度获取&#xff0c;输入设置强度获取 1.基础色->HDR颜色 2.HDR颜色->基础色 3.获取HDR颜色在面板中的强度 4.获取HDR颜色在面板设置输入时的强度 前言&#xff1a; HDR&#…...

nvm 让 Node.js 版本切换更灵活

有很多小伙伴前端开发进程中&#xff0c;我们常常会遇到不同项目依赖不同版本 Node.js 的情况。我们不可能去卸载重新安装适应的版本去安装依赖或者启动项目。为了避免版本冲突带来的一系列麻烦&#xff0c;在这里给大家推荐一款Node.js 版本管理工具——nvm&#xff08;Node V…...

微机惊魂记

春天午后的阳光懒洋洋地洒在教学楼的走廊上&#xff0c;我跟着同学们排着队往四楼的微机教室走去。楼梯间的窗户开着&#xff0c;飘进来阵阵樱花的香气&#xff0c;让人昏昏欲睡。 微机教室在一栋普通的五层教学楼里&#xff0c;墙壁刷着淡绿色的漆&#xff0c;墙角还有些剥落…...

Windows下安装VMware Workstation 17并设置支持MacOS

VMware Workstation 17 介绍 VMware Workstation 17 是 VMware 公司推出的一款强大的桌面虚拟化软件&#xff0c;适用于 Windows 、 Linux 和FreeBSD等操作系统。它允许用户在单一物理计算机上创建、运行和管理多个虚拟机&#xff08;VM&#xff09;&#xff0c;每个虚拟机都可…...

[MySQL初阶]MySQL(5)内置函数详解

标题&#xff1a;[MySQL初阶]MySQL&#xff08;5&#xff09;内置函数详解 水墨不写bug 文章目录 一、日期函数1. current_date()2. current_time()3. current_timestamp()4. date(datetime)5. date_add(date, interval expr unit)6. date_sub(date, interval expr unit)7. dat…...

Linux下安装elasticsearch(Elasticsearch 7.17.23)

Elasticsearch 是一个分布式的搜索和分析引擎&#xff0c;能够以近乎实时的速度存储、搜索和分析大量数据。它被广泛应用于日志分析、全文搜索、应用程序监控等场景。 本文将带你一步步在 Linux 系统上安装 Elasticsearch 7.17.23 版本&#xff0c;并完成基本的配置&#xff0…...

华为云 | 快速搭建DeepSeek推理系统

DeepSeek&#xff08;深度求索&#xff09;作为一款国产AI大模型&#xff0c;凭借其高性能、低成本和多模态融合能力&#xff0c;在人工智能领域崛起&#xff0c;并在多个行业中展现出广泛的应用潜力。 如上所示&#xff0c;在华为云解决方案实践中&#xff0c;华为云提供的快速…...