当前位置: 首页 > news >正文

【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

现代 AI 工作负载的规模和复杂性不断增长,而人们对性能和部署便捷性的期望也日益提升。对于在 AMD Instinct™ GPU 上构建 AI 和 HPC 未来的企业而言,ROCm 6.4 是一次飞跃。随着领先的 AI 框架、优化的容器和模块化基础架构工具的支持日益增强,ROCm 软件持续获得发展动力,助力客户更快创新、更智能地运营,并掌控其 AI 基础架构。

无论您是在多节点集群中部署推理、训练数十亿参数模型还是管理大型 GPU 集群,ROCm 6.4 软件都能通过 AMD Instinct GPU 提供无缝实现高性能的途径。

本博客重点介绍了ROCm 6.4 中的五项关键创新,这些创新直接解决了 AI 研究人员、模型开发人员和基础设施团队面临的常见挑战,使 AI 开发变得快速、简单且可扩展。

1. 用于训练和推理的 ROCm 容器:Instinct GPU 上的即插即用 AI

设置和维护优化的训练和推理环境非常耗时、容易出错,并且会减慢迭代周期。ROCm 6.4 软件引入了一套功能强大的即用型、预先优化的训练和推理容器,专为 AMD Instinct GPU 设计。

  • vLLM(推理容器) ——专为低延迟 LLM 推理而构建,为最新的 Gemma 3(day-0)、Llama、Mistral、Cohere 等开放模型提供即插即用支持。 点击此处了解基于 Instinct GPU 的 Gemma 3。其他相关链接: Docker 容器、 用户指南、 性能数据

  • SGLang(推理容器) ——针对 DeepSeek R1 和代理工作流进行了优化,通过 DeepGEMM、FP8 支持和并行多头注意力机制,实现了卓越的吞吐量和效率。SGLang 关键资源: Docker 容器、 用户指南

  • PyTorch(训练容器) ——包含性能调优的 PyTorch 版本,支持高级注意力机制,有助于在 AMD Instinct MI300X GPU 上实现无缝 LLM 训练。现已针对 Llama 3.1(8B、70B)、Llama 2(70B)和 FLUX.1-dev 进行了优化。访问适用于 ROCm 的 Pytorch 训练 Docker 及相关训练资源,请访问 Docker 容器、 用户指南、 性能数据和 性能验证。

  • Megatron-LM(训练容器) ——基于 ROCm 调优的 Megatron-LM 定制分支,旨在高效训练大规模语言模型,包括 Llama 3.1、Llama 2 和 DeepSeek-V2-Lite。访问 Megatron-LM Docker 和训练资源: Docker 容器、 用户指南、 性能数据、 性能验证

这些容器使 AI 研究人员能够更快地访问交钥匙环境,以评估新模型并运行实验。模型开发者可以利用对当今最先进的 LLM(包括 Llama 3.1、Gemma 3 和 DeepSeek)的预调支持,而无需花费时间进行复杂的配置。对于基础设施团队而言,这些容器可在开发、测试和生产环境中提供一致、可重复的部署,从而实现更顺畅的扩展并简化维护。

2. PyTorch for ROCm 获得重大升级:更快的注意力,更快的训练

训练大型语言模型 (LLM) 不断突破计算和内存的极限,而低效的注意力机制很快就会成为主要瓶颈,减慢迭代速度并增加基础设施成本。ROCm 6.4 软件在 PyTorch 框架内实现了重大性能增强,包括优化的 Flex Attention、TopK 和缩放点积注意力 (SDPA)。

Flex Attention:与 ROCm 6.3 相比,性能有了显著飞跃,大大减少了训练时间和内存开销——尤其是在依赖高级注意力机制的 LLM 工作负载中。
TopK:TopK 运算速度现提升 3 倍,加快推理响应时间,同时保持输出质量(来源)
SDPA:更平滑、长上下文推理。

这些改进意味着更快的训练时间、更低的内存开销以及更高效的硬件利用率。因此,AI 研究人员能够在更短的时间内进行更多实验,模型开发者能够更高效地微调更大的模型,最终,Instinct GPU 客户将受益于更短的训练时间和更高的基础设施投资回报率。

这些升级在ROCm PyTorch 容器中开箱即用。要了解有关 Pytorch 用于 ROCm 训练的更多信息,请阅读此处的博客 。

3. 使用 SGLang 和 vLLM 在 AMD Instinct GPU 上实现下一代推理性能

为大型语言模型提供低延迟、高吞吐量的推理是一项持续的挑战——尤其是在新模型不断涌现、部署速度预期不断提高的情况下。ROCm 6.4 针对 AMD Instinct GPU 进行了专门调优,通过推理优化的 vLLM 和 SGLang 版本正面解决了这一问题。该版本对 Grok、DeepSeek R1、Gemma 3、Llama 3.1(8B、70B、405B)等领先模型提供强大的支持,使 AI 研究人员能够在大规模基准测试中更快地获得结果,而模型开发人员则可以通过极少的调整或返工来部署真实的推理流程。同时,基础设施团队受益于稳定、可立即投入生产的容器,并每周更新,从而有助于确保大规模性能、可靠性和一致性。

这些工具共同提供了一个全栈推理环境,稳定容器和开发容器分别每两周和每周更新一次。

4. 使用 AMD GPU Operator 进行无缝 Instinct GPU 集群管理

在 Kubernetes 集群中扩展和管理 GPU 工作负载通常需要手动更新驱动程序、停机维护以及有限的 GPU 健康状况可见性,所有这些都会影响性能和可靠性。借助 ROCm 6.4,AMD GPU Operator 实现了 GPU 调度、驱动程序生命周期管理和实时遥测的自动化,从而端到端地简化了集群操作。这意味着基础架构团队可以以最小的中断执行升级,AI 和 HPC 管理员可以放心地在隔离且安全的环境中部署 AMD Instinct GPU,并实现完全的可观察性,而 Instinct 客户则可以受益于更长的正常运行时间、更低的运营风险以及更具弹性的 AI 基础架构。

新功能包括:

自动封锁、排水、重启以进行滚动更新。
扩展对 Red Hat OpenShift 4.16–4.17 和 Ubuntu 22.04/24.04 的支持,有助于确保与现代云和企业环境的兼容性。
基于 Prometheus 的设备指标导出器,用于实时健康跟踪。

5. 全新 Instinct GPU 驱动程序的软件模块化

耦合的驱动程序堆栈会减慢升级周期,增加维护风险,并降低跨环境的兼容性。ROCm 6.4 软件引入了Instinct GPU 驱动程序,这是一种模块化驱动程序架构,将内核驱动程序与 ROCm 用户空间分离。

主要优点,

基础设施团队现在可以独立更新驱动程序或 ROCm 库。
更长的 12 个月兼容期(之前版本为 6 个月)
跨裸机、容器和 ISV 应用程序更灵活地部署

这降低了发生重大变化的风险并简化了整个机群的更新 - 尤其对于云提供商、政府组织和具有严格 SLA 的企业有用。

相关文章:

【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI 现代 AI 工作负载的规模和复杂性不断增长,而人们对性能和部署便捷性的期望也日益提升。对于在 AMD Instinct™ GPU 上构建 AI 和 HPC 未来…...

2025年- H20-Lc128-240. 搜索二维矩阵 II(矩阵)---java版

1.题目描述 2.思路 遍历矩阵,然后如果遇到矩阵中的值正好等于target,输出true。否则,输出false。 3.代码 public class H240 {public boolean searchMatrix(int[][] matrix, int target) {//1.计算出总的行值,总的列值。int mm…...

LearningFlow:大语言模型城市驾驶的自动化策略学习工作流程

《LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models》2025年1月发表,来自香港科技大学广州分校的论文。 强化学习(RL)的最新进展表明了自动驾驶的巨大潜力。尽管有这一前景,但奖励…...

C语言数据类型与内存布局

C语言数据类型内存占用 类型32位系统64位系统格式说明符char1字节1字节%cint4字节4字节%dfloat4字节4字节%fdouble8字节8字节%lflong long8字节8字节%lld...

从原理到实战讲解回归算法!!!

哈喽,大家好,我是我不是小upper, 今天系统梳理了线性回归的核心知识,从模型的基本原理、参数估计方法,到模型评估指标与实际应用场景,帮助大家深入理解这一经典的机器学习算法,助力数据分析与预测工作。 …...

linux指令中的竖线(“|”)是干啥的?【含实例展示】

文章目录 一、管道符的基本概念二、管道符的核心作用三、常用实例展示四、进阶技巧五、注意事项总结 实操展示**案例1:统计日志中特定错误的数量****案例2:查找当前运行的进程****案例3:合并排序并去重****案例4:实时监控CPU占用前…...

[HOT 100] 0124. 二叉树中的最大路径和

文章目录 1. 题目链接2. 题目描述3. 题目示例4. 解题思路5. 题解代码6. 复杂度分析 1. 题目链接 124. 二叉树中的最大路径和 - 力扣(LeetCode) 2. 题目描述 二叉树中的 路径 被定义为一条节点序列,序列中每对相邻节点之间都存在一条边。同一…...

[SoC]AXI总线Performance验证方案

AXI总线Performance验证方案 测试 AXI (Advanced eXtensible Interface) 的性能是 SoC 验证中的重要任务,旨在评估其在不同负载和配置下的表现是否满足设计要求。以下详细说明如何测试 AXI 的性能、需要统计的变量、计算方法、在验证环境中动态计算性能的方法,以及如何…...

EMC PowerStore存储学习之一NVMe磁盘的命名规则

PowerStore的日志中经常会看到类似于/dev/nvme1n1的磁盘,在svc_diag list --show_drives中也可以看到类似这样的输出,如下图: 这里的Drives的显示都是 /dev/nvmeXnY的形式,那么这个磁盘命名规则怎么解读呢? 在Linux系…...

apt-mirror搭建ubuntu本地离线源

参考资料 4 Steps to Setup Local Repository in Ubuntu using APT-mirror 使用 APT-mirror 四步配置 Ubuntu 本地软件仓库 ubuntu下的apt-get内网本地源的搭建...

【记录】新Ubuntu20配置voxelmap的环境安装

因为系统总出问题,仅用于个人纪录。 1. 升级CMake到3.28及以上版本(Sophus依赖) wget https://github.com/Kitware/CMake/releases/download/v3.28.3/cmake-3.28.3-linux-x86_64.sh chmod x cmake-3.28.3-linux-x86_64.sh sudo ./cmake-3.2…...

Python全流程开发实战:基于IMAP协议安全下载个人Gmail邮箱内所有PDF附件

在日常办公场景中,面对成百上千封携带PDF附件的邮件,手动逐一下载往往耗时耗力,成为效率瓶颈。如何通过代码实现“一键批量下载”?本文将以**“Gmail全量PDF附件下载工具”**开发为例,完整拆解从需求分析到落地交付的P…...

CPU:AMD的线程撕裂者(Threadripper)和霄龙(EPYC)的区别

AMD的**线程撕裂者(Threadripper)和霄龙(EPYC)**虽然都是面向高性能市场的处理器,但它们在定位、功能和技术规格上有显著区别。以下是两者的主要差异: 1. 目标市场 线程撕裂者(Threadripper&…...

【五一培训】Day 2

注: 1. 本次培训内容的记录将以“Topic”的方式来呈现,用于记录个人对知识点的理解。 2. 由于培训期间,作者受限于一些现实条件,本文的排版及图片等相关优化,需要过一段时间才能完成。 3. 关于老板点评的一些思考 你…...

shell_plus

python manage.py shell_plus 是由 django-extensions 提供的一个增强版的 Django shell,它自动导入你的所有模型和其他一些便捷功能,使得交互式开发更加方便。 如果你遇到配置或运行问题,特别是与 RQ_SHOW_ADMIN_LINK 相关的 ImproperlyCon…...

基于C++、JsonCpp、Muduo库实现的分布式RPC通信框架

⭐️个人主页:小羊 ⭐️所属专栏:RPC框架 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 项目介绍JsonCpp库简单介绍Muduo库简单介绍C11异步操作——std::future1. 使用 std::async 关联异步任务2. std::packaged_task…...

Redis TLS 加密对性能的影响分析

Redis TLS 加密对性能的影响分析 是的,Redis 启用 TLS 加密确实会对性能产生一定影响,但影响程度取决于多种因素。以下是详细分析: 一、性能影响的主要来源 加密/解密开销‌: TLS 握手过程中的非对称加密(如 RSA、…...

树与二叉树完全解析:从基础到应用

目录 一、树形结构的基础认知 1.1 树的定义与特点 1.2 核心术语解析 二、二叉树的深度解析 2.1 二叉树定义 2.2 特殊二叉树类型 2.3 重要性质总结 三、二叉树的存储与遍历 3.1 存储方式对比 3.2 遍历算法精讲 四、经典题型训练 4.1 相同树判断(LeetCode…...

PostgreSQL:pgJDBC 下载和安装

PostgreSQL 的 pgJDBC 是用于 Java 程序连接和操作 PostgreSQL 数据库的 JDBC 驱动程序。 PostgreSQL:pgJDBC v42.7 下载和安装 点击【Application Stack Builder】 安装目录: 运行 cmd cd D:\PostgreSQL\pgJDBC copy postgresql-42.7.2.jar D:\groovy-…...

正则表达式与文本三剑客grep、sed、awk

目录 一、正则表达式 1.1、字符匹配 1.2、次数匹配 1.3、位置锚定 1.4、分组或其他 二、扩展正则表达式 三、grep 四、awk 4.1、常用命令选项 4.2、工作原理 4.3、基础用法 4.4、内置变量 4.5、模式 4.6、条件判断 4.7、awk中的循环语句 4.8、数组 4.9、脚本 …...

(35)VTK C++开发示例 ---将图片映射到平面2

文章目录 1. 概述2. CMake链接VTK3. main.cpp文件4. 演示效果 更多精彩内容👉内容导航 👈👉VTK开发 👈 1. 概述 与上一个示例不同的是,使用vtkImageReader2Factory根据文件扩展名或内容自动创建对应的图像文件读取器&a…...

每日一题洛谷P8635 [蓝桥杯 2016 省 AB] 四平方和c++

P8635 [蓝桥杯 2016 省 AB] 四平方和 - 洛谷 (luogu.com.cn) 直接暴力枚举,不做任何优化的话最后会TLE一个,稍微优化一下就过了(数据给的还是太良心了) 优化:每层循环用if判断一下,如果大于n就直接跳 当然…...

【python】【UV】一篇文章学完新一代 Python 环境与包管理器使用指南

🐍 UV:新一代 Python 环境与包管理器使用指南 一、UV 是什么? UV 是由 Astral 团队开发的高性能 Python 环境管理器,旨在统一替代 pyenv、pip、venv、pip-tools、pipenv 等工具。 1.1 UV 的主要功能 🚀 极速包安装&…...

6.10.单源最短路径问题-Dijkstra算法

一.BFS算法的局限性: 如上图,BFS算法可以解决无权图的单源最短路径问题, 如果是解决带权图的单源最短路径问题,BFS算法就不适用了,如下图: 如上图,比如求G港到其他顶点的最短路径, …...

Python基于深度学习的网络舆情分析系统(附源码,部署)

大家好,我是Python徐师兄,一个有着7年大厂经验的程序员,也是一名热衷于分享干货的技术爱好者。平时我在 CSDN、掘金、华为云、阿里云和 InfoQ 等平台分享我的心得体会。 🍅文末获取源码联系🍅 2025年最全的计算机软件毕…...

mysql--索引

索引作为一种数据结构,其用途是用于提升检索数据的效率。 分类 普通索引(INDEX):索引列值可重复 唯一索引(UNIQUE):索引列值必须唯一,可以为NULL 主键索引(PRIMARY KEY&a…...

【算法题】荷兰国旗问题[力扣75题颜色分类] - JAVA

一、题目 二、文字解释 1.1 前言 本题是经典的「荷兰国旗问题」,由计算机科学家 Edsger W. Dijkstra 首先提出。如同图中所示的荷兰国旗,其由红、白、蓝三色水平排列组成。在算法领域,该问题可类比为将一个由特定的三种元素(可…...

【数据结构】堆的完整实现

堆的完整实现 堆的完整实现GitHub地址前言堆的核心功能实现重温堆的定义堆结构定义1. 堆初始化与销毁2. 元素交换函数3. 堆化操作向上调整(子→父)向下调整(父→子) 4. 堆元素插入5. 堆元素删除6. 辅助功能函数堆的判空获取堆顶元…...

软考 系统架构设计师系列知识点之杂项集萃(51)

接前一篇文章:软考 系统架构设计师系列知识点之杂项集萃(50) 第80题 设三个煤场A1、A2、A3分别能供应煤7、12、11万吨,三个工厂B1、B2、B3分别需要10、10、10万吨,从各煤场到各工厂运煤的单价(百元/吨&…...

patch命令在代码管理中的应用

patch 是一个用于将差异文件(补丁)应用到源代码的工具,常用于修复 bug、添加功能或调整代码结构。在您提供的代码中,patch 命令通过一系列补丁文件(.patch)修改了 open-amp 库的源代码。 patch 命令的核心作…...

Qt结构体运算符重载指南

在 Qt 中,结构体(struct)或类(class)中重载运算符是一种常见的做法,用于实现自定义类型的逻辑操作(如比较、算术运算等)。以下是一些常见的运算符重载示例和注意事项: 1.…...

基于bert预训练模型的垃圾短信分类系统

文章目录 任务介绍数据说明注意事项数据处理数据准备数据集划分数据集类构建模型构建与训练模型构建模型训练模型推理附录任务介绍 随着移动通信技术的飞速发展,短信(Short Message Service, SMS)已成为人们日常生活中不可或缺的沟通方式之一。然而,垃圾短信(Spam SMS)的…...

[Android] 网易爆米花TV 2.0.0.0429(原网易Filmly,支持多网盘的TV版、电脑版带海报墙播放器)

[Android] 网易爆米花 链接:https://pan.xunlei.com/s/VOPDuQS9D7qixvAnoy7-he2PA1?pwdhzvh# [Android] 网易爆米花TV 2.0.0.0429(原网易Filmly,支持多网盘的TV版、电脑版带海报墙播放器) 详细介绍直接上主页截图,…...

# 前后端分离象棋对战项目开发记录

1. **结构清晰**:使用更直观的标题、分段和列表,增强可读性。 2. **视觉美观**:添加Markdown格式化(如代码块、加粗、斜体),并建议配色和排版风格。 3. **内容精炼**:精简冗余表述,突…...

Android Framework学习二:Activity创建及View绘制流程

文章目录 Window绘制流程Window Manager Service(WMS)SurfaceSurfaceFlinger 安卓View层次结构ActivityPhoneWindowActivity与PhoneWindow两者之间的关系ViewRootImplDecorViewDecorView 的作用DecorView 的结构总结 Activity创建流程View invalidate调用…...

文章五《卷积神经网络(CNN)与图像处理》

文章5:卷积神经网络(CNN)与图像处理——让AI学会"看图说话" 引言:你的AI宠物如何认出猫狗? 想象你的手机突然有了"眼睛",不仅能识别照片里的猫狗,还能告诉你它们的品种&am…...

Ubuntu系统下Firefox浏览器完整指南:故障修复、国内版安装与下载加速

Ubuntu系统下Firefox浏览器完整指南:故障修复、国内版安装与下载加速 一、Firefox无法启动问题修复二、替换国际版安装国内版完整流程准备工作操作步骤验证要点 三、下载延迟问题解决方案现象分析优化配置步骤注意事项 四、进阶技巧补充五、常见问题FAQ 一、Firefox…...

【论文阅读一】掌握高效阅读法,开启学术研究新旅程:S. Keshav教授论文阅读的三遍法

文章目录 一、三遍阅读法1. 初读:10分钟:宏观把握,快速筛选2. 第二遍:1个小时:更仔细的阅读,了解文中论点3. 第三遍:深入理解,注重细节,挑战假设 二、运用三遍阅读法进行…...

多线程编程的常见问题

目录 1. 线程安全和可重入函数问题 2. 死锁的理解 2.1 死锁的概念 2.2 死锁的四个必要条件 3. C中STL容器的线程安全问题 4. C中智能指针的线程安全问题 1. 线程安全和可重入函数问题 线程安全:线程安全是指在多线程环境下,一个函数或者一段代码可…...

算法篇(九)【滑动窗口】

如果在分析一道算法题的时候,发现使用的两个 ”双指针“ , 都是同向的 , 不回退的 , 且一直都在维护 “一段连续的区间” , 此时我们可以考虑使用 “滑动窗口” ! 一、长度最小的子数组 209. 长度最小的子…...

【AI面试准备】传统测试工程师Prompt Engineering转型指南

介绍技能转型:传统测试工程师需掌握Prompt Engineering优化AI输出。如何快速掌握,以及在实际工作中如何运用。 传统测试工程师向AI时代的技能转型,掌握Prompt Engineering(提示工程)已成为提升工作效率、适应智能化测…...

数字智慧方案6186丨智慧应急指挥解决方案(43页PPT)(文末有下载方式)

资料解读:智慧应急指挥解决方案 详细资料请看本解读文章的最后内容。 在当今社会,各类突发事件频发,应急管理工作面临着巨大挑战。智慧应急指挥解决方案应运而生,旨在提升应急管理的效率和水平,保障人民生命财产安全。…...

d202552-sql

一、184. 部门工资最高的员工 - 力扣(LeetCode) 要找到每个部门工资最高的 使用窗口函数 加排序函数 排序函数用rank dense_rank都行 把最高相同的找出来就行 select *, dense_rank() over(partition by departmentId order by Salary desc) as rank …...

cpper 转 java

快速上手 java 特性 文章目录 java 语言特点JVM工作过程组成 java 语言特点 Java 程序编译成字节码,然后由 Java 虚拟机(JVM)执行 不同平台适配相同的 JVM ,从而使得 Java 程序具备跨平台性 —— 一次编写,到处运行 …...

PostgreSQL常用函数

常用函数 数值函数 名称作用AVG(col)列的平均值COUNT(col)列的行数MAX(col)列的最大值MIN(col)列的最小值SUM(col)列值求和 字符串函数 名称作用LENGTH(str)计算字符串长度CONCAT(str1,str2)合并字符串LTRIM(col,str)从字串string的开头删除只包含str(默认空白LTRIM(col))R…...

P2196 [NOIP 1996 提高组] 挖地雷

P2196 [NOIP 1996 提高组] 挖地雷 - 洛谷 题目描述 在一个地图上有N(N ≤ 20)个地窖,每个地窖中埋有一定数量的地雷。同时,给出地窖之间的连接路径。当地窖及其连接的数据给出之后,某人可以从任一处开始挖地雷&#…...

截图软件、画图软件、左右分屏快捷键

截图软件 画图软件 画图时候按字母可以改变颜色:红色r,蓝色b,绿色g,粉色p,橙色o 左右分屏:...

小刚说C语言刷题—1018三角形类别

1.题目描述 输入三个整数,以这三个数为边长,判断是否构成三角形;若不能输出 no 。 若构成三角形,进一步判断它们构的是:锐角三角形或直角三角形或钝角三角形。 分别输出 ruijiao , zhijiao , dunjiao 。 输入 三个…...

【Linux】PetaLinux开发

使用Xilinx的PetaLinux工具编译用于Zynq7020的Linux. 部分图片和经验来源于网络,若有侵权麻烦联系我删除,主要是做笔记的时候忘记写来源了,做完笔记很久才写博客。 专栏目录:记录自己的嵌入式学习之路-CSDN博客 目录 1 一般开发流程 2 离线编译过程 3 系统根文…...

【计算机网络网络层深度解析】从IP协议到路由优化

目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心实验实现实验1:IPv6地址配置实验2:OSPF路由配置实验3:NAT转换验证 运行…...