GPU 架构入门笔记
引文位置:https://www.trainy.ai/blog/gpu-utilization-misleading
相关概念是通过 ChatGPT 迅速学习总结而成。
概念:
GPU
- H100 GPU, with 144 SMs
每个 SM(streaming multiprocessors) 的架构:
GPU Utilization:
- GPU Utilization, is only measuring whether a kernel is executing at a given time.
- 也就是数,只要有 kernel 在 GPU 上跑,就算把 GPU 利用起来了。至于这个 kernel 对硬件资源的利用率,GPU Utilization 不关心。比如,这个kernel 只是在做 GPU Memory 的读写,0 FLOPS,此时的 GPU Utilization 也能达到 100%。
SM efficiency:
- describing what % of SMs are active in a given time interval. SMs can be thought of as foremen for a group of CUDA cores. An Nvidia H100 GPU, for example, has 132 SMs, with 128 cores per SM, giving us a total of 16,896 cores. By measuring SM efficiency, we can determine whether our CUDA kernels are using our streaming multiprocessors. If we have a CUDA kernel that continuously runs for 10 seconds but only uses 1 SM, on an H100, this would register 100% utilization, but the SM efficiency would be 1 / 132 = 0.7%.
- SM 效率关注的是 SM 是否被使用。每个 SM 里,哪怕只有一个 core 被使用,那么这个 SM 就是活跃的。
Core efficiency:
- Core:SM里面的最基本小算力单元,执行真正的加减乘除指令。
- 没找到这个概念。但理论上这个是最精确描述硬件利用率的指标。
编程接口侧,为了提升 GPU 利用率,定义了若干概念:
BLOCK:
- CUDA 为了让 GPU 跑满定义的概念。每个 BLOCK 会被调度到一个 SM 上。所以,一个 kernel 如果希望能充分利用上所有 SM,它的 BLOCK 数要尽量和总 SM 个数匹配,比如是 SM 的整数倍。
THREAD:
- 程序中定义的一个 thread 最终会被放到一个 WARP 中执行。
- kernel是你写的一段程序,当你 launch 一个kernel的时候,会分配一堆 thread 去执行这个 kernel。每个 thread 独立跑一遍你的 kernel代码。
KERNEL
- CUDA 定义的最小程序单元
- KERNEL 不宜过大,中间状态不宜过多。如果超过了寄存器限制,CUDA 则会编译成类似 C++ 里的方式,用显存做暂存区,会导致寄存器和显存的频繁交互,对性能的影响是致命的。
WARP:
- GPU 调度的最小单位,一个 WARP 打包 32 个 thread。
- 所谓 GPU 调度,是指将 kernel 代码调度到 SM 上执行。考虑一个 BLOCK 里写了 128 个 THREAD,但一个 SM 里寄存器资源远远低于128。GPU 定义的物理上限就是同一时间只能执行 32 组线程。 WARP 就是定义 32 这个概念的,它是物理概念。 BLOCK 是面向编程的逻辑概念。GPU 一次调度一个 WARP,一个 BLOCK 会被分成多个 WARP 依次调度执行。
- 为什么选 32?实际上,SM 里的物理资源不足以同时执行 32 个 thread。通过规划 32 个 thread,可以在局部形成流水线,隐藏掉大部分的访存延迟。32个访存,有机会做访存合并。
时钟周期: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 ...
warp1: 执行 → stall (等内存) ─────────────
warp2: 执行 → stall (等内存) ───────
warp3: 执行 → stall (等内存) ─
warp4: 执行 → stall
warp5: 执行 → stall
相关文章:
GPU 架构入门笔记
引文位置:https://www.trainy.ai/blog/gpu-utilization-misleading 相关概念是通过 ChatGPT 迅速学习总结而成。 概念: GPU H100 GPU, with 144 SMs 每个 SM(streaming multiprocessors) 的架构: GPU Utilizati…...
centos7使用yum快速安装Docker环境
一、基础环境设置 1:关闭防火墙和内核安全机制 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 02:配置网络yum源 [rootlocalhost ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Cento…...
解密面试高频题:加权轮询负载均衡算法 (Java 实现)
在分布式系统设计和面试中,负载均衡是一个绕不开的话题。而加权轮询(Weighted Round Robin, WRR)作为一种经典且实用的负载均衡策略,经常出现在笔试题和面试环节中。本文将带你深入理解 WRR 算法的原理,并探讨几种常见…...
Linux中的系统延时任务和定时任务与时间同步服务和构建时间同步服务器
延时任务 在系统中我们的维护工作大多数时在服务器行对闲置时进行 我们需要用延迟任务来解决自动进行的一次性的维护 延迟任务时一次性的,不会重复执行 当延迟任务产生输出后,这些输出会以邮件的形式发送给延迟任务发起者 在RHEL9中默认系统中的所有普通…...
高效运维,智慧监测:COMEM光纤温度测量系统在电力行业中的应用
在电力行业中,变压器的稳定运行对于整个电网的安全很重要。为了确保变压器的健康状态,实时、精确的温度监测成为了不可或缺的一环。COMEM光纤温度测量系统应运而生,为变压器的温度监测提供了创新的解决方案。 变压器温度监测的重要性 变压器在…...
TP5兼容达梦国产数据库
1.首先数据库安装,部署时需配置大小写不敏感 2.安装PHP达梦扩展,一定要是对应版本(兼容操作系统)的扩展,否则会出现各种报错。参考官方文档:https://eco.dameng.com/document/dm/zh-cn/app-dev/php_php_new…...
[leetcode]2302.统计得分小于k的子数组
1.题目 2.事例 3.数据规模 4.思路(滑动窗口) 4.1滑动窗口的定义 滑动窗口是一种在数组、字符串等序列数据结构上进行操作的算法技巧。以下是其定义及相关要素的详细介绍: 定义:滑动窗口可以理解为在一个序列上,用一…...
Linux网络编程:TCP多进程/多线程并发服务器详解
Linux网络编程:TCP多进程/多线程并发服务器详解 TCP并发服务器概述 在Linux网络编程中,TCP服务器主要有三种并发模型: 多进程模型:为每个客户端连接创建新进程多线程模型:为每个客户端连接创建新线程I/O多路复用&am…...
Nacos源码—1.Nacos服务注册发现分析二
大纲 1.客户端如何发起服务注册 发送服务心跳 2.服务端如何处理客户端的服务注册请求 3.注册服务—如何实现高并发支撑上百万服务注册 4.内存注册表—如何处理注册表的高并发读写冲突 2.服务端如何处理客户端的服务注册请求 (1)客户端自动发送服务注册请求梳理 (2)Nacos…...
设备指纹护航电商和金融反欺诈体系建设
众所周知,人的指纹具有唯一性,可以作为人的身份识别标识。对于设备而言,也有可以用于识别的特征。设备指纹是指可以用于唯一标识出某一设备的特征或者独特的设备标识,具有固定性、较难篡改性、唯一性等特质。 设备指纹是金融机构…...
FFmpeg源码学习---ffmpeg
1、ffmpeg源码主函数 ┌────────────────────┐ │ main() │ └─────────┬───────────┘ ↓ ┌────────────────────┐ │ 初始化 (日志/网络等) │ │ init_dynload() │ │ avf…...
leetcode 206. 反转链表
题目描述: 迭代法: /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, ListNode …...
NVIDIA新模型DAM-3B:描述一切,图像视频局部描述新突破
在数字时代,图像和视频内容爆炸式增长,如何让AI像人类一样精准描述画面中的特定区域,成为计算机视觉领域的核心挑战。传统模型要么丢失细节,要么缺乏上下文,而NVIDIA与UC Berkeley联合团队提出的DAM(Descri…...
7、langChain和RAG实战:基于LangChain和RAG的常用案例实战
PDF 文档问答ChatBot 本地上传文档 支持 pdf支持 txt支持 doc/docx问答页面 python环境 新建一个requirements.txt文件streamlit python-docx PyPDF2 faiss-cpu langchain langchain-core langchain-community langchain-openai然后安装相应的包pip install -r requirements.t…...
c++11: 类型转换
目录 一 C语言中的类型转换 二 . C强制类型转换 1. static_cast 2. reinterpret_cast 3. const_cast 4. dynamic_cast 三 explicit 关键字 一 C语言中的类型转换 在C语言中,如果赋值运算符左右两侧类型不同,或者形参与实参类型不匹配ÿ…...
Matlab自学笔记五十二:变量名称:检查变量名称是否存在或是否与关键字冲突
1.变量名称的命名规则 有效的变量名称以字母开头,后跟字母、数字或下划线,Matlab变量名称对字母大小写是区分的,A和a是不相同的变量,不能使用与Matlab关键字冲突的变量名称,例如if、end等,判断一个字符是不…...
西门子PLC结构化编程_水处理系统水泵多备多投
文章目录 前言一、功能概述二、程序编写1. 需求分析2. 编写运行时间累计功能块3. 创建自定义数据类型1. 时间排序数据类型2. 多备多投数据类型3. 多备多投切换数据类型 4. 编程1. 创建DB数据块1. 多备多投数据块2. 多备多投切换数据块 2. 创建FB功能块 三、程序调用总结 前言 …...
AutoGen 框架深度解析:构建多智能体协作的事件驱动架构
在当下多智能体(Multi-Agent)AI系统快速发展的背景下,AutoGen 作为微软研究院开源的编程框架,为构建可扩展、灵活且可调试的智能体协作应用提供了完备的工具与最佳实践。本文将从设计动机、核心架构、关键概念、安装与快速上手、典型场景、进阶特性、生态与扩展、最佳实践,…...
算法相关概念
1 算法概述 1.1 算法概念 算法是特定问题求解步骤的描述,也是独立存在的一种解决问题的思想和方法 对于算法而言,实现他的编程语言无关紧要,重要的是思想和方法!!! 公式:程序算法数据结构&a…...
《Astro 3.0岛屿架构让内容网站“脱胎换骨”》
内容优先的网站越来越成为主流。无论是新闻资讯、知识博客,还是电商产品展示,用户都希望能快速获取所需内容,这对网站的性能和体验提出了极高要求。而Astro 3.0的岛屿架构,就像是为内容优先网站量身定制的一把神奇钥匙,…...
Vue3 + Element-Plus + 阿里云文件上传
Element-Plus 阿里云文件上传 1、选择文件夹方法2、Chrome 浏览器查看 input typefile 元素上传的文件方法3、上传文件4、FormDataFormData 是什么创建 FormDataFormData 常用方法FormData 的实际应用性能与注意事项总结 1、选择文件夹方法 input typefile 元素想要上传文件夹…...
【Linux】第十一章 管理网络
目录 1.TCP/IP网络模型 物理层(Physical) 数据链路层(Date Link) 网络层(Internet) 传输层(Transport) 应用层(Application) 2. 对于 IPv4 地址&#…...
用vite动态导入vue的路由配置
在Vue应用中,通过路由可以实现不同页面之间的切换,同时也可以实现页面之间的传参和控制页面的显示与隐藏。但是我们在开发的过程中,会发现在路由配置中的路由配置和我们的项目结构高度重复,在我们修改页面文件结构时非常的麻烦与复…...
sources.list.d目录
sources.list可能大家很熟悉,是配置镜像链接的地方。 sources.list.d其实就是一个目录,在linux系统中.d后缀一般定义为一个目录,且很喜欢用这种方式。 这种方式有一个好处,就是修改不会影响到sources.list文件, 在这里…...
【C语言】文件操作
目录 一为什么使用文件 二什么是文件 程序文件 数据文件 文件名 二进制文件和文本文件? 三文件的打开与关闭 流的概念 标准流 文件指针 指针的声明 指针的初始化 四文件的打开与关闭 打开 fopen()函数 五总结: 前言: …...
静态库与动态库简介
静态库与动态库简介 基本概念 静态库 静态库是在编译链接阶段被直接整合到可执行文件中的代码集合。链接器会从静态库中提取程序所需的所有对象,并将它们复制到最终的可执行文件中。 特点: 可执行文件包含了所有代码,运行时无需外部依赖…...
02《小地图实时》Unity
创建一个新的项目 创建一个球体 作为主角 重命名为Player 在主角上创建空的子物体 重命名为MiniMapIcon 增加一个精灵图片 并设置为绿色 增加一个层(目的是在小地图中看的到 而在场景中看不到这个绿色Icon) 命名为MiniMap 在主摄像机中设置剔除遮罩Culli…...
【Redis】基础4:作为分布式锁
文章目录 1. 一些概念2. MySQL方案2.1 方案一:事务特性2.1.1 存在的问题2.1.2 解决方案 2.2 方案二:乐观锁2.3 方案三:悲观锁 3. Redis3.1 实现原理3.2 实现细节3.2.1 问题1:持有期间锁过期问题3.2.2 问题2:判断和释放…...
迭代器与生成器
目录 Iterator 的作用 Iterator 的遍历过程 Symbol.iterator方法 实现iterator接口的自定义类示例 Generator函数 迭代器对象的next方法的运行逻辑 迭代器对象除了具有next方法,还可以具有return方法。 Iterator 的作用 为各种数据结构,提供一个统…...
Python 实现的运筹优化系统数学建模详解(动态规划模型)
相关代码链接:https://download.csdn.net/download/heikediguoshinib/90713747?spm1001.2014.3001.5503 一、引言 在计算机科学与数学建模的广阔领域中,算法如同精密的齿轮,推动着问题的解决与系统的运行。当面对复杂的优化问题时&…...
miniconda在ARM64位芯片上面的安装
文章目录 前言一、特点二、适用场景三、下载安装及使用1.下载脚本文件2.安装命令3.常见用法 总结 前言 Miniconda 是一个轻量级的 Python 发行版,它是 Anaconda 的一个简化版本。Anaconda 是一个广泛使用的数据科学平台,包含了众多的 Python 包和工具&a…...
vue跨域问题总结笔记
目录 一、Websocket跨域问题 1.nginx配置 2.VUE CLI代理 3.env.development配置 4.nginx日志 5.解决 一、解决跨域的几种常用方法 1.Vue CLI代理 2.JSONP 3.WebSocket 4.NGINX解决跨域问题 6.Java解决跨域 二、Vue跨域问题详解 1. 什么是跨域 2. 跨域的例子 3.…...
自动驾驶领域专业词汇(专业术语)整理
以下是分类整理的自动驾驶领域专业词汇表,涵盖 AI、芯片、传感器、自动驾驶核心、辅助驾驶、安全、通信、车灯、泊车、测试标准 等类别: AI相关 缩写英文全称中文解释AIArtificial Intelligence人工智能,模拟人类智能的技术体系NNNeural Ne…...
说一下react更新的流程
beginWork 使用v-dom和current fiber去生成子节点的workInProgress Fiber 期间会执行函数组件、类组件、diff子节点 给我需要变更的节点,打赏effectTag 增placement 2 0010 删deletion 8 1000 改 update 4 0100 增和改 placementAndUpdate…...
C 语言函数指针与指针函数详解
一、引言 在 C 语言的编程世界中,函数指针和指针函数是两个既强大又容易混淆的概念。它们为 C 语言带来了更高的灵活性和可扩展性,广泛应用于回调函数、动态链接库、状态机等多种场景。深入理解和掌握函数指针与指针函数,对于提升 C 语言编程…...
政策支持与市场驱动:充电桩可持续发展的双轮引擎
随着全球能源转型加速,新能源汽车成为实现低碳交通的重要方向。然而,充电基础设施不足仍是制约其普及的关键瓶颈。当前,国际主流的充电桩运营模式包括政府推动、电网企业推动及汽车厂商推动三种模式,但单一模式均存在显著局限性。…...
在 Ubuntu 22.04 x64 系统安装/卸载 1Panel 面板
一、 1Panel 是什么? 1Panel 是一款基于 Go 语言开发的现代化开源服务器管理面板(类似宝塔面板),专注于容器化(Docker)和云原生环境管理,提供可视化界面简化服务器运维操作。 1. 1Panel主要功…...
dummy cli-tool ubuntu22.04使用
项目场景:dummy cli-tool ubuntu22.04使用 提示:这里简述项目相关背景:执行python3 run_shell.py时报错 例如:项目场景:示例:通过蓝牙芯片(HC-05)与手机 APP 通信,每隔 5s 传输一批传感器数据(不是很大) …...
厚铜板的镀前处理差异:工艺参数与成本影响
在现代电子设备中,厚铜电路板因其优异的导电性能和良好的热管理能力而备受青睐。生产过程中,对铜层进行电镀加厚是一个关键步骤,它涉及到一系列复杂的化学和物理过程。在进行电镀之前,必须对电路板进行适当的准备工作,…...
【C到Java的深度跃迁:从指针到对象,从过程到生态】第四模块·Java特性专精 —— 第十六章 多线程:从pthread到JMM的升维
一、并发编程的范式革命 1.1 C多线程的刀耕火种 C语言通过POSIX线程(pthread)实现并发,需要开发者直面底层细节: 典型pthread实现: #include <pthread.h> int counter 0; pthread_mutex_t lock PTHREAD…...
数据库学习笔记(十三)---存储过程
前言: 学习和使用数据库可以说是程序员必须具备能力,这里将更新关于MYSQL的使用讲解,大概应该会更新30篇,涵盖入门、进阶、高级(一些原理分析);这一篇存储过程,下一篇是存储函数;虽然MYSQL命令很多,但是自…...
JWT(JSON Web Token)源码分析
Java - JWT的简单介绍和使用 Java JWT:原理、机制及案例示范 什么是JWT? 1.1 JWT的基本概念 JWT(JSON Web Token)是一种用于在各方之间传递JSON格式信息的紧凑、URL安全的令牌(Token)。JWT的主要作用是验…...
Vue 3 中通过 createApp 创建的 app 实例的所有核心方法,包含完整示例、使用说明及对比表格
以下是 Vue 3 中通过 createApp 创建的 app 实例的所有核心方法,包含完整示例、使用说明及对比表格: 1. app.component() 作用:注册全局组件 参数: name:组件名称(字符串)componentÿ…...
Hadoop 单机模式(Standalone Mode)部署与 WordCount 测试
通过本次实验,成功搭建了 Hadoop 单机环境并运行了基础 MapReduce 程序,为后续分布式计算学习奠定了基础。 掌握 Hadoop 单机模式的安装与配置方法。 熟悉 Hadoop 环境变量的配置及 Java 依赖管理。 使用 Hadoop 自带的 WordCount 示例程序进行简单的 …...
线段树合并与分解
合并 #include <bits/stdc.h> using namespace std; #define asd(i,a,b) for(int ia;i<b;i) #define int long long const int inf 0x3f3f3f3f, N 1e5 5, Z 1e5; int n, m, fa[N], o[N][25], dep[N], tot, root[N], ans[N]; vector<int> g[N]; struct node…...
驱动开发硬核特训 │ 深度解析 fixed regulator 驱动与 regulator_ops
一、引言:本次目标 本篇聚焦于: Regulator 子系统基础概念设备树节点与驱动代码的对应关系regulator_desc、regulator_ops、regulator_dev 的完整讲解驱动端的实际注册与管理流程 通过一个实际案例,系统掌握 regulator 子系统 的全貌。 二…...
Linux中的shell脚本练习
1.判断字符串是否为空 #!/usr/bin/bash while : #:默认值为真 do read -p "请输入你的密码: " a pass123456 if [ -z $a ];thenecho "您输入的密码不能为空"exit 1 elseif [ $a $pass ];thenecho "登录成功"breakelseecho "您的密码输入有…...
MySQL基础篇 | 1-数据库概述与MySQL安装
【MySQL基础篇-1】数据库概述与MySQL安装 1. 数据库概述2. MySQL环境搭建2.1. MySQL的四大版本2.2. 软件下载1. 数据库概述 MySQL官网网站:https://dev.mysql.com/doc/relnotes/mysql/8.0/en/ SQL Server:SQL Server是微软开发的大型商业数据库。C#、.net等语言常使用,与wi…...
JVM 自动内存管理
一、运行时数据区域详解 Java 虚拟机在运行 Java 程序时,会将所管理的内存划分为多个不同的数据区域,各区域有着独特的用途、创建和销毁时间。 程序计数器:作为线程私有的较小内存空间,它是当前线程执行字节码的行号指示器。字节…...
InitializingBean接口和@PostConstruct-笔记
1. InitializingBean 简介 1.1 功能简介 InitializingBean 是 Spring 框架中的一个接口,用在 Bean 初始化后执行自定义逻辑。它提供了 afterPropertiesSet() 方法,该方法在以下时机被 Spring 容器自动调用: 属性注入完成后(即所…...