当前位置: 首页 > news >正文

FlashAttention:传统自注意力( Self-Attention)优化加速实现

摘要

FlashAttention 是一套专为 GPU 优化的精确自注意力(Self-Attention)实现,通过“输入/输出感知”(IO-awareness)和块化(Tiling)策略,利用片上 SRAM 缓存大幅降低对高带宽显存(HBM)的访问,进而在保持数值精度的前提下实现 1.5×–3× 的训练与推理速度提升,同时将显存峰值降低 50% 以上。本文从背景动机、核心优化点、使用案例、性能评测及未来演进等方面,深入剖析 FlashAttention 的设计与应用,并给出完整的 教程示例代码,帮助读者快速上手并验证其效果。


1. 背景与动机

1.1 传统 Self-Attention 的瓶颈

在标准 Transformer 中,自注意力层需对长度为 n 的序列计算

\mathrm{Attention}(Q,K,V) = \mathrm{softmax}\bigl(QK^\top/\sqrt{d_k}\bigr)\,V

其计算与内存访问均为 O(n^2),在 GPU 上反复从高带宽显存(HBM)读写大矩阵,导致显存峰值高、I/O 成本大、长序列扩展受限。

1.2 I/O 感知与 FlashAttention 的诞生

FlashAttention(Fast and Memory-Efficient Exact Attention with IO-Awareness)提出了一种“块化(Tiling)”和“流式(Streaming)”的 I/O 感知算法,充分利用 GPU 片上 SRAM(shared memory)缓存,完成整个打分、归一化和加权计算后再一次性写回 HBM,从而将内存访问开销从二次方级别降至近线性程度。


2. FlashAttention 核心优化点

2.1 IO-Awareness 与块化(Tiling)策略

  • IO-Awareness(I/O 感知):算法设计同时考虑计算与内存传输成本,将 Q、K、V 划分为小块(tiles),并在 SRAM 中完成打分、归一化、加权等操作,最小化 HBM ↔ SRAM 的数据往返。

  • 块化处理:在每个 GPU thread block 内,将 Q/K/V tile 装载到共享内存中,实现高频复用和低延迟访问。

2.2 精确无近似

与 Performer、Linformer 等近似方法不同,FlashAttention 保持与标准 attention 完全一致的运算与数值精度,仅通过改变底层实现路径实现加速,无任何近似带来的误差。

2.3 GPU 共享内存(SRAM)利用

GPU 片上 SRAM(Static RAM)具有低延迟、高带宽但容量有限的特点。FlashAttention 将当前 tile 全部保存在 SRAM 中,避免了对 DRAM/显存的频繁访问,极大提升了带宽利用率与吞吐率。


3. 使用案例

3.1 安装与环境准备

pip install flash-attn
# 依赖:PyTorch ≥1.12,CUDA Toolkit 对应驱动

PyPI (“Python Package Index”,Python 包索引) 页面同样记录了该包的最新版本与依赖说明。

3.2 在 PyTorch 中调用 FlashAttention

import torch
from flash_attn.modules.mha import FlashMHA# 假设隐藏维度 d_model=1024,注意力头数 num_heads=16
flash_mha = FlashMHA(embed_dim=1024, num_heads=16, dropout=0.0, causal=True).cuda()
q = k = v = torch.randn(8, 512, 1024, device='cuda')  # batch=8, seq_len=512
out, _ = flash_mha(q, k, v)  # 使用 FlashAttention 完成因果自注意力

其中 causal=True 参数开启下三角因果掩码,适合 Decoder-only 的自回归生成场景。

3.3 与 Hugging Face Transformers 集成

在 Transformers 4.31+:

// config.json
{"use_flash_attention": true,"attn_layers": "flash_attn"
}

加载模型时即可自动替换为 FlashAttention 层(需安装 flash-attn 与 xformers)。

4. 性能评估

4.1 端到端加速

  • BERT-large(序列长度512):相较标准实现端到端加速约15%【 】。

  • GPT-2(序列长度1024):在 MLPerf 基准上实现约3× 加速【 】。

  • 长文本场景(4K tokens):约2.4× 加速,并成功支持 16K–64K 超长输入【 】。

4.2 显存使用大幅降低

在各种基准下,峰值显存使用量较标准实现平均降低 50% 以上,支持更长上下文训练和实时推理应用。


5. 未来演进

5.1 FlashAttention-2

Tri Dao 等人在 FlashAttention-2 中进一步优化线程块和 warp 内部分工,减少非矩阵乘法 FLOPs,并将注意力计算跨线程块并行化,使得模型在 A100 GPU 上达到 50%–73% 的峰值浮点效能,比 FlashAttention-1 再提速约2×。

5.2 FlashAttention-3

在 Hopper 架构(如 NVIDIA H100)上,FlashAttention-3 借助 TMA 异步传输、Tensor Cores 异步计算及 FP8 量化,实现 FP16 下 1.5–2.0× 加速(740 TFLOPs/s,75% 利用率),FP8 下接近 1.2 PFLOPs/s,并将量化误差降低 2.6×。

5.3 图示与方法论

“FlashAttention on a Napkin” 提出一种图解化方法,使用神经电路图(Neural Circuit Diagrams)系统化地推导 I/O 感知优化策略,为未来自动化硬件优化奠定基础。


6. 小结与展望

FlashAttention 通过 I/O 感知和块化策略,在 GPU 上实现了兼顾速度、显存与精度的自注意力加速,已成为长文本生成与大模型训练的事实标准。随着 FlashAttention-2、3 的演进及图示化方法的发展,基于硬件层级的自动优化将进一步推动 Transformer 的极限。未来,结合稀疏/低秩方法、多模态场景与混合专家架构,FlashAttention 有望在更广泛的应用中持续发挥关键作用。


参考文献

  1. Tri Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, NeurIPS 2023

  2. Tri Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, arXiv:2205.14135 

  3. Barna Saha & Christopher Ye, The I/O Complexity of Attention, or How Optimal is FlashAttention?, arXiv:2402.07443 

  4. Hongyang Zhang et al., Benchmarking Self-Attention Algorithms, arXiv:2205.14135 

  5. flash-attn PyPI, “flash-attn” package, PyPI 

  6. Hugging Face Transformers Documentation, FlashAttention Integration 

  7. Tri Dao, FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, arXiv:2307.08691 

  8. Jay Shah et al., FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision, arXiv:2407.08608 

  9. Vincent Abbott & Gioele Zardini, FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness, arXiv:2412.03317 

  10. Tri Dao et al., Multi-Head Latent Attention for Salaizing KV Cache, arXiv:2302.13002 


欢迎在点赞 👍、评论 💬、转发 🔄,与更多同学一起探索 无限可能!

相关文章:

FlashAttention:传统自注意力( Self-Attention)优化加速实现

摘要 FlashAttention 是一套专为 GPU 优化的精确自注意力(Self-Attention)实现,通过“输入/输出感知”(IO-awareness)和块化(Tiling)策略,利用片上 SRAM 缓存大幅降低对高带宽显存&…...

DSP定时器的计算

以下是 0 到 F 的十六进制数对应的四位二进制表示的对照表: 十六进制二进制00000100012001030011401005010160110701118100091001A1010B1011C1100D1101E1110F1111 定时器周期: 我们先将 0x1742 转换成二进制形式: 0x1742 0001 0111 0100 …...

2025.05.21华为暑期实习机考真题解析第二题

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 02. 灾区物资调度路径规划 问题描述 在一次严重的自然灾害后,LYA负责协调救援物资的配送工作。救援区域包含多个受灾乡镇和一个物资集结点,各个地点之间的道路状况各异,有些甚至…...

ATT Global赞助非小号全球行,引领RWA创新浪潮

领先的Web3广告生态系统构建者Advertising Time Trace (ATT Global) 今日宣布,将作为特别赞助商,鼎力支持即将于2025年5月26日在吉隆坡盛大举行的非小号全球行之“You Deserve to be Loved” WALL X特别慈善活动。此次盛会由知名Web3平台非小号与WALL X、…...

在 stm32 中 volatile unsigned signed 分别有什么作用,分别在什么场景下使用?

在STM32开发中, plaintext 复制 volatile 、 plaintext 复制 unsigned 和 plaintext 复制 signed 是三个关键的关键字,它们的用途和场景如下: 1. plaintext 复制 volatile 关键字 作用: 禁止编译器优化&#xff…...

Pandoc3.7新特性:存在合并单元格的 HTML 表格会被保留为嵌入的 HTML 表格

问题描述 在 Pandoc 3.6 中&#xff0c;当将包含合并单元格的 HTML 表格 (<table>) 转换为 Markdown 格式时&#xff0c;表格会被直接转换为 Markdown 表格格式。然而&#xff0c;在 Pandoc 3.7 中&#xff0c;同样的操作结果发生了变化&#xff1a;合并单元格的 HTML 表…...

WPS深度适配鸿蒙电脑折叠形态,国产替代下的未来何在?

首先&#xff0c;从产业升级与国产替代的角度来看&#xff0c;这是中国信息技术产业由“可用”向“好用”跃迁的重要信号。长期以来&#xff0c;中国的办公软件市场高度依赖微软Office等国外产品&#xff0c;操作系统也主要被Windows、macOS等垄断。而随着鸿蒙系统的成熟以及WP…...

[java]数组

数组 Scanner innew Scanner(System.in); int[] numbersnew int[100]; int x; int cnt0; xin.nextInt(); while(x!-1){numbers[cnt]x;sumx;xin.nextInt(); } if(cnt>0){System.out.println(sum/cnt); }所有的元素具有相同的数据类型创建后不能改变大小 定义数组 元素个数…...

torch.matmul() VS torch.einsum()

torch.matmul():标准的矩阵乘法 向量-向量&#xff08;点积&#xff09; a torch.randn(3) # [3] b torch.randn(3) # [3] c torch.matmul(a, b) # 点积&#xff0c;标量输出矩阵-向量 A torch.randn(3, 4) # [3, 4] x torch.randn(4) # [4] y torch.matmul(A, x…...

leetcode 92. Reverse Linked List II

题目描述 92. Reverse Linked List II 是第206题的进阶版206. Reverse Linked List 思路很简单&#xff0c;但一次性通过还是有点难度的。 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(n…...

VUE3使用provice、inject实现组件间的方法调用

问题&#xff1a;A组件》B组件》C组件 C可以调用A的方法吗&#xff1f; A组件&#xff1a;提供一个refreshTable方法 provide(refreshTable,(e:params)>{ ElMessage(底层组件请求刷新表格e.staff_ide.shijian) params e renderTableData() }) C组件&#xff1a; 注入refres…...

WebSocket 是什么?

好记忆不如烂笔头&#xff0c;能记下点东西&#xff0c;就记下点&#xff0c;有时间拿出来看看&#xff0c;也会发觉不一样的感受. WebSocket 是一种基于 TCP 协议的全双工通信协议&#xff0c;用于在客户端&#xff08;如浏览器&#xff09;和服务器之间建立持久化的双向实时…...

Java虚拟机栈

有不少Java开发人员一提到Java内存结构&#xff0c;就会将JVM中的内存区理解为仅有Java堆(heap)和Java栈(stack)。这种划分想法来源于传统的C、C程序的内存布局结构&#xff0c;但是在Java里有些粗糙了。尽管这种理解和划分非常不全面&#xff0c;但是从某种意义上来说&#xf…...

内存屏障指令

一、理解内存屏障&#xff08;Memory Barrier&#xff09; 开发者显然不明白一个事实——程序实际运行时很可能并不完全按照开发者编写的顺序访问内存&#xff0c;因为现代计算机为了提高性能而采取乱序执行&#xff0c;内存乱序访问主要发生在如下两个阶段&#xff1a; 编译…...

【MC】红石比较器

在《我的世界》&#xff08;Minecraft&#xff09;中&#xff0c;红石比较器&#xff08;Redstone Comparator&#xff09; 是一种高级红石元件&#xff0c;主要用于 检测、比较或处理信号强度&#xff0c;同时还能与容器、特定方块互动。 红石比较器有两种模式&#xff1a; 比…...

鸿蒙进阶——驱动框架UHDF 机制核心源码解读(一)

文章大纲 引言一、uhdf 概述二、uhdf 的核心参与角色1、drivers/hdf_core/adapter/uhdf2/manager/device_manager.c1.1、drivers/hdf_core/framework/core/manager/src/devmgr_service.c#DevmgrServiceGetInstance通过objectId获取IDevmgrService实例1.2、drivers/hdf_core/fra…...

【C/C++】探索单例模式:线程安全与性能优化

文章目录 Singleton1 指针版本Version 1 非线程安全版本Version 2 加锁版本Version 3.1 双重检查锁版本 AtomicMutexVersion 3.2 双重检查锁版本 Atomic-onlyVersion 3 两种方式对比 2 引用版本Version 1 简单版本 不推荐Version 2 初始化安全版本Version 3 初始化操作安全版本…...

Windows安装MongoDb.并使用.NET 9连接

以下是在 Windows 系统上安装 MongoDB 的详细步骤&#xff1a; 方法一&#xff1a;通过安装向导 下载安装包 访问官网下载页&#xff1a;https://www.mongodb.com/try/download/community选择版本&#xff1a; Version&#xff1a;推荐最新稳定版&#xff08;如 8.09&#xff0…...

React深度解析:Hooks体系与Redux Toolkit现代状态管理实践

前言 React作为当今最流行的前端框架之一&#xff0c;其生态体系不断演进&#xff0c;为开发者提供了更高效、更优雅的解决方案。本文将深入探讨React的两大核心主题&#xff1a;Hooks体系&#xff08;特别是useState和useEffect&#xff09;以及Redux Toolkit现代状态管理方案…...

【Linux安装与维护】

文章目录 一、实验目的二、实验环境三、实验内容3.1 Red Hat系统安装3.2 硬盘分区与挂载3.3 root密码恢复 四、总结4.1 问题与解决4.2 实验收获 一、实验目的 熟练掌握Red Hat Enterprise Linux 8.x/9.0系统的安装流程&#xff0c;包括虚拟机配置、自定义分区和软件选择。学会…...

具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列

文章目录 1 介绍 Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ2 部署 Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ3 模型运行 Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ4 结果Qwen3-0.6BDeepSeek-R1-Distill-Qwen-1.5BPhi-4-mini-reasoning 平台采用Autodl&#xff1a;https://www.auto…...

Mac安装redis

1、 去往网址 http://​编download.​编redis.io/releases/ 找到任意 结尾为* .tar.gz的文件下载下来 2、使用终端进入下载下来的redis文件 3、直接执行redis-server 如果出现redis标志性的图代表成功 如果显示command not found :redis-server 则在终端再进入src文件夹下&…...

python-leetcode 71.每日温度

题目&#xff1a; 给定一个整数数组 temperatures &#xff0c;表示每天的温度&#xff0c;返回一个数组 answer &#xff0c;其中 answer[i] 是指对于第 i 天&#xff0c;下一个更高温度出现在几天后。如果气温在这之后都不会升高&#xff0c;请在该位置用 0 来代替。 可以理…...

[250521] DBeaver 25.0.5 发布:SQL 编辑器、导航器全面升级,新增 Kingbase 支持!

目录 DBeaver 25.0.5 发布&#xff1a;SQL 编辑器、导航器全面升级&#xff0c;新增 Kingbase 支持&#xff01; DBeaver 25.0.5 发布&#xff1a;SQL 编辑器、导航器全面升级&#xff0c;新增 Kingbase 支持&#xff01; 近日&#xff0c;DBeaver 发布了 25.0.5 版本&#xf…...

Java枚举详解

文章目录 1. 引言1.1 什么是枚举1.2 为什么需要枚举1.3 枚举的优势 2. 枚举基础2.1 枚举的声明与使用基本声明在类中定义枚举枚举的基本使用 2.2 枚举的常用方法1. values()2. valueOf(String name)3. name()4. ordinal()5. toString()6. compareTo(E o)7. equals(Object other…...

Android13 wifi设置国家码详解

Android13 wifi设置国家码详解 文章目录 Android13 wifi设置国家码详解一、前言二、设置wifi国家码相关代码1、adb或者串口也能设置和获取当前国家码&#xff08;1&#xff09;查询命令的方式&#xff08;2&#xff09;获取和设置国家码的示例 2、Java代码设置国家码3、获取当前…...

Docker安装MinIO对象存储中间件

MinIO 是一个高性能、分布式的对象存储系统&#xff0c;兼容 Amazon S3 云存储服务协议&#xff0c;广泛应用于企业存储、大数据、机器学习和容器化应用等领域。以下是详细介绍&#xff1a; 核心特点 兼容 S3 API &#xff1a;全面兼容 Amazon S3 API&#xff0c;这意味着使用…...

EasyPan 使用及功能优化

文章目录 在线体验为什么我想做这个&#xff1f;kiftd网盘EasyPan EasyPan 客制化&#xff0c;升级为 RokiPan登录界面主界面分享 上传&下载速度测试下载上传 个人优化&#xff08;部分截图&#xff09;&#xff1a;已实现功能汇总&#xff08;原版 优化 &#xff09;待实…...

word通配符表

目录 一、word查找栏代码&通配符一览表二、word替换栏代码&通配符一览表三、参考文献 一、word查找栏代码&通配符一览表 序号清除使用通配符复选框勾选使用通配符复选框特殊字符代码特殊字符代码or通配符1任意单个字符^?一个任意字符?2任意数字^#任意数字&#…...

word格式相关问题

页眉 1 去除页眉横线&#xff1a; 双击打开页眉&#xff0c;然后点击正文样式&#xff0c;横线就没有了。 2 让两部分内容的页眉不一样&#xff1a; 使用“分节符”区分两部分内容&#xff0c;分节符可以在“布局-分隔符”找到。然后双击打开页眉&#xff0c;取消“链接到前一…...

springboot使用xdoc-report包导出word

背景&#xff1a;项目需要使用xdoc-report.jar根据设置好的word模版&#xff0c;自动填入数据 导出word 框架使用 我的需求是我做一个模板然后往里面填充内容就导出我想要的word文件&#xff0c;问了下chatgpt还有百度&#xff0c;最后选用了xdocreport这个框架&#xff0c;主…...

电脑中所有word文件图标变白怎么恢复

电脑中的word文件图标变白&#xff0c;如下图所示&#xff1a; 解决方法&#xff1a; 1.winR-->在弹出的运行窗口中输入“regedit”(如下图所示)&#xff0c;点击确定&#xff1a; 2.按照路径“计算机\HKEY_CLASSES_ROOT\Word.Document.12\DefaultIcon”去找到“&#xff0…...

node.js如何实现双 Token + Cookie 存储 + 无感刷新机制

node.js如何实现双 Token Cookie 存储 无感刷新机制 为什么要实施双token机制&#xff1f; 优点描述安全性Access Token 短期有效&#xff0c;降低泄露风险&#xff1b;Refresh Token 权限受限&#xff0c;仅用于获取新 Token用户体验用户无需频繁重新登录&#xff0c;Toke…...

如何从 iPhone 获取照片:5 个有效解决方案

有时&#xff0c;我们在 iPhone 上积累了太多照片&#xff0c;因此有必要从 iPhone 上删除照片。无论您的设备需要更多空间&#xff0c;还是只是想备份珍贵的记忆以妥善保管&#xff0c;您都可以找到从 iPhone 上拍摄照片的有效方法。您可以选择完成任务的最佳方式。 第 1 部分…...

大模型知识

############################################################## 一、vllm大模型测试参数和原理 tempreature top_p top_k ############################################################## tempreature top_p top_k 作用&#xff1a;总体是控制模型的发散程度、多样…...

微软正式发布 SQL Server 2025 公开预览版,深度集成AI功能

微软在今年的 Build 2025 大会上正式发布了 SQL Server 2025 公开预览版&#xff0c;标志着这一经典数据库产品在 AI 集成、安全性、性能及开发者工具方面的全面升级。 AI 深度集成与创新 原生向量搜索&#xff1a;SQL Server 2025 首次将 AI 功能直接嵌入数据库引擎&#xff…...

git中,给分支打标签

1.创建标签 标签可以是轻量级标签或带注释的标签两种 轻量级标签 git tag <tag-name> 带注释的标签 git tag -a <tag-name> -m "标签信息" 2.查看标签 git tag 查看标签详细信息 git show <tag-name> 3.推送标签到远程仓库 推送指定标签…...

微软 Build 2025:开启 AI 智能体时代的产业革命

在 2025 年 5 月 19 日的微软 Build 开发者大会上&#xff0c;萨提亚・纳德拉以 "我们已进入 AI 智能体时代" 的宣言&#xff0c;正式拉开了人工智能发展的新纪元。这场汇聚了奥特曼、黄仁勋、马斯克三位科技领袖的盛会&#xff0c;不仅发布了 50 余项创新产品&#…...

k8s面试题-ingress

场景&#xff1a;我通过deployment更新pod&#xff0c;ingress是怎么把新的请求流量发送到我新的pod的&#xff1f;是怎么监控到我更新的pod的&#xff1f; 在 Kubernetes 中&#xff0c;Ingress 是一种 API 对象&#xff0c;用于管理外部访问到集群内服务的 HTTP 和 HTTPS 路…...

时间序列预测的迁移学习

在本文中&#xff0c;我们将了解如何将迁移学习应用于时间序列预测&#xff0c;以及如何在多样化的时间序列数据集上训练一次预测模型&#xff0c;之后无需训练即可在不同数据集上进行预测。我们将使用开源 Darts 库&#xff0c;仅用几行代码即可完成所有这些操作。你可以点击此…...

react中运行 npm run dev 报错,提示vite.config.js出现错误 @esbuild/win32-x64

在React项目中运行npm run dev时&#xff0c;如果遇到vite.config.js报错&#xff0c;提示esbuild/win32-x64在另一个平台中被使用&#xff0c;通常是由于依赖冲突或缓存问题导致的。解决方法是删除node_modules文件夹&#xff0c;并重新安装依赖。 如下图&#xff1a; 解决办…...

量子计算模拟:从理论到实践

量子计算作为现代物理学与计算机科学的前沿交叉领域&#xff0c;正逐渐从纯理论研究走向实际应用。本文将介绍一个基于Python的量子计算模拟框架&#xff0c;重点探讨量子比特、量子门操作以及量子态的演化等核心概念&#xff0c;并通过可视化手段直观展示量子态的特性。 量子…...

143.重排链表的尝试

listnode* p0cur,cur->nextq;p0->next有没有改变 ChatGLM 让我们逐步分析这段代码&#xff0c;看看 p0->next 是否发生了改变。 假设我们有一个链表&#xff0c;cur 是当前节点&#xff0c;q 是另一个节点。代码如下&#xff1a; 代码生成完成 C代码 首先&#…...

精准识别记忆细胞!Elabscience PE Anti-Human/Mouse CD44 抗原特异性抗体

概述 CD44 是一种广泛表达的细胞表面黏附分子&#xff0c;参与细胞迁移、炎症反应及肿瘤转移等关键生物学过程。Elabscience 推出的PE Anti-Human/Mouse CD44 Antibody [IM7]&#xff08;货号&#xff1a;E-AB-F1100D&#xff09;是一款高特异性、高灵敏度的流式抗体&#xff…...

OpenCV CUDA模块特征检测与描述------一种基于快速特征点检测和旋转不变的二进制描述符类cv::cuda::ORB

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::cuda::ORB 是 OpenCV 库中 CUDA 模块的一部分&#xff0c;它提供了一种基于快速特征点检测和旋转不变的二进制描述符的方法&#xff0c;用于…...

OpenCV CUDA模块特征检测与描述------创建一个 盒式滤波器(Box Filter)函数createBoxFilter()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::cuda::createBoxFilter 是 OpenCV CUDA 模块中的一个工厂函数&#xff0c;用于创建一个 盒式滤波器&#xff08;Box Filter&#xff09;&…...

【八股战神篇】Spring高频面试题汇总

专栏简介 Bean 的生命周期了解么? 延伸 谈谈自己对于 Spring IoC 的了解 延伸 什么是动态代理? 延伸 动态代理和静态代理的区别 延伸 Spring AOP的执行流程 延伸 Spring的事务什么情况下会失效? 延伸 专栏简介 八股战神篇专栏是基于各平台共上千篇面经,上万道…...

高阶数据结构——红黑树实现

目录 1.红黑树的概念 1.1 红黑树的规则&#xff1a; 1.2 红黑树的效率 2.红黑树的实现 2.1 红黑树的结构 2.2 红黑树的插入 2.2.1 不旋转只变色&#xff08;无论c是p的左还是右&#xff0c;p是g的左还是右&#xff0c;都是一样的变色处理方式&#xff09; 2.2.2 单旋变色…...

java综合交易所13国语言,股票,区块链,外汇,自带客服系统运营级,有测试

这套pc和H5是一体的&#xff0c;支持测试&#xff0c;目前只有外汇和区块链&#xff0c;某站居然有人卖3.8w&#xff0c;还觉得自己这个价格很好 自带客服系统&#xff0c;虽然是老的&#xff0c;但是可玩性还是很高的&#xff0c;也支持c2c&#xff0c;理财&#xff0c;质押&a…...

六:操作系统虚拟内存之缺页中断

深入理解操作系统&#xff1a;缺页中断 (Page Fault) 的处理流程 在上一篇文章中&#xff0c;我们介绍了虚拟内存和按需调页 (Demand Paging) 的概念。虚拟内存为每个进程提供了巨大的、独立的虚拟地址空间&#xff0c;并通过页表 (Page Table) 将虚拟页面 (Virtual Page) 映射…...