PyTorch 浮点数精度全景:从 float16/bfloat16 到 float64 及混合精度实战
PyTorch 在深度学习中提供了多种 IEEE 754 二进制浮点格式的支持,包括半精度(float16
)、Brain‑float(bfloat16
)、单精度(float32
)和双精度(float64
),并通过统一的 torch.dtype
接口进行管理citeturn0search0turn0search3。用户可利用 torch.finfo
查询各类型的数值极限(如最大值、最小值、机器 ε 等),通过 torch.set_default_dtype
/torch.get_default_dtype
设置或获取全局默认浮点精度,并使用 torch.promote_types
控制运算中的类型提升规则citeturn0search2turn0search4。在现代 GPU 上,PyTorch 提供了 torch.amp.autocast
和 torch.amp.GradScaler
等自动混合精度(AMP)工具,能够在保证数值稳定性的前提下,大幅提升训练速度和降低显存占用citeturn0search6turn0search11。
PyTorch 浮点类型对比
类型 (torch.dtype ) | 别名 | 位宽 | 符号位 | 指数位 | 尾数位 (显式) | 有效精度 (含隐含位) | 典型用途 |
---|---|---|---|---|---|---|---|
torch.float16 | torch.half | 16 | 1 | 5 | 10 | 11 位 (~3.3 十进制位) | 推理加速,对精度要求不高的场景 |
torch.bfloat16 | — | 16 | 1 | 8 | 7 | 8 位 (~2.4 十进制位) | 大规模训练(TPU、支持 BF16 的 GPU) |
torch.float32 | torch.float | 32 | 1 | 8 | 23 | 24 位 (~7.2 十进制位) | 深度学习训练/推理的标准精度 |
torch.float64 | torch.double | 64 | 1 | 11 | 52 | 53 位 (~15.9 十进制位) | 科学计算、高精度数值分析 |
上表位宽、指数位、尾数位数据遵循 IEEE 754 标准:二进制16(binary16)格式指数 5 位、尾数 10 位citeturn1search0;二进制32(binary32)格式指数 8 位、尾数 23 位citeturn1search8;二进制64(binary64)格式指数 11 位、尾数 52 位citeturn1search8。
数值属性查询
torch.finfo(dtype)
:返回指定浮点类型的数值极限信息,包括:bits
:总位宽eps
:机器 ε,即最小增量min
/max
:可表示的最小/最大值tiny
/smallest_normal
:最小非规范/规范化值 citeturn0search2。
import torch
print(torch.finfo(torch.float32))
# finfo(resolution=1e-06, min=-3.40282e+38, max=3.40282e+38, eps=1.19209e-07, smallest_normal=1.17549e-38, tiny=1.17549e-38, dtype=float32)
默认精度与类型提升
-
全局默认浮点精度
torch.get_default_dtype()
:获取当前默认浮点类型,初始值为torch.float32
citeturn0search9。torch.set_default_dtype(d)
:设置默认浮点类型,仅支持浮点类型输入;后续通过 Pythonfloat
构造的张量将采用该类型citeturn0search4。
-
类型提升 (Type Promotion)
torch.promote_types(type1, type2)
:返回在保证不降低精度与范围的前提下,最小的可兼容浮点类型,用于混合类型运算时的结果类型推断citeturn0search5。
自动混合精度(AMP)
PyTorch 的 AMP 机制在 前向/反向传播 中自动选择低精度(float16
或 bfloat16
)计算,而在 权重更新 等关键环节保留 float32
,以兼顾性能与数值稳定性。
torch.amp.autocast
:上下文管理器,针对支持的设备(如 CUDA GPU 或 CPU)自动切换运算精度;在 CUDA 上默认使用float16
,在 CPU 上可指定dtype=torch.bfloat16
citeturn0search6。torch.amp.GradScaler
:动态缩放梯度,避免低精度下的梯度下溢,实现稳定训练;与autocast
搭配使用可获显著加速(1.5–2×)和显存节省citeturn0search11。
示例(CUDA 上的混合精度训练):
from torch.amp import autocast, GradScaler
scaler = GradScaler()
for data, target in loader:optimizer.zero_grad()with autocast():output = model(data)loss = loss_fn(output, target)scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()
实践建议
- 开发与调试阶段:优先使用
float32
,确保数值稳定。 - 大规模训练:若硬件支持 BF16,可尝试
bfloat16
训练;否则在 GPU 上结合 AMP 使用float16
。 3. 部署推理:在对精度容忍度高的场景下采用float16
,监控精度变化。 - 默认设置优化:根据项目需求使用
torch.set_default_dtype
控制全局默认精度,并结合torch.promote_types
处理跨类型运算。
相关文章:
PyTorch 浮点数精度全景:从 float16/bfloat16 到 float64 及混合精度实战
PyTorch 在深度学习中提供了多种 IEEE 754 二进制浮点格式的支持,包括半精度(float16)、Brain‑float(bfloat16)、单精度(float32)和双精度(float64),并通过统…...
《软件设计师》复习笔记(14.2)——统一建模语言UML、事务关系图
目录 1. UML概述 2. UML构造块 (1) 事物(Things) (2) 关系(Relationships) 真题示例: 3. UML图分类 (1) 结构图(静态) (2) 行为图(动态) 4. 核心UML图详解 5.…...
基于C++(MFC)的细胞识别程序
基于 mfc 的细胞识别程序 一、图像处理课程设计目标 1.1 课题与技术指标 课题:利用图像处理技术设计细胞识别程序。 技术指标: 实验 VS2019 MFC 开发平台待识别图像为 24bit 的真彩色细胞图像进行处理要求识别出细胞,并且保证准确度情况下…...
【前端HTML生成二维码——MQ】
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前端HTML生成二维码——MQ 前言本文将介绍前端HTML如何更具用户输入的内容生成对应的二维码,附页面代码、实现函数、js脚本。一、自定义显示页面1、效果图二、使用步骤1、引入库2、实现函数3、页面及函数代…...
Spring Boot自动配置原理深度解析:从条件注解到spring.factories
大家好!今天我们来深入探讨Spring Boot最神奇的特性之一——自动配置(Auto-configuration)。这个功能让Spring Boot如此受欢迎,因为它大大简化了我们的开发工作。让我们一起来揭开它的神秘面纱吧!👀 🌟 什么是自动配置…...
【unity实战】Animator启用root motion根运动动画,实现完美的动画动作匹配
文章目录 前言1、动画分类2、如何使用根位移动画? 一、根位移动画的具体使用1、导入人形模型2、导入动画3、配置动画参数4、配置角色Animator动画状态机5、使用代码控制人物前进后退 二、问题分析三、Humanoid动画中的Root Motion机制及相关配置1、Humanoid动画中的…...
(51单片机)LCD显示数据存储(DS1302时钟模块教学)(LCD1602教程)(独立按键教程)(延时函数教程)(I2C总线认识)(AT24C02认识)
目录 演示视频: 源代码 main.c LCD1602.c LCD1602.h AT24C02.c AT24C02.h Key.c Key.h I2C.c I2C.h Delay.c Delay.h 代码解析与教程: Dealy模块 LCD1602模块 Key模块 I2C总线模块 AT24C02模块 /E2PROM模块 main模块 演示视频: &…...
2d深度预测
Depth anything v1 相对深度估计,要用绝对深度估计需要微调 概要: 1 使用大量的未标注图像信息 2 采用优化策略—数据增强工具(作用在未标注图像) 3 进行辅助监督—继承语义分割知识(作用在未标注图像) 数据层面: …...
Android12 ServiceManager::addService源码解读
源码 Status ServiceManager::addService(const std::string& name, const sp<IBinder>& binder, bool allowIsolated, int32_t dumpPriority) {auto ctx mAccess->getCallingContext();// apps cannot add servicesif (multiuser_get_app_id(ctx.uid) >…...
【HDFS入门】HDFS性能调优实战:从基准测试到优化策略
目录 引言 1 HDFS性能评估体系 1.1 性能评估体系架构 1.2 基准测试工具对比 2 TestDFSIO基准测试实战 2.1 TestDFSIO工作原理 2.2 测试执行步骤 2.3 结果分析指标 3 TeraSort基准测试实战 3.1 TeraSort测试流程 3.2 测试执行命令 3.3 关键性能指标 4 HDFS性能调优…...
Linux 内核开发/测试工具对比 Windows 驱动验证工具 (Driver Verifier)
Windows 的 Driver Verifier 是一个用于测试和验证驱动程序的强大工具。在 Linux 内核开发中,虽然没有一个完全等价的单一工具,但有多种工具和框架可以提供类似或更专业的功能。 Linux 内核开发和测试工具 1. KASAN (Kernel Address Sanitizer) 功能&…...
通信算法之269 : OFDM信号的循环自相关特性用于无人机图传信号识别
OFDM信号的循环自相关特性是其循环平稳性的核心体现,如下: [相关仿真代码,联系,提供] 一、循环自相关特性来源 循环前缀引入周期性 OFDM符号通过添加循环前缀(CP)形成符号周期结构,导致信号具有循环平稳性26。每个符号的CP与尾部数据重复,在时延等于FFT长度(N…...
【无人机】电子速度控制器 (ESC) 驱动电机,常见的电调协议,PWM协议,Oneshot协议,DShot协议
目录 1、ESCs & 电机 #1.1、ESC 协议 --ESC Protocols #1.1.1、PWM协议,需要校准 #1.1.2、One Shot 125协议,速率更快 #1.1.3、DShot ,减少延迟,无需校准 #1.1.4、无人机CAN 2、PWM 伺服系统和 ESC(电机控…...
LeadeRobot具身智能应用标杆:无人机X柔韧具身智能,空中精准作业游刃有余
当前,具身智能已成为全球科技领域的前沿焦点,更受到国家战略级重视,吸引科技产业巨头抢滩布局。但同时,具身智能的商业化路径、规模化应用场景、技术成本等难题也开始在资本界与产业圈引起广泛讨论。 目前,万勋科技基于Pliabot 柔韧技术已推出多款具身智能柔韧机器人产品,在柔…...
WebSocket:实现实时双向通信的技术
WebSocket是一种网络通信协议,它在单个TCP连接上提供全双工通信。WebSocket协议在2011年被IETF(互联网工程任务组)标准化为RFC 6455,并由W3C(万维网联盟)制定了WebSocket API标准,使得客户端&am…...
探索 HumanoidBench:类人机器人学习的新平台
在科技飞速发展的当下,类人机器人逐渐走进我们的视野,它们有着和人类相似的外形,看起来能像人类一样在各种环境里完成复杂任务,潜力巨大。但实际上,让类人机器人真正发挥出实力,还面临着重重挑战。 这篇文…...
「数据可视化 D3系列」入门第十一章:力导向图深度解析与实现
D3.js 力导向图深度解析与实现 力导向图核心概念 力导向图是一种通过物理模拟来展示复杂关系网络的图表类型,特别适合表现社交网络、知识图谱、系统拓扑等关系型数据。其核心原理是通过模拟粒子间的物理作用力(电荷斥力、弹簧引力等)自动计…...
「数据可视化 D3系列」入门第八章:动画效果详解(让图表动起来)
动画效果详解 一、D3.js动画核心API1. d3.transition()2. transition.duration()3. transition.delay()4. 其他重要API 二、动画实现原理三、完整动画示例解析1. 柱状图生长动画2. 文本跟随动画 四、动画效果优化技巧1. 缓动函数选择:2. 组合动画:3. 动画…...
index: 自动化浏览器智能体
GitHub:https://github.com/lmnr-ai/index 更多AI开源软件:https://www.aiinn.cn/ 在做浏览器自动化脚本时,我们常常需要编写大量代码来处理复杂的网页交互,不仅耗时耗力,还难以调试和优化,要是出错更是难以…...
网页端调用本地应用打开本地文件(PDF、Word、excel、PPT)
一、背景原因 根据浏览器的安全策略,在网页端无法直接打开本地文件,所以需要开发者曲线救国。 二、实现步骤 前期准备: 确保已安装好可以打开文件的应用软件,如,WPS; 把要打开的文件统一放在一个文件夹&am…...
如何批量在多个 Word 文档末尾添加广告页面
Word是我们日常使用非常频繁的文档编辑软件,凭借其强大的文本处理功能,如文字输入、格式设置、段落排版、图片插入等,可以帮助我们轻松创建专业且美观的文档。不过呢当我们需要将这些文档分享给他人时,往往需要在每个文档的末尾添…...
JavaScript原生实现简单虚拟列表
旧笔记,最近使用时做了点新优化,之前只发在了个人博客上 地址:JavaScript原生实现简单虚拟列表 背景 在公司项目中,需要给商品配置大量的属性值,可能其中一个属性的值数量就有成百上千条。 一个商品会有很多属性&…...
安心联车辆管理平台应用前景分析
安心联车辆管理平台凭借其技术创新与行业适配能力,展现出广阔的应用前景。以下从技术驱动、行业覆盖、实际效益、市场策略及未来潜力五个维度进行分析: 一、技术驱动的核心竞争力 高精度定位与多传感器融合 安心联采用北斗/GPS双模定位技术,实…...
力扣每日打卡 2176. 统计数组中相等且可以被整除的数对(简单)
力扣 2176. 统计数组中相等且可以被整除的数对 简单 前言一、题目内容二、解题方法1. 暴力解法2.官方题解官方也是暴力解法 前言 这是刷算法题的第十三天,用到的语言是JS 题目:力扣 2176. 统计数组中相等且可以被整除的数对(简单) 一、题目内容 给你一…...
OpenStack Yoga版安装笔记(22)Swift笔记20250418
一、官方文档 https://docs.openstack.org/swift/yoga/admin/objectstorage-components.html#https://docs.openstack.org/swift/yoga/admin/objectstorage-components.html# 二、对象存储简介(Introduction to Object Storage) OpenStack 对象存储&a…...
Linux 线程互斥
目录 Linux线程互斥 进程线程间的互斥相关背景概念 互斥量的接口 初始化互斥量 互斥量加锁和解锁 锁的封装 编辑 互斥量加锁的非阻塞版本 互斥量实现原理探究 可重入VS线程安全 概念 常见的线程不安全的情况 常见的线程安全的情况 常见的不可重入的情况 常见的…...
webgl入门实例-12WebGL 投影矩阵 (Projection Matrix)基本概念
WebGL 投影矩阵 (Projection Matrix) 投影矩阵是将3D场景从视图空间(相机空间)转换到裁剪空间的关键矩阵,它决定了3D物体如何投影到2D屏幕上。 投影矩阵的作用 定义3D空间到2D平面的映射方式确定视景体(view frustum)的形状和范围实现透视效果(近大远小)或正交投…...
《实战AI智能体》——邮件转工单的AI自动化
💡 为什么使用 邮件转工单(AI自动化)模板 想象一下,您的邮箱像是一个繁忙的宇宙港口,每封邮件都是一艘载着信息的飞船。当这些飞船抵达时,我们的自动化系统就像是一位高效的宇宙调度员,迅速将每艘飞船(邮件)转化为一艘艘探索号(工单),并为它们分配勇敢的宇航员(…...
YOLOv8 Bug 及解决方案汇总 【2024.1.24更新】【环境安装】【训练 断点续训】OMPError / KeyError
YOLOv8 Bug 及解决方案汇总:深入解析与应对 引言 YOLOv8作为一款高性能的目标检测算法,在实际应用中难免会遇到各种各样的问题。本文将对YOLOv8常见的Bug进行汇总,并提供相应的解决方案,旨在帮助开发者更好地使用和优化YOLOv8。…...
健康养生:开启活力生活新篇章
在当代社会,熬夜加班、久坐不动、外卖快餐成为许多人的生活常态,随之而来的是各种亚健康问题。想要摆脱身体的疲惫与不适,健康养生迫在眉睫,它是重获活力、拥抱美好生活的关键。 应对不良饮食习惯带来的健康隐患,饮…...
Yocto项目实战教程 · 第4章:4.3小节-层
🔍 B站相应的视频教程: 📌 Yocto项目实战教程-第4章-4.3小节-层 记得三连,标为原始粉丝。 在 Yocto 项目中,元数据(Metadata)不仅是构建系统的核心驱动力,更是实现高度定制化、可移植…...
小红书爬虫,小红书api,小红书数据挖掘
背景: 小红书(Xiaohongshu)是一款结合社交、购物和内容分享的移动应用,近年来在中国以及全球范围内拥有大量的用户群体。小红书上的内容包括用户的消费体验、生活方式、旅行分享、时尚搭配等。通过这些内容,用户可以了…...
选择 iOS 按键精灵无根有根越狱辅助工具的理由
节省成本 使用 iOS 按键精灵,每台设备可为你减少 5 - 10 元的签名成本。对于需要使用大量脚本或者多设备操作的用户来说,长期下来能够节省一笔可观的费用。 不断更新优化 按键精灵团队始终致力于产品的更新与优化。新版本不断增加新功能&#x…...
电脑里的AI帮手:Open Interpreter智能助手食用指南
Open Interpreter简介如下: interpreter是一个使用python开发的命令行工具,可以让你在终端中使用类似AI对话的方式,只需简单输入指令要求,即可自动编写程序、执行代码,实现各种自动化操作interpreter有自动检测输出结…...
Windows软件界面分析软件-控件识别工具
Inspect.exe 这是微软提供的一款 UI 自动化检查工具,主要用于开发和测试应用程序的辅助功能(Accessibility)及 UI 自动化。 主要功能: 查看界面元素的属性(如名称、角色、状态、位置等)。 支持 UIA&…...
iOS 冷启动时间监控:启动起点有哪些选择?
⏱️ iOS 冷启动时间监控:启动起点有哪些选择? 作者:侯仕奇 来源:sqi.io 在监控 iOS 冷启动性能时,一个关键问题是:如何精确记录 App 冷启动的开始时间? 本文将对不同的“冷启动起点”监控方式…...
MacOS怎么显示隐藏文件
现象描述: 有些文件比如git的配置文件会作为隐藏文件存在。 Mac os默认是不显示隐藏文件的。 但是很多场合下我们需要查看或者编辑这些隐藏文件。 解决方法: 如下图所示,在Finder中使用Shift⇧Command⌘.快捷键 显示和隐藏都是同样的按…...
苹果紧急修复两个已被利用的iOS漏洞,用于针对特定目标的复杂攻击
苹果公司已发布iOS 18.4.1和iPadOS 18.4.1更新,修复两个被用于针对特定iPhone用户实施高度定向、复杂攻击的关键零日漏洞。 这两个漏洞存在于CoreAudio和RPAC组件中,攻击者可利用它们在受影响设备上执行任意代码或绕过安全保护机制。 两个正被活跃利用…...
8.观察者模式:思考与解读
原文地址:观察者模式:思考与解读 更多内容请关注:7.深入思考与解读设计模式 引言 在开发软件时,系统的某些状态可能会发生变化,而你希望这些变化能够自动通知到依赖它们的其他模块。你是否曾经遇到过,系统中某个对象…...
13.编码器的结构
从入门AI到手写Transformer-13.编码器的结构 13.编码器的结构代码 整理自视频 老袁不说话 。 13.编码器的结构 T r a n s f o r m e r E n c o d e r : 输入 [ b , n ] TransformerEncoder:输入[b,n] TransformerEncoder:输入[b,n] E m b e d d i n g : − > [ b , n , d ]…...
java 设计模式之模板方法模式
简介 模板方法模式:定义一个算法的基本流程,将一些步骤延迟到子类中实现。模板方法模式可以提高代码的复用性, 模板方法中包含的角色: 抽象类:负责给出一个算法的基本流程,它由一个模板方法和若干个基本…...
C++面向对象
面向对象的思想 面向过程: 根据程序的执行过程,来设计软件的所有细节。面向过程的缺点:开发大型项目时,越来越难以把控,甚至失去控制。后期维护、更新成本很大。解决方案:使用面向对象。 什么是面向对象…...
守护进程编程
目录 一、守护进程 1.1 守护进程概述 1.2 守护进程的功能及特点 1.2.1 守护进程的功能 1.2.2 守护进程的特点 1.3 主要过程 1.4 阿里云服务器编程实现守护进程 1.4.1 daemon 命令 1.4.2 nohup命令 1.4.3 fork()编程实现 1.5 在树莓派中通过三种方式创建守护进程 1.5…...
【Spring Boot 源码学习】深入 ConfigurableEnvironment 的初始化过程
《Spring Boot 源码学习系列》 深入 ConfigurableEnvironment 的初始化过程 一、引言二、配置环境的初始化2.1 源码总览2.2 prepareEnvironment 方法2.2.1 获取或创建可配置环境2.2.2 配置环境并设置参数2.2.3 将配置属性源附加到环境中2.2.4 触发环境准备事件2.2.5 将DefaultP…...
若依集成BladeX单点登录的令牌管理与api请求流程
目录 概述系统架构单点登录流程令牌管理机制接口调用流程关键代码实现数据结构安全性考虑常见问题与解决 概述 本文档详细说明若依系统如何实现与BladeX的单点登录集成,包括令牌管理和接口调用的完整流程。整个集成采用基于OAuth2的授权码流程,允许用…...
54常用控件_QLCDNumber的属性
目录 代码示例: 倒计时 QLCDNumer 是一个专门用来显示数字的控件.类似于“老式计算器”的效果 核心属性 属性 说明 intValue QLCDNumber显示的数字值(int). value QLCDNumber 显示的数字值(double). 和intValue是联动的. 例如给value设为1.5, intValue的值就是2. 另外&a…...
IcePlayer音乐播放器项目分析及学习指南
IcePlayer音乐播放器项目分析及学习指南 项目概述 IcePlayer是一个基于Qt5框架开发的音乐播放器应用程序,使用Visual Studio 2013作为开发环境。该项目实现了音乐播放、歌词显示、专辑图片获取等功能,展现了桌面应用程序开发的核心技术和设计思想。 技…...
【ELF2学习板】Ne10进行FFT测试
目录 引言 Ne10简介 交叉编译Ne10 测试 测试程序 测试结果 结语 引言 在上一篇博文介绍了FFTW在ELF2开发板的测试。其中我们提到--enable-neon选项在aarch64平台下无法启用。接下来测试一个专门用NEON指令优化的FFT库Ne10。 Ne10简介 NE10 是一个面向 ARM 架构的开源数…...
Android device PCO (protocol configuration options) intro
术语 英文缩写英文全称中文PCOprotocol configuration options协议配置选项RILradio interface layer 无线电接口层PCO介绍 PCO(Protocol Configuration Options) 是 3GPP 标准协议(TS 24.008)中定义的核心概念,用于在 LTE/5G 网络建立 PDN 连接时传递动态配置参数(如 D…...
HAL库通过FATFS和SDIO+DMA写入SD卡数据错误
HAL库F4版本 1.28.1 最近在使用HAL库配置SDIODMA并通过FATFS向SD卡写入数据,但是发现写入的数据经常有错误,不是少了一部分就是多了一部分,写入的数据为csv格式,通过循环向缓冲区写入"100100,12.345678\r\n"数据来观察问…...