当前位置：首页 > news >正文

体系结构论文（六十七）：A Machine-Learning-Guided Framework for Fault-Tolerant DNNs

news 来源：原创 2025/8/29 16:24:45

A Machine-Learning-Guided Framework for Fault-Tolerant DNNs DATE 2024

研究动机

深度神经网络（DNN）虽然对某些扰动具有天然的容错性，但在面对硬件故障（如软错误、老化、环境干扰等）时，仍会出现输出错误。而常见的容错手段如**三模冗余（TMR）或错误更正码（ECC）**成本过高，特别是在面对大型神经网络时。因此，该研究旨在：

识别 DNN 中对故障更敏感的关键参数；
在保障准确性的同时，以更低成本进行选择性加固。

提出的方法框架

Step I：统计性 Fault Injection（FI）

对 DNN 各层的权重进行随机比特翻转注入；
用少量注入实现高置信度的关键性评估；
作为后续机器学习训练的样本来源。

Step II：关键性预测（ML-based Criticality Prediction）

使用**随机森林（RF）与均衡随机森林（BRF）**等分类模型；
输入特征包括比特位位置、符号、所在层等；
预测未注入部分的参数或比特是否“关键”；
用户可根据所能容忍的准确率下降（如0.5%~10%）定义“关键”的标准。

Step III：选择性加固（Selective Hardening）

仅对预测为“关键”的参数使用 Hamming ECC；
非关键部分不做保护，以此减少内存与硬件开销；
引入一个“关键性签名表”记录每个参数是否需要保护，并对其自身进行加固防止篡改。

所提方法的整体框架

论文提出的机器学习引导容错框架分为三个步骤：

Step I：统计性故障注入（Statistical Fault Injection, FI）

目的：通过模拟比特翻转来评估神经网络权重的脆弱性；
策略：不是进行全面注入，而是只对部分参数位注入，通过统计手段（控制置信区间与误差范围）来评估；
实验设置：
- 故障类型：单粒子翻转（SEU，非破坏性软错误）；
- 目标：LeNet-5 与 ResNet-18 的权重参数；
- 注入次数：LeNet-5 共注入约 29 万次，ResNet-18 共注入 210 万次；
- 容忍误差：99%置信度，误差 <1%。

【Table I 】Fault Injection Results

该表展示了注入后的参数按“容忍精度下降”所划分的“可接受”（Acceptable）和“关键”（Critical）比例：

模型/编码	FP32 精度下降0.5%	FxP32 精度下降0.5%	FxP16 精度下降0.5%	FxP8 精度下降0.5%
LeNet-5	1.77% 的位是关键	0.79%	0.29%	0.30%
ResNet-18	8.44% 的位是关键	4.62%	4.44%	4.22%

📌 结论：

固定点格式（FxP）的容错能力 远优于浮点格式（FP32）；
容错能力提升的原因是：FxP 的数值范围更窄，因此位翻转不容易产生“异常值”；
容忍精度下降越多，关键位所占比例越少。

Step II：机器学习预测参数关键性（ML-based Prediction）

训练数据：来自 Step I 中的 FI 结果；
目标：预测所有参数（包括未注入的）中哪些是“关键的”；
输入特征：
- 被注入的位在权重中的位置；
- 位的符号（正负）；
- 所属网络层；
- 受影响的输出特征图与滤波器通道；
使用模型：
- 随机森林（Random Forest, RF）
- 平衡随机森林（Balanced RF, BRF），应对类别不平衡问题；
评估方式：10折交叉验证，训练集/测试集比例为70%/30%；
输出指标：
- ROC AUC：越接近1表示分类越准确；
- 四类预测情况：TP、FP、FN、TN。

【Table II 】ML-based Fault Prediction Model

以 LeNet-5 / FP32 / 容忍精度下降0.5% 为例：

| 真正关键 | 预测正确 (TP) = 1.73% | 被误判为可接受 (FN) = 0.03% | | 真正可接受 | 预测正确 (TN) = 98.16% | 被误判为关键 (FP) = 0.06% |

结论：

ROC AUC 均 > 0.99，说明整体预测非常准确；
RF 对类别不平衡敏感，会高估“可接受”；
BRF 减少了误判为“可接受”的关键位，但也会误把一些“可接受”当作“关键”保护，增加了额外成本（但不影响功能，仅增加硬件资源消耗）；
用户可在鲁棒性与代价之间权衡选择。

Step III：选择性加固（Selective Hardening）

原则：只对预测为关键的参数加 ECC；
ECC 类型：Hamming ECC（单比特纠错）；
存储设计：
- 引入“关键性签名表”：每个参数是否需要加固，用一个比特记录；
- 该签名表也用 ECC 加固，以防自身出错。

【Table III 】Memory Overhead Comparison

编码	全保护（AP）	仅保护关键参数（CP）	签名区（Sign.）	节省开销（Gain）
LeNet-5 FP32	18.75%	9.926%	3.125%	节省约 30.4%
LeNet-5 FxP32	18.75%	0.740%	3.125%	节省约 79.4%
ResNet-18 FxP8	50.00%	2.476%	12.5%	节省约 70.0%

结论：

选择性加固策略在 固定点格式中尤为有效，节省内存开销显著；
即使考虑“签名表”的存储成本，整体依旧有极大压缩优势。

相关文章：

体系结构论文（六十七）：A Machine-Learning-Guided Framework for Fault-Tolerant DNNs

A Machine-Learning-Guided Framework for Fault-Tolerant DNNs DATE 2024 研究动机深度神经网络（DNN）虽然对某些扰动具有天然的容错性，但在面对硬件故障（如软错误、老化、环境干扰等）时，仍会出现输出错…...

编程日记 2025/8/29 16:24:45

qt designer 创建窗体选择哪种屏幕大小

1. 新建窗体时选择QVGA还是VGA 下面这个图展示了区别这里我还是选择默认，因为没有特殊需求，只是在PC端使用...

编程日记 2025/8/26 16:36:35

游戏引擎学习第225天

只能说太难了回顾当前的进度我们正在进行一个完整游戏的开发，并在直播中同步推进。上周我们刚刚完成了过场动画系统的初步实现，把开场动画基本拼接完成，整体效果非常流畅。看到动画顺利呈现，令人十分满意，整个系统…...

编程日记 2025/8/28 9:11:50

sql工具怎么选最适合自己的？

sql工具怎么选？ 为什么大多数主流工具又贵又难用？有没有一款免费好用的sql工具？像大多数朋友经常用的sql工具应该都遇到过这种情况，用着用着收到了来自品牌方的律师函，或者处理数据时经常卡死，再或者不支持…...

编程日记 2025/8/24 20:01:24

css实现一键换肤

实现一键换肤的时候，我们除了动态替换引用的css文件，还可以通过使用css变量的方式，达到所需效果。首先我们来了解css变量，css变量以--开头，引用时va(--变量名)，例 :root{--default-color: #fff; } .box{b…...

编程日记 2025/8/27 1:32:03

波束形成（BF）从算法仿真到工程源码实现-第八节-波束图

一、概述本节对MVDR、LCMV、LMS等算法的波束图进行仿真。二、MVDR代码仿真 2.1 mvdr代码 clc; clear; M 18; % 天线数 lambda 10; d lambda / 2; L 100; %快拍数 thetas [10]; % 期望信号入射角度 thetai [-30 30]; % 干扰入射角度 n [0:M-1]; vs exp(-1j * 2…...

编程日记 2025/8/29 16:24:44

静态代码深度扫描详解

静态代码深度扫描是一种通过分析源代码结构、语法、语义及潜在逻辑，在不运行程序的情况下全面检测代码缺陷、安全漏洞和质量问题的技术。它通过结合数据流分析、控制流分析、符号执行等高级技术，实现对代码的深度理解，帮助开发团队在早期发现…...

编程日记 2025/8/28 21:28:31

LC25. K 个一组翻转链表（自己用）

25. K 个一组翻转链表 Java代码： 思路：利用虚拟头节点结合反转链表实现 Code： class Solution {public ListNode reverseKGroup(ListNode head, int k) {ListNode dummy new ListNode(0);if (head null || k 1)return head;ListNode…...

编程日记 2025/8/25 21:30:02

Spring事务同步器在金融系统中的应用：从风控计算到交易投递

一句话总结通过 TransactionSynchronization 机制，成功将投行交易系统的可靠性提升至金融级要求，并在对公贷款风控中实现高效资源管理。未来，事务管理将不仅仅是“提交”与“回滚”的二元选择，而是向智能化、实时化演进的核心基础设施。 1. 架构设计 1.1 整体架构图 2.…...

编程日记 2025/8/26 11:54:21

sealos跳转到cusor安装出错

第一次打开cursor安装出错怎么办我出现这个问题的解决方式是重新下载并且切换目录解决...

编程日记 2025/8/25 0:45:00

【CUDA 】第3章 CUDA执行模型——3.5循环展开（1）

CUDA C编程笔记第三章 CUDA执行模型3.5 循环展开3.5.1 展开的规约待解决的问题： 第三章 CUDA执行模型 3.5 循环展开循环展开是一种循环优化的技术，通过减少分支出现频率循环维护指令。循环主体代码被多次编写，任何封闭的循环可以把迭代…...

编程日记 2025/8/25 19:15:43

AndroidStudio编译报错 Duplicate class kotlin

具体的编译报错信息如下： Duplicate class kotlin.collections.jdk8.CollectionsJDK8Kt found in modules kotlin-stdlib-1.8.10 (org.jetbrains.kotlin:kotlin-stdlib:1.8.10) and kotlin-stdlib-jdk8-1.6.21 (org.jetbrains.kotlin:kotlin-stdlib-jdk8:1.6.21) D…...

编程日记 2025/8/28 14:30:31

LeetCode hot 100—搜索二维矩阵

题目给你一个满足下述两条属性的 m x n 整数矩阵： 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。给你一个整数 target ，如果 target 在矩阵中，返回 true ；否则，返回 fa…...

编程日记 2025/8/26 21:14:49

栈与队列习题分享（精写）

最小栈题解一、题目描述设计一个支持 push ，pop ，top 操作，并能在常数时间内检索到最小元素的栈。实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素 val 推入堆栈。 void pop() 删除堆栈顶部的元素。 int…...

编程日记 2025/8/24 12:20:27

Kotlin 集合过滤全指南：all、any、filter 及高级用法

在 Kotlin 中，集合过滤是数据处理的核心操作之一。无论是简单的条件筛选，还是复杂的多条件组合，Kotlin 都提供了丰富的 API。本文将详细介绍 filter、all、any、none 等操作符的用法，并展示如何在实际开发中灵活运用它们。 1. 基础…...

编程日记 2025/8/24 15:04:08

【lerobot】3-开源SO-100 主从臂的舵机位置校正、遥控操作（ubuntu系统）

官方从零教程：https://github.com/huggingface/lerobot/blob/main/examples/10_use_so100.md 8-lerobot aloha装配完毕如何进行遥操作需要先完成的组装好了so-100 2个机械臂下载安装了lerobot的代码环境：固定好主从臂，通过usb链接到同一个…...

编程日记 2025/8/27 16:14:23

影刀RPA证书题库包含初级、中级、高级和AP初级

影刀rpa初级证书选择题答案，影刀证书答案，影刀rpa考试，影刀初级考试，影刀初级考试选择题原因以前的在线题库https://exam.ezrpa.store/是为了方便更新题目和使用的，但经过实际使用发现大部分人“不会用”&#xff1…...

编程日记 2025/8/25 0:45:01

LR(0)

LR0就是当我处在自动机为红色这些结束状态的时候，这些红色状态就代表我们识别到了一个句柄，那现在的问题就是识别到了句柄，那要不要对他进行归约？LR0就是我不管当前指针指向的终结符是什么，我都拿它做规约这里的二号状…...

编程日记 2025/8/24 9:03:09

基于 Python 和 OpenCV 技术的疲劳驾驶检测系统（2.0 全新升级，附源码）

大家好，我是徐师兄，一个有着7年大厂经验的程序员，也是一名热衷于分享干货的技术爱好者。平时我在 CSDN、掘金、华为云、阿里云和 InfoQ 等平台分享我的心得体会。 🍅文末获取源码联系🍅 2025年最全的计算机软件毕业设计…...

编程日记 2025/8/24 16:15:24

Matplotlib库详解

Matplotlib 是 Python 里一个特别常用的绘图库，它能帮你创建各种各样的可视化图形，像折线图、柱状图、散点图等。对于数据可视化、数据分析和科学研究而言，它是非常重要的工具。接下来我会以初学者的视角，为你详细介绍 Matplotlib…...

编程日记 2025/8/27 13:11:51

daz dForce to UE 的原理分析

dForce是物理模拟，不是关键帧动画： dForce是一个物理引擎。当你运行模拟时，Daz Studio会根据你设置的物理属性（如裙子的重量、布料的硬度、摩擦力）、环境因素（如重力、风力）以及与角色的碰撞&am…...

编程日记 2025/8/24 11:20:06

速卖通商品详情API接口：功能、应用与开发指南

前言在全球跨境电商蓬勃发展的背景下，速卖通（AliExpress）作为阿里巴巴旗下的国际电商平台，凭借丰富的商品种类和庞大的用户群体，成为众多商家和开发者拓展海外市场的首选平台。为了满足商家和开发者对商品数据的深度…...

编程日记 2025/8/25 12:02:37

4月14日星期一今日早报简报微语报早读

4月14日星期一，农历三月十七，早报#微语早读。 1、全国田径大奖赛接力摘金，苏炳添的传奇将延续至全运会； 2、中国红基会：2024年全年总收支12.85亿元； 3、我国2025年电影总票房已突破250亿位居全球第一&a…...

编程日记 2025/8/24 21:55:12

快速排序(非递归版本)

引言在排序算法的世界里，快速排序以其高效的性能脱颖而出。它采用分治法的思想，通过选择基准元素将数组分为两部分，递归地对左右两部分进行排序。然而，递归实现的快速排序在处理大规模数据时可能会导致栈溢出的问题。为了解决这…...

编程日记 2025/8/25 12:35:52

Ubuntu20.04 设置开机自启

参考： Ubuntu20.04 设置开机自启_ubuntu进bos系统-CSDN博客...

编程日记 2025/8/26 15:36:45

添加登录和注册功能

先写前端再写后端前提：ideavue3mybatisspringBoot3前后端分离实现对一张表的增删改查（完整代码版）-CSDN博客项目地址 1.添加一个Login.vue视图 <template><div class"login_container"><div class"login…...

编程日记 2025/8/28 19:16:24

弱口令爆破

1.简单介绍弱口令是指一些简单易猜的密码，可通过社工方式和一些爆破工具进行破解，以下介绍一款爆破工具的用法。burpsuite简称BP，一款可以利用字典破解账户密码的工具。 2.部署网站可以使用PHPstudy的Apache服务，也可以使用I…...

编程日记 2025/8/26 19:46:29

springboot调用python文件，在ubuntu上部署，踩坑之旅（已部署成功）

项目介绍 springboot 调用python文件，python调用另一个数据文件，然后计算出结果，看似简单，实际上有很多坑，因为涉及到python的三方库，有时候下载不下来，有时候版本不匹配，折腾了好久…...

编程日记 2025/8/27 17:35:48

Android studio消息同步机制：消息本地存储，服务器交互减压

文章目录后端（Flask）代码前端（Android Studio Java）代码消息同步机制: 手机端可以将消息存储在本地数据库中，减少与服务器的交互压力。同时，通过序列号机制，手机端可以与服务器同步消息&#…...

编程日记 2025/8/28 22:40:53

前端常用组件库全览与推荐

📌 一、组件库生态全景图 🚀 二、React 生态组件库推荐名称简介官网Ant Design阿里出品，企业级 UI 系统，设计规范完整，适合后台系统https://ant.designMaterial UIGoogle Material Design 实现，样式响应式…...

编程日记 2025/8/17 18:58:56

视觉算法+雾炮联动：开创智能降尘新时代

在许多工业环境中，尤其是那些涉及大量物料搬运和处理的地方，如工厂或仓库，扬尘问题是一个普遍存在的挑战。这不仅影响了工作人员的工作条件，还可能构成健康和安全隐患。为了改善这一状况，不少业主采用了物理方法来减少…...

编程日记 2025/8/27 22:25:59

【Pandas】pandas DataFrame items

Pandas2.2 DataFrame Indexing, iteration 方法描述DataFrame.head([n])用于返回 DataFrame 的前几行DataFrame.at快速访问和修改 DataFrame 中单个值的方法DataFrame.iat快速访问和修改 DataFrame 中单个值的方法DataFrame.loc用于基于标签（行标签和列标签&#…...

编程日记 2025/8/25 13:30:17

易境通WMS系统代理仓解决方案：让代理仓管理无后顾之忧！

易境通WMS系统代理仓解决方案：让代理仓管理无后顾之忧！ 对于海外仓企业而言，除了自有仓库外，为了业务发展还会同时代理其他仓库，于是经常会面临主仓代理仓数据同步问题及费用问题。此外，由于个仓库分布较广…...

编程日记 2025/8/28 12:38:19

【智驾中的大模型 -2】VLM 在自动驾驶中的应用

1. 前言随着端到端 AI 和多模态学习的迅猛发展，VLM（视觉-语言模型）在自动驾驶领域中的应用正逐渐成为一个备受瞩目的重要研究方向。VLM 凭借其强大的融合能力，将视觉（如高清晰度的摄像头图像、精准的雷达数据&#x…...

编程日记 2025/8/27 7:53:53

L1-104 九宫格

L1-104 九宫格 - 团体程序设计天梯赛-练习集九宫格是一款数字游戏，传说起源于河图洛书，现代数学中称之为三阶幻方。游戏规则是：将一个 99 的正方形区域划分为 9 个 33 的正方形宫位，要求 1 到 9 这九个数字中的每个数字在每一行…...

编程日记 2025/8/27 21:50:48

图像预处理（OpenCV）-part2

4 边缘填充为什么要填充边缘呢？我们以下图为例。原图旋转后的图可以看到，左图在逆时针旋转45度之后原图的四个顶点在右图中已经看不到了，同时，右图的四个顶点区域其实是什么都没有的，因此我们需要对空出来的区域进…...

编程日记 2025/8/27 10:08:18

SpringAI-ollama

SpringAi主要依赖 System Prompt ：设置提示词用来预设角色 ConversationMemory: 对话集 RAG: 检索增强生成将业务数据存储在向量数据库中（做相似性检索）通过RAG进行链接 Function Calling 用来调用自己的api <dependencyManagement>&…...

编程日记 2025/8/27 17:36:07

如何在Windows 10系统中查看已连接WiFi密码-亲测可用-优雅草卓伊凡

如何在Windows 10系统中查看已连接WiFi密码-亲测可用-优雅草卓伊凡通过系统设置查看点击屏幕左下角的“开始”按钮，打开“设置”应用。在“设置”应用中，点击“网络和 Internet”。在“网络和 Internet”页面中，点击“WLAN”，…...

编程日记 2025/8/17 19:54:05

蓝耘赋能通义万相 2.1：用 C++ 构建高效 AI 视频生成生态

开篇：AI 视频生成新时代的号角通义万相 2.1：AI 视频生成的领军者核心技术揭秘功能特点展示与其他模型的全面对比 C：高效编程的基石 C 的发展历程与特性 C 在 AI 领域的广泛应用通义万相 2.1 与 C 的完美融合融合的意义与价值 …...

编程日记 2025/8/26 21:14:40

tmpfs的监控筛选/dev/shm下的shmem创建

一、背景在一个比较注重性能的系统上，共享内存的使用肯定非常普遍。为了能更好的了解系统里共享内存的使用，比如创建、删除等操作，我们是可以对其进行监控的。这篇博客以共享内存的创建监控为例来介绍如何监控共享内存。这里有一个概念…...

编程日记 2025/8/27 23:43:07

如果你在使用 Ubuntu/Debian：使用 apt 安装 OpenSSH

情况 1：如果你在使用 Ubuntu/Debian： 使用 apt 安装 OpenSSH： bash 复制 sudo apt update sudo apt install openssh-server 完成后检查 SSH 服务状态： bash 复制 sudo systemctl status ssh 情况 2：如果你在使用 Ce…...

编程日记 2025/8/28 5:54:50

设计模式每日硬核训练 Day 11：适配器模式（Adapter Pattern）完整讲解与实战应用

🔄 回顾 Day 10：模板方法模式小结在 Day 10 中，我们学习了模板方法模式： 它用于定义流程的“骨架”，将固定步骤放在父类，具体实现交给子类完成。实现了“统一流程差异化行为”的复用范式。而今天&am…...

编程日记 2025/8/26 14:25:24

xAI Elasticsearch 集群架构解析：索引数据规模与分片优化实践

Elasticsearch（ES）作为分布式搜索和分析引擎，是 xAI 构建高性能数据处理系统的基石。xAI 的业务场景，如实时日志分析、模型训练数据检索和用户行为分析，要求 Elasticsearch 集群兼顾高吞吐写入、低延迟查询和动态扩展能…...

编程日记 2025/8/27 16:14:26

[c语言日寄]时间复杂度

【作者主页】siy2333 【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是…...

编程日记 2025/8/27 12:32:39

快速幂(蓝桥杯)

1. 递归实现递归方法通过将问题分解为更小的子问题来实现。具体步骤如下： 如果指数 b 为 0，返回 1。如果 b 是偶数，则递归计算 (a^2)b/2。如果 b 是奇数，则递归计算 a⋅(a^2)(b−1)/2。伪代码： function fas…...

编程日记 2025/8/27 9:32:04

[Python基础速成]2-模块与包与OOP

上篇➡️[Python基础速成]1-Python规范与核心语法目录 Python模块创建模块与导入属性__name__dir()函数标准模块 Python包类类的专有方法对象继承多态 Python模块 Python 中的模块（Module）是一个包含 Python 定义和语句的文件，文件名就是模…...

编程日记 2025/8/26 0:24:27

Spring AOP 学习笔记之常用注解

0 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId><version>3.4.2</version></dependency> 要在springboot中启用AOP，需要引入spring-boot-…...

编程日记 2025/8/27 9:10:05

JVM——运行时数据区

目录 Class装载到JVM的过程装载（load）——查找和导入class文件正文------------------- Run-time Data Areas 运行时数据区 Method Area 方法区 Heap 堆 Java Virtual Machine Stacks（Java虚拟机栈） The PC Register 程…...

编程日记 2025/8/27 5:02:05

Conda 入门指令教程

Conda 入门指令教程 Conda 是一个强大的包和环境管理工具，广泛应用于数据科学和机器学习项目中。本文将介绍 Conda 的常用指令，帮助你快速上手。 1. Conda 基础操作查看 Conda 版本 conda --version显示当前安装的 Conda 版本。更新 Conda conda…...

编程日记 2025/8/26 0:24:32

基于STM32、HAL库的MAX14830总线转UART驱动程序设计

一、简介： MAX14830是一款四通道UART扩展器，通过SPI或I2C接口与微控制器通信。主要特性包括： 4个独立的全双工UART通道可编程波特率（最高达12Mbps）每个通道有128字节的发送和接收FIFO 支持硬件和软件流控制可配置的GPIO引脚工作电压：1.7V至5.5V 低功耗模式二、硬件…...

编程日记 2025/8/26 4:45:12