数据安全_笔记系列09_人工智能(AI)与机器学习(ML)在数据安全中的深度应用
数据安全_笔记系列09_人工智能(AI)与机器学习(ML)在数据安全中的深度应用
人工智能与机器学习技术通过自动化、智能化的数据分析,显著提升了数据分类、威胁检测的精度与效率,尤其在处理非结构化数据、复杂威胁场景和降低误报/漏报率方面表现突出。以下从 技术原理、应用场景、实施流程、工具与案例 展开解析:
一、AI/ML 如何提升数据安全能力?
1. 核心价值
-
复杂数据识别:解析非结构化数据(文本、图像、音视频)中的敏感信息。
-
动态威胁检测:发现传统规则引擎无法覆盖的新型攻击模式(如零日漏洞利用)。
-
降低人工依赖:自动化分类、告警优先级排序,减少安全团队负担。
2. 技术实现路径
技术方向 | 解决的问题 | 典型算法与模型 |
---|---|---|
自然语言处理(NLP) | 识别文本中的敏感实体(如合同中的身份证号) | BERT、RoBERTa(预训练模型)+ CRF(序列标注) |
计算机视觉(CV) | 检测图片/视频中的敏感信息(如工牌、病历) | YOLO(目标检测)、OCR(文字识别) |
异常检测 | 发现异常访问行为(如内部人员数据窃取) | 孤立森林(Isolation Forest)、LSTM(时序分析) |
预测性防御 | 预判数据泄露风险并提前加固 | 强化学习(RL)、图神经网络(GNN) |
二、降低误报/漏报率的关键技术
1. 数据增强与样本平衡
-
问题:安全事件样本少(如真实泄露仅占日志的0.1%),导致模型偏向多数类(高漏报)。
-
方案:
-
过采样(SMOTE):生成合成少数类样本。
-
对抗训练(GAN):模拟攻击数据,提升模型鲁棒性。
-
2. 多模型融合与集成学习
-
问题:单一模型可能因数据分布变化失效(如新业务上线导致特征漂移)。
-
方案:
-
Stacking 模型:组合多个基模型(如随机森林+SVM)的输出结果。
-
在线学习(Online Learning):实时更新模型参数,适应动态环境。
-
3. 可解释性优化
-
问题:黑盒模型(如深度学习)难以定位误报原因,阻碍策略调整。
-
方案:
-
SHAP/LIME 解释器:可视化特征贡献度(如“触发告警因IP地址异常”)。
-
规则-模型混合系统:用规则引擎过滤明显误报(如排除白名单IP的告警)。
-
三、典型应用场景与案例
1. 智能数据分类分级
-
场景:企业文件服务器中混杂大量非结构化文档(合同、设计图),需自动识别敏感内容。
-
技术实现:
-
NLP模型:提取文本中的PII(姓名、地址),分类为“机密”等级。
-
CV模型:扫描设计图纸中的水印标记,判断知识产权归属。
-
-
工具:Microsoft Purview(集成AI分类器)、Elasticsearch 智能插件。
2. DLP中的上下文感知阻断
-
场景:员工试图将客户数据外发至个人网盘,传统DLP可能误判合法操作。
-
技术实现:
-
用户行为分析(UEBA):结合历史操作(如该员工从未访问过此类数据)提升判断准确率。
-
语义理解:分析邮件正文语境(如“测试数据” vs. “生产数据”),动态调整策略。
-
-
案例:Symantec DLP 使用 ML 模型将误报率降低 60%。
3. 自适应加密策略
-
场景:根据数据敏感度动态选择加密强度,平衡安全与性能。
-
技术实现:
-
强化学习(RL):模型基于历史攻击数据优化加密策略(如高敏感数据强制SM4,低敏感数据使用AES-128)。
-
实时风险评估:结合威胁情报(如IP信誉库)动态调整加密级别。
-
四、实施流程与工具链
1. 实施步骤
-
数据采集与标注:
-
收集日志、文件样本,人工标注敏感数据类别(如“身份证号”“商业秘密”)。
-
工具:Label Studio、Prodigy(主动学习标注平台)。
-
-
特征工程:
-
结构化数据:提取访问频率、数据大小、用户角色等特征。
-
非结构化数据:转换为词向量(Word2Vec)、图像特征(ResNet)。
-
-
模型训练与调优:
-
框架:TensorFlow/PyTorch(深度学习)、Scikit-learn(传统ML)。
-
调参工具:Optuna、Ray Tune(自动化超参数优化)。
-
-
部署与监控:
-
模型部署:ONNX 格式跨平台部署,集成至SIEM/DLP系统。
-
持续监控:检测模型性能衰减(如AUC下降),触发重新训练。
-
2. 开源与商业工具
类型 | 工具 | 功能 |
---|---|---|
开源框架 | TensorFlow、Hugging Face Transformers | 构建NLP/CV模型 |
安全分析平台 | Apache Metron、Elastic Security | 集成ML模块,实时威胁检测 |
商业AI引擎 | Darktrace ANTIGENAI、Vectra AI | 自适应威胁建模,自动生成防御策略 |
五、挑战与解决方案
挑战 | 解决方案 |
---|---|
数据隐私与合规 | 联邦学习(Federated Learning):模型训练不集中原始数据,满足GDPR要求。 |
计算资源消耗 | 边缘AI(Edge AI):在终端设备执行轻量级推理(如TinyML),减少云端依赖。 |
对抗样本攻击 | 对抗训练(Adversarial Training):在训练数据中注入扰动样本,提升模型抗攻击能力。 |
六、行业案例
1. 金融行业:AI驱动的交易欺诈检测
-
问题:传统规则无法识别新型洗钱模式(如分散转账规避阈值)。
-
方案:
-
使用图神经网络(GNN)分析资金流动网络,识别隐蔽关联账户。
-
结果:漏报率下降35%,误报率降低50%(某银行案例)。
-
2. 医疗行业:病历脱敏与合规检查
-
问题:人工检查海量病历中的敏感信息效率低下。
-
方案:
-
NLP模型自动识别病历中的PHI(个人健康信息),并进行动态遮蔽。
-
工具:AWS Comprehend Medical(预训练医疗NLP模型)。
-
3. 制造业:设计图纸泄露防护
-
问题:员工拍照上传设计图至社交平台,传统DLP无法识别图像内容。
-
方案:
-
CV模型(YOLOv5)检测图纸中的水印与机密标识,实时阻断外传。
-
结果:知识产权泄露事件减少70%。
-
七、总结与建议
-
核心优势:AI/ML 解决了传统规则引擎在 复杂数据、新型威胁、动态环境 下的瓶颈。
-
落地关键:
-
高质量数据:标注数据集的质量直接影响模型效果。
-
人机协同:AI提供决策支持,最终策略需人工审核。
-
持续迭代:定期更新模型,应对数据分布变化与新型攻击手法。
-
-
未来趋势:
-
生成式AI:利用GPT-4生成模拟攻击数据,提升检测模型泛化能力。
-
因果推理:定位数据泄露的根本原因(如权限配置错误),而不仅是表面特征。
-
通过合理应用AI技术,企业可实现从 被动防御到主动预测 的转变,构建更智能、更精准的数据安全体系。
相关文章:
数据安全_笔记系列09_人工智能(AI)与机器学习(ML)在数据安全中的深度应用
数据安全_笔记系列09_人工智能(AI)与机器学习(ML)在数据安全中的深度应用 人工智能与机器学习技术通过自动化、智能化的数据分析,显著提升了数据分类、威胁检测的精度与效率,尤其在处理非结构化数据、复杂…...
跨平台公式兼容性大模型提示词模板(飞书 + CSDN + Microsoft Word)
飞书云文档 CSDN MD编辑器 Microsoft Word 跨平台公式兼容方案: 一、背景痛点与解决方案 在技术文档创作中,数学公式的跨平台渲染一直存在三大痛点: 飞书云文档:原生KaTeX渲染与导出功能存在语法限制微软Word:Math…...
Redis面试题----Redis 的持久化机制是什么?各自的优缺点?
Redis 提供了两种主要的持久化机制,分别是 RDB(Redis Database)和 AOF(Append Only File),下面将详细介绍它们的原理、优缺点。 RDB(Redis Database) 原理 RDB 持久化是将 Redis 在某个时间点上的数据集快照以二进制文件的形式保存到磁盘上。可以通过手动执行 SAVE …...
Leetcode-接雨水(单调栈)
给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] …...
[ComfyUI]官方已支持Skyreels混元图生视频,速度更快,效果更好(附工作流)
一、介绍 昨天有提到官方已经支持了Skyreels,皆大欢喜,效果更好一些,还有GGUF量化版本,进一步降低了大家的显存消耗。 今天就来分享一下官方流怎么搭建,我体验下来感觉更稳了一些,生成速度也更快…...
安宝特方案 | 电力行业的“智能之眼”,AR重新定义高效运维!
引言: 电力行业正经历智能化变革,安宝特AR数字化工作流以四大核心优势,为电力企业打造全场景智慧运维方案! 四大颠覆性功能,直击行业痛点 1、高度自定义作业流程 支持图文指引、语音播报、AI实时识别(如…...
游戏引擎学习第124天
仓库:https://gitee.com/mrxiao_com/2d_game_3 回顾/复习 今天是继续完善和调试多线程的任务队列。之前的几天,我们已经介绍了多线程的一些基础知识,包括如何创建工作队列以及如何在线程中处理任务。今天,重点是解决那些我们之前没有注意到…...
微软推出Office免费版,限制诸多,只能编辑不能保存到本地
易采游戏网2月25日独家消息:微软宣布推出一款免费的Office版本,允许用户进行基础文档编辑操作,但限制颇多,其中最引人关注的是用户无法将文件保存到本地。这一举措引发了广泛讨论,业界人士对其背后的商业策略和用户体验…...
spring中的注解介绍
本篇文章专门用来介绍spring中的各种注解。 1、RestController 1、含义 2、举例 3、使用场景 RestController 通常用于开发 RESTful API,适合返回 JSON 或 XML 数据的场景 4、总结 RestController 是 Spring 中用于简化 RESTful Web 服务开发的注解,它结…...
修改`FSL Yocto Project Community BSP`用到的u-boot源码,使其能适配百问网(100ask)的开发板
前言 在博文 https://blog.csdn.net/wenhao_ir/article/details/145547974 中,我们利用官方提供的BSP(FSL Yocto Project Community BSP)构建了写到SD卡中的完整镜像,然后启动后发现存在不少问题,首要的问题就是u-boot不能识别网卡,在这篇博文中,我们就找到FSL Yocto Pro…...
DeepSeek开源周Day2:DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库
项目地址:https://github.com/deepseek-ai/DeepEP 开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (2/5)! 引言 在大模型训练中,混合专家模型(Mixture-of-Experts, MoE)因其动…...
计算机毕业设计 ——jspssm506Springboot 的旧物置换网站
作者:程序媛9688 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题(免费咨询指导选题)…...
观成科技:海莲花“PerfSpyRAT”木马加密通信分析
1.概述 在2024年9月中旬至10月,东南亚APT组织“海莲花”通过GitHub发布开源安全工具项目,针对网络安全人员发起了定向攻击。通过对相关攻击活动进行分析,可以将其与一些海莲花的样本关联起来。这些样本的通信数据结构与海莲花此前使用的攻击…...
在使用 npm link 进行本地 npm 包调试时,是否需要删除项目中已安装的依赖包取决于你的调试场景和依赖管理方式
1. 默认情况下不需要删除已安装的包 npm link 的工作原理: 当你在项目中运行 npm link <package-name> 时,npm 会创建一个符号链接(symlink),将项目的 node_modules/<package-name> 指向全局的软链包&am…...
Springboot快速接入豆包大模型
背景 突然接到上面的通知,想要在系统里面接入各大模型的能力,我这边随机选了个豆包,然后快速对接了一下,很顺利,一把过,现在文档的快速入门还是很ok的,在此记录一下过程,给宝子们参考…...
w803|联盛德|WM IoT SDK2.X测试|window11|TOML 文件|外设|TFT_LCD|测试任务|(5):TFT_LCD_LVGL示例
TFT_LCD_LVGL 功能概述 此应用程序是使用 WM IoT SDK 进行 LVGL 功能的示例。它演示了如何初始化 TFT LCD 设备,并创建 LVGL DEMO Task 进行 LVGL 模块的初始化,并展示 LVGL 原生的不同 Demo 场景, 例如: Widgets, Music Player, Benchmark…...
java23种设计模式-观察者模式
观察者模式(Observer Pattern)学习笔记 编程相关书籍分享:https://blog.csdn.net/weixin_47763579/article/details/145855793 DeepSeek使用技巧pdf资料分享:https://blog.csdn.net/weixin_47763579/article/details/145884039 1.…...
【MySQL 一 数据库基础】深入解析 MySQL 的索引(3)
索引 索引操作 自动创建 当我们为一张表加主键约束(Primary key),外键约束(Foreign Key),唯一约束(Unique)时,MySQL会为对应的的列自动创建一个索引;如果表不指定任何约束时,MySQL会自动为每一列生成一个索引并用ROW_I…...
本地部署 deepseek-r1 1.5B方法-ubuntu20.04 python3.10 pycharm虚拟环境
1. 环境安装 ubuntu20.04 python3.10 pycharm虚拟环境 2.拉取代码 虚拟环境下安装vllm: pip install vllm ubuntu命令窗口安装 sudo apt install git-lfs 初始化 Git LFS 安装 Git LFS 后,你需要虚拟环境命令窗口初始化它:git lfs i…...
【Qt】为程序增加闪退crash报告日志
背景 随着软件代码量的增加,软件崩溃闪退的肯能行越来越大,其中一些是难以复现的,比如访问了访问了非法地址、被操作系统杀死等。 为此,在软件出现闪退情况时,尽可能多的记录闪退发生时信息,对排查闪退原…...
Visual Studio打开文件后,中文变乱码的解决方案
文件加载 使用Unicode(UTF-8)编码加载文件 C:\WorkSpace\Assets\Scripts\UI\View\ExecuteComplateView.cs时,有些字节已用Unicode替换字符替换。保存该文件将不会保留原始文件内容。...
某住宅小区地下车库安科瑞的新能源汽车充电桩的配电设计与应用方案 安科瑞 耿笠
摘要:纯电动商用车的工作环境存在路况复杂、工况恶劣等情况,导致整车电气设备的磨损速率加快,造成电气设备绝缘电阻持续下降,如不及时处理,可能存在安全隐患或引发重大安全事故。文章从绝缘故障检测原理出发࿰…...
eclogy后台运维笔记(写的很乱,只限个人观看)
组织权限: 矩阵管理 这个很重要,比如进行流程操作者的选择时,我们进行需要选择财务部的出纳,会计,总经理。我们不能去直接选定一个人,万一这个人离职了,那所有的流程都要手动修改,…...
结构型模式 - 适配器模式 (Adapter Pattern)
结构型模式 - 适配器模式 (Adapter Pattern) 适配器模式是一种结构型设计模式,它允许将一个类的接口转换成客户希望的另一个接口,使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。 类适配器,适用于要适配的类是一个接口…...
[2/11]C#性能优化-不要使用空析构函数-每个细节都有示例代码
前言 在C#开发中,性能优化是提升系统响应速度和资源利用率的关键环节。 当然,同样是所有程序的关键环节。 通过遵循下述建议,可以有效地减少不必要的对象创建,从而减轻GC的负担,提高应用程序的整体性能。记住…...
0-基于强化学习的图Transformer算法求解车辆路径问题(2023)
文章目录 Abstract1 Introduction2. Related Work2.1 引言2.2.基于RNN的VRP解决方案2.3.基于GNN的VRP解决方案2.4.基于Transformer的车辆路径问题求解方法3 边嵌入注意力模型3.1 编码器3.1.1 边嵌入多头注意力3.1.2. 前馈网络(FFN)、批量归一化和残差连接3.2 解码器3.2.1 解码…...
Linux:互斥
目录 一、互斥概念 二、互斥的使用函数 三、互斥的底层原理 一、互斥概念 互斥,全称是线程互斥,互斥是一套解决方案,用来保护临界资源。一般在多线程的代码中,要使用互斥这套解决方案来保护临界资源。 主要从代码的角度理解互斥…...
单例模式——c++
一个类,只能有1个对象 (对象在堆空间) 再次创建该对象,直接引用之前的对象 so构造函数不能随意调用 so构造函数私有 so对象不能构造 如何调用私有化的构造函数: 公开接口调用构造函数 调用构造函数:singleTon instance; 但…...
C++之string类的模拟实现(超详细)
们学习东西,先学习如果使用它,然后再学习如何实现它 文章目录 目录 1. 命名空间以及头文件 2.string类的成员变量 3.string类的成员函数 3.1 构造函数 3.2 析构函数 3.3 拷贝构造函数 3.4 赋值运算符重载 3.5 c_str函数 3.6 size函数 3.7 clea…...
【Git 学习笔记_27】DIY 实战篇:利用 DeepSeek 实现 GitHub 的 GPG 密钥创建与配置
文章目录 1 前言2 准备工作3 具体配置过程3.1. 本地生成 GPG 密钥3.2. 导出 GPG 密钥3.3. 将密钥配置到 Git 中3.4. 测试提交 4 问题排查记录5 小结与复盘 1 前言 昨天在更新我的第二个 Vim 专栏《Mastering Vim (2nd Ed.)》时遇到一个经典的 Git 操作问题:如何在 …...
【原创工具】同文件夹PDF文件合并 By怜渠客
【原创工具】同文件夹PDF文件合并 By怜渠客 原贴:可批量合并多个文件夹内的pdf工具 - 吾爱破解 - 52pojie.cn 他这个存在一些问题,并非是软件内自主实现的PDF合并,而是调用的pdftk这一工具,但楼主并没有提供pdftk,而…...
kafka-leader -1问题解决
一. 问题: 在 Kafka 中,leader -1 通常表示分区的领导者副本尚未被选举出来,或者在获取领导者信息时出现了问题。以下是可能导致出现 kafka leader -1 的一些常见原因及相关分析: 1. 副本同步问题: 在 Kafka 集群中&…...
图像融合+语义
图像配准+融合语义方法总结 1.Joint framework of image registration and fusion RFNet: Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion(2022CVPR) Unsupervised misaligned infrared and visible image fusion via…...
AI人工智能机器学习之监督学习和集成学习
1、概要 本篇学习AI人工智能机器监督学习框架下的集成学习,以鸢尾花iris数据集、随机森林模型和梯度提升为示例,从代码层面测试和讲述监督学习和集成学习能。 2、监督学习和集成学习 - 简介 监督学习和集成学习是机器学习领域中的两个重要概念。 监督…...
通过返回的key值匹配字典中的value值
需求 页面中上面搜索项有获取字典枚举接口,table表格中也有根据key匹配字典中的value 方案一 需要做到的要求 这里上面下拉列表是一个组件获取的字典,下面也是通过字典匹配,所以尽量统一封装一个函数,每个组件保证最少变动tabl…...
30 分钟从零开始入门 CSS
HTML CSS JS 30分钟从零开始入门拿下 HTML_html教程-CSDN博客 30 分钟从零开始入门 CSS-CSDN博客 JavaScript 指南:从入门到实战开发-CSDN博客 前言 最近也是在复习,把之前没写的博客补起来,之前给大家介绍了 html,现在是 CSS 咯…...
矩阵的奇异值(SVD)分解和线性变换
矩阵的奇异值(SVD)分解和线性变换 SVD定义 奇异值分解(Singular Value Decomposition,简称 SVD)是一种重要的线性代数工具,能够将任意矩阵 ( A ∈ R m n \mathbf{A} \in \mathbb{R}^{m \times n} A∈Rmn…...
Kubernetes与Docker:区别与优劣总结
在云原生技术栈中,Docker和Kubernetes是两大核心工具,但它们的功能定位和使用场景截然不同。本文将从技术原理、架构设计、功能特性及适用场景等角度,深入分析两者的区别与优劣,并结合实际应用场景说明如何协同使用。 一、核心技术…...
表单验证和正则表达式
表单验证 表单:收集用户信息,并把信息发送给服务器程序进行处理 what 验证数据的格式,将符合标准数据格式要求的数据,发送给后台。 对用户的输入做格式校验,确保能够发送到后台服务器的数据一定是正确的。降低服务器…...
汽车免拆诊断案例 | 保时捷车发动机偶发熄火故障 2 例
案例1 2008款保时捷卡宴车行驶中发动机偶发熄火 故障现象 一辆2008款保时捷卡宴车,搭载4.8 L 自然吸气发动机,累计行驶里程约为21万km。车主反映,该车行驶中发动机偶发熄火;重新起动,发动机能够起动着机ÿ…...
mongodb【实用教程】
MongoDB 是一个开源的文档型数据库管理系统 下载安装 Windows 系统 https://blog.csdn.net/weixin_41192489/article/details/126777309 GUI工具 【推荐】MongoDB Compass https://www.mongodb.com/zh-cn/docs/compass/current/ Robo 3T https://blog.csdn.net/weixin_4119248…...
Javaweb后端数据库多表关系一对多,外键,一对一
多表关系 一对多 多的表里,要有一表里的主键 外键 多的表上,添加外键 一对一 多对多 案例...
React(10)
项目实践--创建项目 在store的modules中创建相关的子仓库暴露到仓库index文件中 导入creatSlice和axios 创建仓库 和数据的异步修改方法 // 编写store // 导入createSlice和axios import { createSlice } from "reduxjs/toolkit"; import axios from "axios&…...
JAVA实战开源项目:靓车汽车销售网站(Vue+SpringBoot) 附源码
本文项目编号 T 093 ,文末自助获取源码 \color{red}{T093,文末自助获取源码} T093,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...
【大语言模型】【整合版】DeepSeek 模型提示词学习笔记(散装的可以看我之前的学习笔记,这里只是归纳与总结了一下思路,内容和之前发的差不多)
以下是个人笔记的正文内容: 原文在FlowUs知识库上,如下截图。里面内容和这里一样,知识排版好看一点 一、什么是 DeepSeek 1. DeepSeek 简介 DeepSeek 是一家专注于通用人工智能(AGI)的中国科技公司,主攻大模型研发与…...
网络安全扫描--基础篇
前言 1、了解互联网安全领域中日趋重要的扫描技术 2、了解在不同网络场景下扫描技术手段 3、熟悉linux下系统内核防护策略并能大件一个有效的系统防护体系 4、增强工作安全意识,并能有效的实践于工作场景中 目录 1、熟悉主机扫描工具(fping,…...
Python网络安全脚本
🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 前言 睡不着,那就起来学习其实base64模块很早之前用过今天做爬虫的时候有个URL需要用它来编码一下 所以百度又学了一下遇到最大的问题就是python3和p…...
ElasticSearch查询指南:从青铜到王者的骚操作
ElasticSearch查询指南:从青铜到王者的骚操作 本文来源于笔者的CSDN原创,由于掘金>已经去掉了转载功能,所以只好重新上传,以下图片依然保持最初发布的水印(如CSDN水印)。(以后属于本人原创均…...
四、详细解释:网络与连接操作命令
1. ping – 测试网络连通性 用途:检查与目标主机之间的网络连接是否通畅。 语法: ping [选项] 目标IP或域名常用选项: -c 次数:指定发送数据包的次数(默认无限次,需手动 CtrlC 终止)。-i 秒数&…...
前端关于Cursor编辑器的了解与深度使用及对工作的便利
1. 什么是 Cursor 编辑器? Cursor 是一款基于 AI 的现代代码编辑器,类似于 VS Code,但内置了强大的 AI 功能。它的核心目标是帮助开发者更快、更智能地编写代码。 主要特点: AI 驱动的代码补全:提供上下文相关的智能代码建议。代码生成与修复:通过自然语言描述生成代码…...