[笔记.AI]向量化
(借助 DeepSeek-V3 辅助生成)
向量化的定义
向量化(Vectorization) 是将文本、图像、音频等非结构化数据转换为高维数值向量(即一组数字)的过程。这些向量能够捕捉数据的语义、特征或上下文信息,使计算机能够通过数学运算(如相似度计算、聚类、分类等)处理和理解非结构化内容。
为什么需要向量化?
计算机无法直接理解文字、图片等非结构化数据,但可以高效处理数值。向量化通过将数据映射到数学空间,实现以下目标:
-
语义抽象:用向量表示数据的内在含义(例如“猫”和“狗”的向量相似,但与“汽车”差异较大)。
-
计算兼容性:支持机器学习模型的矩阵运算、相似度检索(如余弦相似度)等操作。
-
降维与泛化:将复杂数据压缩为低维稠密向量,保留关键特征,减少噪声。
向量化的关键步骤
以文本为例,典型的向量化流程包括:
-
分词(Tokenization):将文本拆分为模型可处理的单元(如词、子词)。
-
映射到初始向量:通过嵌入层(Embedding Layer)将每个 Token 转换为向量。
-
上下文编码:利用模型(如 Transformer)对向量序列进行加工,生成包含上下文信息的最终表示。
与向量化相关的核心概念
1. 词嵌入(Word Embedding)
-
定义:将单个词映射为固定维度的向量,例如 Word2Vec、GloVe。
-
特点:
-
静态嵌入:一个词在不同上下文中向量不变(如“苹果”无论指水果还是公司,向量相同)。
-
示例:通过 Word2Vec,“国王 - 男人 + 女人 ≈ 女王”。
-
代表模型:Word2Vec、FastText、GloVe。
-
如何理解 “国王 - 男人 + 女人 ≈ 女王”?
这一经典示例揭示了 词向量(Word Embedding) 的核心特性:词向量空间中存在可解释的语义关系,且这些关系可以通过 向量加减法 进行数学化表达。以下是分步解释:
1. 词向量的基本性质
在 Word2Vec 模型中,每个词被映射为一个高维向量(例如 300 维),这些向量满足:
语义相似性:语义相近的词(如“猫”和“狗”)在向量空间中距离较近。
线性可组合性:词与词之间的语义关系(如“性别”“国家-首都”)表现为向量空间中的 方向。
2. 示例的数学表达
以“国王 - 男人 + 女人 ≈ 女王” 公式为例
向量差的意义:
"国王 - 男人"表示“国王”相对于“男人”的语义差异,即“王权”属性。
"女人+(国王 - 男人)" 表示将“王权”属性赋予“女人”,得到“女王”。3. 背后的语义逻辑
关系类比:
类比“男人 → 国王 : 女人 → ?”,人类可推断答案为“女王”。
Word2Vec 通过向量运算复现了这一逻辑。
方向一致性:
“性别差异”(Man→Woman)和“地位差异”(Man→King)在向量空间中表现为 正交或近似线性 的方向,使得叠加操作可行。
4. 技术实现原理
Word2Vec 通过以下方式捕捉此类关系:
上下文共现统计:
“国王”和“女王”在类似上下文出现(如“统治”“王冠”),但分别与“男人”“女人”关联。
模型通过预测上下文词的任务,使相关词的向量自动对齐。
向量空间结构:
语义关系(如性别、时态、国家-首都)被编码为 超平面或子空间。
例如,所有“国家-首都”对(如“中国-北京”“法国-巴黎”)的向量差方向近似一致。
5. 其他经典示例
Word2Vec 的线性关系广泛存在于语义和语法中:
首都关系:
中国−北京≈法国−巴黎动词时态:
跑−跑步≈吃−吃饭形容词比较级:
大−更大≈快−更快
6. 局限性
尽管直观,这种线性关系并非万能:
复杂性限制:
仅能捕捉简单的一阶关系(如性别、时态),无法表达嵌套逻辑(如“如果…那么…”)。
语境缺失:
Word2Vec 是静态嵌入,同一词在不同语境中的向量不变(如“苹果”无法区分水果和公司)。
数据偏差:
训练语料中的偏见会被编码到向量中(如“程序员 - 男人 + 女人 ≈ 家庭主妇”)。
7. 实际应用场景
语义搜索:通过向量加减扩展查询(如搜索“智能手机”时,隐含包含“屏幕”“处理器”等关联词)。
推荐系统:计算用户偏好向量(用户=历史点击商品−未点击商品+新趋势)。
文本生成:控制生成内容的属性(如“浪漫的诗 = 诗 + 爱情 - 战争”)。
总结:词向量的哲学启示
这一现象表明,语言中的抽象概念可以被编码为数学空间中的几何结构。Word2Vec 的发现启发了后续模型(如 BERT、GPT)对上下文动态关系的建模,推动了 NLP 从“符号处理”到“语义计算”的范式转变。尽管技术不断演进,这一经典示例仍是理解词嵌入本质的基石。
2. 上下文感知嵌入(Contextual Embedding)
-
定义:同一词在不同句子中生成不同的向量,依赖上下文动态调整。
-
特点:
-
动态嵌入:例如 BERT 中,“银行”在“存钱”和“河岸”的上下文中向量不同。
-
更精准的语义捕捉。
-
-
代表模型:BERT、RoBERTa、GPT 系列。
3. 嵌入层(Embedding Layer)
-
定义:神经网络中的一层,负责将离散的 Token 转换为稠密向量。
-
作用:
-
初始化向量表示(如随机生成)。
-
在模型训练中通过反向传播优化向量。
-
-
示例:在 Transformer 模型中,嵌入层的输出会叠加位置编码(Positional Encoding)。
4. 向量空间(Vector Space)
-
定义:向量所存在的多维数学空间,语义相近的向量在空间中距离较近。
-
关键性质:
-
相似性度量:常用余弦相似度或欧氏距离衡量向量间关系。
-
可视化:可通过降维技术(如 PCA、t-SNE)将高维向量投影到2D/3D空间。
-
5. 预训练与微调(Pre-training & Fine-tuning)
-
预训练:在大规模数据上训练模型,学习通用的向量表示(如 BERT 的 MLM 任务)。
-
微调:在特定任务(如情感分析)上调整向量表示,使其适配下游任务。
6. 位置编码(Positional Encoding)
-
定义:为向量添加位置信息,使模型感知 Token 的顺序。
-
示例:在 Transformer 中,使用正弦函数或可学习参数编码位置。
7. 降维技术(Dimensionality Reduction)
-
目的:降低向量维度,便于可视化或高效计算。
-
方法:PCA(主成分分析)、t-SNE、UMAP。
8. 向量数据库(Vector Database)
-
作用:存储和检索向量化后的数据,支持相似度搜索。
-
应用场景:与大模型结合实现 RAG(检索增强生成)、推荐系统等。
向量化的应用示例
-
语义搜索
-
将用户查询和文档向量化,通过相似度匹配返回最相关结果。
-
-
文本分类
-
用向量表示文本,训练分类器(如 SVM、神经网络)识别类别。
-
-
跨模态检索
-
将文本和图像映射到同一向量空间,实现“以文搜图”或“以图搜文”。
-
-
大模型生成
-
在生成回答前,从向量数据库中检索相关知识,提升准确性(RAG)。
-
总结:向量化的意义与挑战
维度 | 说明 |
---|---|
核心价值 | 将非结构化数据转化为可计算的数学表示,打通人类语言与机器理解的桥梁。 |
技术挑战 | 如何设计模型使向量精准捕捉语义、上下文和多模态关联? |
未来方向 | 更高效的嵌入模型、统一的多模态向量空间、与量子计算的结合。 |
通过向量化,我们使机器能够“理解”语言、图像等复杂数据,这是大模型、推荐系统、智能搜索等技术的基石。
相关文章:
[笔记.AI]向量化
(借助 DeepSeek-V3 辅助生成) 向量化的定义 向量化(Vectorization) 是将文本、图像、音频等非结构化数据转换为高维数值向量(即一组数字)的过程。这些向量能够捕捉数据的语义、特征或上下文信息&#x…...
NSSCTF(MISC)—[justCTF 2020]pdf
相应的做题地址:https://www.nssctf.cn/problem/920 binwalk分离 解压文件2AE59A.zip mutool 得到一张图片 B5F31内容 B5FFD内容 转换成图片 justCTF{BytesAreNotRealWakeUpSheeple}...
Angular的理解
Angular 是一个由 Google 维护的全功能前端框架,适合构建复杂的企业级应用。它采用 TypeScript 作为首选语言,提供了一套完整的解决方案,包括数据绑定、依赖注入、路由、表单处理等。 1. Angular 的核心概念 1.1 组件化架构 Angular 应用由…...
广告推荐算法:COSMO算法与A9算法的对比
COSMO算法与A9算法的概念解析 1. A9算法 定义与背景: A9算法是亚马逊早期为电商平台研发的核心搜索算法,主要用于优化商品搜索结果的排序和推荐,其核心逻辑围绕产品属性与关键词匹配展开。自2003年推出以来,A9通过分析商品标题…...
10. 七大排序(含四种版本快排及优化) ******
排序算法时间复杂度(平均)时间复杂度(最坏)时间复杂度(最好)空间复杂度稳定性主要使用场景直接插入排序O(n)O(n)O(n)O(1)稳定小规模数据或基本有序数据希尔排序O(n^1.3)O(n)O(n log n)O(1)不稳定中等规模数据,对稳定性无要求选择排序O(n)O(n)O(n)O(1)不稳定小规模数…...
以下是C/C++后台开发常见的高概率面试题
一、语言基础 多态的实现 通过虚函数表(vtable)实现动态绑定,运行时根据对象类型调用对应的函数。虚函数通过virtual关键字声明,子类可重写基类虚函数112。 指针与引用的区别 指针是变量,存储地址,支持多…...
CentOS-查询实时报错日志-查询前1天业务报错gz压缩日志
最新版本更新 https://code.jiangjiesheng.cn/article/364?from=csdn 推荐 《高并发 & 微服务 & 性能调优实战案例100讲 源码下载》 1. 查询实时报错日志 物理路径(带*的放在靠后,或者不用*) cd /home/logs/java-gz-log-dir && tail -2000f java-gz-l…...
破界·共生:生成式人工智能(GAI)认证重构普通人的AI进化图谱
在当今这个科技日新月异的时代,人工智能(AI)正以惊人的速度改变着我们的世界。从智能家居到自动驾驶,从医疗诊断到金融分析,AI的应用已经渗透到社会生活的方方面面。面对如此迅猛的发展态势,我们不禁要问:人工智能的未来将走向何方?普通人又该如何把握这一历史机遇,学…...
HTTP代理:网页加速的隐形引擎
目录 引言:网页加载速度为何至关重要? 一、HTTP代理的核心加速原理 二、四大加速黑科技详解 三、实战场景性能对比 四、代理加速的隐藏代价 五、未来发展趋势 结语:智能代理的选型指南 引言:网页加载速度为何至关重要&#…...
Unity 常见报错 定位和查找方法
1.控制台 直接看报错信息 2.打log 例子: for(int i 0;i < 8;i) {Debug.Log(i);//这是打的log,看看到底i是几的时候出问题gameObject.name strs[i];} 3.断点调试 (1)在你想打断点的行,左边空白处点击可以打断点ÿ…...
人工智能之数学基础:初等反射阵
本文重点 在线性代数中,初等反射阵(Householder矩阵)作为一类特殊的正交矩阵,在矩阵变换、特征值计算及几何变换等领域具有广泛应用。其简洁的构造方式和丰富的数学性质,使其成为数值分析和几何处理中的重要工具。 什么是初等反射阵(豪斯霍尔德变换) I为单位矩阵,wwT…...
《Linux运维总结:基于银河麒麟V10操作系统+ARM64架构CPU二进制部署单机ACL版consul v1.18.1》
总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《Linux运维篇:Linux系统运维指南》 一、简介 1、什么是consul Consul是HashiCorp公司推出的开源工具,用于实现 分布式系统的服务发现与配置。 Consul是分布式的、高可用的、可横向扩展的。 架构图…...
web网站页面测试点---添加功能测试
添加 一、创建新的申请时,关闭网络查看数据是否存在,并提示网络错位相关提示语 二、在文本框内输入数据 1.在文本框内输入空格,查看文本内容前后是否存在空格 2.在文本框内输入最大长度,查看能否正确提交 3.在文本框内输入最大长…...
实操自动生成接口自动化测试用例
这期抽出来的问题是关于如何使用Eolinker自动生成接口自动化测试用例,也就是将API文档变更同步到测试用例,下面是流程的示例解析。 导入并关联API文档和自动化测试用例 首先是登陆Eolinker,可以直接在线使用。 进入流程测试用例详情页&am…...
【华为OD技术面试真题 - 技术面】- Java面试题(17)
华为OD面试真题精选 专栏:华为OD面试真题精选 目录: 2024华为OD面试手撕代码真题目录以及八股文真题目录 文章目录 华为OD面试真题精选虚拟机分区1. **虚拟磁盘分区**2. **虚拟机的内存分区**3. **CPU分配**4. **虚拟网络分区**5. **存储虚拟化和分区**6. **虚拟机分区管理**…...
mapState 函数的用法
mapState 是 Vuex 提供的一个辅助函数,其主要作用是将 Vuex 仓库中的状态映射到组件的计算属性中,这样在组件里就能像访问本地计算属性一样访问 Vuex 仓库中的状态。以下为你详细介绍 mapState 函数的不同用法。 1. 基本用法:对象形式 当使…...
【学Rust写CAD】17 通用2D仿射变换矩阵结构体(matrix/generic.rs)
源代码 // matrix.rs use std::ops::{Add, Mul};use std::ops::{Add, Mul};/// 通用2D仿射变换矩阵(元素仅需Copy) #[derive(Clone, Copy, Debug, PartialEq)] pub struct Matrix<X, Y, Xx, Xy, Yx, Yy> {pub x: X, pub y: Y,pub xx: Xx, pub xy:…...
STM32单片机入门学习——第3-4节: [2-1、2]软件安装和新建工程
写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.01 STM32开发板学习——第一节: [1-1]课程简介 前言开发板说明引用解答和…...
Linux详解
01 计算机组成原理 1、什么是计算机? 计算机俗称电脑,就相当于一种人造人, 电脑二字蕴含着人类的对计算机的终极期望,希望一通电就能够像人脑一样去工作 2、为何要有计算机? 为了造出一种机器来取代人去工作&…...
IP数据报报文格式
一 概述 IP数据报由两部分组成:首部数据部分。首部的前一部分是固定长度,一共20字节大小,是所有IP数据报文必须具有的;固定部分后面是一些可选字段,其长度是可变的。 二 首部固定部分各字段意义 (1&…...
自然语言处理(25:(终章Attention 1.)Attention的结构)
系列文章目录 终章 1:Attention的结构 终章 2:带Attention的seq2seq的实现 终章 3:Attention的评价 终章 4:关于Attention的其他话题 终章 5:Attention的应用 目录 系列文章目录 前言 Attention的结构 一.seq…...
Minimind 训练一个自己专属语言模型
发现了一个宝藏项目, 宣传是完全从0开始,仅用3块钱成本 2小时!即可训练出仅为25.8M的超小语言模型MiniMind,最小版本体积是 GPT-3 的 17000,做到最普通的个人GPU也可快速训练 https://github.com/jingyaogong/minimi…...
Android里面内存优化
核心思路 在Android开发中,内存优化是保证应用性能稳定和用户体验的关键。我通常从以下几个方面进行内存优化: 1. 内存泄漏检测与修复 使用LeakCanary等工具检测内存泄漏 常见内存泄漏场景: 静态变量持有Activity/Fragment引用 非静态内部…...
Git操作指南
Git操作指南 1.安装并配置Git Git官网:https://git-scm.com/downloads 安装完成后,打开Git Bash,配置Git: git config --global user.email "emailexample.com" git config --global user.name "Your Name&quo…...
【蓝桥杯—单片机】通信总线专项 | 真题整理、解析与拓展 (更新ing...)
通信总线专项 前言SPI第十五届省赛题 UART/RS485/RS232UARTRS485RS232第十三届省赛题小结和拓展:传输方式的分类第十三届省赛 其他相关考点网络传输速率第十五届省赛题第十二届省赛题 前言 在本文中我会把 蓝桥杯单片机赛道 历年真题 中涉及到通信总线的题目整理出…...
深入探究C语言中的二进制世界:从原理到实践
文章目录 深入探究C语言中的二进制世界:从原理到实践一、进制的本质与C语言实现1. 进制系统全景2. C语言中的进制表示3. 格式化输出进阶 二、进制转换的工程实践1. 转换算法实现2. 实际应用中的转换技巧快速二进制 - 十六进制转换位运算优化转换 3. 进制转换详细示例…...
【android bluetooth 协议分析 13】【RFCOMM详解 2】【通俗易懂 rfcomm 基本流程】
RFCOMM 协议 基本流程 一、连接建立流程(附 BTsnoop 实例解析) 1. L2CAP 通道建立 BTsnoop 表现: L2CAP_Connection_Request (PSM0x0003) // 请求建立RFCOMM专用通道L2CAP_Connection_Response (Success) // 对方同意作用:相…...
万字知识篇(2):SpringBoot的常用注解(上)
SpringBoot的常用注解非常的多,一篇文章根本讲不完,将分为上下两章,通过本章你将会系统的学习到: 1. 注解在SpringBoot中的作用 2. SpringBoot 常用注解速查表 3. 核心启动类注解 4. Configuration 5. Bean 6. PropertySource 7. …...
Postman —— postman实现参数化
什么时候会用到参数化 比如:一个模块要用多组不同数据进行测试 验证业务的正确性 Login模块:正确的用户名,密码 成功;错误的用户名,正确的密码 失败 postman实现参数化 在实际的接口测试中,部分参数每…...
Docker学习--容器生命周期管理相关命令--docker create 命令
docker create 命令作用: 会根据指定的镜像和参数创建一个容器实例,但容器只会在创建时进行初始化,并不会执行任何进程。 语法: docker create[参数] IMAGE(要执行的镜像) [COMMAND](在容器内部…...
算法基础_基础算法【高精度 + 前缀和 + 差分 + 双指针】
算法基础_基础算法【高精度 前缀和 差分 双指针】 ---------------高精度---------------791.高精度加法题目介绍方法一:代码片段解释片段一: 解题思路分析 792. 高精度减法题目介绍方法一:代码片段解释片段一: 解题思路分析 7…...
C语言深度解析:从零到系统级开发的完整指南
一、C语言的核心特性与优势 1. 高效性与直接硬件控制 C语言通过编译为机器码的特性,成为系统级开发的首选语言。例如,Linux内核通过C语言直接操作内存和硬件寄存器,实现高效进程调度。 关键点: malloc/free直接管理内存&#…...
Axure疑难杂症:完美解决中继器筛选问题(时间条件筛选、任性筛选)
亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! 课程主题:中继器筛选专题 主要内容:时间条件筛选、多条件组合筛选、多个单一条件混合筛选 应用场景:各类数据表的多条件筛选均可使用…...
汇编学习之《扩展指令指针寄存器》
什么是指令指针寄存器? EIP (Extended Instruction Pointer): 保存cpu 下一次将要执行的代码的地址。 通过OllyGbd可以看到CPU即将执行指令的地址和EIP 内部放入的地址一致,多次F8依然是这样。 这里要区分下,之前比如EAX,ECX我…...
oracle-blob导出,在ob导入失败
导出: [oraclelncs dmp]$ /home/oracle/sqluldr2 gistar/res#pwd192.168.205.58:1521/lndb query"select * from an_odn_picture where length(PIC_CONTENT)<25000" filean_odn_picture.csv Charsetutf8 textCSV 0 rows exported at 2025-…...
【Linux笔记】进程间通信——匿名管道||进程池
🔥个人主页🔥:孤寂大仙V 🌈收录专栏🌈:Linux 🌹往期回顾🌹:【Linux笔记】动态库与静态库的理解与加载 🔖流水不争,争的是滔滔不 一、Linux进程间通…...
Spring Boot 3.4.3 基于 Caffeine 实现本地缓存
在现代企业级应用中,缓存是提升系统性能和响应速度的关键技术。通过减少数据库查询或复杂计算的频率,缓存可以显著优化用户体验。Spring Boot 3.4.3 提供了强大的缓存抽象支持,而 Caffeine 作为一款高性能的本地缓存库,因其优异的…...
windows使用nvm管理node版本
1.下载地址:https://github.com/coreybutler/nvm-windows/releases 选择nvm-setup.exe 2.安装,下载完成后,以管理员身份运行 nvm-setup.exe,选择默认安装,一路next 3.使用,安装完成后会打开一个命令行窗口࿰…...
vscode集成deepseek实现辅助编程(银河麒麟系统)【详细自用版】
针对开发者用户,可在Visual Studio Code中接入DeepSeek,实现辅助编程。 可参考我往期文章在银河麒麟系统环境下部署DeepSeek:基于银河麒麟桌面&&服务器操作系统的 DeepSeek本地化部署方法【详细自用版】 一、前期准备 (…...
智谱大模型(ChatGLM3)PyCharm的调试指南
前言 最近在看一本《ChatGLM3大模型本地化部署、应用开发和微调》,本文就是讨论ChatGLM3在本地的初步布设。(模型文件来自魔塔社区) 1、建立Pycharm工程 采用的Python版本为3.11 2、安装对应的包 2.1、安装modelscope包 pip install model…...
MySQL GROUP BY分组获取非聚合列值方法
在使用MySQL进行数据库查询时,如果你需要对数据按照某个或某些列进行分组(GROUP BY),并且希望在结果中包含非聚合列的值,你可以通过以下几种方法来实现: 1. 使用聚合函数 虽然这不是直接获取非聚合列值的…...
多路径 TCP 调度的另一面
参考前面的文章 一个原教旨的多路径 TCP 和 MP-BBR 公平性推演,一直都破而不立,不能光说怎样不好,还得说说现状情况下,该如何是好。 如果 receiver 乱序重排的能力有限(拜 TCP 所赐),如果非要在多路径上传输 TCP&…...
在Qt中判断输入的js脚本是否只包含函数
目前在使用QtScriptEngine,在利用evaluate注册子函数时,要求用户输入的js文件中的内容仅仅是函数,函数体外不能出现一些变量的声明、函数的调用等其他代码。 反复咨询DeepSeek后,终于给出了一个目前测试可用的代码: b…...
【Easylive】MySQL中LEFT JOIN与INNER JOIN的使用场景对比
【Easylive】项目常见问题解答(自用&持续更新中…) 汇总版 在MySQL数据库查询中,JOIN操作是最常用的操作之一,而LEFT JOIN和INNER JOIN是两种最基础的JOIN类型。理解它们的区别和适用场景对于编写高效、准确的SQL查询至关重要…...
Boost库中的谓词函数
Boost库中的谓词函数 谓词函数基础概念 在编程中,谓词函数(Predicate Function)是指返回布尔值(true或false)的函数,用于检测输入是否满足特定条件。谓词函数在STL算法和Boost库中被广泛使用,…...
人工智能之数学基础:基于初等反射矩阵完成矩阵的QR分解
本文重点 QR分解是矩阵分解中的一种重要方法,它将一个矩阵分解为一个正交矩阵Q和一个上三角矩阵R的乘积,即A=QR。这种分解在求解线性方程组、最小二乘问题、特征值计算等领域有着广泛应用。 QR分解的定义 QR分解就是应用了初等反射矩阵,不断的通过初等反射矩阵,然后将A变…...
AI应用案例(1)——智能工牌和会话质检
今天开辟一个新的模块,自己平时也搜集一些典型的行业应用案例,不如就记录到C站,同时和大家也是个分享好了。 今天分享的企业和产品,是循环智能的智能工牌。 这个产品应用场景清晰,针对的行业痛点合理,解决…...
碰一碰发视频系统--基于H5场景开发
碰一碰发视频#碰一碰发视频#开发基于H5的"碰一碰发视频"交互系统(类似华为/苹果的NFC碰传但通过移动端网页实现),需要结合近场通信(NFC/H5 API)和媒体传输技术。以下是具体实现方案 #碰一碰营销系统# #碰一…...
kotlin扩展函数的实现原理
1. 编译时转换 在编译时,Kotlin 扩展函数会被转换为静态函数。这个静态函数的第一个参数是接收者类型(也就是被扩展的类),而调用扩展函数时,实际上是调用这个静态函数,并将接收者对象作为第一个参数传入。…...
激活函数学习笔记
Sigmoid:梯度消失、指数计算复杂运行慢、输出不是以0为中心,梯度平滑便于求导tanh:以0为中心,其他与sigmoid相似ReLu:transformer常用,解决了梯度消失问题、计算复杂度低,存在神经元死亡问题和梯…...