webrtc音频模块(三) windows Core Audio API及声音的播放
在前面介绍了ADM(Audio Device Module),它用于抽象音频设备管理和音频数据采集/播放接口。windows的实现是AudioDeviceWinowCode
,它封装了Core Audio APIs
实现了对音频设备的操作。
Core Audio APIs
windows提供了多种音频操作API,比如最常用的是 waveXxx
系列API,DirectSound
等。而Core Audio APIs
是这些API的基础,这些API使用Core Audio APIs
提供了更通用的功能。
如下图是Core Audio APIs的架构图:
Core Audio APIs
是一些高阶API(例如MME,DirectSound等)的基础。- 箭头的方向表示了音频数据的流向。
- 它有两种工作模式,共享模式和独占模式。共享模式就是大家(多个应用程序)同时播放声音(声音被混音),独占模式就是只能有一个程序播放,我一播,就没其他程序的声音了。
- 共享模式下,会有一个Audio Service进行协调各应用程序间的音频数据处理。这个很容易理解,多路声音,总该需要一个大管家来协调使用设备。
- 独占模式下,音频数据就直接到内核的驱动了。
Core Audio APIs
特点是音频处理更高效,延时更低。对webrtc 这种RTC系统来说,正是需要其低延时的保证。
它四类子API
从上图中可以看到Core Audio APIs是一系列API的集合,它包括四类子API。
- MMDevice API(用于检索播放采集设备)
用于应用程序检索音频终端设备,枚举出所有可使用的音频设备属性及确定其功能,并为这些设备创建驱动程序实例,是最基本的Core Audio API,服务于其它3个APIs。
- WASAPI(控制播放和采集流)
应用程序可以通过它管理程序和音频终端设备之间音频数据的流。比如采集,回放音频。
- DeviceTopology API(webrtc中没用到)
应用程序可以遍历音频适配器设备和音频终端设备的内部拓扑,并单步执行将设备链接到另一台设备的连接。通过 DeviceTopology API 中的接口和方法,客户端程序可直接沿着音频适配器 (audio adapters) 的硬件设备里的数据通道进入布局特征(例如,沿着音频终端设备的数据路径上进行音量控制) 。
- EndpointVolume API(控制音量)
应用程序可以控制和监视音频终端设备的音量。
它们都以COM组件的方式提供,应用程序需要创建对应COM组件的实例,获取接口对象,再使用它们提供的方法。
AudioDeviceWindowCore
在webrtc中使用Core Audio APIs以下四个功能:
- 检索音频回放设备。
- 检索音频采集设备。
- 使用指定的音频设备回放声音。
- 使用指定的音频设备采集声音。
- 音频回放。
- 音频采集。
类图如下:
它直接管理Core Audio APIs的COM对象
以**I**
开头的都是对象接口类:
IMMDevice
代表一个音频设备。IMMDeviceCollection
音频设备集。IMMDeviceEnumerator
用于枚举音频设备。IMMEndpoint
代表一个音频终端设备。
功能实现
检索音频设备
如下图,系统中一般都会有扬声器和麦克风,在声音设置中可以看到它们。
在AudioDeviceWindowCore::Init
方法中实现检索回放和采集设备,需要使用的接口对象是IMMDeviceEnumerator
,检索出来的结果保存在 IMMDeviceCollection
对象中。
音频设备有名字,音频参数(如:声道数,采样率等)等属性,这些都会一并获取到。
IMMDeviceCollection* pCollection = NULL;
hr = _ptrEnumerator->EnumAudioEndpoints(dataFlow, // data-flow direction (input parameter)DEVICE_STATE_ACTIVE | DEVICE_STATE_DISABLED | DEVICE_STATE_UNPLUGGED,&pCollection);
hr = pCollection->GetCount(&count);
for (ULONG i = 0; i < count; i++) {//遍历每个设备,获取对应的属性
}
调用EnumAudioEndpoints
方法检索指定状态的设备,通过GetCount
获取数量,再遍历设备获取属性。
播放声音
指定回放设备
首先要指定要使用的回放设备,通过序号指定,在IMMDeviceCollection
中检索,通过index获取到IMMDevice
对象,它就代表了一个音频设备。
回放声音需要使用WASAPI
模块的IAudioClient
接口,它通过IMMDevice
获取
hr = _ptrDeviceOut->Activate(__uuidof(IAudioClient), CLSCTX_ALL, NULL,(void**)&_ptrClientOut);
根据设备支持的音频参数,确定一个输出格式。
音频,有采样率,声道,位率这些参数,不同的值决定了声音的质量及数据大小。WASAPI
中用这个结构体来描述
在回放声音时,要指定这些参数,就是告诉WASAPI
怎么去播放声音,但是首先要知道的是,音频设备支持怎样的播放参数。
hr = _ptrClientOut->GetMixFormat(&pWfxOut);
获取到的信息如下:
[017:755][95740] (audio_device_core_win.cc:1851): Audio Engine’s current rendering mix format:
[017:755][95740] (audio_device_core_win.cc:1853): wFormatTag : 0xfffe (65534)
[017:755][95740] (audio_device_core_win.cc:1857): nChannels : 2
[017:755][95740] (audio_device_core_win.cc:1859): nSamplesPerSec : 48000
[017:755][95740] (audio_device_core_win.cc:1861): nAvgBytesPerSec: 384000
[017:755][95740] (audio_device_core_win.cc:1863): nBlockAlign : 8
[017:755][95740] (audio_device_core_win.cc:1865): wBitsPerSample : 32
[017:755][95740] (audio_device_core_win.cc:1866): cbSize : 22
在webrtc中以采用率及声道数为标准现找一个与需求最贴合的参数,如下信息:
[017:802][95740] >>>>
[017:802][95740] (audio_device_core_win.cc:1927): VoE selected this rendering format:
[017:802][95740] (audio_device_core_win.cc:1928): wFormatTag : 0x1 (1)
[017:802][95740] (audio_device_core_win.cc:1931): nChannels : 2
[017:802][95740] (audio_device_core_win.cc:1932): nSamplesPerSec : 48000
[017:802][95740] (audio_device_core_win.cc:1933): nAvgBytesPerSec : 192000
[017:802][95740] (audio_device_core_win.cc:1934): nBlockAlign : 4
[017:802][95740] (audio_device_core_win.cc:1935): wBitsPerSample : 16
[017:802][95740] (audio_device_core_win.cc:1936): cbSize : 0
[017:802][95740] (audio_device_core_win.cc:1937): Additional settings:
[017:802][95740] (audio_device_core_win.cc:1938): _playAudioFrameSize: 4
[017:802][95740] (audio_device_core_win.cc:1939): _playBlockSize : 480
[017:802][95740] (audio_device_core_win.cc:1940): _playChannels : 2
确定了这些参数,就可以确定喂入设备的音频数据量大小。
获取流输出控制接口IAudioRenderClient
通过IAudioClient
获取IAudioRenderClient
,它就是控制音频流的接口。
hr = _ptrClientOut->GetService(__uuidof(IAudioRenderClient),(void**)&_ptrRenderClient);
相关代码在AudioDeviceWindowsCore::InitPlayout
方法中。
播放
在webrtc使用的Core Audio API的共享模式,在共享模式下将会有一个Audio Service(在上面的图中可以看出来),应用程序将通过Enpoint Buffer
与Service交互。
播放声音,就是往这个buffer中写入音频数据,应用程序写入数据,Audio Service读取数据。
一端写,一端读,就需要判断buffer的空间,所以需要程如下几步:
- 先通过
IAudioClient
的GetBufferSize
接口获取buffer大小。 - 再通过
IAudioClient
的GetCurrentPadding
接口,获取buffer待Audio Service的处理的数据。 - 计算可用空间:buffer size - padding data size 就是buffer中可用的空间。
- 通过
IAudioRenderClient
的GetBuffer
接口获取buffer的地址。 - 往buffer中写数据。
完整的流程可以看看AudioDeviceWindowsCore::DoRenderThread()
方法。
需要注意一点,这里的buffer size不是以字节为单位,而是以audio frame为单位,通过API获取的是buffer可存放的audio frame数,及可用的frame空间。
audio frame的大小由采样率和采样时长决定,在webrtc中以10ms作为采样时长,那么48000HZ的采样率,一个audio frame的大小就是480采样点(换算成字节数:每个采样点2个字节,10ms的数据960个字节)。
播放线程
音频数据是不停的往Audio Service的buffer中写入,webrtc通过一个线程实现取应用层音频数据到写入buffer流程,如下流程图:
播放线程不会停,会持续不断的取数据,写入Audio Service Buffer,线程对应的方法为 AudioDeviceWindowsCore::DoRenderThread()
。
相关文章:
webrtc音频模块(三) windows Core Audio API及声音的播放
在前面介绍了ADM(Audio Device Module),它用于抽象音频设备管理和音频数据采集/播放接口。windows的实现是AudioDeviceWinowCode,它封装了Core Audio APIs实现了对音频设备的操作。 Core Audio APIs windows提供了多种音频操作API,比如最常…...
使用ERA5数据绘制风向玫瑰图的简易流程
使用ERA5数据绘制风向玫瑰图的简易流程 今天需要做一个2017年-2023年的平均风向的统计,做一个风向玫瑰图,想到的还是高分辨率的ERA5land的数据(0.1分辨率,逐小时分辨率,1950年至今)。 风向,我分为了16个&…...
深度优先遍历(DFS)
深度优先遍历(DFS) 1. 计算布尔二叉树的值2. 求根节点到叶节点数字之和3.二叉树剪枝4.验证二叉搜索树5. 二叉搜索树中第 K 小的元素6. 二叉树的所有路径 深度优先遍历(DFS,全称为Depth First Traversal),是…...
国科大网络协议安全期末
完整资料仓库地址:https://gitee.com/etsuyou/UCAS-Network-Protocol-Security 部分题目: 六 论述题10*220 试讨论IPv6解决了IPv4的哪些“痛点”,以及IPv6存在的安全问题试比较IPsec与SSL的安全性 五 简答题5*315 简述MAC欺骗和ARP欺骗的…...
开源密码管理器 Bitwarden 一站式管理所有密码以及 2FA
本文首发于只抄博客,欢迎点击原文链接了解更多内容。 前言 随着注册的平台越来越多,管理密码的难度也越来越高了。要是把密码都设置成一样的,担心哪天某个平台泄露被一锅端,而每个平台单独一个密码又不太好记,这时候就…...
Python爬虫之Selenium的应用
【1】Selenium基础介绍 1.什么是selenium? (1)Selenium是一个用于Web应用程序测试的工具。 (2)Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。 (3)支持通过各种driv…...
华为无线AC、AP模式与上线解析(Huawei Wireless AC, AP Mode and Online Analysis)
华为无线AC、AP模式与上线解析 为了实现fit 瘦AP的集中式管理,我们需要统一把局域网内的所有AP上线到AC,由AC做集中式管理部署。这里我们需要理解CAPWAP协议,该协议分为两种报文:1、管理报文 2、数据报文。管理报文实际在抓包过程…...
k8s中用filebeat文件如何收集不同service的日志
以下是一个详细的从在 Kubernetes 集群中部署 Filebeat,到实现按web-oper、web-api微服务分离日志并存储到不同索引的完整方案: 理解需求:按服务分离日志索引 在 Kubernetes 集群中,有web-oper和web-api两种微服务,希…...
linux常用命令(cd、ls)
命令cd cd 是 Linux 系统中用于改变当前工作目录的命令。它是 "change directory" 的缩写。以下是关于 cd 命令的详细解释和使用方法: 基本用法 cd [目录路径]:将当前工作目录切换到指定的目录路径。 常用选项与示例 1、切换到指定目录 …...
Java实现一个带头节点的单链表
什么是单链表? 单链表是一种基础的数据结构,其中每个节点都包含两部分: 数据域:存储节点数据。指针域:存储指向下一个节点的引用。 为什么使用头节点? 头节点的存在简化了操作逻辑: 统一操作…...
代码随想录-算法训练营-番外(图论01:图论理论基础,所有可到达的路径)
day01 图论part01 今日任务:图论理论基础/所有可到达的路径 代码随想录图论视频部分还没更新 https://programmercarl.com/kamacoder/图论理论基础.html#图的基本概念 day01 所有可达路径 邻接矩阵 import java.util.Scanner;import java.util.List;import java.util.ArrayL…...
js:我要在template中v-for循环遍历这个centrerTopdata,我希望自循环前面三个就可以了怎么写
问: 我按在要在template中v-for循环遍历这个centrerTopdata,我希望自循环前面三个就可以了怎么写? 回答: 问: <div v-for"(item, index) in centrerTopdata.slice(0, 3)" :key"index"> d…...
软考高级架构 - 10.5 软件架构演化评估方法
10.4 软件架构演化原则总结 本节提出了18条架构演化的核心原则,并为每条原则设计了简单而有效的度量方法,用于从系统整体层面提供实用信息,帮助评估和指导架构演化。 演化成本控制:成本小于重新开发成本,经济高效。进…...
40 list类 模拟实现
目录 一、list类简介 (一)概念 (二)list与string和vector的区别 二、list类使用 (一)构造函数 (二)迭代器 (三)list capacity (四&#x…...
【原生js案例】如何实现一个穿透字体颜色的导航
普通的导航大家都会做,像这种穿透字体的导航应该很少见吧。高亮不是通过单独设置一个active类来设置字体高亮颜色,鼠标滑过导航项,字体可以部分是黑色,不分是白色,这种效果的实现 感兴趣的可以关注下我的系列课程【we…...
(RHCE)工程师学习考证
如果你像我一样,非科班出身且对 IT 行业知识储备几乎为零,却立志考取 RHCE 红帽工程师证书,那么以下这份学习教程或许能助你一臂之力。 首先,要对 RHCE 有个基本的认识。RHCE 是红帽企业级 Linux 认证,它侧重于实际操作…...
Nuxt3 axios封装 使用axios接口请求
一、先安装axios npm install add axios 封装请求request.ts文件 import axios from axios import { ElMessage, Message } from "element-plus" import {getToken} from ./token.js const service axios.create({baseURL:/api,//本地使用 }) service.interceptor…...
东方通TongWeb替换Tomcat的踩坑记录
一、背景 由于信创需要,原来项目的用到的一些中间件、软件都要逐步替换为国产品牌,决定先从web容器入手,将Tomcat替换掉。在网上搜了一些资料,结合项目当前情况,考虑在金蝶AAS和东方通TongWeb里面选择,后又…...
引用类型集合的深拷贝,无需手动写循环:Apache Commons Lang (SerializationUtils)
在java中,我们如果想要对引用类型的集合进行深拷贝。有一种方式,就是调用SerializationUtils Apache Commons Lang (SerializationUtils) Apache Commons Lang 提供了 SerializationUtils 类,可以利用 Java 的序列化机制来进行集合及其元素…...
高阶函数:JavaScript 编程中的魔法棒
在JavaScript的世界里,高阶函数是一种强大的工具,它允许我们将函数作为参数传递或将函数作为返回值。这种特性使得JavaScript代码更加灵活和强大。本文将深入探讨高阶函数的定义、用法以及在实际项目中的最佳实践,帮助大家更好地理解和应用这…...
HuggingGPT Solving AI Tasks with ChatGPT and its Friends in Hugging Face 论文解读
1. 引言 近年来,大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了惊人的进展,展现出强大的语言理解、生成和推理能力。然而,当前的LLMs仍然存在一些局限性,例如无法处理复杂信息(如视觉和…...
使用 ADB (Android Debug Bridge) 工具来截取 Android 设备的屏幕截图
可以使用 ADB (Android Debug Bridge) 工具来截取 Android 设备的屏幕截图。以下是具体的操作步骤: 1. 连接设备 确保 Android 设备通过 USB 或网络连接到电脑,并运行以下命令检查连接状态: adb devices2. 截取屏幕截图 运行以下命令将设…...
router.resolve 方法
router.resolve 方法在前端路由库(如 Vue Router)中用于解析路由信息。它接受一个路由对象或路径,并返回一个包含解析后的路由信息的对象。这个对象通常包含 href、route、location 等属性。 用法总结 方法签名: router.resolve(…...
linux 安装 Jenkins 教程
前言 Jenkins 是一个开源的自动化服务器,广泛用于持续集成(Continuous Integration,CI)和持续交付(Continuous Delivery,CD)领域。它帮助开发者自动化软件构建、测试、部署等过程,从…...
Vue3 使用 render 渲染函数透传组件
背景 我们透传组件的时候可能会用 slot,本文讲述的是另一种方式 props render 函数方式。当然具体的看业务场景。 实现 父组件 <AComp customComponent: () > {return h(UserAuthorization) }> </AComp>子孙组件 // 定义 render 组件ÿ…...
MongoDB 分片
MongoDB 分片 MongoDB 分片是一种数据库架构,用于将大量数据分布存储在多个服务器上。这种设计允许数据库扩展,以处理大量数据和高吞吐量操作。分片通过将数据集分割成小块,称为分片,并将这些分片分布到多个服务器上来工作。每个…...
Chrome webdriver下载-避坑
WebDriver以原生的方式驱动浏览器,不需要调整环境变量。 一、window版 1.chrome和chromedriver下载地址: Chrome for Testing availability 我下载的是如下两个安装包,解压即可。 2.导包 pip install selenium然后用python代码引用即可…...
【MFC】如何读取rtf文件并进行展示
tf是微软的一个带格式的文件,比word简单,我们可以用写字板等程序打开编辑。下面以具体实例讲解如何在自己程序中展示rtf文件。 首先使用VS2022创建一个MFC的工程。 VIEW类需要选择richview类,用于展示,如下图: 运行效…...
基于wifipumpkin3的AP伪造
一、软硬件需求 利用wifipumpkin-3进行AP伪造需要kali系统,还需要一张支持在kali的环境下能够支持AP伪造的无线网卡,如果是针对特定的无线网的话,再来第二张网卡的话更好用来转发流量更好。对于wifipumpkin-3的安装使用可以分为两种方式&…...
docker xxxx is using its referenced image ea06665f255d
Error response from daemon: conflict: unable to remove repository reference “registrxxxxxx” (must force) - container 9642fd1fd4a0 is using its referenced image ea06665f255d 这个错误表明你尝试删除的镜像正在被一个容器使用,因此无法删除。要解决这…...
svm支持向量机
支持向量机(SVM) 1. SVM 的核心思想 支持向量机(Support Vector Machine, SVM)是一种监督学习算法,用于分类和回归任务。其目标是找到一个超平面,将数据点分为不同类别,同时 最大化分类间隔&a…...
MySQL数据类型
MySQL数据库中的常用数据类型 数值型: ①整型 ②小数类型 定点型 浮点型 字符型: ①短的文本:char varchar ②长的文本:text blob(二进制) 日期型 ①数值型 整数应该知道的知识点 ①设置无符号和有符号 create table t_int( t1 int; #②默认有符…...
【深度学习】热力图绘制
热力图(Heatmap)是一种数据可视化方法,通过颜色来表示数据矩阵中的数值大小,以便更直观地展示数据的分布和模式。热力图在许多领域中都有应用,尤其在统计分析、机器学习、数据挖掘等领域,能够帮助我们快速识…...
高效Python开发工具PyCharm v2024.3全新发布,进一步提升编码体验!
JetBrains PyCharm是一种Python IDE,其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。此外,该IDE提供了一些高级功能,以用于Django框架下的专业Web开发。 立即获取PyCharm v2024.3正式版 Python 针对dataclass_transfor…...
Ubuntu 安装 Samba Server
在 Mac 上如何能够与Ubuntu 服务器共享文件夹,需要在 Ubuntu 上安装 Samba 文件服务器。本文将介绍如何在 Ubuntu 上安装 Samba 服务器从而达到以下目的: Mac 与 Ubuntu 共享文件通过用户名密码访问 安装 Samba 服务 sudo apt install samba修改配置文…...
WPF 实现 鼠标点击 取消 TextBox 光标
WPF 实现 鼠标点击 取消 TextBox 光标 原始需求:TextBox 控件光标取消后运行特定功能函数 所遇问题:若无相关事件,则除了点击其他控件等方式外,无法准确取消光标 解决思路:通过捕获 TextBox 控件外鼠标点击或鼠标移…...
cron服务执行定时任务
参考链接 cron表达式在线解析:quartz/Cron/Crontab表达式在线生成工具-BeJSON.com 定时任务运行时报错解决方法 运行脚本报 权限不够问题: 可以在脚本文件夹下直接执行 如下指令运行RequestAPI.sh 脚本 ./RequestAPI.sh 如果出现权限不够问…...
Go 语言与时间拳击理论下的结对编程:开启高效研发编程之旅
一、引言 结对编程作为一种软件开发方法,在提高代码质量、增强团队协作等方面具有显著优势。而时间拳击理论为结对编程带来了新的思考角度。本文将以 Go 语言为中心,深入探讨时间拳击理论下的结对编程。 在当今软件开发领域,高效的开发方法和…...
【收藏】Cesium 限制相机倾斜角(pitch)滑动范围
1.效果 2.思路 在项目开发的时候,有一个需求是限制相机倾斜角,也就是鼠标中键调整视图俯角时,不能过大,一般 pitch 角度范围在 0 至 -90之间,-90刚好为正俯视。 在网上查阅了很多资料,发现并没有一个合适的…...
PostgreSQL的学习心得和知识总结(一百六十四)|深入理解PostgreSQL数据库之在 libpq 中支持负载平衡
目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…...
TÜLU 3: Pushing Frontiers inOpen Language Model Post-Training
模型:https://huggingface.co/allenai 技术报告:https://allenai.org/papers/tulu-3-report.pdf 数据集:https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372 GitHub:https://github.com/al…...
Pytest-Bdd-Playwright 系列教程(14):Docstring 参数
Pytest-Bdd-Playwright 系列教程(14):Docstring 参数 前言一、什么是docstring?二、基本语法三、主要特点四、实际例子五、注意事项六、使用建议总结 前言 在自动化测试的过程中,我们经常需要处理复杂的测试数据或需要输入多行文…...
Docker部署WebRTC-Streamer
文章目录 WebRTC-Streamer概述Docker部署WebRTC-StreamerVue使用WebRTC-Streamer一些问题 WebRTC-Streamer概述 WebRTC-Streamer是一个基于WebRTC技术的流媒体传输工具,它可以通过Web浏览器实现实时音视频流的传输和播放。它提供了一种简单而强大的方式ÿ…...
linux-16 关于shell(十五)date,clock,hwclock,man,时间管理,命令帮助
想显示一下当前系统上的时间该怎么显示?有一个命令叫做date,来看date命令,如下图, 第一个星期几对吧?然后是月日小时分钟秒,最后一个是年对吧?CST指的是它的时间格式,我这个可以先姑…...
厦门凯酷全科技有限公司深耕抖音电商运营
在数字经济飞速发展的今天,抖音电商平台以其独特的社交属性和庞大的用户基础,迅速成为众多品牌和商家的新战场。在这个充满机遇与挑战的市场中,厦门凯酷全科技有限公司凭借其专业的服务、创新的理念和卓越的执行力,成为了抖音电商…...
C++多线程实战:掌握图像处理高级技巧
文章结尾有最新热度的文章,感兴趣的可以去看看。 本文是经过严格查阅相关权威文献和资料,形成的专业的可靠的内容。全文数据都有据可依,可回溯。特别申明:数据和资料已获得授权。本文内容,不涉及任何偏颇观点,用中立态度客观事实描述事情本身 导读 在当今的计算世界中,…...
CityEngine实践——常用cga文件解析系列(2)
上回书说到了: 3、RULES/COMPONENTS/MASSING/SUBURBAN_BLOCK DETACHED_HOUSES.CGA ROWHOUSES.CGA SEMI_DETACHED_HOUSES.CGA 4、RULES/COMPONENTS/MASSING/URBAN_BLOCK MONOBLOCK.CGA PERIMETER_8_SHAPE.CGA PERIMETER_MULTIPART.CGA 这个cga挺有意思,…...
【人工智能】因果推断与数据分析:用Python探索数据间的因果关系
解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 因果推断是数据科学领域的一个重要方向,旨在发现变量间的因果关系,而不仅仅是相关性。本篇文章将从因果推断的理论基础出发,介绍因果关系的定义与建模方法,涵盖因果图(Causal Graph)、d-分离、反事实估计等…...
depth wisepoint wise
文章目录 1. Description2. code 1. Description point wise 1. function: for the separated pixel without pixel confusion 2. kernel size : 3x3 ,star matrix [[0,0,0],[0,1,0],[0,0,0]] depth wise 1. fuction: for the separated channel without channel confusion 2.…...
AI大模型学习笔记|神经网络与注意力机制(逐行解读)
来源分享链接:通过网盘分享的文件:详解神经网络是如何训练的 链接: https://pan.baidu.com/s/12EF7y0vJfH5x6X-0QEVezg 提取码: k924 内容摘要:本文深入探讨了神经网络与注意力机制的基础,以及神经网络参数训练的过程。以鸢尾花数…...