当前位置：首页 > news >正文

音频相关基础知识

news 来源：原创 2025/8/14 6:18:08

主要参考：

音频基本概念_音频和音调的关系-CSDN博客

音频相关基础知识（采样率、位深度、通道数、PCM、AAC）_音频2通道和8ch的区别-CSDN博客

概述

声音的本质

声音的本质是波在介质中的传播现象，声波的本质是一种波，是一种物理量。两者不一样，声音是一种抽象的，是声波的传播现象，声波是物理量。

声音的三要素

响度(loudness)：人主观上感觉声音的大小（俗称音量），由“振幅”（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。
音调(pitch)：声音的高低（高音、低音），由频率决定，频率越高音调越高（频率单位Hz，赫兹），人耳听觉范围20～20000Hz。20Hz以下称为次声波，20000Hz以上称为超声波）。
音色(Timbre)：波形决定了声音的音调。由于不同对象材料的特点，声音具有不同的特性，音色本身就是抽象的东西，但波形就是把这种抽象和直观的性能。波形因音调而异，不同的音调可以通过波形来区分。

下图为音量与音调关系：

音频相关参数

接下来看看音频相关参数

音频采样率

音频采样率

音频采样率_百度百科 (baidu.com)

其实就是采集音频数据过程中所使用的ADC采样的频率。

声波其实是一种机械波，因此也有波长和振幅的特征，波长对应于时间轴线，振幅对应于采样值轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的采样值，很显然，在单位时间中内抽取的点越多，获取得波长信息更丰富，为了复原波形，一个周期中，必须有至少2个点的采样。人耳能够感觉到的最低波长为1.7cm，即20000Hz，因此如果要全范围内满足人耳的听觉要求，则1s采样至少40000次，用40000Hz(40kHz)表达，这个40kHz就是采样率，这样才能将人耳所能听到的声音全部记录下来。我们常见的CD，采样率为44.1kHz（并没有取40kHz整数，可能跟晶振的制作工艺等相关，就跟时钟晶振32.768kHz类似）。

在数字音频领域，常用的采样率有：

8,000 Hz - 电话所用采样率, 对于人的说话已经足够

11,025 Hz-AM调幅广播所用采样率

22,050 Hz和24,000 Hz- FM调频广播所用采样率

32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率

44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率

47,250 Hz - 商用 PCM 录音机所用采样率

48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率

50,000 Hz - 商用数字录音机所用采样率

96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

人正常说话的声音一般频率在什么范围？

人正常说话的声音频率范围主要集中在 85 Hz ~ 255 Hz（基频），但语音的完整频率范围（包括谐波和辅音）通常覆盖 80 Hz ~ 8 kHz。具体分布如下：

基频（F0，决定音调）

男性：通常 85 Hz ~ 180 Hz（平均约 120 Hz）。

女性：通常 165 Hz ~ 255 Hz（平均约 220 Hz）。

儿童：可能高达 300 Hz 以上。

注：基频是声带振动产生的低频成分，决定声音的“低沉”或“尖锐”。

语音的完整频率范围（含谐波和辅音）

虽然基频较低，但语音的清晰度依赖于更高频率的谐波和辅音能量分布：

元音（Vowels）：能量集中在 100 Hz ~ 1 kHz（如“a”、“o”等）。

辅音（Consonants）：高频成分可达 2 kHz ~ 8 kHz（如“s”、“f”等清辅音）。

例如：“s”音的频率可高达 6 kHz ~ 8 kHz，对语音清晰度至关重要。

语音通信系统的频带设计

基于人声频率特性，常见通信系统会压缩频带以节省带宽：

电话语音：300 Hz ~ 3.4 kHz（牺牲部分高频辅音，但仍可保真基本语音）。

广播/会议系统：80 Hz ~ 8 kHz（更高保真度）。

语音识别（ASR）：通常分析 50 Hz ~ 4 kHz 的频段。

关键影响因素

音调变化：情绪激动时基频可能升高（如尖叫可达 1 kHz 以上）。

环境噪声：高频辅音（如“s”“t”）易被噪声掩盖，需增强处理。

设备限制：麦克风或扬声器频响范围不足（如仅 100 Hz ~ 4 kHz）会导致声音“发闷”或“不清晰”。

实验数据参考

语音成分频率范围作用
基频（F0） 85 Hz ~ 255 Hz 决定音调（男/女/儿童差异）
元音 100 Hz ~ 1 kHz 提供声音响度和饱满度
清辅音 2 kHz ~ 8 kHz 影响清晰度（如“s”“f”“th”）

总结

日常对话：重点关注 100 Hz ~ 4 kHz，这是可懂度的核心频段。

高质量音频：需保留 80 Hz ~ 8 kHz 以还原自然度。

语音处理：降噪或增强时需特别注意保护 2 kHz ~ 4 kHz 的高频辅音部分。

如果需要测量具体人的语音频率，可使用频谱分析工具（如 Audacity、Praat）。

音乐的频率范围详解

音乐是由不同乐器和人声组成的复杂声学信号，其频率范围远宽于人声。不同类型的音乐、乐器及音效覆盖的频段各不相同，以下是详细的分类和分析：

音乐的整体频率范围

频段频率范围主要成分听觉感受
超低频 20 Hz ~ 60 Hz 低音鼓（Kick）、管风琴、电子低音震撼感，身体可感知振动
低频 60 Hz ~ 250 Hz 贝斯（Bass）、大提琴、低音吉他浑厚、温暖
中低频 250 Hz ~ 500 Hz 男声、钢琴低音区、小号饱满、有力度
中频 500 Hz ~ 2 kHz 人声（主唱）、吉他、小提琴中音区清晰、明亮（核心频段）
中高频 2 kHz ~ 5 kHz 镲片（Cymbals）、女声高音、钢琴高音穿透力强，增强细节
高频 5 kHz ~ 12 kHz 小提琴泛音、三角铁、齿音（Sibilance）清脆、空气感
极高频 12 kHz ~ 20 kHz 钹（Hi-hat）、录音室混响、电子音效空灵感，但易被年龄大者忽略

注：人耳可听范围一般为 20 Hz ~ 20 kHz，但成年人高频听力会衰退（如 40 岁以上可能听不到 15 kHz 以上）。

不同乐器的频率分布

乐器/音源主要频率范围关键频段
人声（歌唱） 80 Hz ~ 1.2 kHz（基频）
谐波可达 8 kHz 男声：100 Hz ~ 400 Hz
女声：200 Hz ~ 1 kHz
钢琴 27.5 Hz (A0) ~ 4.2 kHz (C8) 低音区：< 200 Hz
高音区：> 2 kHz
电吉他 80 Hz ~ 1.2 kHz（基频）
失真音色可达 5 kHz 核心频段：200 Hz ~ 2.5 kHz
鼓组 Kick：60 Hz ~ 100 Hz
Snare：150 Hz ~ 5 kHz
Hi-hat：2 kHz ~ 12 kHz 低频冲击力 + 高频瞬态
小提琴 196 Hz (G3) ~ 3.1 kHz (A7)
泛音可达 12 kHz 中高频表现力强（2 kHz ~ 8 kHz）
电子合成音全频段（20 Hz ~ 20 kHz）取决于合成器设计（如Sub Bass或Glitch音效）

音乐制作与音频设备的频响要求

(1) 录音与混音

全频段覆盖：专业录音设备需支持 20 Hz ~ 20 kHz（如电容麦克风、监听音箱）。

关键调整频段：

  50 Hz 以下：超低频可能需削减（避免浑浊）。

  200 Hz ~ 500 Hz：控制“闷响”（Muddy）。

  3 kHz ~ 5 kHz：提升人声/乐器清晰度。

  10 kHz 以上：增加“空气感”（但过量会刺耳）。

(2) 播放设备

设备类型有效频响范围局限性
高端耳机 5 Hz ~ 40 kHz 超高频可能超出人耳感知
普通音箱 60 Hz ~ 18 kHz 低频下潜不足，高频衰减
手机扬声器 300 Hz ~ 15 kHz 几乎无低频，中高频突出
黑胶唱片 20 Hz ~ 20 kHz 超低频可能引起唱针跳轨

不同音乐风格的频率特点

音乐类型核心频段特征
古典乐 40 Hz ~ 18 kHz 动态范围大，乐器频段均衡
摇滚/金属 80 Hz ~ 5 kHz 强低频（贝斯/鼓）+ 高能量中频
电子音乐 30 Hz ~ 16 kHz 超低频（Sub Bass）+ 极高频特效
爵士乐 100 Hz ~ 12 kHz 中频温暖（萨克斯、钢琴）
流行音乐 60 Hz ~ 10 kHz 突出人声（1 kHz ~ 4 kHz）

常见问题

Q1：为什么有些音乐听起来“闷”？

原因：中低频（200 Hz ~ 500 Hz）过多，或高频（> 5 kHz）不足。

解决：EQ 削减 250 Hz，提升 3 kHz ~ 8 kHz。

Q2：如何增强音乐的“空间感”？

方法：在 12 kHz 以上小幅提升，或添加混响（Reverb）。

Q3：MP3 压缩会损失哪些频率？

损失频段：优先压缩 > 16 kHz 的极高频和 < 50 Hz 的超低频（因人类对这些频段敏感度较低）。

总结

音乐完整频率范围：20 Hz ~ 20 kHz，但不同乐器和风格侧重不同频段。

关键频段：

  低频（< 250 Hz）：奠定节奏和氛围。

  中频（500 Hz ~ 2 kHz）：决定清晰度和主体感。

  高频（> 5 kHz）：增加细节和临场感。

设备选择：根据音乐类型匹配频响范围（如电子音乐需强低频，古典乐需宽频带）。

如果需要分析具体音乐的频谱，可使用工具如 Adobe Audition、SPAN（VST插件）或 Audacity。

可见，音乐是多种多样的，为了能够满足人耳所能听到的所有声音的范围，音乐的采样率一般至少要40kHz，通常使用的是44.1kHz。

音乐的采样率可以小于40kHz吗？

音乐采样率可以小于40kHz，但需根据音频内容和用途权衡音质和带宽需求。以下是详细分析：

采样率的基础要求（奈奎斯特定理）

奈奎斯特准则：采样率（𝑓𝑠fs）必须 ≥ 2倍信号最高频率（𝑓maxfmax），否则会出现混叠失真（Aliasing）。

  例如：若要保留20kHz的高频，采样率至少需 40kHz（实际常用 44.1kHz 或 48kHz）。

人耳听音范围：通常为 20Hz~20kHz，因此理论上 40kHz采样率是下限。

采样率 <40kHz 的适用场景

(1) 语音通信（窄带音频）

电话语音：采样率通常为 8kHz（保留 300Hz~3.4kHz 频段），牺牲高频以节省带宽。

对讲机/广播：采样率可能低至 6kHz~16kHz，仅保留语音可懂度的核心频段（80Hz~4kHz）。

(2) 低质量音乐或特殊效果

复古音效：故意使用低采样率（如 22.05kHz）制造“低保真（Lo-Fi）”效果。

游戏音效：非关键背景音可能用 24kHz 采样率以减少资源占用。

(3) 嵌入式设备限制

单片机/传感器：存储或算力有限时，可能采用 16kHz~32kHz 采样率（如电子玩具、简单MIDI播放器）。

采样率 <40kHz 的缺点

问题原因
高频信息丢失采样率 20kHz 仅能保留 ≤10kHz 的信号，音乐缺失高频细节（如镲片、泛音）。
音质浑浊低频与中频拥挤，动态范围降低（尤其影响钢琴、吉他等宽频乐器）。
混叠失真若未严格滤波，高频信号会折叠到可听频段（产生刺耳噪声）。

实际应用中的采样率选择

用途推荐采样率保留频段示例
专业音乐制作 44.1kHz~96kHz 20Hz~20kHz+ CD、流媒体高音质
语音通话（VoIP） 8kHz~16kHz 300Hz~4kHz 微信语音、Zoom会议
广播/播客 24kHz~48kHz 50Hz~12kHz FM电台、有声书
嵌入式音频 16kHz~32kHz 100Hz~8kHz 电子门铃、报警提示音

如何降低采样率而不毁坏音质？

若必须使用 <40kHz 采样率，需遵循以下步骤：

低通滤波（抗混叠）：

  先滤除高于 𝑓𝑠/2fs/2 的频率（如采样率 32kHz 时，滤除 >16kHz 的信号）。

重采样（Resampling）：

  用高质量算法（如SoX或iZotope RX）降低采样率，减少失真。

动态范围压缩：

  压缩音频动态范围，避免低频能量掩盖中高频。

常见误区

误区1：“采样率越高，音质一定越好。”

  事实：高于48kHz的采样率（如192kHz）对人耳无意义，但会增加文件大小。

误区2：“8kHz采样率的音乐也能听。”

  事实：仅适合语音，音乐会丢失几乎所有高频，听起来像“电话音质”。

结论

可以 <40kHz，但仅限于语音、低功耗设备或特殊音效。

音乐制作/高音质需求：必须 ≥44.1kHz（CD标准）以保留全频段信息。

关键权衡：采样率越低，带宽/存储需求越小，但音质损失越大。

如果需要优化低采样率音频，建议结合比特深度（如16bit）和压缩编码（如MP3 128kbps）平衡质量与体积。

为什么音乐采样率需要超过48kHz？人耳听不出区别，还有必要吗？

虽然人耳的听音范围通常是 20Hz~20kHz，理论上 48kHz采样率（奈奎斯特频率24kHz） 已经足够覆盖可听声范围，但专业音频制作仍会使用 96kHz、192kHz 甚至更高采样率，主要原因包括：

抗混叠（Anti-Aliasing）与滤波需求

奈奎斯特限制：采样率必须 ≥ 2倍最高频率，但实际ADC（模数转换）过程需要更严格的滤波。

陡峭滤波器的代价：

  若采样率=48kHz，需在 20kHz~24kHz 之间急剧滤除高频（避免混叠），这会引入相位失真和预振铃（Pre-ringing）。

  更高采样率（如96kHz）：允许滤波器在 40kHz~48kHz 范围内平缓衰减，减少音质损失。

✅ 实际受益：更高采样率能降低数字滤波对可听频段（<20kHz）的影响，提升瞬态响应（如鼓声、钢琴的起音更自然）。

高频谐波与超声波的影响

乐器/人声的超声波成分：

  许多乐器（如钢琴、小提琴）的泛音可达 30kHz~50kHz，虽人耳听不见，但可能影响设备处理（如电子管话筒、模拟硬件）。

  超声波在数字域混音时可能与可听频段产生互调失真（Intermodulation Distortion），更高采样率可减少这类问题。

✅ 实际受益：专业录音时保留超声波信息，可确保后期处理（如降噪、时间拉伸）更精准。

音频处理与后期制作的灵活性

时间拉伸（Time-Stretching）：

  高采样率音频在变速/变调时（如Melodyne、Ableton Warp）能减少“数字颗粒感”。

混响与空间效果：

  高采样率提供更精确的延迟计算，改善人工混响的自然度。

降低量化误差：

  高采样率结合高比特深度（如24bit/192kHz）可减少数字舍入误差，提升动态范围。

✅ 实际受益：即使最终导出为44.1kHz/48kHz，原始高采样率文件能提供更干净的后期处理结果。

专业音频设备的支持

现代ADC/DAC芯片：

  高端音频接口（如Apollo、RME）默认支持 192kHz，硬件设计已优化高采样率性能。

DSD（直接比特流）录音：

  SACD采用 2.8MHz~5.6MHz 采样率（1bit），需高采样率PCM转换。

✅ 实际受益：兼容专业工作流程，避免采样率转换带来的质量损失。

争议与科学验证

盲听测试结果：

  多数人无法区分 44.1kHz vs. 192kHz 的最终音乐（如《Audio Engineering Society》研究）。

  但录音工程师能感知 处理阶段 的差异（如插件运算精度）。

心理声学效应：

  部分研究表明，超声波可能间接影响人耳对可听频段的感知（尚无定论）。

⚠️ 注意：消费者无需追求高采样率音乐（如Tidal的192kHz），因回放设备（耳机/音箱）和听音环境限制其优势。

何时需要高采样率？

场景推荐采样率理由
专业录音/混音 96kHz~192kHz 确保后期处理质量
电子音乐制作 48kHz~96kHz 高频合成器可能产生超声波
影视/游戏音效 48kHz~192kHz 时间拉伸/空间效果需求
最终音乐分发 44.1kHz~48kHz 人耳无法感知更高采样率的差异

结论

对人耳直接听感：超过48kHz的采样率（如96kHz/192kHz）无显著提升。

对专业音频制作：高采样率能：

  改善滤波和抗混叠性能。

  提供更灵活的后期处理。

  兼容专业设备和工作流程。

对普通用户：44.1kHz/48kHz 完全足够，无需追求高采样率文件（除非原始录音质量极高）。

建议：

音乐制作：录音时用 96kHz，最终导出 44.1kHz/48kHz。

普通听众：选择 CD质量（44.1kHz/16bit） 或 无损（48kHz/24bit） 即可。

更高的配置其实对普通用户没啥用，但是对专业音频制作人员来说是有用的，可以增加音乐制作的容错度，有更多可选择的余地。

比特深度（位深度）

其实就是采样音频数据时所使用的ADC的位数，位数越高，分辨率越高，采样越精准，但同时占的空间也越大。

位深度表示每个采样点用多少二进制位数（bits）存储振幅信息。

音频的位深度（Bit Depth）决定了数字音频的动态范围和量化精度，直接影响音质细节和噪声水平。以下是常见的位深度及其应用场景：

位深度的基本概念

定义：位深度表示每个采样点用多少二进制位数（bits）存储振幅信息。

动态范围（dB）：每增加1bit，动态范围提升约 6dB。

  计算公式：动态范围=6.02×位深度+1.76动态范围=6.02×位深度+1.76

  例如：16bit → 98dB，24bit → 144dB。

常见的位深度类型

位深度动态范围主要用途优缺点
8bit ~48dB 早期游戏音效、电话语音噪声明显，音质粗糙
16bit ~98dB CD音频、流媒体（MP3/AAC）平衡音质与文件大小
24bit ~144dB 专业录音、母带制作、高解析音频低噪声，适合后期处理
32bit（浮点） ~1528dB* DAW内部处理、影视后期抗 clipping，超强动态范围

注：32bit浮点的动态范围理论值极高（因浮点运算特性），实际有效精度约24bit。

不同位深度的应用场景

(1) 8bit

用途：复古游戏（如FC红白机）、老式语音设备。

特点：

  明显的量化噪声（“颗粒感”）。

  文件极小，适合低带宽场景。

(2) 16bit（CD标准）

用途：音乐CD、Spotify/Apple Music（非Hi-Res）、广播。

特点：

  动态范围（98dB）覆盖大部分音乐需求。

  噪声电平约 -96dBFS，人耳在正常音量下难以察觉。

(3) 24bit（专业音频）

用途：录音室原始录制、Hi-Res音频（如FLAC 24bit/96kHz）、影视配乐。

特点：

  更低的底噪（-144dBFS），适合大动态音乐（如古典、爵士）。

  后期混音时提供更大调整空间（如提升音量不引入噪声）。

(4) 32bit浮点（DAW内部）

用途：数字音频工作站（如Pro Tools、Ableton Live）的工程文件。

特点：

  几乎不会 clipping（过载），适合多轨混音。

  导出时通常转为24bit或16bit。

如何选择合适的位深度？

场景推荐位深度理由
音乐录制/混音 24bit 保留最大动态范围，方便后期处理
最终音乐分发（CD） 16bit 兼容CD标准，文件更小
影视/游戏音效 24bit或32bit浮点应对复杂动态变化（如爆炸声到耳语）
语音通话 16bit（或更低）语音动态范围小，8bit~16bit足够

常见问题

Q1：24bit音乐比16bit听起来更好吗？

答案：在理想条件下（高端设备、安静环境），24bit可能更细腻，但普通人耳难以区分。差异主要在录音和混音阶段的优势。

Q2：为什么32bit浮点用于DAW？

答案：浮点运算允许信号超过0dBFS（如+15dB）而不 clipping，混音时更灵活。

Q3：MP3的位深度是多少？

答案：MP3是有损压缩格式，实际存储的是频域数据，无直接位深度概念，但解码后通常输出16bit PCM。

总结

16bit：音乐分发的黄金标准（CD、流媒体）。

24bit：专业录音和Hi-Res音频的首选。

32bit浮点：DAW内部处理的终极保障。

8bit：仅限复古或极低带宽场景。

选择位深度时，需权衡音质需求、文件大小和工作流程。对于普通听众，16bit/44.1kHz（CD质量）已足够；专业制作建议全程使用24bit或更高。

声道数

由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。单声道（Mono）和双声道（Stereo）比较常见，顾名思义，前者的声道数为1，后者为2。

音频的声道数决定了声音的空间分布和沉浸感，不同的声道配置适用于不同的场景（如音乐、电影、游戏等）。以下是常见的声道格式及其应用：

单声道（Mono，1.0声道）

信号通道：1个（所有声音混合到同一通道）。

特点：

  无方向感，声音来源听起来在正前方。

  文件体积最小，兼容所有播放设备。

典型用途：

  早期广播、电话语音、播客（人声为主）。

  某些乐器录音（如底鼓、军鼓）。

立体声（Stereo，2.0声道）

信号通道：2个（左 + 右）。

特点：

  提供基本的左右声场定位，适合音乐和日常聆听。

  通过声像（Panning）控制乐器在左右声道的分布。

典型用途：

  音乐录制（CD、流媒体平台）。

  耳机播放、普通音箱系统。

2.1声道（立体声 + 低音炮）

信号通道：2个主声道（左+右） + 1个低频效果（LFE）通道。

特点：

  低音炮（Subwoofer）负责 80Hz以下低频，减轻主音箱负担。

  增强低音冲击力，但声场仍为2D（左右）。

典型用途：

  家用音响、电脑多媒体音箱。

5.1声道（环绕声）

信号通道：

  前置：左、中、右（3个）。

  环绕：左后、右后（2个）。

  低频：LFE（1个）。

特点：

  提供 360° 环绕声场，适合电影和游戏。

  中置声道（Center）强化对白人声。

典型用途：

  影院杜比（Dolby）音效、家庭影院。

  游戏音效（如PS5、Xbox支持）。

7.1声道（增强环绕声）

信号通道：在5.1基础上增加 侧环绕左、右（2个），共8个。

特点：

  更精准的声源定位，尤其适合大空间。

  需要更多扬声器和专业调校。

典型用途：

  高端家庭影院、虚拟现实（VR）音效。

3D音频（基于对象的声道）

技术代表：

  杜比全景声（Dolby Atmos）

  DTS:X

  索尼360 Reality Audio

特点：

  突破固定声道，通过元数据（Metadata）动态渲染声音位置（包括高度）。

  支持扬声器阵列或耳机虚拟化。

典型用途：

  影院、游戏（如《使命召唤》）、沉浸式音乐。

其他多声道格式

格式声道数应用场景
4.0（Quad） 4 70年代实验性环绕声
6.1 7 在5.1基础上增加后中置
9.1（Atmos） 10+ 顶部扬声器增强空间感

如何选择声道数？

需求推荐声道理由
语音/播客 Mono（1.0）节省带宽，内容无方向需求
音乐聆听 Stereo（2.0）兼容所有设备，自然声场
电影/游戏 5.1 或 7.1 沉浸式体验
专业制作（VR/Atmos） 3D音频（如Atmos）动态音效定位

常见问题

Q1：立体声和双声道是一回事吗？

答案：是的，但“立体声”强调声场空间感，而“双声道”仅描述通道数量。

Q2：耳机能模拟5.1环绕声吗？

答案：可通过虚拟环绕技术（如Windows Sonic、Dolby Atmos for Headphones）实现，但效果弱于真实多扬声器系统。

Q3：音乐是否需要5.1声道？

答案：大部分音乐为立体声，但少数专辑（如摇滚现场）会发布5.1混音版（如DVD-Audio）。

总结

单声道：兼容性强，适合语音。

立体声：音乐的标准配置。

5.1/7.1：影视和游戏的沉浸式选择。

3D音频：未来趋势，灵活定位声源。

选择声道数时需考虑内容类型、播放设备和空间大小。普通用户优先选择立体声，影音爱好者可升级至5.1或Atmos系统。

音频码率

音频码率（Bitrate）是指单位时间内音频数据占用的比特数，通常以 kbps（千比特每秒） 为单位。它直接影响音频的音质和文件大小，是衡量数字音频效率的核心参数之一。

码率的基本概念

定义：码率 = 每秒存储或传输的音频数据量（比特数）。公式：

码率 (kbps)=采样率 (Hz)×位深度 (bit)×声道数1000码率 (kbps)=1000采样率 (Hz)×位深度 (bit)×声道数

例如：CD音质（44.1kHz/16bit/立体声）的无压缩码率为：

44100×16×21000=1411.2 kbps100044100×16×2=1411.2kbps

关键影响：

码率越高 → 音质越好（细节保留更多），但文件体积越大。

码率越低 → 文件越小，但音质可能下降（高频丢失、压缩失真）。

常见音频码率范围

音频类型码率范围适用场景
电话语音 8~16 kbps 移动通信（如AMR-NB编码）
网络语音（VoIP） 24~64 kbps 微信语音、Zoom会议（Opus编码）
流媒体音乐 96~320 kbps Spotify（Ogg Vorbis）、Apple Music（AAC）
CD音质（无损） 1411 kbps 未压缩的WAV/AIFF文件
高清音频（Hi-Res） 2000~9000 kbps 24bit/96kHz FLAC或DSD文件

更多待补充。

PCM

主要参考：

音频处理——详解PCM数据格式_pcm格式-CSDN博客

音频处理——音频处理的基本概念_1000hz音频采集-CSDN博客

音频处理——音频编码原理简介-CSDN博客

PCM这个概念在多种场合都可能被用到。

首先，PCM是一种技术方法。

PCM（Pulse Code Modulation）脉冲编码调制是数字通信的编码方式之一，作用是将模拟信号转换为数字信号。在PCM 过程中，将输入的模拟信号进行采样、量化和编码，用二进制进行编码的数来代表模拟信号的幅度。其实就是ADC的一种实现原理。

ADC的核心工作原理本质上是PCM（脉冲编码调制）技术的实现，但具体实现方式可能因ADC类型和应用场景有所不同。

ADC与PCM的关系

(1) PCM是ADC的理论基础

PCM（脉冲编码调制）是模拟信号数字化的通用方法，包含三个关键步骤：

采样（Sampling）：按固定时间间隔采集模拟信号值。

量化（Quantization）：将采样值转为离散数字（如16bit）。

编码（Encoding）：将数字值转换为二进制格式。

ADC的核心功能正是完成这一过程，因此可以说 ADC是PCM的硬件实现。

(2) ADC的输出本质是PCM数据

ADC输出的原始数据是 未压缩的数字信号序列，符合PCM的定义。

但ADC的输出格式可能需要调整（如并行转串行）才能匹配标准PCM接口（如I2S）。

不同类型ADC的PCM特性

(1) 音频专用ADC（直接输出PCM）

示例芯片：WM8960、CS5368、AK5552。

特点：

直接输出标准PCM格式（如I2S/TDM接口）。

内置抗混叠滤波器和采样率控制器，优化音频信号。

(2) 通用ADC（需后处理为PCM）

示例：SAR ADC（逐次逼近型）、ΔΣ ADC（Sigma-Delta）。

特点：

输出可能是并行数据或非标准格式（如12bit、18bit）。

需通过软件或硬件（如FPGA）转换为标准PCM（如16bit/44.1kHz）。

(3) 压缩型ADC（非纯PCM）

示例：蓝牙芯片的ADC（如Qualcomm CSR8675）。

特点：

内置DSP，ADC输出后直接压缩为SBC/AAC格式，跳过标准PCM阶段。

因为PCM在音频数据里体现得最广泛最明显，所以，音频数据通常都会跟PCM挂钩。

常见问题

Q1：所有ADC都用PCM吗？

答案：绝大多数ADC基于PCM原理，但：

DSD ADC输出1bit高速数据流（非PCM），需后续转换。

压缩ADC（如语音芯片）可能跳过PCM直接输出编码数据。

Q2：为什么音频ADC常用I2S接口？

答案：I2S是专为PCM数据设计的标准串行接口，可高效传输采样率、位深同步的音频数据。

Q3：手机录音的PCM数据如何生成？

流程：麦克风 → 音频ADC（PCM输出） → 处理器 → 存储为WAV或压缩为MP3/AAC。

总结

ADC的核心技术是PCM，但输出形式可能需调整才能匹配标准PCM格式。

音频ADC通常直接输出PCM（如I2S），通用ADC需后处理。

例外：DSD ADC和压缩型ADC不直接输出PCM。

简单结论：

如果ADC用于音频且输出未压缩数字信号，则它一定使用PCM技术。

非音频ADC（如温度传感器）虽基于PCM原理，但通常不称其输出为“PCM数据”。

由此可见，PCM数据一般都是特指原始音频数据，未经压缩，音质无损但体积大，在这种场景下，PCM特指音频数据。

另外，我们还经常听到PCM接口这个说法。

PCM（Pulse Code Modulation，脉冲编码调制）接口是一种用于传输数字化音频信号的通信协议或硬件接口，广泛应用于音频设备、通信系统和数字信号处理（DSP）领域。它的核心功能是传输未经压缩的数字音频数据流。

PCM 接口的基本概念

PCM 接口传输的是原始音频采样数据，即通过以下参数描述的离散信号：

采样率（Sample Rate）：每秒采集音频信号的次数（如 44.1kHz、48kHz）。

位深度（Bit Depth）：每个采样点的量化精度（如 16bit、24bit）。

声道数（Channels）：单声道（Mono）、立体声（Stereo）或多声道（如 5.1、7.1）。

PCM 数据的特点

未压缩：直接传输量化后的数字信号，音质无损。

低延迟：无需编解码，适合实时音频传输（如录音、通话）。

标准化：几乎所有数字音频设备都支持 PCM 格式。

注意，PCM并不是指某一个接口，而是某一类接口的统称。

PCM（Pulse Code Modulation，脉冲编码调制）接口是一种用于传输数字化音频信号的通信协议或硬件接口，广泛应用于音频设备、通信系统和数字信号处理（DSP）领域。它的核心功能是传输未经压缩的数字音频数据流。

PCM 接口的基本概念

PCM 接口传输的是原始音频采样数据，即通过以下参数描述的离散信号：

采样率（Sample Rate）：每秒采集音频信号的次数（如 44.1kHz、48kHz）。

位深度（Bit Depth）：每个采样点的量化精度（如 16bit、24bit）。

声道数（Channels）：单声道（Mono）、立体声（Stereo）或多声道（如 5.1、7.1）。

PCM 数据的特点

未压缩：直接传输量化后的数字信号，音质无损。

低延迟：无需编解码，适合实时音频传输（如录音、通话）。

标准化：几乎所有数字音频设备都支持 PCM 格式。

PCM 接口的类型

PCM 接口可以通过多种物理或协议形式实现，主要包括：

(1) 硬件接口（常见于音频设备）

接口类型描述
I2S 集成电路内置音频总线（Inter-IC Sound），用于芯片间传输 PCM 数据（如 DAC/ADC）。
TDM（Time-Division Multiplexing）支持多声道 PCM 传输（如 8 通道音频）。
PCM 同步串口某些 DSP 或编解码芯片的专用接口（如 TI/ADI 芯片）。
S/PDIF（索尼/飞利浦数字接口）通过同轴或光纤传输 PCM 数据（家用 Hi-Fi 常见）。

(2) 软件/协议接口

音频驱动层（如 ALSA、Core Audio）：操作系统通过 PCM 格式与声卡通信。

网络传输（如 VoIP）：未压缩的 PCM 数据可通过 RTP/UDP 传输（如 G.711 编码）。

PCM 接口的典型应用

(1) 音频设备

ADC/DAC 芯片：将模拟信号转换为 PCM 数据（或反向转换）。

数字音频工作站（DAW）：录音时麦克风信号通过 PCM 接口输入计算机。

Hi-Fi 播放器：解码器通过 I2S 接口将 PCM 数据传输给 DAC 芯片。

(2) 通信系统

电话系统：传统电话使用 8kHz 采样率的 PCM（G.711 编码）。

蓝牙音频（SBC 编码前）：原始音频先以 PCM 格式传输，再压缩为 SBC/AAC。

车载音频：数字功放通过 PCM 接口接收多声道信号。

(3) 计算机音频

声卡与 CPU 通信：操作系统通过 PCM 格式管理音频输入/输出（如 WAV 文件播放）。

PCM vs. 其他音频接口

对比项 PCM 接口其他接口（如 PDM、DSD）
数据格式多比特量化（如 16/24bit） 1bit 位流（PDM/DSD）
音质无损（原始采样）依赖调制方式（DSD 适合高频细节）
延迟低（直接传输）可能需转换（如 PDM 转 PCM）
典型应用录音、专业音频、通信高端 Hi-Fi（SACD）、MEMS 麦克风

✅ PDM（Pulse Density Modulation）：常见于数字麦克风（如智能手机麦克风），需通过滤波器转换为 PCM。

常见问题

Q1: PCM 和 WAV 的关系？

PCM 是原始音频数据格式，WAV 是 PCM 的封装格式（加文件头）。

例如：CD 音质的 WAV = 44.1kHz/16bit 的 PCM 数据 + WAV 文件头。

Q2: 为什么蓝牙耳机不直接传输 PCM？

PCM 数据量太大（如 44.1kHz/16bit 立体声 ≈ 1.4Mbps），蓝牙带宽不足，需压缩为 SBC/AAC/LDAC。

Q3: PCM 接口需要时钟信号吗？

是的！PCM 依赖同步时钟（BCLK）和帧同步信号（LRCLK）（如 I2S 接口）。

总结

PCM 接口是数字音频的“通用语言”，传输未经压缩的采样数据。

硬件接口（如 I2S、TDM）用于芯片级通信，软件接口用于系统级音频处理。

几乎所有音频设备（从手机到专业录音棚）都依赖 PCM 格式作为基础。

如果需要具体场景的接口选型（如选择 I2S 还是 TDM），可以进一步探讨！

音频格式

音频格式可以分为 无损格式 和 有损格式，以及不同的 封装格式。以下是常见的音频格式分类和介绍：

一、无损音频格式（无压缩或无损压缩）

PCM（脉冲编码调制）

特点：原始音频数据，未压缩，音质最好，但文件极大。

常见封装：WAV、AIFF、CDDA（CD音轨）。

用途：专业录音、音频编辑、CD音轨。

WAV（Waveform Audio File Format）

特点：微软开发，通常存储PCM数据（未压缩），但也可支持压缩（如ADPCM）。

用途：Windows平台、专业音频制作。

AIFF（Audio Interchange File Format）

特点：苹果开发，类似WAV，默认PCM，支持AIFF-C（压缩格式，但极少用）。

用途：Mac系统、音乐制作（如Logic Pro）。

FLAC（Free Lossless Audio Codec）

特点：开源无损压缩，体积比WAV小约50%，音质相同。

用途：高保真音乐存储、流媒体（如Tidal HiFi）。

ALAC（Apple Lossless Audio Codec）

特点：苹果的无损压缩格式，类似FLAC，但苹果生态专用（.m4a封装）。

用途：iTunes、AirPlay无损传输。

DSD（Direct Stream Digital）

特点：超高采样率（如2.8MHz/5.6MHz），用于SACD（超级音频CD）。

用途：高端Hi-Fi设备。

二、有损音频格式（压缩后音质降低）

MP3（MPEG-1 Audio Layer III）

特点：最流行的有损格式，兼容性极强，但高频细节丢失。

用途：音乐下载、流媒体、移动设备。

AAC（Advanced Audio Coding）

特点：MP3的升级版，效率更高（相同比特率下音质更好）。

封装：.m4a（苹果常用）、.mp4（视频音频流）。

用途：iTunes、YouTube、Spotify（部分）。

OGG Vorbis

特点：开源有损格式，音质优于MP3，但兼容性较差。

用途：游戏音频（如Steam）、早期Spotify。

Opus

特点：低延迟，适合实时语音和流媒体，音质优于AAC（低比特率下）。

用途：网络通话（Discord、WhatsApp）、WebRTC。

WMA（Windows Media Audio）

特点：微软开发，有损（WMA）和无损（WMA Lossless）版本。

用途：旧版Windows Media Player。

三、其他特殊音频格式

MIDI（.mid）

特点：存储音符指令而非音频数据，文件极小，依赖合成器播放。

用途：电子音乐制作、游戏背景音乐。

DSD（.dsf/.dff）

特点：1bit超高采样率音频，用于SACD。

用途：高端Hi-Fi播放。

MQA（Master Quality Authenticated）

特点：折叠式无损压缩，需专用解码器展开。

用途：Tidal Masters高解析度流媒体。

四、格式对比表

格式类型音质文件大小主要用途
PCM 无损原始 ★★★★★ 极大专业录音、CD
WAV 无损封装 ★★★★★ 大 Windows音频编辑
FLAC 无损压缩 ★★★★★ 中高保真音乐存档
ALAC 无损压缩 ★★★★★ 中苹果设备无损
MP3 有损压缩 ★★☆（128kbps）小通用音乐格式
AAC 有损压缩 ★★★（同码率优于MP3）小流媒体（Apple/YouTube）
Opus 有损压缩 ★★★★（低延迟）极小网络通话、实时流

五、如何选择合适的音频格式？

音乐制作/录音：WAV/AIFF（PCM）或FLAC/ALAC（无损压缩）。

高音质播放：FLAC、ALAC、DSD（Hi-Fi设备）。

日常听歌：MP3（兼容性强）、AAC（更高效）。

网络传输/语音：Opus（低延迟）、AAC（通用流媒体）。

如果有具体需求（如设备兼容性、音质优先级），可以进一步推荐最佳格式！

音频压缩

关于音频的封装格式和压缩

一、音频封装格式（Container Format）

封装格式是音频数据的“包装盒”，它定义了如何存储音频流（可能还有视频、字幕等元数据），但不直接决定音频的编码方式。

常见的封装格式包括：

WAV、AIFF（无损，通常封装PCM）

MP3（既是编码格式也是封装格式）

FLAC（无损压缩封装）

OGG（可封装Vorbis、Opus等编码）

MP4/M4A（封装AAC、ALAC等）

AAC（通常以.m4a或.mp4封装）

封装格式的作用：

存储元数据：如采样率、位深度、声道数、作者信息等。

支持多轨道：例如MKV可封装多语言音频、字幕。

兼容性：不同设备/软件支持的封装格式不同（如苹果设备偏好MP4/M4A）。

📌 示例：

同一份PCM数据，可以封装为.wav（加文件头）或.aiff（苹果格式）。

MP3文件既是压缩编码，也是封装格式（不含视频等额外数据）。

二、音频压缩（编码方式）

压缩的目的是减小文件体积，分为无损压缩和有损压缩：

无损压缩

原理：通过算法消除冗余数据，但可完全还原原始音频。

格式：FLAC、ALAC（Apple Lossless）、WAV（PCM未压缩）、APE。

特点：

音质 = 原始PCM，文件体积约为PCM的50%~60%。

适合专业音频编辑、音乐存档。

有损压缩

原理：利用心理声学模型，剔除人耳不敏感的频段（如高频弱信号）。

格式：MP3、AAC、OGG Vorbis、Opus。

特点：

文件体积大幅减小（MP3约为PCM的10%~20%）。

音质损失不可逆，高频细节可能丢失。

适合流媒体、移动设备。

三、常见问题

为什么WAV文件比FLAC大？

WAV直接存储PCM数据，FLAC通过无损压缩算法减小体积（类似ZIP压缩）。

MP3和AAC哪个音质更好？

相同比特率下，AAC音质通常优于MP3（AAC是MP3的升级版）。

转换格式会损失音质吗？

无损→无损（如WAV→FLAC）：无损失。

有损→有损（如MP3→AAC）：音质进一步下降。

无损→有损（如WAV→MP3）：永久丢失部分数据。

四、总结

封装格式是“容器”，决定文件结构和元数据。

压缩编码是“内容”，决定音质和文件大小。

无损（FLAC/WAV）适合专业用途，有损（MP3/AAC）适合日常使用。

如果需要具体场景的格式推荐（如音乐制作、语音录制），可以进一步探讨！

wav和aiff有压缩吗？

WAV 和 AIFF 文件本身是封装格式，它们通常不压缩音频数据（即默认使用无损的PCM编码），但也可以包含某些压缩格式。以下是详细对比：

WAV（Waveform Audio File Format）

默认情况：

存储未压缩的PCM音频数据（无损，文件体积大）。

例如：CD音质的WAV = 44.1kHz采样率 × 16bit位深度 × 立体声 ≈ 10MB/分钟。

支持压缩的情况：

WAV的扩展性很强，可以通过编码器（Codec）存储压缩音频，例如：

ADPCM（有损压缩，用于早期语音和游戏音频）。

MP3、GSM、G.711（需特定编码器支持，但兼容性差）。

这类压缩的WAV文件较少见，可能被某些专业设备或软件使用。

✅ 如何判断WAV是否压缩？ 用音频工具（如Audacity、FFmpeg）查看文件属性，若编码格式显示PCM则为未压缩，显示ADPCM、MP3等则为压缩。

AIFF（Audio Interchange File Format）

默认情况：

类似WAV，AIFF通常存储未压缩的PCM数据（苹果生态常用）。

音质与WAV（PCM）完全相同，但文件结构不同（基于苹果的格式标准）。

支持压缩的情况：

AIFF的变种格式AIFF-C（Compressed） 支持压缩编码，例如：

MACE（Macintosh Audio Compression/Expansion，有损压缩）。

ALAC（Apple Lossless，无损压缩，但现代ALAC通常直接封装为.m4a）。

实际使用中，AIFF-C非常罕见，主流AIFF文件均为PCM。

WAV vs. AIFF 对比

特性 WAV AIFF
默认编码 PCM（未压缩） PCM（未压缩）
支持压缩是（ADPCM、MP3等，但少见）是（AIFF-C，极罕见）
文件头结构微软/IBM标准苹果标准
元数据支持有限（依赖扩展字段）支持更多标签（如专辑封面）
主要用途 Windows、专业音频 Mac、音乐制作

为什么通常认为WAV/AIFF是无损的？

因为它们默认使用PCM编码，而PCM是原始音频数据，未经压缩。

即使支持压缩，实际应用中几乎不会用WAV/AIFF存储MP3等有损格式（直接存为MP3/AAC更高效）。

如何确保WAV/AIFF是无损的？

检查文件的编码格式（通过播放器或工具如MediaInfo）：

未压缩：显示PCM、Linear PCM。

压缩：显示ADPCM、MP3等。

导出时选择明确的无损选项（如DAW中导出为WAV (PCM)或AIFF (PCM)）。

总结

WAV和AIFF通常是无损的（默认PCM），但技术上支持某些压缩格式（实际极少使用）。

如果需要无损音频，直接使用WAV/AIFF（PCM）或FLAC/ALAC（压缩无损）。

如果需要有损压缩，优先选MP3、AAC等专用格式。

如果有具体的使用场景（如音乐制作、设备兼容性），可以进一步探讨最佳选择！

音频相关基础知识

主要参考： 音频基本概念_音频和音调的关系-CSDN博客音频相关基础知识（采样率、位深度、通道数、PCM、AAC）_音频2通道和8ch的区别-CSDN博客概述声音的本质声音的本质是波在介质中的传播现象，声波的本质是一种波，是一…...

编程日记 2025/8/14 6:18:08

【Agent】使用 Python 结合 OpenAI 的 API 实现一个支持 Function Call 的程序,修改本机的 txt 文件

使用 Python 结合 OpenAI 的 API 来实现一个支持 Function Call 的程序，修改本机的 txt 文件。需要注意，在运行代码前，要确保已经安装了 openai 库，并且拥有有效的 OpenAI API Key。 import openai import os# 设置你的 OpenAI A…...

编程日记 2025/8/7 15:28:13

mint系统详解详细解释

Linux Mint是一款基于Ubuntu的开源桌面操作系统，以用户友好、稳定性强、功能全面著称，尤其适合从Windows迁移的新手和追求高效办公的用户。以下从技术架构、版本演进、生态体系、核心功能、应用场景等维度进行深度解析： 一、技术架构&#x…...

编程日记 2025/8/11 18:21:59

WordPress个人博客搭建（三）：WordPress网站优化

前言在之前的WordPress个人博客搭建（一）与WordPress个人博客搭建（二）文章中，我们已经在自己的非凡云云服务器上成功搭建了WordPress个人博客。现在让我们继续这场数字世界的耕耘，通过插件与主题的巧妙搭配…...

编程日记 2025/8/11 21:45:22

力扣1812题解

记录 2025.5.7 题目： 思路： 从左下角开始，棋盘的行数和列数（均从 1 开始计数）之和如果为奇数，则为白色格子，如果和为偶数，则为黑色格子。代码： class Solution {pu…...

编程日记 2025/6/29 2:25:12

深入理解XGBoost（何龙著）学习笔记（三）

原创化心为海微阅读札记https://mp.weixin.qq.com/s/vBE3fu9AZDjRFd5niJU0lg 2025年05月06日 18:17 北京第三章机器学习算法基础摘要：本章首先介绍了基础的机器学习算法的实现原理和应用；然后对决策树模型做了详细介绍；最后&#xff0…...

编程日记 2025/6/29 4:27:27

一篇文章解析 H.264/AVC 视频编解码标准框架

古人有云: “不积跬步, 无以至千里; 不积小流, 无以成江海。” 本文给小伙伴们删繁就简介绍 H.264/AVC 视频编解码标准框架。 H.264/AVC框架 H.264/AVC 作为视频编码领域的里程碑标准，仍然沿用混合编码框架，但其通过模块化技术创新显著提升了压缩效率和网络适应性。H.264/AV…...

编程日记 2025/6/29 4:50:01

Sat2Density论文详解——卫星-地面图像生成

“Sat2Density: Faithful Density Learning from Satellite-Ground Image Pairs”，即从卫星-地面图像对中学习忠实的密度表示。论文的主要目标是开发一种能够准确表示卫星图像三维几何结构的方法，特别关注从卫星图像中合成具有3D意识的地面视图图像的挑战…...

编程日记 2025/8/8 19:14:22

【计算机架构】RISC（精简指令集计算机）架构

一、引言在计算机科学技术飞速发展的长河中，计算机架构犹如一艘艘领航的巨轮，不断引领着计算技术朝着更高性能、更低功耗、更智能化的方向前行。RISC（精简指令集计算机）架构便是其中一艘极为独特且极具影响力的“巨轮”。从早期计…...

编程日记 2025/8/14 6:18:07

智算中心基础设施0-1建设全流程及投产后的运维

0 - 1 建设全流程规划与设计需求分析：与相关部门和用户沟通，了解智算中心的业务需求，包括计算能力、存储容量、网络带宽、应用场景等，为后续的设计提供依据。选址规划：考虑电力供应、网络接入、环境条件、安全因素等…...

编程日记 2025/8/13 20:39:39

用3D slicer 去掉影像中的干扰体素而还原干净影像（脱敏切脸处理同）

今天遇到一个特殊的影像，扫描被试的头颅被很多干扰阴影快给遮盖住了，3D 建模出来的头颅有很多干扰，非常影响处理和视觉体验，正好解锁一个3D slicer 的功能吧。背景：有一个被试数据头顶有很多干扰，直接覆盖…...

编程日记 2025/8/10 17:55:54

滚动条样式

title: 滚动条样式 date: 2025-05-07 19:59:31 tags:css 滚动条样式完整定义 HTML 示例以下是一个包含所有主流浏览器滚动条样式属性的完整HTML文件，涵盖了WebKit内核浏览器和Firefox的滚动条定制： <!DOCTYPE html> <html lang"zh-CN&…...

编程日记 2025/8/10 3:40:23

Prompt（提示词）工程师，“跟AI聊天”

提示词工程师这活儿早就不只是“跟AI聊天”那么简单了，特别是现在MetaGPT、LangChain这些框架出来后，整个赛道都升级成“AI指挥官”的较量了。第一层：基础能力得打牢 AI语言学家的功底别笑，真得像学外语一样研究大模型。比如GP…...

编程日记 2025/6/29 2:25:45

Java版ERP管理系统源码（springboot+VUE+Uniapp）

ERP系统是企业资源计划（Enterprise Resource Planning）系统的缩写，它是一种集成的软件解决方案，用于协调和管理企业内各种关键业务流程和功能，如财务、供应链、生产、人力资源等。它的目标是帮助企业实现资源的高效利用…...

编程日记 2025/7/11 9:02:05

金融小知识

📉 一、“做空”是啥？ 通俗说法：押“它会跌”，赚钱！ ✅ 举个例子： 有一天老王的包子涨价到 10 块一个，张三觉得这价格肯定撑不住，未来会跌到 5 块。于是他： 向朋友借了…...

编程日记 2025/6/29 5:06:24

高组装导轨的特点

高组装导轨通常是四列式单圆弧齿形接触直线导轨，具有整合化的结构设计，适用于重负荷和精密应用。与其它直线导轨高组装导轨提升了负荷与刚性能力，具备四方向等负载特色和自动调心功能，能够吸收安装面的装配误差，达到高…...

编程日记 2025/8/14 4:28:54

PE文件结构（导入表）

导入表什么是导入表？ 导入表就是pe文件需要依赖哪些模块以及依赖这些模块中的哪些函数回想我们导出表的内容，导出表的位置和大小是保存在扩展pe头最后一个结构体数组当中的 IMAGE_DATA_DIRECTORY DataDirectory[IMAGE_NUMBEROF_DIRECTORY_ENTRIES]第…...

编程日记 2025/8/10 9:44:27

AI 实践探索：辅助生成测试用例

背景目前我们的测试用例主要依赖人工生成和维护，AI时代的来临，我们也在思考“AI如何赋能业务”，提出了如下命题： “探索通过AI辅助生成测试用例，完成从需求到测试用例生成的穿刺”。目标找全测试路径辅助生成测…...

编程日记 2025/8/10 23:33:08

2025年链游行业DDoS与CC攻击防御全解析：高带宽时代的攻防博弈

2025年，链游行业在元宇宙与Web3.0技术的推动下迎来爆发式增长，但随之而来的DDoS与CC攻击也愈发猖獗。攻击者瞄准链游的高频交易接口、NFT拍卖系统及区块链节点，通过混合型攻击（如HTTP FloodUDP反射）瘫痪服务&#xff0…...

编程日记 2025/8/11 19:16:30

LeetCode热题100--73.矩阵置零--中等

1. 题目给定一个 m x n 的矩阵，如果一个元素为 0 ，则将其所在行和列的所有元素都设为 0 。请使用原地算法。示例 1： 输入：matrix [[1,1,1],[1,0,1],[1,1,1]] 输出：[[1,0,1],[0,0,0],[1,0,1]] 示例 2&#xff…...

编程日记 2025/8/11 19:32:36

51camera将参加第九届沥青路面论坛暨新技术新成果展示会

51camera志强视觉 51camera即将参加第九届沥青路面论坛暨新技术新成果展示会，届时会有相关动态应用展示，欢迎广大客户朋友莅临参观。会议时间：2025 年5月16日-18日会议地点：长沙国际会议中心一层多功能厅1-6厅（长…...

编程日记 2025/8/12 16:48:21

问题代码 def create_functions():functions []for i in range(3):# 创建一个函数,期望捕获当前循环的i值functions.append(lambda: print(f"My value is: {i}"))return functions# 创建三个函数 f0, f1, f2 create_functions()# 调用这些函数 f0() # 期望输出 &…...

编程日记 2025/8/11 2:48:19

Java的HashMap面试题

目录 1. 说一下HashMap的工作原理？（1.7和1.8都是） 2. 了解的哈希冲突解决方法有哪些 3. JAVA8的 HashMap做了哪些优化 4. HashMap的数组长度必须是 2 的 n 次方 5. HashMap什么时候引发扩容 5.1 数组容量小于64的情况： 5.2…...

编程日记 2025/8/10 15:44:14

spring4.x详解介绍

一、核心特性与架构改进全面支持Java 8与Java EE 7 Spring 4.x首次实现对Java 8的完整支持，包括： Lambda表达式与Stream API：简化代码编写，提升函数式编程能力； 新的时间日期API（如LocalDate、LocalTime&…...

编程日记 2025/8/11 12:34:51

从图灵机到量子计算：逻辑可视化的终极进化

一、图灵机：离散符号系统的奠基者 1.1 计算理论的数学根基 1936 年，艾伦・图灵在《论可计算数及其在判定问题中的应用》中提出的图灵机模型，本质上是一个由七元组\( M (Q, \Sigma, \Gamma, \delta, q_0, q_{accept}, q_{reject}) \)构成的…...

编程日记 2025/8/9 1:37:37

Python初学者笔记第九期 -- （列表相关操作及列表编程练习题）

第17节课列表相关操作无论是内置函数、对象函数，用起来确实很方便，但是作为初学者，你必须懂得它们背后的运行逻辑！ 1 常规操作 （1）遍历 arr [1,2,3,4] # 以索引遍历:可以在遍历期间修改元素 for ind…...

编程日记 2025/8/12 5:09:15

设备指纹破解企业面临的隐私与安全双重危机

在数字经济高速发展的今天，黑灰产攻击如影随形，个人隐私泄露、金融欺诈、电商刷单等风险事件频发。芯盾时代 “觅迹” 设备指纹全新升级，以跨渠道识别能力打破行业壁垒，为金融、电商、游戏等多场景构筑安全屏障。黑灰产肆虐隐私…...

编程日记 2025/8/13 2:36:19

多功能气体检测报警系统，精准监测，守护安全

在化学品生产、石油化工、矿山、消防、环保、实验室等领域，有毒有害气体泄漏风险严重威胁工作人员和环境安全。化工企业生产中易产生大量可燃有毒气体，泄漏达一定浓度易引发爆炸、中毒等重大事故；矿井下瓦斯、一氧化碳等有害气体的浓度实时监…...

编程日记 2025/8/10 19:10:18

【HarmonyOS 5】鸿蒙中常见的标题栏布局方案

【HarmonyOS 5】鸿蒙中常见的标题栏布局方案一、问题背景： 鸿蒙中常见的标题栏：矩形区域，左边是返回按钮，右边是问号帮助按钮，中间是标题文字。那有几种布局方式，分别怎么布局呢？常见的思维…...

编程日记 2025/8/11 9:16:30

登顶中国：基于 Trae AI与 EdgeOne MCP 的全国各省最高峰攀登攻略博客构建实践

一、背景与目标随着户外运动和登山活动的日益流行，越来越多的人希望挑战自然，体验登顶的乐趣。中国幅员辽阔，34个省级行政区（包括23个省、5个自治区、4个直辖市和2个特别行政区）拥有众多壮丽的山峰，其…...

编程日记 2025/8/9 10:17:48

iOS蓝牙技术实现及优化

以下是针对2025年iOS蓝牙技术实现的核心技术要点的深度解析，结合当前iOS 18（推测版本）的最新特性与开发实践，分模块结构化呈现： 一、硬件与协议层适配 BLE 5.3 支持 iOS 18默认支持蓝牙5.3协议，需注意&…...

编程日记 2025/8/10 23:34:11

STC单片机--仿真调试

目录一、仿真介绍二、仿真步骤一、仿真介绍通常单片机的仿真有ST-Link、JTAG等，连接好线路之后，在keil的debug选项设置好就可以仿真了。但是，STC需要在STC-ISP软件上的仿真界面进行配置，然后才能在keil里正常仿真二、仿真步骤…...

编程日记 2025/8/8 13:43:50

SecureCRT SFTP命令详解与实战

在日常的开发工作中，安全地进行文件传输是一个常见的需求。无论是部署应用到远程服务器，还是从生产环境下载日志文件分析问题，一个可靠的工具可以大大提高工作效率。今天，我们就来详细介绍如何使用SecureCRT内置的SFTP功能&#x…...

编程日记 2025/8/6 7:08:01

Unity Gizmos

简介 Gizmos 是Unity编辑器中的一种可视化调试工具，用于在场景视图（Scene View）中绘制辅助图形、图标或文本，帮助开发者直观理解游戏对象的位置、范围、逻辑关系等信息核心功能 1. 辅助可视化调试在场景视图中显示碰撞体、触…...

编程日记 2025/8/10 5:50:26

EEG设备的「减法哲学」：Mentalab Explore如何用8通道重构高质量脑电信号？

在脑电图（EEG）研究领域，选择适配的工具是推动研究进展的重要步骤。Mentalab Explore 以其便捷性和高效性，成为该领域的一项创新性解决方案。研究者仅用较少的 EEG 通道即可完成实验，并且能够确保数据的高质量。其搭载的…...

编程日记 2025/8/8 16:51:40

PDF文档压缩攻略

前言：早上花了一点时间网上搜索了一下压缩pdf文档大小的方法，发现大部分是利用第三方在线网页，上传文件付费压缩，同时缺乏文件保密性。经实践，利用浏览器或者wps（不付费）即可轻松处理。一、…...

编程日记 2025/8/11 13:25:49

vllm命令行启动方式并发性能实测

设备V100双卡，测试模型qwen2.5-7b,并发度为100。表现如下： 单卡959.48token/s 双卡使用 --pipeline-parallel-size 2 939.78token/s双卡使用 --tensor-parallel-size 21084.82token/s双卡，两张卡分别跑一个接口，形成两个接口…...

编程日记 2025/8/10 19:55:55

医疗AI存在 9 类系统性漏洞

医疗AI存在9类系统性漏洞理解1. 从整体目的入手2. 关键术语：什么是“红队测试”(Red Teaming)？3. 红队测试的对象：LLM（大模型）4. 红队测试的切入点：为什么要让“临床专家”来做？5. 什么叫做“脆…...

编程日记 2025/8/12 2:26:04

怎么有效管理项目路径（避免使用绝对路径）

怎么有效管理项目路径（避免使用绝对路径） import os 使用 os.path 方法会自动处理不同操作系统的路径分隔符（如 \ 和 /） 1.**current_dir os.path.dirname(os.path.abspath(\__file__)) ** __file__ 获取当前脚本的文件路径&…...

编程日记 2025/8/10 22:32:45

MySQL的行级锁锁的到底是什么?

大家好，我是锋哥。今天分享关于【MySQL的行级锁锁的到底是什么?】面试题。希望对大家有帮助； MySQL的行级锁锁的到底是什么? 1000道互联网大厂Java工程师精选面试题-Java资源分享网 MySQL的行级锁是数据库管理系统（DBMS）的一…...

编程日记 2025/8/12 23:35:15

多账号管理、反追踪与自动化测试：我的浏览器实战笔记

作为一名在自动化测试和数据采集方面“踩坑”无数的开发者，我想聊聊自己在浏览器工具选择上的一些经验，也许能帮到同样在“账号风控”“浏览器指纹”“隐私追踪”这些问题上挣扎的朋友们。一、从最初的Chrome开始：万能但不够隐蔽起初做Se…...

编程日记 2025/8/12 0:07:58

如何应对客户在验收后提出新需求？

应对客户在验收后提出新需求的方法包括：明确新需求的范围与影响、与客户积极沟通、进行影响评估、合理协商费用与时间调整。其中，明确新需求的范围与影响最为关键。明确新需求的范围意味着迅速界定新需求的边界，分析它对现有项目进度、成本和…...

编程日记 2025/8/11 16:34:56

Android Studio根目录下创建多个可运行的模块

右键选中根目录，选择New -> Module 接着选中Phone & Tablet, 填写项目名和包名选择一个模板，选择Next 然后可以看到app对应一开始创建的app模块，刚创建的customcomponent对应的，这样就可以在一个根目录下有多个可以安装运…...

编程日记 2025/6/29 2:36:33

【Linux】Linux环境基础开发工具

前言本篇博客我们来了解Linux环境下一些基础开发工具 💓 个人主页：zkf& ⏩ 文章专栏：Linux 若有问题评论区见📝 🎉欢迎大家点赞👍收藏⭐文章目录 1.Linux 软件包管理器 yum 2.Linux开发工具 2.1…...

编程日记 2025/8/10 17:11:06

五子棋html

<!DOCTYPE html> <html lang"zh-CN"> <head> <meta charset"UTF-8" /> <meta name"viewport" content"widthdevice-width, initial-scale1" /> <title>五子棋游戏</title> <style>bo…...

编程日记 2025/8/13 10:50:10

分布式-基于数据库排他锁

原理： 除了可以通过增删操作数据表中的记录以外，其实还可以借助数据库中自带的锁来实现分布式的锁。我们还用刚刚创建的那张数据库表。可以通过数据库的排他锁来实现分布式锁。基于MySql的InnoDB引擎，可以使用以下方法来实现加锁操作&…...

编程日记 2025/8/11 13:32:39

docker host模式问题

为什么乌班图得docker 我装什么都必须要host 而-p映射不管用在 Ubuntu 上使用 Docker 时，如果你发现只有 --network host 模式能正常工作，而端口映射（-p）不管用，可能有以下几种原因： 1. Docker 网络模式…...

编程日记 2025/8/11 14:56:07

分布式-Redis分布式锁

Redis实现分布式锁优点 （1）Redis有很高的性能； （2）Redis命令对此支持较好，实现起来比较方便实现思路 （1）获取锁的时候，使用setnx加锁，并使用expire命令为锁…...

编程日记 2025/8/9 5:49:18

【Python爬虫电商数据采集+数据分析】采集电商平台数据信息，并做可视化演示

前言随着电商平台的兴起，越来越多的人开始在网上购物。而对于电商平台来说，商品信息、价格、评论等数据是非常重要的。因此，抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序&a…...

编程日记 2025/8/11 13:22:50

大数据应用开发和项目实战-电商双11美妆数据分析2

数据可视化使用seaborn库绘制复杂图表，展示各品牌和品类的销售情况。绘制嵌套柱形图，分别按主类别和子类别进行对比。通过饼图展示男士专用产品的销售偏好，发现男士主要关注清洁和补水类产品。用seaborn包给出每个店铺各个大类以及各个…...

编程日记 2025/8/12 16:47:47

语音成分	频率范围	作用
基频（F0）	85 Hz ~ 255 Hz	决定音调（男/女/儿童差异）
元音	100 Hz ~ 1 kHz	提供声音响度和饱满度
清辅音	2 kHz ~ 8 kHz	影响清晰度（如“s”“f”“th”）

频段	频率范围	主要成分	听觉感受
超低频	20 Hz ~ 60 Hz	低音鼓（Kick）、管风琴、电子低音	震撼感，身体可感知振动
低频	60 Hz ~ 250 Hz	贝斯（Bass）、大提琴、低音吉他	浑厚、温暖
中低频	250 Hz ~ 500 Hz	男声、钢琴低音区、小号	饱满、有力度
中频	500 Hz ~ 2 kHz	人声（主唱）、吉他、小提琴中音区	清晰、明亮（核心频段）
中高频	2 kHz ~ 5 kHz	镲片（Cymbals）、女声高音、钢琴高音	穿透力强，增强细节
高频	5 kHz ~ 12 kHz	小提琴泛音、三角铁、齿音（Sibilance）	清脆、空气感
极高频	12 kHz ~ 20 kHz	钹（Hi-hat）、录音室混响、电子音效	空灵感，但易被年龄大者忽略

乐器/音源	主要频率范围	关键频段
人声（歌唱）	80 Hz ~ 1.2 kHz（基频）谐波可达 8 kHz	男声：100 Hz ~ 400 Hz 女声：200 Hz ~ 1 kHz
钢琴	27.5 Hz (A0) ~ 4.2 kHz (C8)	低音区：< 200 Hz 高音区：> 2 kHz
电吉他	80 Hz ~ 1.2 kHz（基频）失真音色可达 5 kHz	核心频段：200 Hz ~ 2.5 kHz
鼓组	Kick：60 Hz ~ 100 Hz Snare：150 Hz ~ 5 kHz Hi-hat：2 kHz ~ 12 kHz	低频冲击力 + 高频瞬态
小提琴	196 Hz (G3) ~ 3.1 kHz (A7) 泛音可达 12 kHz	中高频表现力强（2 kHz ~ 8 kHz）
电子合成音	全频段（20 Hz ~ 20 kHz）	取决于合成器设计（如Sub Bass或Glitch音效）

设备类型	有效频响范围	局限性
高端耳机	5 Hz ~ 40 kHz	超高频可能超出人耳感知
普通音箱	60 Hz ~ 18 kHz	低频下潜不足，高频衰减
手机扬声器	300 Hz ~ 15 kHz	几乎无低频，中高频突出
黑胶唱片	20 Hz ~ 20 kHz	超低频可能引起唱针跳轨

音乐类型	核心频段	特征
古典乐	40 Hz ~ 18 kHz	动态范围大，乐器频段均衡
摇滚/金属	80 Hz ~ 5 kHz	强低频（贝斯/鼓）+ 高能量中频
电子音乐	30 Hz ~ 16 kHz	超低频（Sub Bass）+ 极高频特效
爵士乐	100 Hz ~ 12 kHz	中频温暖（萨克斯、钢琴）
流行音乐	60 Hz ~ 10 kHz	突出人声（1 kHz ~ 4 kHz）

问题	原因
高频信息丢失	采样率 20kHz 仅能保留 ≤10kHz 的信号，音乐缺失高频细节（如镲片、泛音）。
音质浑浊	低频与中频拥挤，动态范围降低（尤其影响钢琴、吉他等宽频乐器）。
混叠失真	若未严格滤波，高频信号会折叠到可听频段（产生刺耳噪声）。

用途	推荐采样率	保留频段	示例
专业音乐制作	44.1kHz~96kHz	20Hz~20kHz+	CD、流媒体高音质
语音通话（VoIP）	8kHz~16kHz	300Hz~4kHz	微信语音、Zoom会议
广播/播客	24kHz~48kHz	50Hz~12kHz	FM电台、有声书
嵌入式音频	16kHz~32kHz	100Hz~8kHz	电子门铃、报警提示音

场景	推荐采样率	理由
专业录音/混音	96kHz~192kHz	确保后期处理质量
电子音乐制作	48kHz~96kHz	高频合成器可能产生超声波
影视/游戏音效	48kHz~192kHz	时间拉伸/空间效果需求
最终音乐分发	44.1kHz~48kHz	人耳无法感知更高采样率的差异

位深度	动态范围	主要用途	优缺点
8bit	~48dB	早期游戏音效、电话语音	噪声明显，音质粗糙
16bit	~98dB	CD音频、流媒体（MP3/AAC）	平衡音质与文件大小
24bit	~144dB	专业录音、母带制作、高解析音频	低噪声，适合后期处理
32bit（浮点）	~1528dB*	DAW内部处理、影视后期	抗 clipping，超强动态范围

场景	推荐位深度	理由
音乐录制/混音	24bit	保留最大动态范围，方便后期处理
最终音乐分发（CD）	16bit	兼容CD标准，文件更小
影视/游戏音效	24bit或32bit浮点	应对复杂动态变化（如爆炸声到耳语）
语音通话	16bit（或更低）	语音动态范围小，8bit~16bit足够

特性	WAV	AIFF
默认编码	PCM（未压缩）	PCM（未压缩）
支持压缩	是（ADPCM、MP3等，但少见）	是（AIFF-C，极罕见）
文件头结构	微软/IBM标准	苹果标准
元数据支持	有限（依赖扩展字段）	支持更多标签（如专辑封面）
主要用途	Windows、专业音频	Mac、音乐制作

格式	声道数	应用场景
4.0（Quad）	4	70年代实验性环绕声
6.1	7	在5.1基础上增加后中置
9.1（Atmos）	10+	顶部扬声器增强空间感

需求	推荐声道	理由
语音/播客	Mono（1.0）	节省带宽，内容无方向需求
音乐聆听	Stereo（2.0）	兼容所有设备，自然声场
电影/游戏	5.1 或 7.1	沉浸式体验
专业制作（VR/Atmos）	3D音频（如Atmos）	动态音效定位

音频类型	码率范围	适用场景
电话语音	8~16 kbps	移动通信（如AMR-NB编码）
网络语音（VoIP）	24~64 kbps	微信语音、Zoom会议（Opus编码）
流媒体音乐	96~320 kbps	Spotify（Ogg Vorbis）、Apple Music（AAC）
CD音质（无损）	1411 kbps	未压缩的WAV/AIFF文件
高清音频（Hi-Res）	2000~9000 kbps	24bit/96kHz FLAC或DSD文件

接口类型	描述
I2S	集成电路内置音频总线（Inter-IC Sound），用于芯片间传输 PCM 数据（如 DAC/ADC）。
TDM（Time-Division Multiplexing）	支持多声道 PCM 传输（如 8 通道音频）。
PCM 同步串口	某些 DSP 或编解码芯片的专用接口（如 TI/ADI 芯片）。
S/PDIF（索尼/飞利浦数字接口）	通过同轴或光纤传输 PCM 数据（家用 Hi-Fi 常见）。

对比项	PCM 接口	其他接口（如 PDM、DSD）
数据格式	多比特量化（如 16/24bit）	1bit 位流（PDM/DSD）
音质	无损（原始采样）	依赖调制方式（DSD 适合高频细节）
延迟	低（直接传输）	可能需转换（如 PDM 转 PCM）
典型应用	录音、专业音频、通信	高端 Hi-Fi（SACD）、MEMS 麦克风

格式	类型	音质	文件大小	主要用途
PCM	无损原始	★★★★★	极大	专业录音、CD
WAV	无损封装	★★★★★	大	Windows音频编辑
FLAC	无损压缩	★★★★★	中	高保真音乐存档
ALAC	无损压缩	★★★★★	中	苹果设备无损
MP3	有损压缩	★★☆（128kbps）	小	通用音乐格式
AAC	有损压缩	★★★（同码率优于MP3）	小	流媒体（Apple/YouTube）
Opus	有损压缩	★★★★（低延迟）	极小	网络通话、实时流

概述