当前位置：首页 > news >正文

【大模型面试】大模型（LLMs）高频面题全面整理（★2025年5月最新版★）

news 来源：原创 2025/8/21 9:08:09

【大模型面试】大模型（LLMs）高频面题全面整理（★2025年5月最新版★）

🌟 嗨，你好，我是青松！

🌈 自小刺头深草里，而今渐觉出蓬蒿。

大模型（LLMs）面试笔记

一、大模型进阶面

💯 大模型（LLMs）DeepSeek面

一、概念篇
- Deepseek-V3的主要特点有哪些？
- DeepSeek-V3在推理速度方面表现出色的原因有哪些？
二、模型结构篇
- MLA
  - 什么是多头潜在注意力（MLA）？
  - MLA的计算流程是什么样的？
  - 训练时MLA需要配置哪些超参？
  - MLA相对于MHA有哪些改进？
- MoE
  - 什么是MoE？
  - DeepSeekMoE包含哪两种专家类型？
  - Share 专家和Router 专家的作用是什么？
  - 讲一下DeepSeekMoE的计算流程？
  - DeepSeekMoE是如何实现负载均衡的？
- MTP
  - 什么是Multi-Token Prediction（MTP）？
  - Multi-Token Prediction（MTP）有何作用？
  - 讲一下Multi-Token Prediction（MTP）的预测流程？
三、预训练篇
- Prefix-Suffix-Middle (PSM)数据格式是什么样的？
- DeepSeek预训练数据为何使用Prefix-Suffix-Middle (PSM)格式？
- 介绍一下Byte-level BPE？
- DeepSeek是如何进行长上下文扩展的？
- DeepSeek的使用YaRN进行长上下文扩展有哪两个阶段？
- DeepSeek预训练追求极致的训练效率的做法有哪些？
- 批量级负载均衡（Batch-Wise Load Balance）和顺序级负载均衡（Sequence-Wise Load Balance）有何区别？
- 使用MTP为何在提高计算效率的同时还能提升效果？
**四、有监督微调篇
- DeepSeek的SFT有哪几种数据？
- DeepSeek是如何构造Reasoning Data数据的？
- DeepSeek两种不同类型的SFT数据，区别是什么？
- DeepSeek在SFT训练时是如何加速训练过程的？
五、强化学习篇
- DeepSeek有哪两种奖励模型？
- Rule-Based RM和Model-Based RM的区别是什么？
- Rule-Based RM用在什么地方？有何作用？
- Model-Based RM用在什么地方？有何作用？
- DeepSeek是如何降低奖励欺诈风险的？
- DeepSeek为何使用Group Relative Policy Optimization（GRPO）？
- DeepSeek为何放弃Critic模型来估计状态的价值？
- DeepSeek是如何进行Self-Rewarding的？
- DeepSeek-V3从DeepSeek-R1中蒸馏知识有哪些影响？

💯 大模型（LLMs）模型压缩面

一、动因篇
- 💯 为什么需要对大模型进行压缩和加速？
二、方法篇
- 低秩分解
  - 💯 什么是低秩分解？
  - 💯 什么是奇异值分解（SVD）？
- 权值共享
  - 💯 什么是权值共享？
  - 💯 权值共享为什么有效？
- 模型量化
  - 💯 什么是模型量化？
  - 💯 均匀量化和非均匀量化有什么区别？
  - 💯 大模型训练后量化有什么优点？
  - 💯 什么是混合精度分解？
- 知识蒸馏
  - 💯 什么是蒸馏？
  - 💯 什么是基于反馈的知识蒸馏？
  - 💯 什么是基于特征的知识蒸馏？
  - 💯 什么是蒸馏损失？
  - 💯 什么是学生损失？
  - 💯 模型蒸馏的损失函数是什么？
- 剪枝
  - 💯 什么是剪枝？
  - 💯 描述一下剪枝的基本步骤？
  - 💯 结构化剪枝和非结构化剪枝有什么不同？

💯 大模型（LLMs）分布式训练面

一、动因篇
- 分布式训练主要解决大模型训练中的哪些问题？
二、数据并行
- 数据并行主要为了解决什么问题？
- PS架构是如何进行梯度同步和更新的？
- Ring-AllReduce是如何进行梯度同步和更新的？
- PS架构和Ring-AllReduce架构有何不同？
三、模型并行和张量并行
- 模型并行主要为了解决什么问题？
- 什么是张量并行，如何使用集群计算超大矩阵？
- 基础的流水线并行存在什么问题？
- 讲一讲谷歌的GPipe算法？
- 讲一讲微软的PipeDream算法？
四、DeepSpeed ZeRO
- 如何计算大模型占用的显存？
- ZeRO主要为了解决什么问题？
- ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？
- 用DeepSpeed进行训练时主要配置哪些参数？

💯 大模型（LLMs）模型编辑面

一、概念篇
- 什么是模型编辑（Model Editing）？
- 模型编辑（Model Editing）核心目标是什么？
- 对比重新预训练和微调，模型编辑的优势和适用场景是什么？
- 如何用模型编辑修正大语言模型中的知识错误？
二、性质篇
- 模型编辑的五大性质（准确性、泛化性、可迁移性、局部性、高效性）分别是什么？
- 如何量化评估模型编辑的五大性质？
- 若模型编辑后泛化性较差，可能的原因是什么？如何优化？
- 模型编辑局部性如何避免“牵一发而动全身”的问题？
三、方法篇
- 外部拓展法
  - 知识缓存法（如SERAC）的工作原理是什么？
  - 知识缓存法中的门控单元和推理模块如何协作？
  - 附加参数法（如T-Patcher）如何在不改变原始模型架构的情况下实现编辑？
  - 知识缓存法和附加参数法的优缺点有何优缺点？
- 内部修改法
  - ROME方法如何通过因果跟踪实验定位知识存储位置？
  - 阻断实验的作用是什么？
  - 元学习法（如MEND）如何实现“学习如何编辑”？
  - 元学习法的双层优化框架如何设计？
  - 定位编辑法（如KN、ROME）如何通过修改全连接前馈层参数实现精准编辑？
四、对比篇
- SERAC、T-Patcher、ROME在准确性、泛化性、局部性上的表现有何差异？
- 为什么ROME的局部性表现优于T-Patcher？

二、大模型微调面

💯 大模型（LLMs）有监督微调（SFT）面

一、概念篇
- 💯 从零训练一个大模型有哪几个核心步骤？
- 💯 为什么要对LLM做有监督微调（SFT）？
- 💯 如何将一个基础模型训练成一个行业模型？
二、数据篇
- 💯 如何准备SFT阶段的训练数据？
- 💯 alpaca 格式是这么样的？
- 💯 sharegpt 格式是什么样的？
- 💯 alpaca 格式和sharegpt 格式分别适合什么微调场景？
- 💯 如何自动生成指令构建SFT的训练数据？
- 💯 Self-instruct 数据生成步骤？
三、技巧篇
- 💯 什么是灾难性遗忘？
- 💯 LM做有监督微调（SFT）变傻了怎么办？
- 💯 如何避免灾难性遗忘？
四、对比篇
- 💯 有监督微调（SFT）和人工偏好对齐（RLHF）有何区别？
- 💯 有监督微调（SFT）适用于什么场景？
- 💯 人工偏好对齐（RLHF）适用于什么场景？

💯 大模型（LLMs）高效微调面

一、概念篇
- 💯 什么是微调？
- 💯 全量微调与参数高效微调的区别是什么？
- 💯 为什么需要对大模型进行高效微调？
- 💯 对大模型高效微调有哪些常用方法？
二、轻度微调
- 💯 什么是轻度微调？
- 💯 轻度微调有哪些常用方法？
- 💯 什么是BitFit微调？
- 💯 什么是分层微调？
- 💯 分层微调如何设置学习率？
三、适配器微调
- 💯 什么是适配器微调？
- 💯 适配器微调有哪些优势？
- 💯 讲一讲IA3微调？
四、提示学习（Prompting）
- 概念篇
  - 💯 什么是提示学习（Prompting）？
  - 💯 提示学习（Prompting）代表方法有哪些？
- 前缀微调（Prefix-tuning）
  - 💯 什么是前缀微调（Prefix-tining）？
  - 💯 前缀微调（Prefix-tining）的优点是什么？
  - 💯 前缀微调（Prefix-tining）的缺点是什么？
- 提示微调（Prompt-tuning）
  - 💯 什么是提示微调（Prompt-tuning）？
  - 💯 提示微调（Prompt-tuning）的核心思想？
  - 💯 提示微调（Prompt-tuning）的优点是什么？
  - 💯 提示微调（Prompt-tuning）的缺点是什么？
- P-tuning
  - 💯 P-tuning 动机是什么？
  - 💯 P-tuning v2 解决了什么问题？
  - 💯 P-tuning v2 进行了哪些改进？
五、指令微调
- 💯 为什么需要指令微调（Instruct-tuning）？
- 💯 指令微调（Instruct-tuning）是什么？
- 💯 指令微调（Instruct-tuning）的优点是什么？
- 💯 指令微调（Instruct-tuning）和提示学习（Prompting）的区别是什么？
六、LoRa微调
- 💯 什么是LoRA微调？
- 💯 为什么在参数高效微调中使用低秩矩阵分解？
- 💯 详细说明LoRA的工作原理及其优势？
- 💯 LoRA微调时有哪些可配置的参数？
- 💯 在配置LoRA时，如何设置参数r和alpha？
- 💯 LoRA存在低秩瓶颈问题，ReLoRA和AdaLoRA分别通过哪些方法改进？
- 💯 动态秩分配（如AdaLoRA）如何根据层的重要性调整秩？正交性约束的作用是什么？
- 💯 AdapterFusion如何实现多任务学习？
- 💯 如何利用LoRAHub实现跨任务泛化？其组合阶段与适应阶段的具体流程是什么？

💯 大模型（LLMs）提示学习面

一、概念篇
- 💯 什么是提示学习（Prompting）？
- 💯 提示学习（Prompting）代表方法有哪些？
二、方法篇
- 前缀微调（Prefix-tuning）
  - 💯 什么是前缀微调（Prefix-tining）？
  - 💯 前缀微调（Prefix-tining）的优点是什么？
  - 💯 前缀微调（Prefix-tining）的缺点是什么？
- 提示微调（Prompt-tuning）
  - 💯 什么是提示微调（Prompt-tuning）？
  - 💯 提示微调（Prompt-tuning）的核心思想？
  - 💯 提示微调（Prompt-tuning）的优点是什么？
  - 💯 提示微调（Prompt-tuning）的缺点是什么？
- P-tuning
  - 💯 P-tuning 动机是什么？
  - 💯 P-tuning v2 解决了什么问题？
  - 💯 P-tuning v2 进行了哪些改进？
三、对比篇
- 💯 提示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
- 💯 提示微调（Prompt-tuning）与 fine-tuning 区别是什么？

💯 大模型（LLMs）人类对齐训练（RLHF）面

一、概念篇
- 💯 从零训练一个大模型有哪几个核心步骤？
- 💯 从零训练大模型的三大阶段（Pretrain/SFT/RLHF）分别解决什么问题？
- 💯 什么是人类偏好对齐训练？
- 💯 为什么需要做人类偏好对齐训练？
- 💯 RLHF有哪几个核心流程？
- 💯 RLHF与SFT的本质区别是什么？为什么不能只用SFT？
- 💯 什么是人类偏好对齐中的"对齐税"(Alignment Tax)？如何缓解？
- 💯 RLHF的三大核心模块（奖励模型训练、策略优化、偏好数据收集）如何协同工作？
- 💯 为什么RLHF需要马尔可夫决策过程（MDP）建模？对话场景如何设计MDP五元组？
二、方法篇
- 强化学习和马尔可夫决策过程（MDP）
  - 💯 马尔可夫决策过程的五元组是分别指什么？
  - 💯 状态价值函数、优势价值函数、动作价值函数分别表示什么意思？
  - 💯 在强化学习中，基于值函数的和基于策略的的优化方法有何区别？
  - 💯 基于值函数的方法在处理连续动作空间问题时的优缺点分别是什么？
  - 💯 基于策略的方法在处理连续动作空间问题时的优缺点分别是什么？
- PPO 算法
  - 什么是近端策略优化（PPO）？
  - RLHF中的PPO主要分哪些步骤？
  - 💯 PPO中的重要性采样(Importance Sampling)如何修正策略差异？
  - 💯 Actor-Critic架构在RLHF中的双网络设计原理？
  - 💯 KL散度在RLHF中的双重作用是什么？
  - PPO-Clip与PPO-Penalty的数学形式差异及适用场景？
- DPO 算法
  - 💯 DPO如何通过隐式奖励建模规避强化学习阶段？
  - Bradley-Terry模型与DPO目标函数的关系推导
  - DPO vs PPO：训练效率与性能上限的对比分析
三、实践篇
- 💯 RLHF训练数据的格式是什么样的？
- 💯 人类偏好数据收集的三大范式（人工标注/用户隐式反馈/AI生成对比）？
- 💯 如何选择人类偏好对齐训练还是SFT？
- 💯 如何选择人类偏好对齐训练算法？
- 💯 如何理解人类偏好对齐训练中的Reward指标？
- 💯 Reward Hack问题（奖励模型过拟合）的检测与缓解方案有哪些？

💯 大模型（LLMs）提示工程面

一、概念篇
- 什么是Prompt工程？
- 为什么需要Prompt工程？
二、技巧篇
- Prompt设计要素
  - 任务说明、上下文、问题和输出格式的作用是什么？
  - 如何优化Prompt以提高模型性能？
  - 如何规范编写Prompt？
- 上下文学习（In-Context Learning）
  - 什么是上下文学习？
  - 上下文学习三种形式（零样本、单样本、少样本）的区别？
  - 如何选择有效的演示示例？
  - 影响上下文学习性能的因素有哪些？
  - 如何通过预训练数据分布和模型规模优化上下文学习效果？
  - 为什么提示中示例的顺序和数量会影响模型性能？
- 思维链（Chain of Thought, CoT）
  - 思维链（CoT）的核心思想是什么？
  - 思维链（CoT）在解决哪些任务类型中效果显著？
  - 思维链（CoT）有哪几种常见的模式？
  - 按部就班（如 Zero-Shot CoT、Auto-CoT）、三思后行（如 ToT、GoT）、集思广益（如 Self-Consistency）三种 CoT 模式有何异同？
  - 如何在不同任务中选择和应用CoT？
  - CoT如何提升模型在复杂推理任务中的表现？
  - 为什么某些指令微调后的模型无需显式 CoT 提示？
三、对比篇
- Prompt工程与传统微调的区别是什么？

三、大模型（LLMs）基础面

💯 大模型（LLMs）模型架构面

一、概念篇
- 💯 LLM架构对Transformer都有哪些优化？
二、组件篇
- 位置编码
  - 💯 什么是正弦（Sinusoidal）位置编码？
  - 💯 什么是旋转位置编码（RoPE）？
  - 💯 RoPE相对正弦位置编码有哪些优势？
- 长度外推
  - 💯 正弦编码是否真的具备外推性？
  - 💯 RoPE如何进行外推？
  - 💯 如何进行位置线性内插（Position Interpolation）？
  - 💯 NTK-Aware Scaled RoPE 和位置线性内插的区别是什么？
  - 💯 NTK-Aware Scaled RoPE 为何要对高频做外推，而对低频做内插？
- 注意力机制
  - 💯 LLM为何使用GQA代替MHA？
  - 💯 GQA如何平衡计算效率与模型性能？
  - 💯 GQA与MQA（Multi-Query Attention）有何区别？各自适用场景是什么？
  - 💯 GQA是否会影响模型对不同注意力模式的捕捉能力？如何缓解？
- PreNorm和PostNorm
  - 💯 PreNorm和PostNorm有何不同？
  - 💯 为什么PreNorm通常能提升训练稳定性？
  - 💯 PostNorm在何种场景下可能优于PreNorm？
  - 💯 如何通过残差连接设计缓解PostNorm的优化问题？
- RMSNorm和LayerNorm
  - 💯 为何使用 RMSNorm 代替 LayerNorm？
  - 💯 RMSNorm与LayerNorm在数学公式上的核心区别是什么？
  - 💯 RMSNorm可能带来哪些信息损失？如何补偿？
  - 💯 RMSNorm是否适用于所有模态任务？
- 激活函数
  - 💯 LLM使用SwiGLU相对于ReLU有什么好处？
  - 💯 SwiGLU相比ReLU如何提升模型非线性表达能力？
  - 💯 为什么SwiGLU在预训练任务中表现更佳？
  - 💯 SwiGLU的参数量是否会显著增加？如何优化？

💯 大模型（LLMs）注意力机制（Attention）面

一、概念篇
- 💯 什么是 Attention？
- 💯 为什么要引入 Attention 机制？
- 💯 如何计算 Attention？
二、变体篇
- 💯 Soft Attention 是什么？
- 💯 Hard Attention 是什么？
- 💯 Global Attention 是什么？
- 💯 Local Attention 是什么？
- 💯 Self-Attention 是什么？
- 💯 多查询注意力（Multi-Query Attention）是什么？
- 💯 分组查询注意力（Grouped Query Attention）是什么？
- 💯 分页注意力（Paged Attention）是什么？
- 💯 闪存注意力（Flash Attention）是什么？

💯 大模型（LLMs）Transformer面

一、模型结构篇
- 💯 Transformer 整体结构是怎么样的？
- 💯 Transformer 编码器有哪些子层？
- 💯 Transformer 解码器有哪些子层？
二、核心机制篇
- 位置编码
  - 💯 Transformer的输入中为什么要添加位置编码？
  - 💯 什么是正弦（Sinusoidal）位置编码？
  - 💯 Transformer的位置编码是如何计算的？
  - 💯 Position encoding为什么选择相加而不是拼接呢？
- 多头注意力
  - 💯 Self-Attention 是什么？
  - 💯 多头注意力相对于单头注意力有什么优势？
  - 💯 Transformer中自注意力模块的计算过程？
  - 💯 什么是缩放点积注意力，为什么要除以 $\sqrt{d_k}$ ？
- 残差连接
  - 💯 Transformer为什么要使用残差连接？
  - 💯 使用残差连接有哪些好处？
- 层归一化
  - 💯 为什么要做归一化？
  - 💯 Layer Normalization 是什么？
  - 💯 Layer Normalization 有什么用？
  - 💯 批归一化和层归一化的区别？
  - 💯 Layer Normalization 有哪几个可训练参数？
- Mask 机制
  - 💯 解码器中为什么要使用Mask？
  - 💯 Transformer 中有几种 Mask？
  - 💯 Padding Mask 是如何实现的？
  - 💯 Sequence Mask 是如何实现的？
三、问题优化篇
- 💯 LLM为何使用GQA代替MHA？
- 💯 LLM为何使用 PreNorm 代替 PostNorm？
- 💯 LLM为何使用 RMSNorm 代替 LayerNorm？
- 💯 LLM使用SwiGLU相对于ReLU有什么好处？

四、NLP 任务实战面

💯 大模型（LLMs）文本分类面

一、概念篇
- 什么是文本分类？
二、方法篇
- 主题建模法
  - 什么是主题建模任务？
  - 主题建模有哪些常用方法？
  - TF-IDF 算法是做什么的？
  - TF-IDF 有什么优缺点？适合哪些文本分类任务？
- 传统分类法
  - 讲一讲 FastText 的分类过程？
  - 讲一讲 TextCNN 文本分类的过程?
  - 如何基于基于预训练模型做文本分类？
- 检索匹配法
  - 什么场景需要用检索的方式做文本分类？
  - 如何用检索的方式做文本分类？
  - 检索的方法的训练阶段如何做？
  - 检索的方法的预测阶段如何做？
  - 用检索的方式做文本分类有何优缺点？
- 大模型方法
  - 如何用Prompt的方式做文本分类？
  - 如何使用多提示学习提升文本分类效果？
  - 使用LLM做文本分类任务为何需要做标签词映射（Verbalizer）？
三、进阶篇
- 文本分类任务中有哪些难点？
- 如何解决样本不均衡的问题？
- 如何冷启动文本分类项目？
- 如果类别会变化如何设计文本分类架构？
- 短文本如何进行分类？
- 长文本如何进行分类？

💯 大模型（LLMs）命名实体识别（NER）面

一、概念篇
- 什么是实体识别？
- 实体识别有哪些常用的解码方式？
- NER的常用评价指标（精确率、召回率、F1）有何局限性？
- 预训练模型（如BERT，LLM）如何改变传统NER的范式？
二、方法篇
- 传统方法
  - 如何用序列标注方法做NER任务？
  - 什么是 CRF?
  - CRF为什么比Softmax更适合NER？
  - 如何使用指针标注方式做NER任务？
  - 如何使用多头标注方式做NER任务？
  - 如何使用片段排列方式做NER任务？
- 大模型方法
  - 如何将NER建模为生成任务（例如使用T5、GPT）？
  - 大模型做NER任务的解码策略有何不同？
  - 如何设计模板提升NER任务少样本效果？
- 对比篇
  - 序列标注方法有何优缺点？
  - 指针标注、多头标注和片段排列有何优缺点，分别适用于哪些场景？
  - 大模型方法和传统方法做NER任务分别有什么优缺点？
三、标注篇
- 实体识别的数据是如何进行标注的？
- BIO、BIOES、IOB2标注方案的区别与优缺点？
四、问题篇
- 实体识别中有哪些难点？
- 什么是实体嵌套？
- 如何解决实体嵌套问题？
- 如何解决超长实体识别问题？
- NER实体span过长怎么办？
- 如何解决 NER 标注数据噪声问题？
- 如何解决 NER 标注数据不均衡问题？

💯 大模型（LLMs）关系抽取面

一、概念篇
- 什么是关系抽取？
- 常见关系抽取流程的步骤是怎样的？
二、句子级关系抽取篇
- 什么是模板匹配方法？
- 模板匹配方法的优点是什么？
- 模板匹配方法存在哪些局限性或缺点呢？
- 什么是关系重叠问题？
- 什么是复杂关系问题？
- 什么是联合抽取？
- 介绍下基于共享参数的联合抽取方法？
- 介绍下基于联合解码的联合抽取方法？
- 关系抽取的端到端方法和流水线方法各有什么优缺点？
三、文档级关系抽取篇
- 文档级关系抽取与单句关系抽取有何区别？
- 在进行跨句子甚至跨段落的关系抽取时，会遇到哪些特有的挑战？
- 文档级关系抽取的方法有哪些？
- 文档级关系抽取常见数据集有哪些以及其评估方法？

💯 大模型（LLMs）检索增强生成（RAG）面

一、动因篇
- 为什么要做RAG系统？
- RAG和大模型微调的区别？
- RAG和大模型微调分别适用于什么场景？
- 讲一下RAG的总体流程？
二、流程篇
- Query 理解
  - 用户理解阶段一般会做哪些处理？有何作用？
  - 用户问题总是召回不准确，在用户理解阶段可以做哪些优化？
- Index 构建
  - 问答对问答中，如何构建索引，提升对用户问题的泛化能力？
  - 文档问答中，如何构建索引，提升对用户问题的泛化能力？
  - 问题经常命中不到文本块，如何在索引阶段做优化？
- Retrieval 召回
  - 多路检索如何实现？
  - 如何合并多路检索的结果，对它们做排序？
  - BM25检索器总是召回无关的知识，最可能的原因是什么？
  - 如何借助其他用户的使用情况，提升总体的检索性能？
- Reranker 精排
  - 为何要对检索的结果做精排（重排）？
  - 如何构建重排序模型的微调数据？

五、NLP 基础面

💯 大模型（LLMs）分词（Tokenizer）面

💯 如何处理超出词表的单词（OVV）？
💯 BPE 分词器是如何训练的？
💯 WordPiece 分词器是如何训练的？
💯 Unigram 分词器是如何训练的？

💯 大模型（LLMs）词嵌入（Word2Vec）面

一、动因篇
- 💯 什么是词向量化技术？
- 💯 如何让向量具有语义信息？
二、基于统计的方法
- 💯 如何基于计数的方法表示文本？
- 💯 上下文中的窗口大小是什么意思？
- 💯 如何统计语料的共现矩阵？
- 💯 基于计数的表示方法存在哪些问题？
三、基于推理的方法
- 💯 Word2Vec的两种模型分别是什么？
- 💯 Word2Vec 中 CBOW 指什么？
- 💯 Word2Vec 中 Skip-gram 指什么？
- 💯 CBOW 和 Skip-gram 哪个模型的词嵌入更好？
四、问题优化篇
- 💯 Word2Vec训练中存在什么问题？
- 💯 Word2Vec如何优化从中间层到输出层的计算？
  - 用负采样优化中间层到输出层的计算
  - 负采样方法的关键思想
  - 负采样的采样方法
- 💯 为什么说Word2vec的词向量是静态的？
- 💯 Word2vec的词向量存在哪些问题？

💯 大模型（LLMs）卷积神经网络（CNN）面

一、动因篇
- 💯 卷积，池化的意义
二、模型篇
- 💯 为什么卷积核设计尺寸都是奇数
- 💯 卷积操作的特点
- 💯 为什么需要 Padding ？
- 💯 卷积中不同零填充的影响？
- 💯 1 1 卷积的作用？
- 💯 卷积核是否越大越好？
- 💯 CNN 特点
- 💯 为何较大的batch size 能够提高 CNN 的泛化能力？
- 💯 如何减少卷积层参数量？
三、对比篇
- 💯 SAME 与 VALID 的区别
- 💯 CNN 优缺点
- 💯 你觉得 CNN 有什么不足？
- 💯 CNN 与 RNN 的优劣

💯 大模型（LLMs）循环神经网络（RNN）面

一、RNN 概念篇
- 💯 RNN的作用是什么？
二、RNN 模型篇
- 💯 RNN的输入输出分别是什么？
- 💯 RNN是如何进行参数学习（反向传播）的？
- 💯 Relu 能否作为RNN的激活函数
三、RNN 优化篇
- 💯 RNN不能很好学习长期依赖的原因是什么？
- 💯 RNN 中为何会出现梯度消失，梯度爆炸问题？
- 💯 为何 RNN 训练时 loss 波动很大
- 💯 计算资源有限的情况下有没有什么优化方法？
- 💯 推导一下 GRU
四、RNN 对比篇
- 💯 LSTM 相对 RNN 的主要改进有哪些？
- 💯 LSTM 与 GRU 之间的关系
- 💯 LSTM 与 GRU 区别

💯 大模型（LLMs）长短期记忆网络（LSTM）面

一、动因篇
- 💯 RNN 梯度消失的原因？
- 💯 LSTM 如何缓解 RNN 梯度消失的问题?
- 💯 LSTM不会发生梯度消失的原因
二、模型篇
- 💯 LSTM 相对 RNN 的主要改进有哪些？
- 💯 门机制的作用
- 💯 LSTM的网络结构是什么样的？
- 💯 LSTM中记忆单元的作用是什么？
- 💯 LSTM中的tanh和sigmoid分别用在什么地方？
- 💯 LSTM有几个门，分别起什么作用？
- 💯 LSTM 单元是如何进行前向计算的？
- 💯 LSTM的前向计算如何进行加速？
- 💯 LSTM 单元是如何进行反向传播的？
三、应用篇
- 💯 LSTM在实际应用中的提升技巧有哪些？
- 为何多层LSTM叠加可以提升模型效果？
- 双向LSTM为何更有效？
- LSTM中如何添加Dropout层？

💯 大模型（LLMs）BERT 模型面

一、动因概念篇
1. Bert 是什么?
2. 为什么说BERT是双向的编码语言模型？
3. BERT 是如何区分一词多义的？
4. BERT为什么如此有效？
5. BERT存在哪些优缺点？
二、BERT 架构篇
1. BERT 是如何进行预训练的？
2. BERT的输入包含哪几种嵌入？
3. 什么是分段嵌入？
4. BERT的三个Embedding直接相加会对语义有影响吗？
5. 讲一下BERT的WordPiece分词器的原理？
6. 为什么BERT在第一句前会加一个【CLS】标志?
7. BERT-base 模型和 BERT-large 模型之间有什么区别？
8. 使用BERT预训练模型为什么最多只能输入512个词？
9. BERT模型输入长度超过512如何解决？
BERT 训练篇
- Masked LM 任务
  1. BERT 为什么需要预训练任务 Masked LM ？
  2. 掩码语言模型是如何实现的？
  3. 为什么要采取Masked LM，而不直接应用Transformer Encoder？
  4. Bert 预训练任务 Masked LM 存在问题？
  5. 什么是 80-10-10 规则,它解决了什么问题？
  6. bert为什么并不总是用实际的 masked token替换被“masked”的词汇？
  7. 为什么BERT选择mask掉15%这个比例的词，可以是其他的比例吗？
- Next Sentence Prediction 任务
  1. Bert 为什么需要预训练任务 Next Sentence Prediction ？
  2. 下句预测任务是如何实现的？
BERT 微调篇
1. 对 Bert 做 fine-turning 有什么优势？
2. Bert 如何针对不同类型的任务进行 fine-turning？
对比篇
1. BERT 嵌入与 Word2Vec 嵌入有何不同？
2. elmo、GPT和bert在单双向语言模型处理上的不同之处？
3. word2vec 为什么解决不了多义词问题？
4. 为什么 elmo、GPT、Bert能够解决多义词问题？

💯 大模型（LLMs）BERT 变体面

一、BERT变体篇
- 句序预测任务与下句预测任务有什么不同？
- ALBERT 使用的参数缩减技术是什么？
- 什么是跨层参数共享？
- RoBERTa 与 BERT 有什么不同？
- 在 ELECTRA 中，什么是替换标记检测任务？
- 如何在 SpanBERT 中掩盖标记？
- Transformer-XL怎么实现对长文本建模？
二、问题优化篇
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何改进【生成任务】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何引入【知识】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何引入【多任务学习机制】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何改进【mask策略】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何进行【精细调参】的？

💯 大模型（LLMs）BERT 实战面

一、场景篇
- BERT擅长处理哪些下游NLP任务？
- BERT为什么不适用于自然语言生成任务（NLG）？
- 如何使用预训练的 BERT 模型？
- 在问答任务中，如何计算答案的起始索引？
- 在问答任务中，如何计算答案的结束索引？
- 如何将 BERT 应用于命名实体识别任务？
二、微调篇
- 什么是微调？
- 什么是继续预训练？
- 如何进行继续预训练？
三、问题篇
- 什么是 Bert 未登录词？
- Bert 未登录词如何处理？
- Bert 未登录词各种处理方法有哪些优缺点？
- BERT在输入层如何引入额外特征？

六、深度学习面

💯 大模型（LLMs）激活函数面

一、动因篇
- 💯 为什么需要激活函数
- 💯 为什么激活函数需要非线性函数？
二、方法篇
- sigmoid
  - 💯 什么是 sigmoid 函数？
  - 💯 为什么选 sigmoid 函数作为激活函数？
  - 💯 sigmoid 函数有什么缺点？
- tanh
  - 💯 什么是 tanh 函数？
  - 💯 为什么选 tanh 函数作为激活函数？
  - 💯 tanh 函数作为激活函数有什么缺点？
- relu
  - 💯 什么是 relu 函数？
  - 💯 为什么选 relu 函数作为激活函数？
  - 💯 relu 函数有什么缺点？
  - 💯 为什么tanh收敛速度比sigmoid快？

💯 大模型（LLMs）优化器面

一、动因篇
- 💯 梯度下降法的思想是什么？
二、方法篇
- 💯 SGD是如何实现的？
- 💯 SGD有什么缺点？
- 💯 Momentum 是什么？
- 💯 Adagrad 是什么?
- 💯 RMSProp是什么？
- 💯 Adam 是什么?
三、对比篇
- 💯 批量梯度下降（BGD）、随机梯度下降（SGD）与小批量随机梯度下降（Mini-Batch GD）的区别？

💯 大模型（LLMs）正则化面

一、动因篇
- 💯 为什么要正则化？
- 💯 权重衰减的目的？
二、 $L n$ 正则化篇
- 💯 什么是 L1 正则化？
- 💯 什么是 L2 正则化？
- 💯 L1 与 L2 的异同
- 💯 为什么 L1 正则化可以产生稀疏值，而 L2 不会？
- 💯 为何只对权重进行正则惩罚，而不针对偏置？
- 💯 为何 L1 和 L2 正则化可以防止过拟合？
三、Dropout 篇
- 💯 什么是Dropout？
- 💯 为什么Dropout可以解决过拟合问题？
- 💯 Dropout 在训练和测试阶段的区别是什么？
- 💯 Dropout 的变体有哪些？
- 💯 如何选择合适的 Dropout 率？
- 💯 Dropout 和其他正则化方法（如 L1、L2 正则化）有何不同？

💯 大模型（LLMs）归一化面

一、动因篇
- 💯 为什么要做归一化？
- 💯 为什么归一化能提高求最优解速度？
二、方法篇
- 💯 主流的归一化有哪些方法？
- Batch Normalization
  - 💯 Batch Normalization 是什么？
  - 💯 Batch Normalization 的有点有哪些？
  - 💯 BatchNorm 存在什么问题？
- Layer Normalization
  - 💯 Layer Normalization 是什么？
  - 💯 Layer Normalization 有什么用？
三、对比篇
- 💯 批归一化和组归一化的比较？
- 💯 批归一化和权重归一化的比较？
- 💯 批归一化和层归一化的比较？

💯 大模型（LLMs）参数初始化面

一、概念篇
- 💯 什么是内部协变量偏移？
- 💯 神经网络参数初始化的目的？
- 💯 为什么不能将所有神经网络参数初始化为0？
二、方法篇
- 💯 什么是Xavier初始化？
- 💯 什么是He初始化？

💯 大模型（LLMs）过拟合面

💯 过拟合与欠拟合的区别是什么?
💯 解决欠拟合的方法有哪些？
💯 防止过拟合的方法主要有哪些？
💯 什么是Dropout？
💯 为什么Dropout可以解决过拟合问题？

💯 大模型（LLMs）集成学习面

一、概念篇
- 集成学习的核心思想是什么？
- 集成学习与传统单一模型相比有哪些本质区别？
- 从偏差-方差分解的角度，解释集成学习为什么能提升模型性能？
- 集成学习有效性需要满足哪些前提条件？
二、Boosting 篇
- 解释一下 Boosting 的迭代优化过程
- Boosting 的基本思想是什么？
- Boosting 如何通过残差拟合实现误差修正？
- GBDT 是什么？
- XGBoost 是什么？
- GBDT与 XGBoost 的核心差异是什么？
- 为什么XGBoost要引入二阶泰勒展开？对模型性能有何影响？
三、Bagging 篇
- 什么是 Bagging？
- Bagging 的基本思想是什么？
- Bagging的并行训练机制如何提升模型稳定性？
- 随机森林是什么？
- 随机森林与孤立森林的本质区别是什么？
- 对比Bagging与Dropout在神经网络中的异同？
四、Stacking 篇
- 什么是 Stacking ？
- Stacking 的基本思路是什么？
- Stacking中为什么要用K折预测生成元特征？
- 如何避免Stacking中信息泄露问题？
五、对比篇
- 对比Boosting/Bagging/Stacking三大范式的核心差异（目标、训练方式、基学习器关系）？
- 集成学习中基学习器的"稳定性"如何影响算法选择？
- Boosting、Bagging 与偏差、方差的关系？
- 为什么Bagging常用高方差模型？

💯 大模型（LLMs）评估指标面

一、概念篇
- 💯 混淆矩阵有何作用？
- 💯 分类任务中有哪几个常规的指标？
二、F1-Score 篇
- 💯 什么是 F1-Score？
- 💯 对于多分类问题来说， F1 的计算有哪些计算方式？
- 💯 什么是 Macro F1？
- 💯 什么是 Micro F1？
- 💯 什么是 Weight F1？
三、对比篇
- 💯 Macro 和 Micro 有什么区别？
- 💯 什么是马修斯相关系数（MCC）？
四、曲线篇
- 💯 ROC 曲线主要有什么作用？
- 💯 什么是 AUC（Area under Curve）？
- 💯 P-R 曲线有何作用？

七、面经分享

还愿！美团算法工程师面经分享
双非研究生斩获大厂offer（百度、阿里、顺丰）
【211渣硕】腾讯、阿里、携程详细NLP算法实习面经
【社招】1年工作经验，字节跳动算法面经
六面！双非本科终斩腾讯NLP offer
面试锦囊 – 复盘百度算法岗全三面（已OC）
阿里、腾讯 – 算法岗面试复盘
百度 – 一份迟来的机器学习面经
百度凤巢算法面经
百度算法提前批面试复盘
百度提前批算法工程师面筋！
百度自然语言处理算法秋招面经
超强整理，科班算法岗的秋招之路
超详细！腾讯NLP算法岗面经（已offer）
达摩院+华为 – NLP博士的春招历程
豪取BAT！超详细暑期实习算法面经(https://dwz.cn/6ZVCnBOr)
美团、阿里、快手、百度 – NLP暑期算法实习复盘
美团、网易、陌陌 – NLP 算法面试复盘
美团算法 – NLP 三面复盘
秋招算法岗，面试复盘
秋招算法面经集合 – 华为、百度、腾讯、美团等
社招一年半 – 微软、腾讯、网易算法岗热乎面筋
暑期实习 – 百度NLP算法岗面试复盘
算法岗面试复盘 – 阿里、百度、作业帮、华为
算法岗通关宝典 – 社招一年经验，字节5轮、阿里7轮
算法面试大乱斗
腾讯 WXG – 技术研究-NLP算法三面复盘
腾讯、头条 – 算法岗详细面经
头条+腾讯 NLP 面经
字节 NLP – 三大部门七场面试，终拿字节AI NLP 算法offer
字节跳动算法提前批offer复盘
字节跳动算法岗 – 四面详细面经
字节跳动AI-LAB – 算法三轮技术面分享
字节AI Lab – NLP算法面经
字节AI LAB NLP算法二面凉+被捞后通过
BATDK – 社招一年收割大厂算法offer
NLP面经集结 – 达摩院、腾讯、微软、美团、百度
NLP面试复盘 – 阿里、腾讯、头条、paypal、快手
NLP算法岗——秋招被虐经历
NLP算法面经 – 腾讯 VS 美团

八、大厂AI实践

8.1 阿里AI实践

阿里小蜜智能服务技术实践及场景探索
阿里云基于预训练模型、智能运维的QA生成算法落地
情感计算在淘宝UGC的应用
AliceMind大规模预训练实践及AIGC在ModelScope中的应用

8.2 百度AI实践

百度：大模型推动的人机交互对话
百度：基于异构互联知识图谱的多模内容创作技术
百度：如何从零样本做中文文本知识标注与挖掘？
百度：文档智能技术与应用
百度：文心PLATO开放域对话技术及其应用
百度：智能写作如何为媒体内容创作赋能？

8.3 腾讯AI实践

腾讯：可控、可靠的数据到文本生成技术
腾讯：微信搜一搜中的智能问答技术
腾讯：QQ浏览器搜索中的智能问答技术
腾讯：QQ音乐命名实体识别技术

8.4 美团AI实践

美团：对话理解技术及实践
美团：大众点评信息流基于文本生成的创意优化实践
美团：对话摘要技术在美团的探索（SIGIR）
美团：基于知识图谱的问答在美团智能交互场景中的应用和演进
美团：美团搜索中查询改写技术的探索与实践
美团：美团智能客服核心技术与实践
美团：事件图谱在美团智能客服问答中的应用（基于交互的推理）
美团：小样本学习Prompt Learning+自训练实战

8.5 小米AI实践

小米：音乐垂域的自然语言理解
小米：NLP技术在小米语音助手中的应用

8.6 其他AI实践

58同城：智能客服系统“帮帮”技术揭秘
百分点：智能对话技术探索实践
飞猪：POI 识别在飞猪搜索的探索与实践
京东：基于知识图谱的商品营销文案自动生成实践
微软：基于预训练的自然语言生成在搜索与广告中的应用
清华：清华古典诗歌自动生成系统“九歌”的算法
阅文集团：NLP在网络文学领域的应用
中科院：面向非结构化文本的信息抽取
中原银行：AI 平台建设实践
OPPO：对话式 AI 助手小布的技术演进
OPPO：小布助手中的大规模知识图谱

【大模型面试】大模型（LLMs）高频面题全面整理（★2025年5月最新版★）

【大模型面试】大模型（LLMs）高频面题全面整理（★2025年5月最新版★） 🌟 嗨，你好，我是青松 ！ 🌈 自小刺头深草里，而今渐觉出蓬蒿。本笔记适合大模型初学者和…...

编程日记 2025/8/21 9:08:09

C++入门基础(上)

一. C发展历史 C的起源可以追溯到1979年，当时Bjarne Stroustrup(本贾尼斯特劳斯特卢普，这个翻译的名字不同的地方可能有差异)在贝尔实验室从事计算机科学和软件工程的研究工作。面对项目中复杂的软件开发任务，特别是模拟和操作系统的开发工作…...

编程日记 2025/8/18 20:10:34

Nacos源码—4.Nacos集群高可用分析四

大纲 6.CAP原则与Raft协议 7.Nacos实现的Raft协议是如何写入数据的 8.Nacos实现的Raft协议是如何选举Leader节点的 9.Nacos实现的Raft协议是如何同步数据的 10.Nacos如何实现Raft协议的简版总结 8.Nacos实现的Raft协议是如何选举Leader节点的 (1)初始化RaftCore实例时会开…...

编程日记 2025/8/18 20:10:32

互联网大厂Java求职面试：AI与云原生下的系统设计挑战-3

互联网大厂Java求职面试：AI与云原生下的系统设计挑战-3 第一轮提问：从电商场景切入，聚焦分布式事务与库存一致性面试官（严肃）：郑薪苦，你最近在做电商系统的促销活动，如何处理分布…...

编程日记 2025/8/18 10:27:13

【KWDB创作者计划】_通过一篇文章了解什么是 KWDB（KaiwuDB）

文章目录 📋 前言🎯 关于 KaiwuDB 组成🎯 KaiwuDB 核心架构和功能图🧩 KaiwuDB 2.0 版本核心特性🧩 KaiwuDB Lite 版本介绍 🎯 KaiwuDB 产品优势🎯 KaiwuDB 应用场景🧩 典型应用场景…...

编程日记 2025/8/21 9:04:21

双系统电脑中如何把ubuntu装进外接移动固态硬盘

电脑：win11 ubuntu22.04 实体机虚拟机：VMware17 镜像文件：ubuntu-22.04.4-desktop-amd64.iso 或者 ubuntu20.4的镜像外接固态硬盘1个一、首先win11中安装vmware17 具体安装方法，网上很多教程二、磁盘分区 1.在笔…...

编程日记 2025/8/18 20:10:26

Flink + Kafka 构建实时指标体系的实战方法论

本文聚焦于如何利用 Flink 与 Kafka 构建一套灵活、可扩展的实时指标体系，特别适用于用户行为分析、营销漏斗转化、业务实时看板等场景。一、为什么要构建实时指标体系？在数字化运营趋势下，分钟级指标反馈能力变得尤为重要： ✅ 营销投放实时监控 CTR / CVR ✅ 业务增长实…...

编程日记 2025/8/20 5:38:54

RLOO：将多次其他回答的平均reward作为baseline

RLOO：将多次其他回答的平均reward作为baseline TL; DR：基于 REINFROCE 算法，对于同一 prompt 在线采样 k k k 次，取除自己外的其他 k − 1 k-1 k−1 条回答的平均 reward 作为 baseline。从 PPO 到 REINFORCE 众所周知&…...

编程日记 2025/8/18 20:10:22

在 Laravel 12 中实现 WebSocket 通信时进行身份验证

在 Laravel 12 中实现 WebSocket 通信时，若需在身份验证失败后主动断开客户端连接，需结合频道认证机制和服务端主动断连操作。以下是具体实现步骤： 一、身份验证流程设计 WebSocket 连接的身份验证通常通过私有频道（Private …...

编程日记 2025/8/18 20:10:20

Transformer 与 LSTM 在时序回归中的实践与优化

🧠 深度学习混合模型：Transformer 与 LSTM 在时序回归中的实践与优化在处理多特征输入、多目标输出的时序回归任务时，结合 Transformer 和 LSTM 的混合模型已成为一种有效的解决方案。Transformer 擅长捕捉长距离依赖关系，而 LS…...

编程日记 2025/8/18 14:25:52

Java注解

注解的底层原理： 注解的本质是一种继承自Annotation类的特殊接口，也被称为声明式接口，编译后会转换为一个继承自Anotation的接口，并生成相应的字节码文件。注解的具体实现类是Java运行时生成的动态代理对象（接口本身…...

编程日记 2025/8/18 18:55:30

Linux USB Gadget | 框架 / 复合设备实践 / Configfs 配置

注：本文为“Linux USB Gadget ”相关文章合辑。图片清晰度受引文原图所限。略作重排，未整理去重。如有内容异常，请看原文 Linux USB Gadget 框架概述 2018-04-11 haoxing990 本文记录我在公司 Gadget 相关的驱动开发开发过程中的感悟。…...

编程日记 2025/8/18 23:13:17

Spring Boot之MCP Client开发全介绍

Spring AI MCP（模型上下文协议，Model Context Protocol）客户端启动器为 Spring Boot 应用程序中的 MCP 客户端功能提供了自动配置支持。它支持同步和异步两种客户端实现方式，并提供了多种传输选项。 MCP 客户端启动器提供以下功能：多客户端实例管理支持管理多个客户端实…...

编程日记 2025/8/18 17:41:12

nnUNet V2修改网络——暴力替换网络为Swin-Unet

更换前，要用nnUNet V2跑通所用数据集，证明nnUNet V2、数据集、运行环境等没有问题阅读nnU-Net V2 的 U-Net结构，初步了解要修改的网络，知己知彼，修改起来才能游刃有余。 Swin-Unet是一种基于纯Transformer的U型编码器-解码器架构，专为医学图像分割任务设计。传统方法主…...

编程日记 2025/8/18 20:10:16

【计网】ICMP、IP、Ethernet PDU之间的封装关系

TCP/IP体系结构应用层RIP、OSPF、FTP运输层TCP、UDP网际层IP、ARP、ICMP网络接口层底层协议（Ethernet） 数据链路层 Ethernet报文格式 6Byte6Byte2Byte46~1500Byte4Byte目的MAC地址源MAC地址类型/长度数据FCS 其中，类型 / 长度值小于 1536…...

编程日记 2025/8/20 10:20:57

JSON 转换为 Word 文档

以下是一个在 Spring Boot 中实现 JSON 转 Word 的示例： 首先，需要在项目中引入相关的依赖，如 json 和 Apache POI 等。在 pom.xml 文件中添加以下内容：  <dependency><groupId>com.fast…...

编程日记 2025/8/20 2:52:32

Kotlin Lambda优化Android事件处理

在 Kotlin 中，Lambda 表达式为 Android 事件处理提供了更加简洁优雅的解决方案。通过合理使用 Lambda，可以显著减少模板代码，提升代码可读性。以下是具体实现方式和应用场景： 一、传统方式 vs Lambda 方式对比 1. 按钮点击事件处…...

编程日记 2025/8/18 20:10:10

Springboot接入Deepseek模型

#实现功能：上下文对话、对话历史、清除会话 #本次提供项目源码压缩包，直接下载解压后导入idea即可正常使用下载好源码后请在DeepSeek 开放平台中注册账号并充值1块余额,注意充值和API keys，API keys包含了秘钥，获取后复制到项目…...

编程日记 2025/8/18 15:53:54

量子跃迁：破解未来计算的“时空密码”

引言：当量子比特撕裂“摩尔定律”的枷锁根据德勤《Tech Trends 2025》报告，量子计算机可能在5-20年内成熟，其算力将直接威胁现有加密体系。这不仅是技术的跃迁，更是一场重构数字世界规则的“密码战争”。从谷歌的53量子比特悬铃…...

编程日记 2025/8/18 14:45:49

Spring MVC入门

本内容采用最新SpringBoot3框架版本，视频观看地址：B站视频播放 1. MVC概念 MVC是一种编程思想，它将应用分为模型（Model）、视图（View）、控制器（Controller）三个层次，这三部分以最低的耦合进行协同工作，从而提高应用的可扩展性及可维护性。模型（Model）模型层主要…...

编程日记 2025/8/18 20:10:07

【25软考网工】第五章（6）TCP和UDP协议、流量控制和拥塞控制、重点协议与端口

目录一、TCP和UDP协议 1. TCP和UDP报文格式 1）TCP传输控制协议 2）UDP用户数据报协议 3）TCP与UDP对比 4）TCP和UDP类比 5）应用案例例题1#可靠传输服务层例题2#提供可靠传输功能层 6）TCP报文格式…...

编程日记 2025/8/19 22:03:49

如何修改 JAR 包中的源码

如何修改 JAR 包中的源码前言一、准备工作二、将 JAR 当作 ZIP 打开并提取三、重写 Java 类方法 A：直接替换已编译的 .class方法 B：运行时类路径优先加载四、修改 MyBatis（或其他）XML 资源五、重新打包 JAR（命令行&a…...

编程日记 2025/8/18 20:10:03

【Linux网络】应用层协议HTTP

🌈个人主页：秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343 🔥 系列专栏：https://blog.csdn.net/qinjh_/category_12891150.html 目录 HTTP 协议认识 URL urlencode 和 urldecode HTTP 协议请求与响应格式 H…...

编程日记 2025/8/18 20:10:01

高并发架构及场景解决方案

高并发一、什么是高并发？ 高并发是指系统在短时间内能够同时处理大量用户请求或任务的能力，是衡量分布式系统、互联网应用性能的重要指标之一。它的核心目标是确保系统在高负载下仍能稳定、高效运行，同时提供良好的用户体验。 1、高并发系…...

编程日记 2025/8/18 20:09:59

[ linux-系统 ] 常见指令2

1. man 指令语法：man [选项] 命令功能：查看联机手册获取帮助。选项说明-k根据关键字搜索联机帮助。num只在第num章节找。-a显示所有章节的内容。 man是 Unix 和类 Unix 系统中的一个命令，用于查看操作系统和软件的手册页面（ma…...

编程日记 2025/8/18 23:13:15

Spring AI快速入门

一、引入依赖 <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-openai</artifactId> </dependency> <dependencyManagement><dependencies><dependency><groupId>o…...

编程日记 2025/8/18 23:13:14

TCP数据报

三次握手（Three-Way Handshake） 是 TCP 协议中用于建立可靠连接的过程。通过三次握手，客户端和服务器能够确认彼此的存在，并且同步各自的初始序列号，为后续的数据传输做好准备。三次握手确保了双方在正式传输数据前能…...

编程日记 2025/8/20 5:33:43

JS循环-for循环嵌套

打印5行5列星星效果图代码： // 打印出5行5列的星星for(i 1 ; i < 5 ; i ) {// 外层控制打印行for(j 1 ; j < 5 ; j ) {// 内层控制每行打印几个document.write(⭐)}document.write(<br>)} 打印侧三角效果图代码： for(i 1 ; i &l…...

编程日记 2025/8/18 23:13:10

【技术追踪】通过潜在扩散和先验知识增强时空疾病进展模型（MICCAI-2024）

向扩散模型中引入先验知识，实现疾病进展预测，扩散模型开始细节作业了~ 论文：Enhancing Spatiotemporal Disease Progression Models via Latent Diffusion and Prior Knowledge 代码：https://github.com/LemuelPuglisi/BrLP 0、摘…...

编程日记 2025/8/18 23:13:08

Linux/AndroidOS中进程间的通信线程间的同步 - 内存映射

前言如何使用 mmap()系统调用来创建内存映射。内存映射可用于 IPC 以及其他很多方面。 1 概述 mmap()系统调用在调用进程的虚拟地址空间中创建一个新内存映射。映射分为两种。文件映射：文件映射将一个文件的一部分直接映射到调用进程的虚拟内存中。一旦一个文…...

编程日记 2025/8/18 22:17:45

单例模式的实现方法

单例模式（Singleton Pattern）是一种常用的软件设计模式，用于确保一个类只有一个实例，并提供一个全局访问点。这种模式在需要控制对资源（如配置对象、线程池、缓存等）的访问时特别有用。一、单例模…...

编程日记 2025/8/20 17:16:58

laravel 12 监听syslog消息，并将消息格式化后存入mongodb

在Laravel 12中实现监听Syslog消息并格式化存储到MongoDB，需结合日志通道配置、Syslog解析和MongoDB存储操作。以下是具体实现方案： 一、环境配置安装MongoDB扩展包执行以下命令安装必要的依赖： composer require jenssegers/mongodb ^4.0确…...

编程日记 2025/8/18 23:13:02

如何在使用 docker-compose 命令时指定 COMPOSE_PROJECT_NAME ？

1.默认值 COMPOSE_PROJECT_NAME 环境变量的默认值并非 docker。在没有显式设置 COMPOSE_PROJECT_NAME 时，其默认值是运行 docker-compose 命令所在目录的基础名称（也就是当前工作目录去掉路径后的文件夹名称）。以下为你详细说明&#xff1…...

编程日记 2025/8/18 23:13:01

在命令行终端中快速打开npm包官网

命令 npm home 命令用于快速打开指定 npm 包的官网。例如，npm home react 会尝试打开 React 库的官方网站。 npm home PACKAGE_NAME 该命令会首先查找指定包的 package.json 文件中的 homepage 字段，如果存在，则打开该字段指定的网址。 {&…...

编程日记 2025/8/18 23:12:59

鸿蒙NEXT开发动画（风格的弹性缩放加载动画组件）

1.创建空白项目 2.Page文件夹下面新建Spin.ets文件，代码如下： // 接口定义（必须放在使用前） /*** 关键帧动画整体配置参数*/ interface KeyframeAnimationConfig {iterations: number;delay: number; }/*** 单个关键帧动画项*/…...

编程日记 2025/8/18 23:12:57

【MongoDB篇】MongoDB的事务操作！

目录引言第一节：什么是事务？ (ACID 原则)第二节：MongoDB 的演进：多文档 ACID 事务的到来！🎉第三节：事务的“玩法”——如何执行一个事务？💻🤝第四节&#xf…...

编程日记 2025/8/18 23:12:55

Android第六次面试总结之Java设计模式篇（一）

一、单例模式在 Android 面试中的核心考点 1. Android 中如何安全实现单例？需注意哪些坑？（字节跳动、美团面试真题） 解答： Android 中实现单例需重点关注 Context 泄漏、线程安全和反射 / 序列化攻击。推荐实现&…...

编程日记 2025/8/18 23:12:53

关于论文中插入公式但是公式相对于段落的位置偏上应该如何调整备份

因为mythtype之前插入到word里面出现了一些问题就给删掉了，本来要是word里面内联mythtype的话直接，点击mythtype的格式化就可以了， 也就是这个佬的视频介绍链接然后现在试了试普通word里面的方法，这个是比较有用的然后看这个例…...

编程日记 2025/8/18 23:12:51

[java八股文][Java并发编程面试篇]并发安全

juc包下你常用的类？ 线程池相关： ThreadPoolExecutor：最核心的线程池类，用于创建和管理线程池。通过它可以灵活地配置线程池的参数，如核心线程数、最大线程数、任务队列等，以满足不同的并发处理需求。Exe…...

编程日记 2025/8/18 23:12:49

【东枫科技】代理英伟达产品：智能网卡

文章目录对比详细：NVIDIA ConnectX-7 适配器详细：NVIDIA ConnectX-6 Lx 以太网智能网卡详细：NVIDIA ConnectX-6 Dx 以太网智能网卡详细：NVIDIA ConnectX-6 InfiniBand 适配器对比详细：NVIDIA ConnectX-7 适配器为最…...

编程日记 2025/8/18 23:12:47

eNSP中路由器OSPF协议配置完整实验和命令解释

本实验使用三台华为路由器（R1、R2和R3）相连，配置OSPF协议实现网络互通。拓扑结构如下： 实验IP规划 R1: GE0/0/0: 192.168.12.1/24 (Area 0)Loopback0: 1.1.1.1/32 (Area 0) R2: GE0/0/0: 192.168.12.2/24 (Area 0)GE0/0/1: 192.…...

编程日记 2025/8/18 23:12:45

解锁健康生活：全新养身指南

健康养身不是遥不可及的目标，而是由一个个小习惯编织成的生活方式。当我们将这些健康理念融入日常，就能为身体注入源源不断的活力。从 “吃” 开始守护健康。尝试制作 “营养碗”，底层铺满羽衣甘蓝、生菜等绿叶蔬菜，中间搭配水…...

编程日记 2025/8/18 23:12:43

win11 怎样把D盘空间分给C盘一点

如下所示，我的C盘甚至已经爆红了，打算D盘清理一些空间给C盘。首先附上链接，这是我在b站看的教程，虽然跟着视频没成功，但是结合评论区大神们的建议，尝试了好几种方法，最终自己摸索成功了。【怎…...

编程日记 2025/8/18 23:12:41

Apache Doris与StarRocks对比

## 历史背景 Apache Doris源自百度的Palo项目，于2017年开源，2018年贡献给Apache基金会，并于2022年从Apache孵化器毕业成为顶级项目。StarRocks则是由原Apache Doris团队的一部分成员在2020年分支出来成立的独立项目，最初称为DorisDB，后更名为StarRocks。这两个项目虽然有…...

编程日记 2025/8/18 23:12:40

OSCP - Proving Grounds - NoName

主要知识点 linux命令注入SUID find提权具体步骤从nmap开始搜集信息，只开放了一个80端口 Nmap scan report for 192.168.171.15 Host is up (0.40s latency). Not shown: 65534 closed tcp ports (reset) PORT STATE SERVICE VERSION 80/tcp open http …...

编程日记 2025/8/20 1:31:04

2025年OpenAI重大架构调整：资本与使命的再平衡

目录前言一、调整核心：三重架构的重构 1.1 控制权的重新锚定 1.2 营利部门的角色转型 1.3 资金池的重新配置二、调整动因：三重矛盾的破解 2.1 资金需求与融资限制的冲突 2.2 商业竞争与使命纯度的博弈 2.3 内部治理与外部监管的张力三、产…...

编程日记 2025/8/18 23:12:35

【quantity】0 README.md文件

PhysUnits 物理单位库 Type-safe physical quantities with dimensional analysis 带量纲分析的类型安全物理量库 A Rust library for safe unit operations / Rust实现的类型安全单位计算库 Core Design / 核心设计 1. Dimension / 量纲 /// Base SI dimensions / 国际单…...

编程日记 2025/8/18 23:12:33

[python] str

一、移除字符串中所有非字母数字字符使用正则表达式 import re string_value "alphanumeric123__" cleaned_string re.sub(r[\W_], , string_value) # 或 r[^a-zA-Z0-9] print(cleaned_string) # 输出: alphanumeric123使用**str.isalnum()**方法 string_v…...

编程日记 2025/8/18 16:49:31

iOS与HTTPS抓包调试小结

最近在做一个多端 SDK 网络请求兼容性的测试，期间遇到一些 HTTPS 请求抓不到、iOS 抓包失效等问题，趁机整理一下我平时抓包时用到的几个工具和技巧，也顺便记录一下对比体验。一、传统工具的局限最早用的是 Charles 和 Fiddler&#xff0c…...

编程日记 2025/8/18 23:12:29

AI基础知识（02）：机器学习的任务类型、学习方式、工作流程

03 机器学习（Machine Learning）的任务类型与学习方式广义的机器学习主要是一个研究如何让计算机通过数据学习规律，并利用这些规律进行预测和决策的过程。这里的Machine并非物理意义上的机器，可以理解为计算机软硬件组织；Learning可以理解为一个系统或平台经历了某些过程…...

编程日记 2025/8/18 23:12:27