当前位置：首页 > news >正文

面试新收获-大模型学习

news 来源：原创 2025/9/19 22:47:37

大模型原理

Transformer 架构与自注意力机制

Transformer 是当前大多数大模型采用的核心架构，由编码器-解码器组成，摒弃了传统 RNN 的顺序处理方式。Transformer 中关键在于多头自注意力机制（Multi-Head Self-Attention）：对于序列中的每个词（Token），模型通过计算与其他词的相关性（注意力权重）来动态聚合信息，从而能够在一次计算中关注输入序列的不同位置。多头注意力通过并行多个注意力“头”来捕获不同特征子空间的关联，大幅提升了模型对长距离依赖的处理能力和并行计算效率。相比 RNN 循环网络只能顺序处理，Transformer 的自注意力机制使其能一次性处理整个序列，从而利用 GPU 并行加速训练，并取得更好的全局语义建模效果。

预训练-微调范式

大模型通常采用“预训练 + 微调”的范式。首先在海量通用文本数据上进行无监督预训练，学习通用语言表示能力；然后针对具体任务进行微调，让模型适应特定应用场景。预训练使用的目标通常是语言模型任务（如下一词预测或填空），让模型掌握语法、语义常识。而微调阶段则在较小的标注数据上训练，可以是分类、问答等任务的监督信号，使模型的输出更贴近任务需求。通过预训练获取通用知识，再微调专业能力，可以极大提高数据利用效率，避免每个任务都从零训练一个模型。这一范式已被证明在NLP各任务上效果显著，也是 GPT 系列、BERT 等模型成功的基础。现代 LLM 如 GPT-3 预训练参数上千亿（如1750亿），而微调只需针对任务的较少数据，调节少量梯度，从而实现**“一次训练，多次适用”**的高效开发模式。

指令微调（Instruction Tuning）

指令微调是一种特殊的监督微调技术，旨在让大语言模型更好地“听懂”人类指令。具体做法是收集一系列指令-响应示例（通常由人工编写或模型生成后人工筛选），然后在预训练模型上继续以这些数据进行监督训练。经过指令微调，模型能够更遵循用户意图，给出更符合指令要求的回答。例如，OpenAI 的 InstructGPT 就是对 GPT-3 进行指令微调的产物，使之相比原始 GPT-3 更善于遵循人类给出的任务说明。类似地，Meta 发布的 LLaMA-2-chat 也是在基础模型上指令调优而成。指令微调通常被视为对齐（Alignment）过程的第一步，可极大提升模型在人机交互中的实用性——模型不再仅完成句子续写，而是能够听懂诸如“请总结上述文本”等明确指示并执行。

人类反馈强化学习（RLHF）

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是进一步提升模型对人类偏好契合度的策略。其典型流程包括三步：

监督微调（SFT）：先用人工示范的高质量回答对预训练模型进行一次微调，获得初步具备指令遵循能力的模型（如 InstructGPT 的初始模型）。
训练奖励模型（Reward Model）：由人工对模型不同输出进行偏好比较，收集大量偏好数据，然后训练一个奖励模型来预测人类偏好评分。奖励模型以模型输出为输入，输出一个分数来衡量该回答有多符合人类期望。
策略强化优化：将步骤2得到的奖励模型作为“环境反馈”，使用强化学习算法（通常采用 PPO，Proximal Policy Optimization）来微调模型参数。策略梯度根据奖励模型给出的“奖励”信号调整语言模型，使其朝着人类偏好更高的方向优化。为了防止生成分布骤变，PPO 会限制每次更新的幅度，保证生成质量稳定。

通过RLHF，模型可以学会在遵循指令的同时，产出更让用户满意的回答。OpenAI 的 ChatGPT（GPT-3.5 系列）以及 GPT-4 就应用了RLHF来训练。值得注意的是，RLHF 的过程复杂、成本高昂，需要大量人工反馈数据和迭代训练。但其效果显著：可以纠正模型不良倾向，提升回答的有用性和安全性，使模型“更贴近人意”。

大模型开发与应用

模型微调方法：全量微调 vs LoRA/QLoRA

全量微调（Full Finetuning）需要在下游任务上调整模型的所有参数，但对于数十亿参数的模型来说训练开销巨大且容易过拟合。为提高微调效率，业界提出了参数高效微调方法，其中最常用的是 LoRA（Low-Rank Adaptation）。LoRA 的做法是冻结预训练模型的大部分权重，仅在每层加入小规模的低秩矩阵作为可训练参数。训练时只更新这些低秩适配矩阵，从而以极少的参数调节实现对模型的调优。据实验，使用 LoRA 对 GPT-3 进行微调时，需训练的参数量可从1750亿降低到约1800万，大幅降低约 2/3 的显存占用。LoRA 微调后的模型在特定任务上的表现可媲美全量微调。

QLoRA 是 LoRA 的改进变种，全称为量化 LoRA（Quantized LoRA）。它将基础模型权重先量化到更低精度（如 4-bit）以减少内存占用，然后在此基础上施加 LoRA 微调。通过低精度存储+高精度计算，QLoRA 进一步降低了微调资源需求。例如，有研究使用 QLoRA 在单张 GPU 上成功微调了 65B 参数的模型，但性能几乎没有损失。总的来说，LoRA/QLoRA 等高效微调方法让普通团队也能在消费级 GPU 上微调大模型，大大降低了应用门槛。

推理加速（ONNX、TensorRT 等）

大模型落地应用时，推理速度和延迟往往是关键挑战。针对推理阶段的优化，常用手段包括：

模型格式优化：将模型转换为优化的计算图格式，如 ONNX (Open Neural Network Exchange)。通过 ONNX，可以利用高效的推理引擎（例如 onnxruntime）在不同硬件上加速执行。此外，NVIDIA 的 TensorRT 是针对 GPU 推理优化的库，可以对模型进行算子融合、内存优化和半精度运算，加速Transformer推理。将模型导出为 TensorRT 引擎后，在支持硬件上常获得数倍于原生 PyTorch 的推理速度提升。
算子级优化：利用高性能计算库或自定义内核，实现 Transformer 中矩阵乘、softmax 等核心算子的优化版本。例如 FlashAttention 优化了长序列注意力计算，大幅减少显存访问；又如采用 fused kernel 一次完成多步运算，减少中间内存读写。硬件方面，充分利用 GPU 的 Tensor Core 进行 FP16/BF16 运算，也能提升吞吐。
批处理和并行：将多个输入打包成批一起推理，以摊薄每次调用开销。同时，如果有多张 GPU，可按需进行数据并行或流水线并行处理不同请求。此外对于 sequence sampling 这类生成过程，采用并行解码策略也能一定程度提高效率。
高效推理服务：使用专门针对大模型优化的推理服务器。例如 Hugging Face 提供的 Text Generation Inference (TGI) 框架，它集成了高效批处理和缓存策略，可用于生产环境的高吞吐部署。又如 vLLM 等方案专门为加速大模型生成而设计（后文详述）。

综合运用以上手段，可将大模型的推理延迟和成本显著降低，使其更适合实际业务部署。

分布式推理与 INT8 量化

当模型体积超出单机显存时，就需要分布式推理技术。典型方案是 模型并行 或 ZeRO 分片：将模型权重拆分到多块 GPU 显存上，每块负责一部分计算。以 Microsoft 的 DeepSpeed 框架为例，其 ZeRO-Inference 技术能将模型各层权重在多卡间分块存储，并在推理时按需交换，从而支持百亿甚至千亿参数模型的部署。虽然分布式推理会带来一些通信开销，但通过流水线并行、异步预取等优化，可以让多 GPU 协同工作，达到近似单模型的性能。

另一方面，量化技术通过降低参数数值精度来缩减模型体积、加速运算。常用的是 INT8量化，即将权重从32位浮点缩减为8位整数存储。Intel、NVIDIA 等都提供了高效的 INT8 矩阵乘单元，使得量化后推理速度提升显著，且内存占用减少 3/4。为了尽量避免精度损失，业界采用“近似无损”的量化方案。例如 LLM.int8() 使用逐列量化并对离群值单独16位存储的方法，使模型几乎不损失性能。实践表明，对 Transformer 模型进行 INT8 量化后，其在语言理解任务上的困惑度(perplexity)几乎不变。此外还有更激进的 4-bit 量化，也通过优化策略将性能损失降到可接受范围。总之，量化是大模型落地的利器，使原本需要多卡部署的模型能够在单卡甚至CPU上运行，为边缘设备部署大模型提供了可能。

模型压缩与蒸馏

为了进一步减小模型尺寸、提升推理速度，可以对大模型进行模型压缩。常见压缩技术包括：

知识蒸馏：利用大模型作为教师，训练一个参数量更小的学生模型，让学生模型去模仿教师模型对样本的输出分布。通过蒸馏，小模型能吸收大模型的知识，在较低复杂度下达到接近的性能。例如，用一个175B参数的模型指导一个7B模型回答问题，可使小模型性能显著提升接近大模型水平。
网络剪枝：分析模型中哪些权重对最终预测影响不大，将其系数置零（权重剪枝）或者移除相应的神经元/通道（结构剪枝）。剪枝后可减少模型计算量和存储，但需要在剪枝后对模型进行一定程度微调来恢复性能。
矩阵因子分解：将模型中的大矩阵（如权重矩阵）近似分解为两个更小的矩阵相乘，以降低参数数量。这实际上和 LoRA 的思想类似，只不过 LoRA是在保留原权重基础上附加小矩阵，这里则是替换原权重为分解形式。
参数共享：让模型的不同层共享参数（如 ALBERT 模型的做法），或使用循环的块结构来减少独立参数数量。
轻量模型架构：选择更轻量的架构替代标准 Transformer，如采用更少的层、更小的隐藏维度，或引入高效注意力（sparse attention、线性注意力）来减少计算复杂度。

通过以上技术，可以在尽量保持模型精度的前提下，将模型压缩到原始大小的一小部分，从而大幅提高推理速度、降低内存占用。这对于在移动端、Web 前端等受限环境中部署大模型尤其重要。不过压缩往往会牺牲一定性能，需要权衡取舍并针对具体任务验证效果。

主流大模型对比

当前大模型百花齐放，既有开源社区的成果，也有各大厂的旗舰模型。下面对几款有代表性的模型进行对比：

模型名称	参数规模	上下文长度	特点	开源情况
GPT-4 (OpenAI)	未公开（估计数千亿）	8k tokens（32k 扩展版）	多模态能力（可处理图像等），推理和代码能力顶尖，使用RLHF对齐	❌ 非开源，需API调用
LLaMA 2(Meta)	7B/13B/70B	4k tokens	纯文本模型，开源可商用，性能较上一代提升显著	🔶 开源（附带许可）
LLaMA 3(Meta)	8B/70B；计划400B+	推测4k-8k（更长待公布）	新一代开放模型，训练数据量比L2大7倍，8B/70B已超L2表现；据传400B模型接近GPT-4水平	🔶 开源（2024发布，部分平台提供）
Mistral 7B	7B	4k tokens (支持扩展到16k+)	法国初创公司模型，小参数下性能优异，训练高效	✅ 开源（Apache 2.0）
Mixtral 8×7B	46.7B（8个专家，共7B×8）	32k tokens	Mistral 7B 的 MoE 稀疏专家版本，仅使用约12.9B参数/Token推理，推理速度比70B快6倍，性能超LLaMA2 70B并逼近GPT-3.5	✅ 开源（Apache 2.0）
Claude 3 (Anthropic)	未公开（估计数百亿）	200k tokens（可扩展至>100万）	注重安全性的对话模型，擅长长上下文处理，支持图像输入，有不同规模版本（Haiku/Sonnet/Opus）	❌ 非开源，需API调用
Gemini 1.5 (Google)	未公开（多专家架构）	128k tokens（实验达100万）	多模态下一代模型，采用全新 Mixture-of-Experts 架构，训练和推理更高效，长上下文能力强	❌ 非开源（云服务提供）

🔶 部分开源（需遵循发布许可，例如LLaMA 2需接受其社区许可证）。
✅ 完全开源（通常采用Apache 2.0等许可，无使用限制）。
❌ 非开源（权重不公开，只能通过API或平台使用）。

上述模型各有侧重。

OpenAI 的 GPT-4 目前在综合能力上领先，但作为闭源模型使用需付费API且无法自行定制。

Meta 的 LLaMA 系列走开源路线，LLaMA 2 提供了高性能且可商用的基础模型，已被广泛用于下游微调；最新的 LLaMA 3 据报道进一步提升了规模和性能，试图逼近GPT-4水平。

Mistral 7B 展示了小模型的大威力，在7B参数下利用更优的训练策略达到接近30B模型的效果。其改进版 Mixtral 8×7B 更是采用稀疏专家（MoE）架构，将模型容量扩展至近47B但推理开销仍似12.9B模型，性价比极高。

Anthropic 的 Claude 3 注重长文本处理和安全，对话风格稳健，提供了高达百万级的超长上下文窗口。

谷歌的 Gemini 1.5 则代表多模态和稀疏专家结合的新方向，在图像、文本等多模态理解以及推理效率上都有突破，是下一代通用大模型的雏形。

总体而言，如果追求最高性能和多模态能力，可考虑 GPT-4 或 Gemini 等；如果侧重可控性、成本和定制，开源的 LLaMA 系列、Mistral 系列是很好的选择；而 Claude 3 等提供了长上下文对话的新范式，适合需要超长文档分析的应用。根据具体应用场景和资源约束，选择合适的大模型可以事半功倍。

工具链与框架使用

大模型的开发和部署离不开完善的工具链。以下列出业界常用的库和框架：

Hugging Face Transformers：最流行的深度学习模型库，提供了上千种预训练模型的接口，涵盖Transformer加载、训练、推理的全流程。开发者可以通过 from transformers import AutoModel, AutoTokenizer 等简单命令获取如 GPT-2、BERT、LLaMA-2 等模型。它支持 PyTorch 和 TensorFlow，并集成了Tokenizers快速分词等工具，非常适合快速验证和Fine-tuning模型。在 Hugging Face Hub 上还能找到丰富的社区微调模型和数据集资源。
DeepSpeed：由微软推出的训练加速库，专注于大模型的分布式训练和内存优化。其 ZeRO 技术将优化器状态、梯度和模型参数切分到多GPU，极大降低单卡显存占用，曾用于训练高达数千亿参数的模型。对于推理，DeepSpeed-Inference 也提供了异步流水线和张量并行方案，加速大模型推理。总之，当需要训练/部署超大模型时，DeepSpeed 是重要利器。
vLLM：一种高性能的开源推理引擎，专为LLM服务优化。vLLM 的核心创新是 PagedAttention 方法，将注意力的KV缓存分页管理，类似操作系统的虚拟内存机制medium.com。这一机制显著减少了长上下文时的内存浪费，使多请求并发处理更加高效medium.com。实测显示，vLLM 在实际基准中吞吐量比直接使用 Transformers 提升14～24倍，即使对比经过优化的TGI服务器也快约3.5倍medium.com。因此，在需要同时处理大量生成请求的场景（如聊天机器人服务）中，vLLM 可在相同硬件下支撑数倍的并发用户，提高性价比。
Text Generation Inference (TGI)：Hugging Face 提供的开源推理服务框架，专门针对文本生成模型部署。TGI用C++后端实现了高效的批量调度和推理，支持FP16量化、并行计算等优化，可大幅提升Transformer模型在服务端的吞吐，满足生产级高并发需求。它还支持多模型托管和HTTP API接口，方便与现有系统集成。许多开源模型的Demo（包括LLaMA-2官方Demo）即基于TGI搭建。
OpenAI API：对于OpenAI提供的 GPT-3.5、GPT-4、DALLE 等模型，开发者可以使用其云端API。通过 RESTful 接口，后端服务器可以直接调用这些强大的模型生成内容，而无需自行部署模型。OpenAI API 提供流式输出、参数调控等功能，使用便捷。但需要注意请求费用和速率限制。在敏感数据场景下也需考虑将提示经过脱敏处理后再发送，以保护隐私。总体来说，当不方便自行训练或部署模型时，调用云服务API是快速集成大模型能力的方式。
LangChain：一个用于构建由LLM驱动的应用的编排框架。LangChain 提供了标准化接口来连接语言模型与外部工具/数据。开发者可以用 LangChain 将 LLM 同数据库、互联网搜索、计算引擎等组合，使模型具备调用工具的能力。例如，可以让模型自动检索知识库以回答专业问题，或分步执行规划任务。LangChain 还支持记忆机制和对话状态管理，非常适合构建多轮对话代理、自动化助手等。此外，LangChain 对各大模型（OpenAI, HF Transformers 等）都提供兼容封装，在实验不同模型和提示模板时极其方便。总之，当需要开发复杂的链式Prompt流程或让模型执行复杂操作时，LangChain 是首选框架。
LlamaIndex (GPT Index)：一个旨在将LLM与自有数据结合的数据框架。LlamaIndex 提供简洁的接口来将文档、数据库等构建为索引，以便后续让LLM检索和利用。典型用法是：先用 LlamaIndex 将企业内部文档解析成向量索引，然后通过一个检索增强的Prompt，让 LLM 在回答问题时先从索引中提取相关信息。这样模型就能利用最新的或私有的知识，而不局限于训练语料中固有的内容。LlamaIndex 支持多种向量数据库和数据源插件（超过300种集成）。对于构建知识库问答、企业搜索助手等应用，LlamaIndex 能极大简化开发工作，免去繁琐的手动切分文档、向量搜索流程。

以上工具链覆盖了模型层、服务层和应用层。在实际项目中，可以将它们组合使用：例如用 Hugging Face 提供预训练模型 + LoRA 方法微调，然后借助 DeepSpeed 将模型部署在多卡集群上，推理时使用 vLLM/TGI 提升吞吐，应用端通过 LangChain 编排模型与业务数据交互。这套组合拳能够加速大模型从开发到落地的全流程。

企业级落地趋势：RAG、私有部署与多租户架构

随着大模型技术成熟，企业界正积极将其引入各类业务场景。然而，与消费级应用不同，企业落地需要考虑数据私密、部署成本、多用户服务等特殊需求。以下是当前企业应用大模型的几大技术趋势：

1. 检索增强生成（RAG）系统优化

企业中很多应用需要模型结合企业内部知识库进行问答或分析。例如客服机器人要引用产品手册内容回答客户问题，法律检索要引用法规条文。这些场景适合采用RAG架构：将企业知识以向量数据库或全文检索形式存储，LLM每次根据用户问题检索相关内容，再基于这些内容生成回答。这样既避免模型“胡编”公司内部数据，又可动态更新知识库以确保时效性。当前重点在于优化RAG各环节以提升准确性和效率：

更好的检索：针对企业领域，使用领域定制的embedding和语义搜索提升相关性。例如面向医疗领域的问题，采用专门微调的向量模型来获取更准确的语义相似度。还可结合知识图谱或结构化数据库提高精确度。
检索-生成融合：采用检索-重排-阅读三段式架构。检索器先找若干候选文档片段，然后通过一个小的重排序模型按照与问题的匹配度重新排序databricks.com（可训练），最后LLM阅读排名靠前的片段作答。这样能过滤掉部分不相关材料，减少模型负担，提高答案质量。
减少上下文长度压力：传统RAG将检索结果简单拼接在Prompt中，长度过大时效果变差。为此有研究将检索到的信息通过工具调用方式提供给模型，而非生硬拼接。例如，通过OpenAI函数调用，先把资料传给模型一个tool函数，模型需要某段资料时才调用，这样模型不会被过多无关信息干扰。此外，一些压缩上下文的方法（摘要、知识三元组抽取等）也在应用，帮助模型更高效地利用检索结果。
结果引用与可解释：企业很看重输出结果的可溯源性。因此RAG系统通常会让模型给出回答同时附上引用来源（如文档名或链接）。像微软Bing Chat那样，在答案句子后加上来源编号arxiv.org。这要求模型在Prompt设计和后处理上进行引导。通过few-shot示例或特殊标记，引导模型将引用文档整合到回答中。这增强了回答的可信度，也方便人工审核。

2. 私有化部署的新方法

许多企业出于数据安全和合规要求，倾向于在本地或专有云部署大模型，而非调用公共API。这就需要解决模型落地成本和性能问题。最新的趋势有：

开源大模型定制：企业往往选择开源模型（如LLaMA 2、Mistral等）作为基础，在自己的数据上进行轻量微调或LoRA增量训练。这样模型权重完全可控，不存在数据外泄风险。例如，一家法律咨询公司用LLaMA 2微调了内部法律问答数据，得到一个懂本地法规的对话模型，内部部署服务律师们使用。
高效微调方案：为降低私有数据微调成本，诸如LoRA、QP-Tuning等参数高效微调方法被广泛采用。只需调优模型很小一部分参数，就能让模型掌握企业专属知识或风格。比如LoRA仅插入低秩权重，内存开销很小，这使得在一台普通GPU上也能微调数十亿参数模型。
数据不出本地：一些云厂商提供把模型“带到数据”而非“数据送上云”的方案。例如微软Azure的认知服务支持在本地私有环境运行OpenAI模型推理，保证输入输出不经微软服务器。OpenAI 也推出了ChatGPT Enterprise版，承诺不将客户数据用于训练模型，并提供专用隔离的推理实例。这样企业可以用上强大模型，又满足合规要求。
软硬件一体优化：NVIDIA、Intel等纷纷推出针对本地大模型推理的解决方案。比如NVIDIA的NeMo框架与TensorRT优化，可将模型压缩并充分利用GPU张量核心，实现本地最高效推理；Intel 则通过OneAPI和优化库让大模型在CPU上运行更快，方便部署在CPU服务器上。甚至有硬件创业公司推出“大模型推理加速卡”，企业将其插入现有服务器即可提升模型运行效率。这些降低了私有部署的硬件门槛。

总之，如今**“大模型私有化”**已成为热门服务方向，从完整开源解决方案到厂商定制方案应有尽有。企业可以根据自身需求选择：要绝对离线安全，可以用开源模型+自主部署；对模型能力要求极高，也可采购厂商私有云实例，总之灵活性显著提高。

3. 多租户推理架构： 企业经常需要让一个模型服务多个应用或客户，而这些用户的会话彼此隔离、并发进行。这就需要支持多租户（Multi-tenant）的推理架构，既高并发又无数据串扰。为此，开发高效的多会话调度和隔离技术非常关键。

如前文推理加速部分提到的，vLLM等引擎本身就是为多租户场景设计的：通过PagedAttention和连续批处理，使得单机就可以高效处理众多并发请求。这对企业内部服务多个部门、每部门都有各自的对话上下文，非常实用。在多租户场景下，要确保：

数据隔离：每个会话的历史和机密信息不会泄露到别的会话的上下文中。底层实现上KV缓存分页等机制天然提供了隔离。此外，服务端还需严格在软件上隔离不同API调用者的身份和上下文。
资源公平与限流：防止某一租户大量请求占满全部算力。可以在架构上对每个租户设定QPS上限或优先级调度。例如为付费更高的客户保证更低延迟。像Transformer Serving框架（HuggingFace TGI等）都提供多队列、多worker的设计，以支持多租户服务。
伸缩性：当租户增加，请求量猛涨时，架构可以水平扩展（加机器）或垂直扩展（上更强GPU）来应对。这需要无状态或轻状态的服务设计。许多企业将模型封装成容器，由Kubernetes等编排，以便根据负载自动扩缩容，实现弹性服务。

目前的解决方案包括：开源的text-generation-inference（TGI）服务器，可高效批量调度多个生成请求；微软的 ORTInference 加强版，能够在CPU上并行多个推理；以及云厂商的托管服务（如AWS Bedrock、Azure OpenAI）本身为多租户设计，开发者只需调用API即可。对于自行部署，vLLM是上佳选择，其论文在SOSP 2023中详细阐述了如何实现23倍吞吐提升同时降低P50延迟。通过这些技术，即使面对高并发访问，企业也能让模型保持稳定快速响应。

MCP

1. MCP是什么？

Model Context Protocol (MCP) 是由Anthropic开发的开放协议，用于标准化AI助手（如Claude）与外部数据源和工具之间的交互。它提供了一个统一的接口，让AI能够安全、高效地访问各种资源。MCP协议通过标准化模型之间的上下文交换，使得不同的模型可以理解彼此的意图、状态以及所需的信息，达到更高效的协同工作。

2. MCP的主要组件

[AI Assistant]host <-> [MCP Client] <-> [MCP Server] <-> [External Resources]

MCP Server: 提供数据或功能的服务端
MCP Client: AI助手和服务器之间的通信桥梁
MCP Host: 托管AI助手的环境（如Claude Desktop应用）