自注意力机制的演进-从Transformer架构到DeepSeek-R1模型的深度语义理解革新
2025年,我国发布了开创性且高性价比的
大语言模型-DeepSeek-R1
,推动了AI领域的重大变革。本章节回顾了LLM的发展历程,其起点可追溯至2017年Transformer架构的提出,该架构通过自注意力机制(Self-Attention)
彻底革新了自然语言处理技术。到2018年,BERT与GPT模型显著提升了上下文理解与文本生成能力;2020年,GPT-3凭借1750亿参数展示了卓越的[少样本]
与[零样本]
学习能力,但其生成内容存在与事实不符的幻觉问题
,成为关键挑战。为应对这一问题,2022年OpenAI推出ChatGPT,采用监督微调(SFT)
与基于人类反馈的强化学习(RLHF)
技术优化生成质量。至2023年,多模态模型(如GPT-4)整合了文本、图像和音频处理能力,赋予LLM更接近人类感知的能力。近期推出的OpenAI-o1与DeepSeek-R1推理模型(Reasoning Model)
在复杂问题解决方面取得突破,展现了接近人类系统2思维
的深度推理能力,标志着AI在模拟人类思维模式上的重要进展。此外,DeepSeek-R1
以超成本效益
与开源
设计打破了传统AI规范,推动了先进LLM的普及,并加速了各行业的创新应用。
1. 语言模型 (Language Models)?
语言模型(Language Models, LM) 是一种基于统计和机器学习的计算模型,旨在理解和生成自然语言。其核心目标是通过对大量文本数据的学习,捕捉语言的结构、语法、语义以及上下文关系,从而能够预测或生成符合人类语言习惯的文本。基于Transformer架构的大型语言模型(LLM) 在性能和应用范围上取得了显著进展,正在深刻改变人工智能与人类交互的方式。
1.1 大型语言模型(LLM)
语言模型(LMs)
和大型语言模型(LLMs)
经常被兼容使用,但它们在规模、架构和能力上存在差异。LLM实际上是传统 LMs 的扩展版本,通常包含默认亿个模型参数。
例如,GPT-3 拥有 1750 亿个参数。“LLM”这个术语在 2018–2019 年随着 GPT
、BERT
、 GTP-2
和T5
等模型的出现开始流行,但2020年GPT-3的发布真正展示了它们的潜力,在各种任务中表现出卓越的性能,并确立了LLM作为现代人工智能的基石地位。
1.2 自回归语言模型(Autoregressive Language Models)
大多数LLM以自回归方式(Autoregressive)
操作,这意味着他们根据前面的文本预测下一个字(或token/sub-word)的概率分布(propability distribution)。这种自回归特性使得模型能够复杂学习的语言模式和依赖,从而促成文本生成。在数学上,LLM是一个概率模型(Probabilistic Model),根据之前的输入文本(w ₁, w 2, …, w ₙ₋₁)预测下一个字 ( wₙ)的概率分布。这可以表示为:P ( wₙ| w ₁, w 2,…, w ₙ₋₁)。在文本生成时,LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。这个过程可以采用不同的策略:既可以选择概率最高的下一个字(即贪婪搜索),也可以从预测的概率分布中随机抽取一个字,这种随机方法使得每次生成的文本都可能得到不同的,这种特性与人类语言的多样性和随机性相似。
1.3 生成能力
LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从提示(prompt)开始,如下图,模型通过迭代预测下一个字(Next Word Prediction),直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生成,尤如文字接龙游戏。
这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户支持系统。
2. Transformer革命 (2017)
2017年,Vaswani等人通过其开创性论文《Attention is All You Need》引入了Transformer架构,这标志着自然语言处理(NLP)领域的一个重要转折点。Transformer解决了早期模型(如循环神经网络RNN和长短期记忆网络LSTM)的关键限制。这些传统模型在处理长程依赖性和顺序输入时面临诸多挑战,例如计算效率低下、训练时间过长以及梯度消失问题。这些问题使得基于RNN或LSTM的语言模型难以实现高效且准确的性能。而Transformer的出现克服了这些障碍,彻底改变了NLP领域的研究范式,并为现代大型语言模型的发展奠定了坚实基础。
2.1 自注意力与Transformer架构的核心创新
1. 自注意力机制 (Self-Attention):与传统的RNN按顺序逐个处理标记不同,Transformer引入了自注意力机制,允许模型动态权衡每个标记相对于其他标记的重要性。这种机制使模型能够专注于输入中与当前任务最相关的部分,从而更好地捕捉全局上下文信息。数学上,自注意力机制通过以下公式计算:
Q、K、V是查询**(query)、键(key)和值(value)**矩阵,dₖ是键向量的维度。自注意力机制不仅支持并行计算,显著加快了训练速度,还增强了模型对全局上下文的理解能力。
2. 多头注意力 (Multi-Head Attention):多头注意力机制通过多个独立的注意力头并行操作,每个头专注于输入的不同方面。这些注意力头的输出被连接并通过一个线性变换层整合,从而生成更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。
3. 前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Norm):每个Transformer层包含一个应用于每个标记的前馈网络(FFN),以及层归一化和残差连接。前馈网络由两层全连接层组成,通常使用GELU (**Gaussian Error Linear Unit)**激活函数。层归一化和残差连接的设计有效稳定了训练过程,并支持构建更深的网络架构,从而提升了模型的表达能力。
4. 位置编码(Positional Encoding):由于Transformer本身不包含序列信息(即标记的顺序),因此需要通过位置编码来显式地表示词序。位置编码通常采用正弦和余弦函数的形式,将位置信息注入到输入嵌入中。这种方法既保留了顺序信息,又不牺牲并行化的优势。
解释 Transformer 模型中位置编码的必要性
2.2 对语言建模的影响
- 可扩展性:Transformer实现了完全并行化的计算方式,这使得在大规模数据集上训练超大模型成为可能。相比传统的RNN和LSTM,Transformer的计算效率更高,能够充分利用现代硬件(如GPU和TPU)的并行计算能力。
- 上下文理解:自注意力机制能够同时捕捉局部和全局依赖关系,显著提高了模型对上下文的理解能力。这种能力使Transformer生成的文本更加连贯,语义更加准确,尤其在处理复杂任务(如翻译、问答和文本生成)时表现出色。
Transformer通过自注意力机制、多头注意力、位置编码等创新设计,能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。
3. 预训练Transformer模型时代 (2018–2020)
2017年Transformer架构的引入为NLP的新时代铺平了道路,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现:BERT和GPT,它们展示了大规模预训练和微调范式的强大功能。
3.1 BERT:双向上下文理解 (2018)
2018年,谷歌推出了BERT(Bidirectional Encoder Representations from Transformers),这是一种使用Transformer编码器(Encoder)的突破性模型,在广泛的NLP任务中取得了最先进的性能。与之前单向处理文本(从左到右或从右到左)的模型不同,BERT采用了双向训练方法,使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示,BERT在文本分类、命名实体识别(NER)、情感分析等语言理解任务中表现出色。
BERT的关键创新包括:
- 掩码语言建模(Masker Language Modeling — MLM):BERT不是预测序列中的下一个词,而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如,给定句子“The cat sat on the [MASK] mat”,BERT会学习根据周围上下文预测 [MASK]是“soft”。
- 下一句预测(Next Sentence Prediction — NSP):除了MLM之外,BERT还接受了称为下一句预测的次要任务训练,其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色,例如问答和自然语言推理。
BERT的影响:BERT的双向训练使其在GLUE(通用语言理解评估)和SQuAD(斯坦福问答数据集)等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。
3.2 GPT:生成式预训练和自回归文本生成(2018–2020)
虽然BERT优先考虑双向上下文理解,但OpenAI的GPT系列采用了不同的策略,专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder),GPT模型在自回归语言模型和文本生成方面表现出色。
3.2.1 GPT(2018):单向解码器Transformer建模
2018年6月,GPT系列的首个版本问世,是一个大规模的Transformer模型,经过训练以预测序列中的下一个词,类似于传统语言模型。
- 单向自回归训练:GPT使用因果语言建模目标进行训练,其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务,如文本补全、摘要生成和对话生成。
- 下游任务的微调:GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式,GPT就可以适应诸如情感分析、机器翻译和问答等任务。
3.2.2 GPT-2 (2019): 扩展语言模型以实现广义零样本学习
GPT-2于2019年2月发布,在原版GPT的成功基础上,OpenAI发布了GPT-2,这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力,意味着它可以在没有任何特定任务微调的情况下执行任务。例如,它可以生成连贯的文章、回答问题,甚至在语言之间翻译文本,尽管没有明确针对这些任务进行训练。
3.2.3 GPT-3 (2020): 大规模语言模型的崛起
GPT-3于2020年6月发布,标志着语言模型规模扩展的一个转折点
。凭借惊人的1750亿参数(175B parameters),GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力,在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务,展示了超大模型的潜力。
3.3 GPT的影响及规模的作用
GPT模型的引入,特别是GPT-3,标志着AI的一个变革时代,展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性,在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响,表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。
语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升
在2018年至2020年间,该领域由对规模的不懈追求驱动。研究人员发现,随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持:
- 数据集大小:更大的模型需要庞大的数据集进行预训练。例如,GPT-3是在大量互联网文本语料库上进行训练的,使其能够学习多样化的语言模式和知识领域。
- 计算资源:强大的硬件(如GPU和TPU)的可用性以及分布式训练技术,使得高效训练具有数十亿参数的模型成为可能。
- 高效架构:混合精度训练和梯度检查点等创新降低了计算成本,使得在合理的时间和预算内进行大规模训练更加实际。
这个规模扩展的时代不仅提升了语言模型的性能,还为未来的AI突破奠定了基础,强调了规模、数据和计算在实现最先进结果中的重要性。
4. 后训练对齐:弥合AI与人类价值观之间的差距 (2021–2022)
GPT-3(一个拥有1750亿参数的LLM)生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。尽管这一成就标志着AI发展的一个重要里程碑,但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是幻觉(Hallucination),即LLM生成与事实不符、无意义或与输入提示矛盾的内容,给人一种(一本正经地胡说八道)的印象。为了解决这些挑战,2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉,导致了监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术的发展。
4.1 监督微调 (SFT)
增强GPT-3对齐能力的第一步是监督微调(SFT),这是RLHF框架的基础组成部分。SFT类似于指令调优,涉及在高质量的输入-输出对或演示上训练模型,以教它如何遵循指令并生成所需的输出。
这些演示经过精心策划,以反映预期的行为和结果,确保模型学会生成准确且符合上下文的响应。
然而,SFT本身有局限性:
- 可扩展性:收集人类演示是劳动密集型且耗时的,尤其是对于复杂或小众任务。
- 性能:简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。
为了克服这些挑战,需要一种更具可扩展性和效率的方法,为下一步铺平了道路:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback — RLHF)。
4.2 基于人类反馈的强化学习 (RLHF)
OpenAI在2022年引入的RLHF解决了SFT的可扩展性和性能限制。与需要人类编写完整输出的SFT不同,RLHF涉及根据质量对多个模型生成的输出进行排名。这种方法允许更高效的数据收集和标注,显著增强了可扩展性。
RLHF过程包括两个关键阶段:
- 训练奖励模型:人类注释者对模型生成的多个输出进行排名,创建一个偏好数据集。这些数据用于训练一个奖励模型,该模型学习根据人类反馈评估输出的质量。
- 使用强化学习微调LLM:奖励模型使用近端策略优化(Proximal Policy Optimization - PPO)(一种强化学习算法)指导LLM的微调。通过迭代更新,模型学会了生成更符合人类偏好和期望的输出。
这个两阶段过程 ——结合SFT和RLHF—— 使模型不仅能够准确遵循指令,还能适应新任务并持续改进。通过将人类反馈整合到训练循环中,RLHF显著增强了模型生成可靠、符合人类输出的能力,为AI对齐和性能设定了新标准。
4.3 ChatGPT:推进对话式AI (2022)
2022年3月,OpenAI推出了GPT-3.5,这是GPT-3的升级版,架构相同但训练和微调有所改进。关键增强包括通过改进数据更好地遵循指令,减少了幻觉(尽管未完全消除),以及更多样化、更新的数据集,以生成更相关、上下文感知的响应。
ChatGPT
基于GPT-3.5和InstructGPT,OpenAI于2022年11月推出了ChatGPT,这是一种突破性的对话式AI模型,专门针对自然的多轮对话进行了调节。ChatGPT的关键改进包括:
- 对话聚焦的重点:在大量对话数据集上进行训练,ChatGPT注重维持对话的上下文和连贯性,实现更引人入胜和类似人类的互动。
- RLHF:通过整合RLHF,ChatGPT学会生成了不仅有用的诚实而且和无害的响应。人类培训师根据质量对响应进行排名,使模型逐步改进其表现。
ChatGPT的推出时刻是AI的一个关键,通常被称为ChatGPT时刻(ChatGPT moment)),因为它展现了对话式AI改变人机交互的潜力。
5. 多模态模型:连接文本、图像及其他 (2023–2024)
在2023年至2024年间,像GPT-4, GPT-4V和GPT-4o这样的多模态大型语言模型(MLLMs)通过将文本、图像、音频和视频整合到统一系统中重新定义了AI。这些模型扩展了传统语言模型的能力,实现了更丰富的交互和更复杂的问题解决。
5.1 GPT-4V:视觉遇见语言
2023年,OpenAI推出了GPT-4V,将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题,并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成,使其在医疗保健(如分析医学图像)和教育(如互动学习工具)等领域具有价值。
详细价绍:What is GPT-4V(ision)?
5.2 GPT-4o:全模态前沿
到2024年初,GPT-4o通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行,可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 ——如生成多媒体内容——使其成为娱乐和设计等行业的多功能工具。
现实世界的影响: MLLMs革新了医疗保健(诊断)、教育(互动学习)和创意产业(多媒体制作)等领域。它们处理多种模态的能力解锁了创新的新可能性。
6. 开源和开放权重模型 (2023–2024)
在2023年至2024年间,开源和开放权重AI模型获得了动力,使先进AI技术的访问民主化。
- 开放权重LLMs:开放权重模型提供公开访问的模型权重,限制极少。这使得微调和适应成为可能,但训练架构和训练数据保持封闭。它们适合快速部署。例子:Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
- 开源LLMs:开源模型使底层代码和结构公开可用。这允许全面理解、修改和定制模型,促进创新和适应性。例子:OPT和BERT。
- 社区驱动的创新:像Hugging Face这样的平台促进了协作,LoRA和PEFT等工具使高效的微调成为可能。
社区开发了专门针对医疗、法律和创意领域的模型,同时优先考虑道德AI实践。 开源社区目前处于一个激动人心的阶段,得益于尖端对齐技术的出现。这一进展导致越来越多的卓越开放权重模型发布。因此,闭源和开放权重模型之间的差距正在稳步缩小。LLaMA3.1–405B模型首次历史性地弥合了与闭源对应物的差距。
7. 推理模型:从「系统1」到「系统2」思维的转变 (2024)
2024年,AI开发开始强调增强「推理」(Reasoning),从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响,区分了「系统1」(快速、直觉)和「系统2」(缓慢、分析)思维。虽然像GPT-3和GPT-4这样的早期模型在生成文本等「系统1」任务上表现出色,但在深度推理和问题解决方面却有所欠缺。
7.1 OpenAI-o1:推理能力的一大飞跃(2024)
2024年9月12日,OpenAI发布的o1-preview标志着人工智能能力的重大飞跃,尤其是在解决复杂推理任务(如数学和编程)方面。与传统LLMs不同,推理模型采用了「长链思维」(Long CoT) — — 即内部的推理轨迹,使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考”问题。这些CoTs对用户是隐藏的,用户看到的是一个总结性的输出。
推理模型的关键特性包括:
- 长链思维(Long CoT) :使模型能够将复杂问题分解为更小的部分,批判性地评估其解决方案,并探索多种方法,类似于搜索算法。
- 推理时计算控制 :对于更复杂的问题,可以生成更长的CoTs;而对于较简单的问题,则使用较短的CoTs以节省计算资源。
- 增强的推理能力 :尽管像o1-preview这样的初始推理模型在某些领域的能力不如标准LLMs,但在推理任务中,它们的表现远远超越了后者,常常能与人类专家媲美。例如,o1-preview在数学(AIME 2024)、编程(CodeForces)和博士级别的科学问题上均超越了GPT-4o。
OpenAI-o1:
2024年12月5日,OpenAI的完整版o1模型进一步提升了性能,在美国AIME 2024数学考试中排名前500名学生之列,并显著超越了GPT-4o(解决了74%-93%的AIME问题,而GPT-4o仅为12%)。此外,o1-mini作为更便宜且更快的版本,在编码任务中表现出色,尽管其成本仅为完整版o1的20%。
OpenAI-o3:
2025年1月31日,OpenAI发布了o3,这是其推理模型系列的最新突破,建立在o1模型成功的基础之上。尽管完整的o3模型尚未发布,但其在关键基准测试中的表现被描述为具有开创性。
- ARC-AGI :达到87.5%的准确率,超过了人类水平的85%,远超GPT-4o的5%。
- 编程 :在SWE-Bench Verified上得分71.7%,并在Codeforces上获得2727的Elo评分,跻身全球前200名竞争性程序员之列。
- 数学 :在EpochAI的FrontierMath基准测试中达到25.2%的准确率,相比之前的最先进水平(2.0%)有了显著提升。
来源OpenAl o3-mini
8. 成本高效的推理模型:DeepSeek-R1 (2025)
LLMs通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的普及化。
8.1 DeepSeek-V3 (2024–12)
2024年12月下旬,深度求索-V3(DeepSeek-V3)作为一种成本高效的开放权重LLM出现,为AI的可访问性设定了新标准。DeepSeek-V3与OpenAI的ChatGPT等顶级解决方案相媲美,但开发成本显著降低,估计约为560万美元,仅为西方公司投资的一小部分。该模型最多包含6710亿个参数,其中370亿个活跃参数,并采用专家混合(MoE)架构,将模型划分为专门处理数学和编码等任务的组件,以减轻训练负担。DeepSeek-V3采用了工程效率,例如改进Key-Value缓存管理和进一步推动专家混合方法。该模型引入了三个关键架构:
- 多头潜在注意力(Multi-head Latent Attention — MLA):通过压缩注意力键和值来减少内存使用,同时保持性能,并通过旋转位置嵌入(RoPE)增强位置信息。
- DeepSeek专家混合(DeepSeekMoE):在前馈网络(FFNs)中采用共享和路由专家的混合,以提高效率并平衡专家利用率。
- 多标记预测 (Multi-Token Prediction — MTP):增强模型生成连贯且上下文相关的输出的能力,特别是对于需要复杂序列生成的任务。
DeepSeek-V3的发布引发了全球科技抛售,危及1万亿美元的市值,并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输出标记2.19美元,约为OpenAI类似模型成本的1/30。
8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025–01)
仅仅一个月后,2025年1月下旬,DeepSeek通过发布DeepSeek-R1-Zero和DeepSeek-R1再次引起轰动,这些模型展示了卓越的推理能力,训练成本极低。利用先进的强化学习技术,这些模型证明了高性能推理可以在没有通常与尖端AI相关的巨额计算费用的情况下实现。这一突破巩固了DeepSeek作为高效和可扩展AI创新领导者的地位。
4. DeepSeek-R1-Zero:一种基于DeepSeek-V3的推理模型,通过强化学习(RL)增强其推理能力。它完全消除了监督微调(SFT)阶段,直接从名为DeepSeek-V3-Base的预训练模型开始。它采用了一种基于规则的强化学习方法(Rule-based Reinforcement Learning),称为组相对策略优化(Group Relative Policy Optimization — GRPO),根据预定义规则计算奖励,使训练过程更简单且更具可扩展性。
5. DeepSeek-R1:为了解决DeepSeek-R1-Zero的局限性,如低可读性和语言混杂,DeepSeek-R1纳入了一组有限的高质量冷启动数据和额外的RL训练。该模型经历了多个微调和RL阶段,包括拒绝采样和第二轮RL训练,以提高其通用能力和与人类偏好的一致性。
6. 蒸馏DeepSeek模型:DeepSeek开发了较小的、蒸馏版的DeepSeek-R1,参数范围从15亿到700亿,将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1生成的合成数据进行微调,确保在推理任务中表现出色,同时足够轻量化以便本地部署。
DeepSeek-R1在各种基准测试中表现出竞争力,包括数学、编码、常识和写作。根据使用模式,它相比OpenAI的o1模型等竞争对手提供了显著的成本节省,使用成本便宜20到50倍。
8.3 对AI行业的影响
DeepSeek-R1的引入挑战了AI领域的既定规范,使先进LLMs得以普及化,并促进了一个更具竞争力的生态系统。其可负担性和可访问性预计将推动各行各业的采用和创新增加。最近,领先的云服务提供商如AWS、微软和谷歌云已在其平台上提供DeepSeek-R1。较小的云提供商和DeepSeek母公司以竞争性定价提供它。
结论:
自2017年Transformer架构问世以来,直至2025年DeepSeek-R1的发布,大型语言模型(LLMs)的演进清晰地展现了人工智能领域的一场范式转移。这一历程由四个关键里程碑所界定,每个阶段都代表着技术突破和应用拓展的重要节点:
- Transformers (2017): Transformer架构的提出,标志着序列建模领域的重大突破。它摒弃了传统的循环神经网络(RNNs)和卷积神经网络(CNNs),引入了自注意力机制(Self-Attention Mechanism),实现了并行化计算,显著提升了训练效率和模型性能。Transformer架构为构建大规模、高效的语言模型奠定了坚实的基础,使其能够以空前的精确性和灵活性处理复杂的自然语言处理(NLP)任务,例如机器翻译、文本摘要和情感分析等。
- GPT-3 (2020): GPT-3的出现,充分展示了模型规模在人工智能领域所蕴含的变革性力量。通过在海量数据集上进行预训练(Pre-training),GPT-3证明了超大规模模型能够在广泛的应用场景中实现接近人类水平的性能,为人工智能的能力设定了新的基准。GPT-3不仅在文本生成、代码编写等方面表现出色,还展现出一定的零样本学习(Zero-shot Learning)能力,即在没有特定任务训练数据的情况下,也能完成任务。
- ChatGPT (2022): ChatGPT的发布,将对话式人工智能推向了大众视野。通过强化学习与人类反馈(Reinforcement Learning from Human Feedback, RLHF)等技术,ChatGPT实现了更自然、流畅的对话交互,降低了用户的使用门槛,使高级人工智能技术变得更加亲民和互动。与此同时,ChatGPT的广泛应用也引发了关于人工智能伦理、社会影响以及潜在偏见等重要议题的讨论,促使人们更加关注人工智能的负责任发展。
- DeepSeek-R1 (2025): DeepSeek-R1的创新之处在于其架构设计和训练策略的优化。它采用了混合专家模型(Mixture of Experts, MoE),通过将模型分解为多个专家子网络,并根据输入动态选择激活的专家,从而提升了模型的容量和效率。此外,DeepSeek-R1还采用了多头潜在注意力(Multi-Head Latent Attention, MLA)机制,增强了模型捕捉长距离依赖关系的能力。多标记预测(Multi-Token Prediction, MTP)则提高了模型的训练效率。结合高效的多阶段强化学习(RL)训练算法,DeepSeek-R1实现了推理过程的优化,并将运营成本大幅降低,相较于许多领先的闭源模型,成本削减高达50倍。其开源特性加速了尖端人工智能应用的普及,赋予各行业创新者更多能力,同时也突显了可扩展性、对齐性(Alignment)和可访问性在未来人工智能发展中的重要性。
总而言之,大型语言模型正逐步演变为多功能、多模态的推理系统,能够同时满足普通用户和特定领域的需求。这一演变得益于Transformer架构、自注意力机制、混合专家模型等突破性技术创新,以及在模型规模、易用性和成本效益上的显著提升,推动人工智能朝着更加包容、实用和影响力深远的方向迈进。未来的发展趋势将更加注重模型的效率、可解释性、安全性以及与人类价值观的对齐,以实现人工智能的可持续发展。
原文来自:https://medium.com/@lmpo/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%AE%80%E5%8F%B2-%E4%BB%8Etransformer-2017-%E5%88%B0deepseek-r1-2025-cc54d658fb43
相关文章:
自注意力机制的演进-从Transformer架构到DeepSeek-R1模型的深度语义理解革新
2025年,我国发布了开创性且高性价比的大语言模型-DeepSeek-R1,推动了AI领域的重大变革。本章节回顾了LLM的发展历程,其起点可追溯至2017年Transformer架构的提出,该架构通过自注意力机制(Self-Attention)彻底革新了自然语言处理技…...
数据结构拓展:详解realloc(C++)
前言 在C中,realloc 是C标准库提供的一个内存管理函数,用于动态调整已分配内存块的大小。尽管C更推荐使用 new/delete 或智能指针,但在某些场景(如与C代码交互或底层内存操作)中仍可能用到 realloc。以下是详细分析&a…...
计算机网络数据传输探秘:包裹如何在数字世界旅行?
计算机网络数据传输探秘:包裹如何在数字世界旅行? 一、从快递网络看数据传输本质 想象你网购了一件商品: 打包:商家用纸箱包装,贴上地址标签(数据封装)运输:包裹经过网点→分拣中心→运输车(网络节点与链路)签收:快递员核对信息后交付(数据校验与接收)数据的网络…...
十二、OSG学习笔记-Control
上一章节: 十一、OSG学习笔记-操作系统接口-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/145891502 本章节代码: OsgStudy/Controls CuiQingCheng/OsgStudy - 码云 - 开源中国https://gitee.com/cuiqingcheng/osg-study/tree/ma…...
DevOps全流程
DevOps全流程 面试速记 DevOps 是一种融合开与运维的软件研发实践方法,规划从需求调研到开发,测试,部署等全流程,通过Jenkins 和Kubernetes 等自动化工具集成部署实现从代码编写到部署的无缝衔接,加速软件交付周期。我…...
ARM Linux LCD上实时预览摄像头画面
文章目录 1、前言2、环境介绍3、步骤4、应用程序编写4.1、lcd初始化4.2、摄像头初始化4.3、jpeg解码4.4、开启摄像头4.5、完整的程序如下 5、测试5.1、编译应用程序5.2、运行应用程序 6、总结 1、前言 本次应用程序主要针对支持MJPEG格式输出的UVC摄像头。 2、环境介绍 rk35…...
NL2SQL-基于Dify+阿里通义千问大模型,实现自然语音自动生产SQL语句
本文基于Dify阿里通义千问大模型,实现自然语音自动生产SQL语句功能,话不多说直接上效果图 我们可以试着问他几个问题 查询每个部门的员工数量SELECT d.dept_name, COUNT(e.emp_no) AS employee_count FROM employees e JOIN dept_emp de ON e.emp_no d…...
centos8更换阿里云yum源
1.centos8更换为阿里云yum源 2.更换阿里云Yum-centos8源 mv /etc/yum.repos.d/CentOS-Stream-BaseOS.repo /etc/yum.repos.d/CentOS-Stream-BaseOS.repo.backupcurl -o /etc/yum.repos.d/CentOS-Stream-BaseOS.repo https://mirrors.aliyun.com/repo/Centos-8.repowget -O /et…...
在命令的轨迹中:创建、删除与查看普通用户,Linux用户管理的风华与深邃
文章目录 引言一、创建普通用户二、测试是否创建成功三、查看普通用户四、更改密码五、赋予普通用户root权限六、删除普通用户小结 引言 在浩瀚如海的Linux系统中,每一位用户都是一颗独立的星辰,散发着属于自己的光芒。在这片数字的星空中,用…...
年后寒假总结及计划安排
年后寒假总结 年后主要学习了微服务,nacos (服务注册中心),feign(远程调用),网关,双token(相较于之前更加规范,更加符合企业级),配置管理 ,mybati…...
IvorySQL v4 逻辑复制槽同步功能解析:高可用场景下的数据连续性保障
功能简介 IvorySQL v4 基于 PostgreSQL 17,引入了逻辑复制槽同步至热备份数据库的功能。这一改进有效解决了旧版本中主数据库与备份数据库切换后逻辑复制中断的问题。对于那些追求数据高可用性和业务连续性的数据库来说,这无疑是一个重大的利好消息。它…...
GitLab常用操作
git init //初始化一个git的本地仓库git rm -r --cached //清除缓存,比如修改了.gitignore文件,可以先清缓存再进行下边的操作git add README.md //增加一个文件 //git add 文件夹/ //增加文件夹内的所有文件 //git add --all //增加当前项目…...
【运维笔记】docker 中 MySQL从5.7版本升级到8.0版本 - 平滑升级
在Docker环境中,将MySQL从5.7版本升级到8.0版本时,数据确实需要迁移。虽然不能直接通过docker-compose命令简单地进行版本升级并保留所有数据,但可以通过一系列步骤来实现平滑升级和数据迁移。以下是详细的迁移步骤: 一、准备阶段…...
NUMA架构介绍
NUMA 架构详解 NUMA(Non-Uniform Memory Access,非统一内存访问) 是一种多处理器系统的内存设计架构,旨在解决多处理器系统中内存访问延迟不一致的问题。与传统的 UMA(Uniform Memory Access,统一内存访问…...
三、0-1搭建springboot+vue3前后端分离-idea新建springboot项目
一、ideal新建项目1 ideal新建项目2 至此父项目就创建好了,下面创建多模块: 填好之后点击create 不删了,直接改包名,看自己喜欢 修改包名和启动类名: 打开ServiceApplication启动类,修改如下: …...
【哇! C++】类和对象(三) - 构造函数和析构函数
目录 一、构造函数 1.1 构造函数的引入 1.2 构造函数的定义和语法 1.2.1 无参构造函数: 1.2.2 带参构造函数 1.3 构造函数的特性 1.4 默认构造函数 二、析构函数 2.1 析构函数的概念 2.2 特性 如果一个类中什么成员都没有,简称为空类。 空类中…...
单片机项目复刻需要的准备工作
一、前言 复刻单片机的项目的时候,有些模块是需要焊接的。很多同学对焊接没有概念。 这里说一下做项目的基本工具。 比如:像这种模块,都需要自己焊接了排针才可以链接的。 二、基本模块 2.1 单排排针 一些模块买回来是没有焊接的&#x…...
Nginx负载均衡配置详解:轻松实现高可用与高性能
在现代Web应用中,负载均衡是确保系统高可用性和高性能的关键技术之一。Nginx作为一款高性能的HTTP服务器和反向代理服务器,其负载均衡功能被广泛应用于各种场景。本文将详细介绍如何使用Nginx实现负载均衡配置,帮助开发者轻松应对高并发和大流…...
SQLAlchemy系列教程:集成Pydantic增强数据处理能力
本教程介绍如何将Pydantic用于数据验证,SQLAlchemy用于数据库操作,从而通过强大的数据处理能力增强Python应用程序。 介绍 在现代web开发中,确保数据的有效性和完整性至关重要。Pydantic和SQLAlchemy是两个功能强大的Python库,可…...
Linux下AWK命令使用方法
文章目录 **一、AWK 基本语法****二、核心概念****1. 内置变量****2. 分隔符****3. BEGIN 和 END 块** **三、常见用法示例****1. 基础打印****2. 条件过滤****3. 计算与统计****4. 字符串操作****5. 处理 CSV 文件** **四、高级用法****1. 使用数组统计****2. 多条件分支&…...
【AI】如何理解与应对AI中的敏感话题:详细分析与实用指南
引言 随着人工智能(AI)技术的不断发展,我们在与AI交互时,可能会遇到敏感话题的讨论限制。在许多情况下,AI系统为了避免触及社会、政治或文化敏感点,会对用户输入进行一定的筛选和过滤。那么,这…...
基于开源库编写MQTT通讯
目录 1. MQTT是什么?2. 开发交互UI3. 服务器核心代码4. 客户端核心代码5. 消息订阅与发布6. 通讯测试7. MQTT与PLC通讯最后. 核心总结 1. MQTT是什么? MQTT(Message Queuing Terlemetry Transport)消息队列遥测协议;是…...
linux指令学习--sudo apt-get install vim
1. 命令分解 部分含义sudo以管理员权限运行命令(需要输入用户密码)。apt-getUbuntu 的包管理工具,用于安装、更新、卸载软件包。installapt-get 的子命令,表示安装软件包。vim要安装的软件包名称(Vim 文本编辑器&…...
PHP之变量
在你有别的编程语言的基础下,你想学习PHP,可能要了解的一些关于变量的信息。 PHP中的变量不用指定数据类型,同时必须用$开头。 全局变量 可以在除函数外任意地方访问,如果需要在函数中访问要先获取 $x 111; function tt() {gl…...
代码规范和简化标准
代码规范和简化标准是编写高质量、可维护、可扩展和可读代码的基本原则。遵循这些标准不仅能提高团队协作效率,还能减少出错的概率和后期维护的成本。以下是一些常见的代码规范和简化标准: 1. 命名规范 变量命名: 使用具有描述性的名称&…...
DeepSeek安全:AI网络安全评估与防护策略
🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 本文基于现有的公开资料,从企业资深网络安全专家的视角,系统梳理DeepSeek技术在网络安全领域的潜在贡献与核心风险,并结合中国…...
开发环境搭建-05.后端环境搭建-前后端联调-通过断点调试熟悉项目代码特点
一.后端环境搭建-前后端联调 首先进行编译,编译通过才能够正常运行,我们可以看到已成功编译通过。 SkyApplication启动成功 登录成功 二.登录操作 1.controller层 package com.sky.controller.admin;import com.sky.constant.JwtClaimsConstant; impo…...
python py文件转为可执行文件(.exe)与 exe文件转py文件
一、py文件转为可执行文件(.exe) #安装 PyInstaller库 pip install pyinstaller #将 Python 脚本打包成一个单一的可执行文件。 pyinstaller --onefile .\123.py 文件或 pyinstaller -F .\123.py 文件 执行这个命令后,PyInstaller 会将123…...
【慕课网wiki项目学习笔记01】Spring Boot 项目搭建
2-2 新建SpringBoot项目 一、创建SpringBoot项目 (1)在SpringBoot官网创建 (2.1)在 IDEA 中创建 Group:公司名 Artifact:项目名 创建成功后开始下载Maven依赖(选择右下角的Import Changes&…...
解锁数据潜能,永洪科技以数据之力简化中粮可口可乐决策之路
企业数字化转型是指企业利用数字技术和信息通信技术来改变自身的商业模式、流程和增值服务,以提高企业的竞争力和创新能力。数字化转型已经成为企业发展的重要战略,尤其在当前信息技术高速发展的时代。数字化转型还涉及到企业与消费者之间的互动和沟通。…...
k-Shape:高效准确的聚类方法
引言 时间数据在许多学科中的扩散和无处不在,已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一,不仅因为它的探索性,而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序…...
前端网络安全面试题及答案
前端计算机网络常见面试题目总结_笔描相思的博客_前端计算机网络面试 1.TCP、UDP的区别 ①TCP是有连接的,连接需要三次握手,断开连接需要四次挥手;UDP是无连接的 ②TCP是面向报文的,UDP是面向字节流的 ③TCP是可靠的ÿ…...
9. Flink的性能优化
1. Flink的资源和代码优化 1.1 slot资源配置 Flink中具体跑任务的进程叫TaskManager,TM进程又会根据配置划分出诺干个TaskSlot,它是具体运行SubTask的地方。slot是Flink用来隔离各个subtask的资源集合,这里的资源一把指内存,TCP…...
DeepSeek安装部署笔记(二)
Bat批处理文件的编写 第五步 启动openWebUI的批处理编写1、下面的代码,复制到文本文件,再改扩展名2、这样,在桌面直接双击此文件运行 第五步 启动openWebUI的批处理编写 1、下面的代码,复制到文本文件,再改扩展名 ec…...
【谷粒商城踩坑记】第二坑 renren-fast-vue的node-sass问题
第二坑 renren-fast-vue的node-sass问题 前端开始,第一关就是源码运行,直接报错以下内容: node-sass6.0.1 postinstall: node scripts/build.js 这个在老的前端项目中,特别是使用了sass的项目中经常会出现。 其实当时没有记录下具…...
【Linux-网络】HTTP的清风与HTTPS的密语
🎬 个人主页:谁在夜里看海. 📖 个人专栏:《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长,行则将至 目录 📚 引言 📚 一、HTTP 📖 1.概述 📖 2.URL ǵ…...
【SpringBoot】数据访问技术spring Data、 JDBC、MyBatis、JSR-303校验
Spring Boot 数据访问技术及特性 目录标题 Spring Boot 数据访问技术及特性摘要1. 引言2. Spring Data架构与原理2.1 Spring Data概述2.2 Spring Data核心组件2.3 Spring Boot与Spring Data的集成机制 3. Spring Boot与JDBC的整合3.1 JDBC整合流程3.2 数据源自动配置3.3 JdbcTe…...
直装永久授权,最新专业版集成VB7
无论是学生、教师还是职场工作人员,办公软件在日常工作和学习中都是不可或缺的重要工具。在众多办公软件中,微软的Microsoft Office和金山软件的WPS Office最常用的选择。对于许多使用要求不高的小伙伴而言,WPS Office因其易用性和免费版本的…...
Ollama 框架本地部署教程:开源定制,为AI 项目打造专属解决方案!
Ollama 是一款开源的本地大语言模型(LLM)运行框架,用于管理和运行语言模型。具有以下核心特点: 开源可定制:采用 MIT 开源协议,开发者能自由使用、阅读源码并定制,可根据自身需求进行功能扩展和…...
【单片机项目】电源如何扩展、电源模块、电池模块如何接线
一、前言 解决2个关键问题: 【1】如果项目编号小于172之前的项目。 可能会遇到电源模块不够接,需要扩展电源的问题。 【2】如果项目编号是大于 172之后项目,部分项目用到了稳压电源模块或者是电池模块。 这篇文章单独讲解一下如何接线。 …...
汽车智能钥匙中PKE低频天线的作用
PKE(Passive Keyless Entry)即被动式无钥匙进入系统,汽车智能钥匙中PKE低频天线在现代汽车的智能功能和安全保障方面发挥着关键作用,以下是其具体作用: 信号交互与身份认证 低频信号接收:当车主靠近车辆时…...
mongodb安装教程以及mongodb的使用
MongoDB是由C语言编写的一种面向文档的NoSQL数据库,旨在为WEB应用提供可扩展的高性能数据存储解决方案。与传统的关系型数据库(如 MySQL 或 PostgreSQL)不同,MongoDB 存储数据的方式是以 BSON(类似于 JSON 的二进制格式…...
SpringMVC学习(controller层加载控制与(业务、功能)bean加载控制、Web容器初始化配置类)(3)
目录 一、SpringMVC、Spring的bean加载控制。 (1)实际开发的包结构层次。 (2)如何"精准"控制两个容器分别加载各自bean。(分析) <1>SpringMVC相关bean加载控制。(方法) <2>Spring相关bean加载控制。(方法) …...
redis基础结构
title: redis基础结构 date: 2025-03-04 08:39:12 tags: redis categories: redis笔记 Redis入门 (NoSQL, Not Only SQL) 非关系型数据库 关系型数据库:以 表格 的形式存在,以 行和列 的形式存取数据,一系列的行和列被…...
树莓派学习(一)——3B+环境配置与多用户管理及编程实践
树莓派学习(一)——3B环境配置与多用户管理及编程实践 一、实验目的 掌握树莓派3B无显示器安装与配置方法。学习Linux系统下多用户账号的创建与管理。熟悉在树莓派上使用C语言和Python3编写简单程序的方法。 二、实验环境 硬件设备:树莓派…...
【音视频】ffplay播放控制
一、ffplay播放控制 1.1、ffplay打开视频 比如我当前目录下现在有一个1.mp4的视频,可以使用下面的命令用ffplay打开并播放它 ffplay 1.mp4输入后回车即可打开相应的视频 1.2 ffplay播放控制 使用q、ESC退出播放按f、双击切换全屏状态按m切换为静音按9减少音量&a…...
【智能体Agent】ReAct智能体的实现思路和关键技术
基于ReAct(Reasoning Acting)框架的自主智能体 import re from typing import List, Tuplefrom langchain_community.chat_message_histories.in_memory import ChatMessageHistory from langchain_core.language_models.chat_models import BaseChatM…...
Redis系列之慢查询分析与调优
Redis 慢查询分析与优化:提升性能的实战指南 Redis 作为一款高性能的内存数据库,因其快速的数据读写能力和灵活的数据结构,被广泛应用于缓存、消息队列、排行榜等多种业务场景。然而,随着业务规模的扩大和数据量的增加࿰…...
分布式锁—2.Redisson的可重入锁一
大纲 1.Redisson可重入锁RedissonLock概述 2.可重入锁源码之创建RedissonClient实例 3.可重入锁源码之lua脚本加锁逻辑 4.可重入锁源码之WatchDog维持加锁逻辑 5.可重入锁源码之可重入加锁逻辑 6.可重入锁源码之锁的互斥阻塞逻辑 7.可重入锁源码之释放锁逻辑 8.可重入锁…...
大模型巅峰对决:DeepSeek vs GPT-4/Claude/PaLM-2 全面对比与核心差异揭秘
文章目录 一、架构设计深度解剖1.1 核心架构对比图谱1.2 动态MoE架构实现架构差异分析表 二、训练策略全面对比2.1 训练数据工程对比2.2 分布式训练代码对比DeepSeek混合并行实现GPT-4 Megatron实现对比 2.3 关键训练参数对比 三、性能表现多维评测3.1 基准测试全景对比3.2 推理…...