大型语言模型演变之路:从Transformer到DeepSeek-R1
大型语言模型的崛起被认为是人工智能领域的一次革命,从2017年Transformer架构的引入开始,到2025年DeepSeek-R1的推出,每一步都在不断改变着人机交互的方式,推动着学术界与产业界的深度融合。
1. Transformer的引领(2017)
2017年,Vaswani等人在《Attention is All You Need》论文中提出了Transformer架构,彻底改变了自然语言处理(NLP)领域。传统的循环神经网络(RNN)在处理长文本时存在计算效率低下和梯度消失的问题,而Transformer通过自注意力机制使得信息可以在整个句子中进行灵活交互,从而成功解决了这一局限。
1.1 自注意力机制
自注意力机制允许模型动态地为不同部分分配不同的重要性。所有输入信息可以并行地进行处理,使得效率大幅提升。自此,处理复杂文本的能力得以显著增强。
1.2 多头注意力与位置编码
多头注意力机制通过同时获取输入的不同方面,使得模型能够捕捉更丰富的语义信息。而位置编码则解决了Transformer缺乏顺序信息的问题,确保了模型能够理解词语的顺序。
2. 预训练模型的觉醒(2018–2020)
随着Transformer架构的落地,预训练变得愈发重要。BERT与GPT系列应运而生,成为当时最具影响力的模型。
2.1 BERT的双向理解
2018年由谷歌推出的BERT,以双向的方式理解上下文,通过掩码语言建模(MLM)和下一句预测(NSP),在多项NLP任务上迅速树立了标杆。
2.2 GPT的自回归能力
OpenAI于2018年发布的GPT模型则展现了自回归语言模型的强大。自回归特性使得模型能够基于前文生成连贯的文本,这一特性为创意写作、问答等任务提供了有力支持。
3. 模型规模的崛起(2020)
2020年,GPT-3以惊人的1750亿参数震撼了整个AI界。模型规模的迅速扩大使得语言模型的生成能力达到了前所未有的高度。GPT-3在文本生成、编程以及逻辑推理等任务中展现出接近人类的表现,打破了行业的技术底限。
4. 对齐与微调的新探索(2021–2022)
随着GPT-3的成功,AI如何更好地与人类价值观对齐成为了新的挑战。幻觉现象,即生成与事实不符的内容,导致开发者需重新设计微调机制。
4.1 监督微调与RLHF
研究者们通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)来改善模型对人类意图的理解。RLHF的引入,让模型能够更高效地集成来自人类的反馈,显著提升了生成文本的质量与可靠性。
4.2 ChatGPT的崛起
2022年,OpenAI推出ChatGPT,通过RLHF的微调,使模型能够在多轮对话中表现得更加自然与连贯,成为大众所熟知的对话式AI典范。
5. 多模态模型的突破(2023–2024)
进入2023年至2024年,GPT-4V等多模态大型语言模型成为研究的焦点。这些新模型打破了传统文本的边界,将图像、音频等多种模态整合,实现更丰富的交互体验。医疗、教育及创意产业等领域的应用潜力巨大。
6. 开源与合作的新时代(2023–2024)
随着开源模型的崛起,如Meta AI的LLaMA,AI技术的访问门槛被大幅降低。开源不仅推动了技术的共享与创新,也促进了伦理AI的讨论和实践。社区驱动的参与将使得技术变革更具包容性。
7. 推理能力的提升(2024)
2024年,AI开始重视推理能力的提升,OpenAI发布的o1模型标志着在推理任务上的重要突破。这些新模型通过长链思维和结构化的内部推理过程解决复杂问题,超过了以往模型的局限。
8. 成本效益的革命(2025)
2025年,DeepSeek推出的R1系列进一步改变了市场格局。借助专家混合架构,大幅降低了运行成本。这项创新鼓励了更多AI应用的发展,助力各种行业更高效地整合先进技术。
大型语言模型的演变不仅是技术进步的体现,更是未来数字交互的希望。随着Transformer架构的兴起,转向预训练和微调,直到多模态和推理能力的提升,AI正在逐步走向一个更加智能、可及的未来。
相关文章:
大型语言模型演变之路:从Transformer到DeepSeek-R1
大型语言模型的崛起被认为是人工智能领域的一次革命,从2017年Transformer架构的引入开始,到2025年DeepSeek-R1的推出,每一步都在不断改变着人机交互的方式,推动着学术界与产业界的深度融合。 1. Transformer的引领(201…...
Idea配置注释模板
一、配置类注释模板 打开IDEA,打开settings(快捷键:Ctrl Alt s),选择Editor,找到File and Code Templates 这里以设置class文件为例,点击Class,在右侧配置以下内容 #if (${PACKAGE_NAME} && $…...
通过计费集成和警报监控 Elasticsearch Service 成本
作者:来自 Elastic Alexis Charveriat 使用 Elasticsearch 服务计费集成来跟踪、定制和提醒 Elasticsearch 服务费用。 监控和管理你的Elasticsearch服务(ESS)使用情况和成本对高效运营至关重要。 Elasticsearch服务计费集成提供了一种简化的…...
50.xilinx fir滤波器系数重加载如何控制
, 注意:matlab量化后的滤波器系数为有符号数,它是以补码形式存储的,手动计算验证时注意转换为负数对应数值进行计算。...
每日一题——接雨水
接雨水问题详解 视频学习推荐 建议先参考以下视频进行学习: 问题描述 给定一个非负整数数组 height,表示每个宽度为 1 的柱子的高度图。计算按此排列的柱子,下雨之后能接多少雨水。 示例 示例 1: 输入:height …...
【Flink银行反欺诈系统设计方案】1.短时间内多次大额交易场景的flink与cep的实现
【flink应用系列】1.Flink银行反欺诈系统设计方案 1. 经典案例:短时间内多次大额交易1.1 场景描述1.2 风险判定逻辑 2. 使用Flink实现2.1 实现思路2.2 代码实现2.3 使用Flink流处理 3. 使用Flink CEP实现3.1 实现思路3.2 代码实现 4. 总结 1. 经典案例:短…...
【15】蚂蚁链产品与服务
15-1 蚂蚁链一体机 蚂蚁链一体机概述 蚂蚁链一体机是深度融合软硬件技术、针对区块链技术特色打造的软硬一体化服务器。面对区块链技术落地中的性能、安全和隐私等技术挑战,结合自主硬件技术,打造了高性能、强隐私和高安全的软硬件一体化服务器&#x…...
DeepSeek:如何通过自然语言生成HTML文件与原型图?
在当今快节奏的开发与设计环境中,快速生成HTML文件或原型图是每个开发者与设计师的迫切需求。虽然DeepSeek无法直接生成图片,但它却能够通过自然语言生成流程图、原型图以及交互式页面,甚至可以直接输出HTML代码。本文将详细介绍如何与DeepSe…...
【JAVA架构师成长之路】【持久层】第2集:SQL常用优化手段
课程标题:SQL常用优化手段——15分钟快速提升数据库性能 目标:掌握10+核心SQL优化技巧,解决慢查询、高负载等生产问题 0-1分钟:优化核心原则——减少数据扫描量 本质逻辑:通过索引、分页、过滤条件等手段,最小化磁盘I/O和内存计算。 反例:SELECT * FROM orders(全表扫…...
文件上传和下载前后端交互逻辑
上传】 1、后端给前端一个上传接口:进行文件上传,上传成功后,该接口返回文件的路径,名称,id 2、表单提交接口,提交表单时,将文件的id和表单信息一块提交给后台,实现文件和表单的绑…...
全向广播扬声器在油气田中的关键应用 全方位守护安全
油气田作为高风险作业场所,安全生产始终是重中之重。在紧急情况下,如何快速、有效地传达信息,确保人员安全撤离,是油气田安全管理的关键环节。全向广播扬声器凭借其全方位覆盖、高音质输出和强大的环境适应性,成为油气…...
PHP之运算符
在你有别的编程语言的基础下,你想学习PHP,可能要了解的一些关于运算符的信息。 三元运算符,短径求值,为空判断 echo 1 ? "b" : "c";//第一个为真时返回第一个,为假时返回第二个 echo 1 ?: &qu…...
hive之lag函数
从博客上发现两个面试题,其中有个用到了lag函数。整理学习 LAG 函数是 Hive 中常用的窗口函数,用于访问同一分区内 前一行(或前 N 行)的数据。它在分析时间序列数据、计算相邻记录差异等场景中非常有用。 一、语法 LAG(column,…...
3427. 变长子数组求和
给你一个长度为 n 的整数数组 nums 。对于 每个 下标 i(0 < i < n),定义对应的子数组 nums[start ... i](start max(0, i - nums[i]))。 返回为数组中每个下标定义的子数组中所有元素的总和。 子数组 是数组中…...
RabbitMQ 2025/3/5
高性能异步通信组件。 同步调用 以支付为例: 可见容易发生雪崩。 异步调用 以支付为例: 支付服务当甩手掌柜了,不管后面的几个服务的结果。只管库库发,后面那几个服务想取的时候就取,因为消息代理里可以一直装&#x…...
C#+Halcon 检测稳定性提升的方式
前言 众所周知,C#是一个带垃圾回收机制的语言,开发过程中不需要考虑垃圾回收,你就可劲造吧。但我们在设计图像处理软件时,应时刻对图像等大内存资源进行管控,做到自行管控,及时释放,不应将其交…...
第一个Hadoop程序
编写和运行第一个 Hadoop 程序是学习 Hadoop 的重要步骤。以下是一个经典的“WordCount”程序示例,它统计文本文件中每个单词出现的次数。我们将使用 Java 编写 MapReduce 程序,并在 Hadoop 集群上运行它。 一、WordCount 程序概述 WordCount 是 Hadoo…...
Leetcode 378-有序矩阵中第 K 小的元素
给你一个 n x n 矩阵 matrix ,其中每行和每列元素均按升序排序,找到矩阵中第 k 小的元素。 请注意,它是 排序后 的第 k 小元素,而不是第 k 个 不同 的元素。 你必须找到一个内存复杂度优于 O(n2) 的解决方案。 示例 1࿱…...
python之爬虫入门实例
链家二手房数据抓取与Excel存储 目录 开发环境准备爬虫流程分析核心代码实现关键命令详解进阶优化方案注意事项与扩展 一、开发环境准备 1.1 必要组件安装 # 安装核心库 pip install requests beautifulsoup4 openpyxl pandas# 各库作用说明: - requests&#x…...
第一个 C++ 程序
文章目录 “Hello, World!” 程序代码示例程序基本结构详细解释头文件(#include <iostream>)命名空间(std)主函数(int main())输出语句(std::cout << "Hello, World!" &l…...
深度学习篇---不同框架下的图像通道
文章目录 前言一、核心概念NCHWNHWCCHW 二、主流框架的通道顺序1.PyTorch默认格式特点调整方法 2.TensorFlow默认格式特点调整方法 3.Keras默认格式特点 4.PaddlePaddle默认格式特点调整方法 5.MXNet默认格式调整方法 6.ONNX默认格式特点 三、通道顺序的影响性能差异NCHWNHWC 框…...
在 C++ 中,通常会使用 `#define` 来定义宏,并通过这种方式发出警告或提示。
在 C++ 中,通常会使用 #define 来定义宏,并通过这种方式发出警告或提示。 如何实现 GBB_DEPRECATED_MSG 宏: 你可以通过以下方式定义一个宏,显示弃用警告: #include <iostream>// 定义一个宏,用来打印弃用警告 #define GBB_DEPRECATED_MSG(msg...
10x Research:Secured Finance 基于 FIL 的美元稳定币如何推动 Filecoin 生态系统发展
“众多与 Filecoin 数据进行互动的参与者,将从全新灵活性与金融化的体系中受益。” 在 10X Research 的最新研究内容中,揭示了在 Filecoin 生态系统内推出以美元计价的稳定币为用户带来的巨大增益。 Filecoin 是 Web3 中增长最快的平台之一,…...
解决Spring Boot中LocalDateTime返回前端数据为数组结构的问题
在Spring Boot开发中,处理日期时间数据是一个常见的需求。Java 8 引入了新的日期时间API,如LocalDateTime,它提供了更强大的日期时间处理功能。然而,在将LocalDateTime对象序列化为JSON时,可能会遇到返回为数组结构的问…...
【Linux】进程间通信 续
目录 管道的原理(匿名管道) 核心原理 站在内核的角度看管道的本质 接口 创建管道文件 代码示例 管道的特征 管道读写端的四种情况 管道的应用场景 命令行的管道。 使用管道实现进程池 初始化 控制子进程 退出 命名管道 命名管道的理解 …...
心率提取,FFT
rPPG 信号提取: 从面部视频中提取 rPPG 信号,通常是通过对视频帧中的面部区域进行颜色通道分析,提取出反映血液容积变化的信号。 信号预处理: 对提取的 rPPG 信号进行滤波、归一化等预处理操作,以去除噪声和干扰。 心率…...
Data truncation: Out of range value for column ‘allow_invite‘ at row 1
由于前端传递的数值超过了mysql数据库中tinyint类型的取值范围,所以就会报错。 Caused by: com.mysql.cj.jdbc.exceptions.MysqlDataTruncation: Data truncation: Out of range value for column allow_invite at row 1at com.mysql.cj.jdbc.exceptions.SQLExcept…...
ZYNQ-PL学习实践(二)按键和定时器控制LED闪烁灯
ZYNQ-PL学习实践(二)按键和定时器控制LED闪烁灯) 1 创建工程2 verilog 代码3 约束4 综合5 生成bit总结 1 创建工程 2 verilog 代码 添加key_led.v 文件, module key_led(input sys_clk , //系统时钟50MHzinput …...
【CXX】4.4 其他构建系统
你需要至少完成以下三件事: 生成CXX生成的C绑定代码。 编译生成的C代码。 将生成的目标文件与你的其他C和Rust目标文件链接在一起。 并非所有构建系统都是平等的。如果你希望使用90年代的构建系统,尤其是如果你希望覆盖2个或更多构建系统(…...
windows 上删除 node_modules
在 Windows 11 上,你可以通过命令行来删除 node_modules 文件夹并清除 npm 缓存。以下是具体步骤: 删除 node_modules 打开命令提示符(Command Prompt)或终端(PowerShell)。 导航到项目目录。你可以使用 …...
mysql之如何获知版本
你可以通过在 MySQL 命令行客户端执行简单的 SQL 查询来获取 MySQL 的版本信息。以下是获取 MySQL 版本的常见方法: 使用 SELECT VERSION(); 查询: SELECT VERSION();执行这个查询后,MySQL 会返回一个字符串,其中包含了 MySQL 服…...
PHP 将图片url,写入到文件夹中,导出到zip下载到桌面
一:将图片写入到文件内 文件url:比如 【https://image.baidu.com/search/detail?ct503316480&z0&ipnfalse&word%E5%9B%BE%E7%89%87%E5%A4%B4%E5%83%8F&hs0&pn1&spn0&di7466852183703552001&pi0&rn1&tnbaiduima…...
系统架构设计师—计算机基础篇—文件管理
文章目录 文件结构逻辑结构物理结构文件的索引直接索引间接索引做题的方法 文件存储空间管理位示图 文件结构 文件的结构是指文件的组织形式。 逻辑结构 从用户角度看到的文件的组织形式。 用户知道文件名就可以存取文件中的信息。 物理结构 文件在文件存储器上的存放方式…...
【MySQL】用MySQL二进制包构建docker镜像
一、实验背景 【MySQL&docker】基于CentOS7.5 编译制作MySQL5.7.28镜像 https://www.jianshu.com/p/71fd79b69a6b 用MySQL源码编译的docker镜像,体积过大,直奔3G了,你也不清楚,这点编译参数打出的体积怎么就这么大!…...
C++ std::vector 超详细指南:基础实践(手搓vector)
目录 一.基本概念 二.类的常用接口说明 1.类对象的常见构造 2. vector类空间变化 1).size()(获取数据个数) 2).capacity()(获取容量大小) 3).empty()(判断是否为空࿰…...
java面试复习巩固
韩顺平Java__哔哩哔哩_bilibili 1、Java中源文件中可以有多个类,最多只能有一个public类? 程序分为编译和执行两个阶段。 编译阶段 如果存在public类,那么一个源文件中只能够存在一个而且要与源文件的名字相同。----------否则编译会报错…...
《STL源码剖析》笔记记录
《STL源码剖析》笔记记录 2.空间适配器(allocator) 分配的是空间,而不一定是内存 为了精密分⼯,STL allocator 决定将这两个阶段操作区分开来。 1、对象构造由 ::construct() 负责;对象释放由 ::destroy() 负责。 2、内存配置由 alloc::al…...
《Linux C 智能 IO 矩阵:输入输出的自适应数据流转》
1. 标准库IO简介 标准库IO特点:通过操作系统提供的接口(API)和操作系统进行交互。(接近100个函数) 1.1. IO的过程 操作系统:向上为用户提供操作接口,向下为统筹控制硬件。 操作系统的组成&#…...
idea生成自定义Maven原型(archetype)项目工程模板
一、什么是Maven原型(Maven archetype) 引自官网的介绍如下: Maven原型插件官网地址 这里采用DeepSeek助手翻译如下: Maven 原型 什么是原型? 简而言之,原型是一个 Maven 项目模板工具包。原型被定义为一…...
CES Asia 2025增设未来办公教育板块,科技变革再掀高潮
作为亚洲消费电子领域一年一度的行业盛会,CES Asia 2025(第七届亚洲消费电子技术贸易展)即将盛大启幕。今年展会规模再度升级,预计将吸引超过500家全球展商参展,专业观众人数有望突破10万。除了聚焦人工智能、物联网、…...
(二 十 二)趣学设计模式 之 备忘录模式!
目录 一、 啥是备忘录模式?二、 为什么要用备忘录模式?三、 备忘录模式的实现方式四、 备忘录模式的优缺点五、 备忘录模式的应用场景六、 总结 🌟我的其他文章也讲解的比较有趣😁,如果喜欢博主的讲解方式,…...
物联网同RFID功能形态 使用场景的替代品
在物联网(IoT)和自动识别技术领域,除了RFID标签外,还有一些其他技术产品可以在形态和大小上与RFID标签相似,同时提供类似或更强大的功能。以下是几种能够替代RFID标签的产品: 一、NFC标签 NFC(…...
蓝陵科技:以“数字底座”之力,全面布局影视行业工业化
“在数字技术与文化产业深度融合的今天,海南蓝陵数字科技有限公司(以下简称蓝陵科技)凭借其卓越的渲染实力和前瞻性的战略布局,正逐步成为推动中国影视行业工业化进程的重要力量。2025年2月,蓝陵科技不仅获得了陵水融媒…...
React + TypeScript 实战指南:用类型守护你的组件
TypeScript 为 React 开发带来了强大的类型安全保障,这里解析常见的一些TS写法: 一、组件基础类型 1. 函数组件定义 // 显式声明 Props 类型并标注返回值 interface WelcomeProps {name: string;age?: number; // 可选属性 }const Welcome: React.FC…...
本地部署大数据集群前置准备
1. 设置VMware网段 虚拟网络编辑器——更改设置——选择VMnet8——子网改成192.168.88.0——NAT设置——网关设置为192.168.88.2 2. 下载CentOS操作系统 下载CentOS 7.6(1810)版本 3. 在VMware中安装CentOS操作系统 创建新的虚拟机——典型——安装光盘映像文件——输入账…...
016.3月夏令营:数理类
016.3月夏令营:数理类: 中国人民大学统计学院: http://www.eeban.com/forum.php?modviewthread&tid386109 北京大学化学学院第一轮: http://www.eeban.com/forum.php?m ... 6026&extrapage%3D1 香港大学化学系夏令营&a…...
历年北京理工大学计算机复试上机真题
历年北京理工大学计算机复试上机真题 在线评测:https://app2098.acapp.acwing.com.cn/ 分段函数 题目描述 编写程序,计算下列分段函数 yf(x) 的值。 当 0< x <2,y -x2.5;当 2< x <4,y2-1.5(x-3)(x-3)…...
Linux的缓存I/O和无缓存IO
一、I/O缓存的背景 I/O缓存是指在内存里开辟一块区域,存放用来接收用户输入和用于计算机输出的数据,以减小系统开销和提高外设效率。linux对IO文件的操作分为不带缓存的IO操作和带缓存的IO操作(标准IO操作)。为什么存在C标准I/O库…...
题目 3216 ⭐团建⭐【DFS】蓝桥杯2024年第十五届省赛
小蓝正在和朋友们团建,有一个游戏项目需要两人合作,两个人分别拿到一棵大小为 n 和 m 的树,树上的每个结点上有一个正整数权值 c 1 , c 2 , ⋅ ⋅ ⋅ , c n c_1, c_2, , c_n c1,c2,⋅⋅⋅,cn, d 1 , d 2 , ⋅ ⋅ ⋅ , d m d_1, d_…...
从0到1入门Linux
一、常用命令 ls 列出目录内容 cd切换目录mkdir创建新目录rm删除文件或目录cp复制文件或目录mv移动或重命名文件和目录cat查看文件内容grep在文件中查找指定字符串ps查看当前进程状态top查看内存kill终止进程df -h查看磁盘空间存储情况iotop -o直接查看比较高的磁盘读写程序up…...