当前位置: 首页 > news >正文

GPT系列:自然语言处理的演进与多模态的探索

GPT系列:自然语言处理的演进与多模态的探索

  • GPT系列的发展
    • 一、GPT-1 :通过生成式的预训练改进自然语言
      • GPT-1的动机
      • 做一个预训练模型的难点
      • GPT-1的微调模式
      • GPT-1的训练数据
      • Bert
    • 二、GPT-2语言模型是非监督的
      • GPT-2的动机
      • 引入prompt
      • GPT-2模型架构的改变
      • GPT-2训练的修改
      • GPT-2的性能
    • 三、GPT-3:语言模型可以通过几个样本学习
      • GPT-3的动机
      • 各种shot
      • 模型架构的修改
      • GPT-3的训练数据
      • GPT-3的性能
    • 四、GPT-4:多模态大模型

GPT系列的发展

一、GPT-1 :通过生成式的预训练改进自然语言

GPT-1的动机

当时每个NLP任务都需要大量的标注数据,模型不能复用,当时的CV领域得益于imageNet训练集,有预训练模型,可以针对下游任务使用少量数据进行微调预训练模型,节省时间精力。

openAI得到灵感,提出要做一个NLP领域的预训练模型。

做一个预训练模型的难点

  • 1.没有像imagenet的大量的数据集
  • 2.预训练模型架构轻微修改就能应用到下游任务,比如说现在的加一个分类头。模型的架构如何设计。

解决

  • 1.没有大量的标注数据集: 采用语言模型自回归的方式对语料进行无监督训练的方式来进行训练模型,输入一段文本,让模型根据之前的文本来预测下一个字的方式来进行训练。
  • 2.模型架构如何设计: OpenAI在RNN和transformer中选择了transformer架构,因为它们发现transformer能更好的记住训练数据的模式,也能很好的迁移到下游任务。openAI选择了transformer中的decoder架构,并且做出了简化,去掉了交叉注意力机制的部分
    在这里插入图片描述

GPT-1的微调模式

有了预训练模型,就可以对预训练模型进行微调来应用到下游任务中。

OpenAI的微调模式是在输入的文本token前加一个特殊的token来进行具体的任务,模型会根据输入的特殊token来改变任务进行训练。
在这里插入图片描述

在预训练中,GPT—1不仅进行下游任务训练,还进行自回归的训练,两个训练方式使用不同的损失权重一起训练模型。

GPT-1的训练数据

使用了BooksCorpus dataset,包括70000本未发表的书,有800M个单词。上下文长度为512,batch size为32

Bert

在GPT-1发布不久,bert出现了,与GPT-1不同,它采取了transformer中的encoding架构来继续语义提取,同时采用的双向的策略,对于一个token,会考虑它之前的token,以及之后的token,这种策略更适合做语义提取,在传统NLP任务上全面优于GPT-1。

二、GPT-2语言模型是非监督的

GPT-2的动机

GPT-1和Bert将预训练模型引入了NLP领域,但是下游任务仍然需要收集一部分数据进行微调,GPT-2希望预训练模型能够解决所有任务。

引入prompt

在GPT-1中,模型的输入输出可以表示为:f(x) = p(outputs|inputs)
在GPT-2中我们就可以这么表示:f(x) = p(outputs|inputs, prompt)

比如对于语义理解的任务,我们可以这么输入:

GPT-2:提取出用户想吃什么:我先吃水饺!

输出就是:水饺

GPT-2模型架构的改变

  • 1.将Layer Norm移动到每个block输入的位置,之前是先注意力在Layer Norm,让训练更加稳定。在最后一个子层的自注意机制后添加了layer norm
  • 2.残差层的的初始化参数随层数的增长而减少,利于梯度向前传递,初一根号下N,N为残差层的层数。
  • 3.扩大词典到50257
  • 4.模型参数达到15.42亿(1.5B参数)

GPT-2训练的修改

  • 1.上下文长度从512到1024
  • 2.batch_size从32到512
  • 使用了Reddit的优质网页,800万文本,50GB的文字

GPT-2的性能

虽然GPT-2在许多任务里面表现出了不错的性能,但是无法远远碾压其他通过监督训练得到模型,但OpenAI发现随着模型的增大,性能提升的空间很大,所以有了GPT-3的出现。

三、GPT-3:语言模型可以通过几个样本学习

GPT-3的动机

人类在做一个语言任务时,只要给出几个例子就可以,但是传统的Bert、GPT-1还需要许多数据来进行微调训练。能否通过在prompt中加入一些例子,来提升模型的性能。(few shot)同时延续GPT-2的思想,将模型继续做大做强。

各种shot

  • 1.zero shot:不给出样例,给出指令直接让模型进行输出。
  • 2.one-shot:给出一个样例,让模型根据样例进行输出。
  • 3.few-shot:给出几个样例,让模型根据样例进行输出。

模型架构的修改

和GPT-2一样,但是引入了稀疏注意力机制,原本每个token和前面所有token做注意力机制,现在只对前面的部分的token做注意力机制

GPT-3的训练数据

GPT-3最大的模型参数为175B,在3000亿个tokens的训练数据上训练。
在这里插入图片描述

训练时的上下文长度为2048,Batch size为恐怖的320万。

GPT-3的性能

175B的模型的few-shot性能比经过微调的模型要高了。

四、GPT-4:多模态大模型

GPT-4的技术报告并没有透露出更多有用的内容,有用的见解是:模型的能力是在预训练时获得的,RLHF只是和人类偏好对齐,并不能提高模型的表现,如果RLHF做的不好,还可能会破坏原有的能力。

模型

GPT-4的技术报告并没有透露出更多有用的内容,有用的见解是:模型的能力是在预训练时获得的,RLHF只是和人类偏好对齐,并不能提高模型的表现,如果RLHF做的不好,还可能会破坏原有的能力。

openai还有一个独门秘诀,要评估一个大模型的性能,我们还可以训练一个相同架构的但是参数量小很多很多的模型来评估大模型的性能。

相关文章:

GPT系列:自然语言处理的演进与多模态的探索

GPT系列:自然语言处理的演进与多模态的探索 GPT系列的发展一、GPT-1 :通过生成式的预训练改进自然语言GPT-1的动机做一个预训练模型的难点GPT-1的微调模式GPT-1的训练数据Bert 二、GPT-2语言模型是非监督的GPT-2的动机引入promptGPT-2模型架构的改变GPT-…...

Linux驱动:驱动编译流程了解

要求 1、开发板中的linux的zImage必须是自己编译的 2、内核源码树,其实就是一个经过了配置编译之后的内核源码。 3、nfs挂载的rootfs,主机ubuntu中必须搭建一个nfs服务器。 内核源码树 解压 tar -jxvf x210kernel.tar.bz2 编译 make x210ii_qt_defconfigmakeCan’t use ‘…...

【MySQL】数据库基础

目录 1.什么是数据库2.见一见数据库3.服务器、表、库之间的关系4.MySQL架构5.sql语句分类6.查看MySQL存储引擎6.1 查看存储引擎6.2 常见存储引擎对比 1.什么是数据库 概念:数据库一般是指,在磁盘或者内存中存储的特定结构组织的数据 – 将来在磁盘上存储…...

1.1 文章简介

前因后果链 行业需求 → 技能断层 → 课程设计响应 (高薪岗位要求数学基础) → (符号/公式理解困难) → (聚焦原理与应用) 行业驱动因素 • 前因:机器学习/AI等领域的高薪岗位激增,但数学能力成为主要门槛 • 关键矛盾:算法论文中的数学…...

laravel 中使用的pdf 扩展包 laravel-snappy(已解决中文乱码)

Centos7 安装 wkhtmltopdf 1、先查看系统是 32 位的还是 64 位的 uname -a2、通过 composer 安装 wkhtmltopdf 32位: $ composer require h4cc / wkhtmltopdf-i386 0.12.x $ composer require h4cc / wkhtmltoimage-i386 0.12.x 64位: $ composer require h4cc/wkhtmltopdf-…...

java反序列化commons-collections链6

cc链6,最好用的cc链,因为它不受jdk版本的限制和cc版本的限制,前半段很像urldns链,后半段是cc1链 先来看一下它的利用链 Gadget chain:java.io.ObjectInputStream.readObject()java.util.HashSet.readObject()java.util.HashMap.p…...

WebSocket的原理及QT示例

一.WebSocket 介绍 1.概述 WebSocket 是一种在单个 TCP 连接上进行全双工通讯的协议,它在 2011 年被 IETF 定为标准 RFC 6455,并由 RFC7936 补充规范。与传统的 HTTP 协议不同,WebSocket 允许服务器和客户端之间进行实时、双向的数据传输&a…...

css 点击后改变样式

背景: 期望实现效果:鼠标点击之后,保持选中样式。 实现思路:在css样式中,:active 是一种伪类,用于表示用户当前正在与被选定的元素进行交互。当用户点击或按住鼠标时,元素将被激活,此…...

AI 在模仿历史语言方面面临挑战:大型语言模型在生成历史风格文本时的困境与研究进展

概述 在当今数字化时代,人工智能(AI)技术在诸多领域展现出了强大的能力,但在处理历史语言这一特定任务时,却遭遇了不小的挑战。美国和加拿大的研究人员通过合作发现,像 ChatGPT 这样的大型语言模型&#x…...

C++.Windows图形

Windows图形 1. 基础知识1.1 Windows图形编程基础1.2 GDI与GDI1.3 窗口消息处理2.1 注册窗口类2.2 创建窗口2.3 显示窗口3.1 创建按钮3.2 按钮消息处理4.1 设置窗口透明度4.2 透明窗口示例5.1 使用区域创建异形窗口5.2 异形窗口示例6.1 GDI抗锯齿设置6.2 抗锯齿绘图示例7.1 Dir…...

【Vue3】使用vite创建Vue3工程、Vue3基本语法讲解

一、什么是Vite Vite是新一代前端构建工具,官网地址:Vite中文网,vite的优势如下: 轻量快速的热重载(HMR),能实现极速的服务启动对TypeScript、JSX、CSS等支持开箱即用真正的按需编译&#xff…...

专题二:二叉树的深度优先搜索

以leetcode2331题为例 题目分析: 以第一个示例为例 算法原理分析: 从宏观角度,也就是我的算法之回溯的第一篇 我们发现我们在研究示例的时候,必须从下往上推 也就是我在研究一个结点是true还是false的时候,必须…...

Termius ssh连接服务器 vim打开的文件无法复制问题

你的问题是: • 在 Termius (macOS) SSH 连接到 VMware Ubuntu,使用 vim 打开 .cpp 文件时,可以复制文本; • 但在 Windows 10 上 SSH 到 VMware 的 Red Hat 6.4 时,复制操作无效。 ⸻ 🎯 初步分析 复制…...

搭建大数据学习的平台

一、基础环境准备 1. 硬件配置 物理机:建议 16GB 内存以上,500GB 硬盘,多核 CPU虚拟机:至少 3 台(1 主 2 从),每台 4GB 内存,50GB 硬盘 2. 操作系统 Ubuntu 20.04 LTS 或 CentOS…...

Matlab 模糊控制节水洗衣机模型

1、内容简介 Matlab 232-模糊控制节水洗衣机模型 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 4、参考论文 略...

如何找正常运行虚拟机

1.新建虚拟机。Linux centos7,给虚拟机改个名字不要放在c盘 2.安装操作系统。cd/dvd->2009.iso 启动虚拟机...

python二手书交易管理系统

目录 技术栈介绍具体实现截图系统设计研究方法:设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示 技术栈介绍 Django-SpringBoot-php-Node.js-flask 本课题的研究方法和研究步骤基本合理,难度适中&#xf…...

使用本地部署的 LLaMA 3 模型进行中文对话生成

以下程序调用本地部署的 LLaMA3 模型进行多轮对话生成,通过 Hugging Face Transformers API 加载、预处理、生成并输出最终回答。 程序用的是 Chat 模型格式(如 LLaMA3 Instruct 模型),遵循 ChatML 模板,并使用 apply…...

C++编程练习,认识面向对象权限,如何进行封装

#include <iostream> #include <string> using namespace std; /* 银行的账户是一个模板&#xff0c;是一个类&#xff0c;有存款人信息和账户额度&#xff0c;而具体的存款人视为一个对象&#xff0c; 一个对象不能私自修改账户额度&#xff0c;需要通过一个操作流…...

A Survey of Learning from Rewards:从训练到应用的全面剖析

A Survey of Learning from Rewards&#xff1a;从训练到应用的全面剖析 你知道大语言模型&#xff08;LLMs&#xff09;如何通过奖励学习变得更智能吗&#xff1f;这篇论文将带你深入探索。从克服预训练局限的新范式&#xff0c;到训练、推理各阶段的策略&#xff0c;再到广泛…...

电脑端音乐播放器推荐:提升你的听歌体验!

在快节奏的职场环境中&#xff0c;许多上班族都喜欢用音乐为工作时光增添色彩。今天要分享的这款音乐工具&#xff0c;或许能为你的办公时光带来意想不到的惊喜。 一、软件介绍-澎湃 澎湃音乐看似是个普通的播放器&#xff0c;实则藏着强大的资源整合能力。左侧功能栏清晰陈列着…...

小刚说C语言刷题—1149 - 回文数个数

1.题目描述 一个正整数&#xff0c;正读和反读都相同的数为回文数。 例如 22&#xff0c; 131&#xff0c; 2442 &#xff0c; 37073&#xff0c; 66&#xff0c;…… 所有 11位数都是回文数。 给出一个正整数 n &#xff08; 1≤n≤10000 &#xff09;&#xff0c;求出 1,2…...

基于SpringBoot的博客系统测试报告

一、编写目的 本报告为博客系统测试报告&#xff0c;本项目模拟了csdn&#xff0c;实现了包括了用户登录&#xff0c;发布博客文章&#xff0c;查看博客等功能。 二、项目背景 博客系统采用前后端分离的方法来实现&#xff0c;同时使用了数据库来存储相关的数据&#xff0c…...

Koa知识框架

一、核心概念 1. 基本特点 由 Express 原班人马开发的下一代 Node.js Web 框架 基于中间件的洋葱圈模型 轻量级核心&#xff08;仅约 600 行代码&#xff09; 完全使用 async/await 异步流程控制 没有内置任何中间件&#xff0c;高度可定制 2. 核心对象 Application (Ko…...

React Native踩坑实录:解决NativeBase Radio组件在Android上的兼容性问题

React Native踩坑实录&#xff1a;解决NativeBase Radio组件在Android上的兼容性问题 问题背景 在最近的React Native项目开发中&#xff0c;我们的应用在iOS设备上运行良好&#xff0c;但当部署到Android设备时&#xff0c;进入语言设置和隐私设置页面后应用崩溃。我们遇到了…...

RCE联系

过滤 绕过空格 ● 进制绕过 题目练习 数字rce 使用$0执行bash&#xff0c;<<<将后面的字符串传递给左边的命令。 例如&#xff1a; <?php highlight_file(__FILE__); function waf($cmd) { $whiteList [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, \\, \, $, <]; $cmd_ch…...

区块链大纲笔记

中心化出现的原因是由于网络的形成&#xff08;不然就孤立了&#xff0c;这显然不符合现实&#xff0c;如&#xff0c;社会&#xff0c;计算机网路&#xff09;&#xff0c;接着由于网络中结点能力一般不对等同时为了便于管理等一系列问题&#xff0c;导致中心化网络的出现。&a…...

SQL:JOIN 进阶

目录 JOIN 是什么&#xff1f; &#x1f539;OUTER JOIN&#xff08;外连接&#xff09; 外连接的分类 外连接与内连接的区别 &#x1f539;USING 子句 语法结构 和 ON 的对比 &#x1f4d8;USING 的内部逻辑 &#x1f9e9; 多个字段的 USING USING 的 SELECT 特性&a…...

SATA—Link层状态机

一、概述 Link层的状态机大致可以分为五类&#xff1a; 链路层空闲状态机通信异常处理状态机链路层发送状态机链路层接收状态机链路层电源管理下的状态机 二、链路层空闲状态机 链路层空闲状态机共包含两个状态L_IDLE、L_SyncEscape&#xff0c;每个状态下的处理机制与条状…...

12.2.2 allocator类

allocator类将分配内存空间、调用构造函数、调用析构函数、释放内存空间这4部分操作分开&#xff0c;全部交给程序员来执行&#xff0c;不像new和delete #include <iostream> #include <string>int main() {const int n 10;std::allocator<std::string> al…...

Qwen:Qwen3,R1 在 Text2SQL 效果评估

【对比模型】 Qwen3 235B-A22B&#xff08;2350亿总参数&#xff0c;220亿激活参数&#xff09;&#xff0c;32B&#xff0c;30B-A3B&#xff1b;QwQ 32B&#xff08;推理模型&#xff09;DeepSeek-R1 671B&#xff08;满血版&#xff09;&#xff08;推理模型&#xff09; 1&a…...

Egg.js知识框架

一、Egg.js 核心概念 1. Egg.js 简介 基于 Koa 的企业级 Node.js 框架&#xff08;阿里开源&#xff09; 约定优于配置&#xff08;Convention over Configuration&#xff09; 插件化架构&#xff0c;内置多进程管理、日志、安全等能力 适合中大型企业应用&#xff0c;提供…...

latex控制表格宽度,不要超出页面

字体控制 控制表格的字体&#xff0c;一般使用 footnotesize &#xff0c;neurips 使用的就是这个大小 列宽距控制 默认列宽距是 6pt &#xff0c;可以人工调节成为 5pt&#xff0c;不影响字体&#xff0c;比较不影响可读性 % 对于 table* 环境, [htbp] 通常比 [h] 或 [h!]…...

Linux进程管理

程序、进程、服务 程序 program 安装包&#xff0c;未运行的代码&#xff0c;APP 存放在磁盘上 进程 process 已运行程序、命令、服务&#xff0c;一个程序可以运行多个进程、父进程启动子进程 运行在内存中 服务 service 一直运行的进程&#xff0c;也叫做守护进程&…...

[springboot]SSM日期数据转换易见问题

日期数据的形式有多种&#xff0c;如2025-05-12 14:46:50、2025.05.12 14:46&#xff0c;可以没有年只有月日...等等。 在SSM项目中&#xff0c;前后端传递日期数据时往往需要统一格式&#xff0c;不然会报数据类型转换异常。 在controller层中用实体类实例对象接收前端服务器传…...

数字IC后端培训教程之数字后端项目典型案例分析

今天给大家分享下最近小编帮助学员解决的几个经典数字IC后端项目问题。希望能够对大家的学习和工作有所帮助。 数字IC后端项目典型问题之后端实战项目问题记录&#xff08;2025.04.24&#xff09; 数字IC后端设计实现培训教程&#xff08;整理版&#xff09; Q1: 老师好&…...

数字ic后端设计从入门到精通4(含fusion compiler, tcl教学)CMOS VLSI Design

Layout Design Rules 一、什么是 Layout Design Rules&#xff1f; 布局设计规则是一套用于指导芯片物理设计的几何约束条件&#xff0c;确保设计可以在特定制造工艺下被正确制造。这些规则通常由代工厂&#xff08;foundry&#xff09;提供&#xff0c;规定了最小线宽、间距、…...

服务器带宽基础知识

服务器带宽基础知识详解 一、带宽的定义与基本概念 服务器带宽&#xff08;Bandwidth&#xff09;是指服务器与互联网之间在单位时间内传输数据的能力&#xff0c;通常以 Mbps&#xff08;兆比特每秒&#xff09; 或 Gbps&#xff08;吉比特每秒&#xff09; 为单位衡量。它决…...

算法-单调栈

739. 每日温度 - 力扣&#xff08;LeetCode&#xff09; 原理&#xff1a;739. 每日温度 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:vector<int> dailyTemperatures(vector<int>& temperatures) {stack<int>sta;int ntemperatu…...

大核极坐标码

大核极性码&#xff08;ℓ>2&#xff09;的SC解码操作与原始极性码相似。迭代地&#xff0c;解码方程可以表示为&#xff1a; 这是给定信道输出的路径的概率。 虽然这些操作类似于传统的极坐标码&#xff0c;但迭代计算概率的复杂性相对于ℓ 作为&#xff0c;这使得它对于非…...

如何避免 JavaScript 中常见的闭包陷阱?

文章目录 1. 引言2. 什么是闭包&#xff1f;3. 常见的闭包陷阱及解决方案3.1 循环中的闭包陷阱3.2 内存泄漏3.3 意外的全局变量3.4 React 中的闭包陷阱 4. 总结 1. 引言 闭包&#xff08;Closure&#xff09;是 JavaScript 中一个强大而常用的特性&#xff0c;它允许函数访问其…...

免费多线程下载工具

先放下载链接&#xff1a;https://tool.nineya.com/s/1ir25buco Free Download Manager&#xff0c;简称“FDM”&#xff0c;是一款多线程下载工具&#xff0c;支持多端使用哦&#xff0c;像Windows、mac Os、Linux、浏览器插件以及安卓端都涵盖在内&#xff0c;这些版本这里都…...

Aware和InitializingBean接口以及@Autowired注解失效分析

Aware 接口用于注入一些与容器相关信息&#xff0c;例如&#xff1a; ​ a. BeanNameAware 注入 Bean 的名字 ​ b. BeanFactoryAware 注入 BeanFactory 容器 ​ c. ApplicationContextAware 注入 ApplicationContext 容器 ​ d. EmbeddedValueResolverAware 注入 解析器&a…...

【NextPilot日志移植】日志写入流程

&#x1f4dd; 文件后端日志写入流程详解 当后端选择文件时&#xff0c;日志写入过程主要涉及 LogWriter 和 LogWriterFile 类的协作。以下是详细的日志写入过程解释及涉及的代码&#xff1a; 1. LogWriter 类初始化 在 LogWriter 类的构造函数中&#xff0c;如果配置的后端…...

OpenCV直方图与直方图均衡化

一、图像直方图基础 1. 什么是图像直方图&#xff1f; 图像直方图是图像处理中最基本且重要的统计工具之一&#xff0c;它用图形化的方式表示图像中像素强度的分布情况。对于数字图像&#xff0c;直方图描述了每个可能的像素强度值&#xff08;0-255&#xff09;在图像中出现…...

Babel进阶:如何自定义插件?

Babel 是一个非常流行的 JavaScript 编译器&#xff0c;下面我们将从零到一编写一个 babel 箭头函数语法转换插件&#xff0c;掌握 babel 插件设计思路与编写规范&#xff0c;需求很简单就是将箭头函数转换为普通函数。 const test ()>{console.log("Hello World!&qu…...

C++中类中const知识应用详解

下面将从**const 成员**、const 成员函数、const 对象、mutable、constexpr 等方面&#xff0c;逐一详解 C 类中常见的 const 用法及注意事项&#xff0c;并配合示例。 一、const 数据成员 必须在初始化列表中初始化 class A {const int x; // const 成员 public:A(int v) :…...

LeetCode 513 找树左下角的值 LeetCode 112 路径总和 LeetCode106 从中序与后序遍历序列构造二叉树

LeetCode 513 找树左下角的值 迭代法——层序遍历 思路&#xff1a;对树进行层序遍历操作&#xff0c;层序遍历完后&#xff0c;输出树最后一层的第一个节点。 # Definition for a binary tree node. # class TreeNode(object): # def __init__(self, val0, leftNone, r…...

电脑端实用软件合集:土拨鼠+Rufus+实时网速监控工具

朋友们好&#xff0c;我是李师傅&#xff01;今天带来三款让人直呼"真香"的电脑工具&#xff0c;它们就像武林高手各怀绝技&#xff0c;保证让你工作效率翻倍&#xff01; 1Tuboshu&#xff08;电脑&#xff09; 最近发现一款神奇工具——Tuboshu&#xff08;发音类…...

杨校老师项目之基于SSM与JSP的鲜花销售系统-【成品设计含文档】

基于SSMJSP鲜花商城系统 随着电子商务的快速发展&#xff0c;鲜花在线销售已成为一种重要的消费模式。本文设计并实现了一个基于JSP技术的鲜花销售管理系统&#xff0c;采用B/S架构&#xff0c;使用SSM框架进行开发&#xff0c;并结合Maven进行项目依赖管理。系统分为前台用户模…...