<《AI大模型应知应会100篇》第8篇:大模型的知识获取方式及其局限性
第8篇:大模型的知识获取方式及其局限性
摘要
大模型(如GPT、BERT、Qwen、DeepSeek等)凭借其卓越的自然语言处理能力,已经成为人工智能领域的明星。然而,这些模型“知道”什么?它们如何获取知识?又有哪些局限性?本文将深入探讨大模型的知识来源、存储机制、应用方式以及其固有的局限性,帮助读者理解大模型的“知识边界”。
核心概念与知识点
1. 大模型的知识来源
预训练语料库的组成
大模型的知识主要来源于预训练阶段使用的海量文本数据。这些数据通常包括:
- 互联网文本:如网页抓取内容、论坛帖子、新闻文章。
- 书籍:涵盖文学、科学、历史等多个领域。
- 代码:GitHub等开源平台上的代码片段。
解释:互联网文本提供了广泛的语言模式和常识性知识,而书籍和代码则为模型注入了专业性和结构化知识。
知识分布与语料库偏好的关系
由于语料库的构成可能存在偏好(如英文内容占主导地位),大模型的知识分布也会受到影响。例如,模型可能对英语世界的文化背景更熟悉,而对其他语言或文化的知识相对薄弱。
以下是常见的大模型知识来源及其结构特点,结合知识库内容进行说明:
1. 互联网文本
- 结构与特点:
包含网页、新闻、论坛、百科等海量非结构化文本数据,覆盖广泛主题。- 优势:提供多样化语言模式和常识性知识。
- 局限性:存在噪声(如错误信息)和时效性问题(截至训练时间点)。
- 示例应用:大模型通过预训练学习通用语言理解能力。
2. 书籍与学术文献
- 结构与特点:
结构化程度较高的文本,涵盖科学、技术、历史等领域的深度知识。- 优势:提供专业术语和系统性知识框架。
- 挑战:部分领域知识可能因语料稀疏导致模型掌握不全面。
- 示例应用:法律或医学领域模型通过书籍数据增强专业性。
3. 代码与开源项目
- 结构与特点:
包含GitHub等平台的代码片段、注释和文档,以程序性知识为主。- 优势:帮助模型理解逻辑推理和生成代码。
- 示例应用:大模型通过代码训练获得编程能力(如GitHub Copilot)。
4. 知识图谱
- 结构与特点:
以实体-关系三元组(如<巴黎, 是, 法国首都>)形式存储的结构化数据。- 优势:支持精准推理和关系挖掘,减少幻觉问题。
- 结合方式:通过RAG技术将知识图谱与大模型结合,增强回答准确性。
5. 企业私有数据(知识库/数据库)
- 结构与特点:
企业内部文档、客户记录、业务日志等非公开数据。- 优势:提供领域专属知识(如金融交易规则、制造流程)。
- 挑战:需通过RAG或微调技术整合,避免数据泄露风险。
- 示例应用:客服系统通过检索内部知识库生成专业回复。
6. 实时数据源(新闻API、传感器数据)
- 结构与特点:
通过API接入实时更新的数据(如股市行情、天气预报)。- 优势:解决大模型知识时效性不足的问题。
- 技术方案:结合检索增强生成(RAG)动态获取最新信息。
7. 用户交互数据
- 结构与特点:
对话历史、用户反馈等动态数据,用于持续优化模型。- 优势:适应个性化需求(如推荐系统)。
- 挑战:需平衡隐私保护与数据利用效率。
大模型数据来源发展趋势
- 知识增强方向:通过RAG技术融合外部知识库,已成为解决大模型知识局限性的主流方案。
- 未来路径:结合知识图谱的结构化数据与大模型的语义理解能力,实现更精准的知识推理。
2. 知识编码机制
参数记忆与隐式存储
大模型通过参数化的方式“记住”知识,而不是像数据库那样显式地存储信息。这种隐式存储的特点使得模型能够灵活应对各种任务,但也带来了以下挑战:
- 参数记忆的模糊性:模型无法精确区分某些相似但不同的事实。
- 知识提取的复杂性:需要依赖上下文和Prompt来激活特定知识。
知识分布在不同层级的特点
研究表明,不同层次的神经网络层在知识存储中扮演着不同角色:
- 浅层:倾向于捕捉语言的句法和词法特征。
- 深层:更多关注语义和上下文关联。
事实性知识 vs 程序性知识的存储差异
- 事实性知识(如“巴黎是法国的首都”):通常以分布式形式存储在模型的权重中。
- 程序性知识(如“如何求解一元二次方程”):需要通过推理和逻辑链条逐步生成。
3. 知识应用与检索
上下文中的知识激活机制
模型通过输入的上下文动态激活相关知识。例如:
问题:谁是《哈利·波特》系列的作者?
模型输出:
J.K. 罗琳(J.K. Rowling)是《哈利·波特》系列的作者。
解释:模型从其训练数据中提取相关信息,并根据上下文生成回答。
In-context Learning的原理
In-context Learning是指模型通过少量示例快速学习新任务的能力。例如:
以下是 In-Context Learning(ICL,上下文学习) 的具体例子及其原理解释,结合知识库内容进行说明:
示例场景:翻译任务
任务目标:将中文句子翻译为英文。
输入提示(Prompt)设计:
指令:将以下中文句子翻译为英文。
示例:
输入:今天天气很好。
输出:The weather is very nice today.
输入:我需要一本笔记本。
输出:I need a notebook.
任务输入:请打开窗户。
模型输出:
Please open the window.
ICL 的核心原理分析
-
模式识别与类比推理
模型通过示例中的输入-输出对(如“今天天气很好”→“The weather is…”),识别出任务模式(翻译),并基于此对新输入(“请打开窗户”)进行类比推理。- 关键机制:模型在上下文中学习任务的“隐式规则”,无需显式参数更新。
-
上下文中的知识激活
示例为模型提供了临时“知识库”,使其能够动态激活与任务相关的语言知识(如中英词汇对应关系)。- 优势:无需微调模型参数,仅通过提示即可完成任务。
-
Few-shot Learning 的实现
仅需少量示例(如2-3个),模型即可推断任务要求。这种能力依赖于预训练阶段学到的广泛语言模式。- 对比:传统机器学习需要大量标注数据,而ICL通过上下文示例快速适应新任务。
ICL 的实际应用价值
- 低资源场景:在标注数据稀缺时,通过示例快速构建任务(如小语种翻译)。
- 动态任务适应:无需重新训练模型,通过调整提示即可切换任务类型(如从翻译转为摘要生成)。
- 减少计算成本:避免微调所需的额外计算资源。
ICL 的局限性(补充说明)
- 依赖示例质量:示例需清晰且具代表性,否则可能误导模型(如示例存在语法错误)。
- 任务复杂度限制:对于高度复杂的任务(如法律文书分析),可能需要更多示例或结合外部知识。
通过上述例子可以看出,ICL 的核心是通过上下文中的示例引导模型完成任务,其本质是预训练模型对语言模式的泛化能力与动态推理的结合。
Prompt对知识提取的影响
精心设计的Prompt可以显著提高知识提取的效果。例如:
指令:请详细解释量子计算的基本原理。
提示:包括量子比特、叠加态和纠缠态的概念。
模型输出:
量子计算基于量子力学原理,利用量子比特作为基本单位。量子比特可以同时处于多个状态(叠加态),并通过纠缠态实现复杂的计算操作。
4. 知识局限性
知识时效性问题
大模型的知识截止于训练数据的时间范围。例如,一个2021年训练的模型可能不了解2022年的事件。
罕见知识的稀疏表示挑战
对于罕见或小众领域的知识,模型的表现通常较差。例如:
问题:请解释卡鲁扎-克莱因理论。
模型输出:
抱歉,我对此了解有限,请提供更多信息。
解释:由于训练数据中关于该理论的内容较少,模型难以生成准确的回答。
知识冲突与矛盾的处理
当训练数据中存在矛盾信息时,模型可能会产生不一致的输出。例如:
问题:地球是平的还是圆的?
模型输出:
地球是一个略扁的球体。
解释:尽管模型最终选择了正确答案,但它可能在内部经历了冲突解决过程。
幻觉产生的认知机制
幻觉(Hallucination)是指模型生成看似合理但实际错误的内容。例如:
问题:请列出2022年的诺贝尔物理学奖得主。
模型输出:
2022年诺贝尔物理学奖授予了张三和李四。
解释:模型可能基于训练数据中的模式生成了虚构的答案,而非真实获奖者。
案例与实例
1. 事实性知识测试案例分析
测试问题 | 模型回答 | 准确性 |
---|---|---|
谁是特斯拉公司的创始人? | 埃隆·马斯克(Elon Musk)。 | 错误(应为尼古拉·特斯拉)。 |
地球的平均半径是多少? | 约6371公里。 | 正确 |
结论:模型在常见事实性知识上表现较好,但在细节问题上可能出现偏差。
2. 知识更新前后的模型回答对比
时间 | 问题 | 回答 |
---|---|---|
2021 | 新冠病毒疫苗是否已上市? | 是的,多种疫苗已获批使用。 |
2023 | 新冠病毒疫苗是否已上市? | 是的,多种疫苗已获批使用。 |
解释:尽管时间变化,模型的回答未发生变化,因为其知识未更新。
3. 专业领域知识深度测试结果
领域 | 测试问题 | 模型回答 | 评价 |
---|---|---|---|
医学 | 什么是CRISPR技术? | CRISPR是一种基因编辑工具,用于修改DNA序列。 | 正确且简洁。 |
法律 | 如何申请专利? | 提供了详细的步骤说明,但部分内容过于笼统。 | 部分准确。 |
总结与扩展思考
1. 大模型 vs 知识图谱的知识表示对比
- 大模型:知识隐式存储,灵活性高,但准确性有限。
- 知识图谱:知识显式存储,准确性高,但扩展性差。
2. 知识增强技术的现状与前景
通过结合外部知识库(如维基百科)、检索增强生成(RAG)等技术,可以弥补大模型的知识局限性。
3. 持续学习与知识更新的技术路径
未来的研究方向包括在线学习、增量训练等,使模型能够动态更新知识,保持时效性。
希望本文能帮助你更好地理解大模型的知识获取方式及其局限性!如果你有任何疑问或想法,欢迎在评论区讨论!
相关文章:
<《AI大模型应知应会100篇》第8篇:大模型的知识获取方式及其局限性
第8篇:大模型的知识获取方式及其局限性 摘要 大模型(如GPT、BERT、Qwen、DeepSeek等)凭借其卓越的自然语言处理能力,已经成为人工智能领域的明星。然而,这些模型“知道”什么?它们如何获取知识?…...
【回眸】Linux 内核 (十六) 之 多线程编程 下
前言 前面介绍了互斥锁,本篇博文介绍死锁及其他多线程遇到的情况。 什么情况会造成死锁 死锁指的是两个或两个以上的运算单元(进程、线程或协程),互相持有对方所需的资源,导致它们都无法向前推进,从而导…...
学习笔记083——Java Stream API
文章目录 1、过滤数据 filter()2、转换元素 map()3、排序 sorted()3.1、自定义排序规则 4、去重 distinct()5、限制元素数量 limit()6、收集结果 collect()6.1、收集为List6.2、收集为Set6.3、转为Map6.4、基本用法(注意键冲突会抛异常)6.5、处理键冲突&…...
逍遥模拟器ARM过检测技术全解析
逍遥模拟器ARM框架安装magisk和修改设备型号隐藏应用隐藏root过检测 逍遥模拟器ARMmagisk改设备型号隐藏应用隐藏root 引言 逍遥模拟器以其出色的性能和丰富的功能,深受广大用户喜爱,让用户能在电脑上轻松运行各类安卓应用和游戏。然而,为保…...
Easysearch VS Opensearch 数据写入与存储性能对比
本文记录 Easysearch 和 Opensearch 数据写入和数据存储方面的性能对比。 准备 压测工具:INFINI Loadgen 对比版本: Easysearch 1.11.1(lucene 8.11.4)Opensearch 2.19.1(lucene 9.12.1) 节点 JVM 配置…...
C++中STL学习(一)——向量、栈、堆、集合
#include “bits/stdc.h” using namespace std; int main() { // -------------------- 1、向量vector:可以替换数组,不需要事先指定长度 // ------------------------- vector arr; // 构建int数组 vector arr1(100); // 构建初始长度100的int向量 ve…...
柑橘病虫害图像分类数据集OrangeFruitDataset-8600
文章目录 1. 前言2. 数据类别介绍3. 数据集地址 1. 前言 柑橘,作为水果界的 “宠儿”,不仅以其酸甜可口的味道深受大众喜爱,更是在全球水果产业中占据着举足轻重的地位。无论是早餐中的一杯橙汁,还是下午茶里的柑橘甜点ÿ…...
leetcode刷题-单调栈
代码随想录单调栈|739. 每日温度、496.下一个更大元素 I、503.下一个更大元素II、42. 接雨水、84.柱状图中最大的矩形 739. 每日温度496.下一个更大元素 I503.下一个更大元素II42. 接雨水 -- 面试常考题84.柱状图中最大的矩形 739. 每日温度 leetcode题目链接 代码随想录文档讲…...
【设计模式】访问者模式
**简介 假设你有一个购物车(对象结构),里面有多种商品(元素),如苹果、牛奶、书籍。每个商品的计价规则不同: 水果按重量计价牛奶按数量计价书籍按固定价格计价 现在需要实现两种功能࿱…...
【ISP】ISP pipeline(AI)
ISP Pipeline 全流程概览 ISP(Image Signal Processing,图像信号处理)流程通常从原始 Bayer 数据出发,经过一系列模块处理,逐步完成图像校正和增强,最终生成用于显示或编码的标准图像。常见处理模块包括&a…...
【设计模式】模板模式
简介 假设你要冲泡咖啡和茶,两者的流程相似但部分步骤不同: 烧水(公共步骤)加入主材料(咖啡粉/茶叶)添加调料(糖/牛奶)→ 可选步骤倒进杯子(公共步骤) 模板…...
GDB调试程序的基本命令和用法(Qt程序为例)
1. 引言 GDB(GNU Debugger)是一个强大的命令行调试工具,它可以帮助开发者在程序运行时查找和修复错误。当调试Qt程序时,GDB同样适用,并且能够帮助开发者定位诸如数组越界挂死等复杂问题。 2. 基本命令 2.1 启动GDB …...
vue3腾讯云直播 前端推流
1、在index.html文件中引入(在body体中) <script src"https://video.sdk.qcloudecdn.com/web/TXLivePusher-2.1.1.min.js" charset"utf-8"></script> 2、vue文件中,添加video推流(我用的推流地…...
DP_AUX辅助通道介绍
DisplayPort(简称DP)是一个由PC及芯片制造商联盟开发,视频电子标准协会(VESA)标准化的数字式视频接口标准。该接口免认证、免授权金,主要用于视频源与显示器等设备的连接,并也支持携带音频、USB…...
【微机及接口技术】- 第九章 串行通信与串行接口(下)
文章目录 第二节 串行通信协议一、异步串行通信协议二、同步串行通信协议 第三节 串行接口标准RS-232C一、RS-232C信号线定义二、电气特性 第四节 可编程串行接口芯片8251A一、基本性能二、内部结构三、外部引脚功能1. 同CPU的连接信号2. MODEM控制信号(4个…...
人形机器人制造—3D打印推动微型化与轻量化设计
在人形机器人仿生架构的构建中,多模态传感器集群与仿生关节矩阵的拓扑融合,正催生第三代具身智能的力学革命。通过分布式触觉薄膜、双目视觉惯性测量单元(200Hz采样率)与肌电模拟传感器的三重耦合,机器人获得了超越人类…...
前端性能优化高频面试题解析与实战指南(2025版)
一、前端性能优化核心面试题汇总 1. 浏览器加载优化相关问题 Q1:浏览器从输入URL到页面渲染的完整流程中,有哪些关键性能节点? 核心流程:DNS解析 → TCP连接(TLS握手)→ HTTP请求 → 资源下载 → 解析HT…...
【教程】xrdp修改远程桌面环境为xfce4
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 xfce4 vs GNOME对比 配置教程 1. 安装 xfce4 桌面环境 2. 安装 xrdp 3. 配置 xrdp 使用 xfce4 4. 重启 xrdp 服务 5. 配置防火墙ÿ…...
递增子序列
递增子序列 难点: 结果集如何加:每次进入递归都判断是否sub中的个数>2;不允许对数组排序,如何在每层去重:不可以再用nums[i] nums[i-1](没有意义,重复的元素不一定挨着)&#x…...
Linux磁盘管理双雄:lsblk与df深度解析
在Linux系统管理的日常工作里,磁盘管理占据着极为重要的地位,这里重点介绍lsblk和df这两个命令。 一、lsblk命令:呈现磁盘物理架构 lsblk是用于罗列块设备信息的实用命令,它以直观的树状结构呈现系统中的块设备,帮助…...
C#里设计Modbus-RTU(Remote Terminal Unit)协议
Modbus-RTU(Remote Terminal Unit)是一种串行通信协议,广泛用于工业自动化领域,支持主从式(Master-Slave)通信架构。它是Modbus协议的两种传输模式之一(另一种是ASCII模式),具有高效、简洁、可靠性强的特点,常用于RS-485或RS-232物理层通信。 核心特性 物理层 通常基…...
spark学习内容总结
Spark运行架构总结 一、核心结构 Spark框架的核心是一个计算引擎,整体采用标准的master-slave结构。其中,Driver作为master,负责管理整个集群中的作业任务调度;Executor作为slave,负责实际执行任务。 二、核心组件 …...
MySQL多表查询、事务与索引的实践与应用
摘要:本文围绕MySQL数据库操作展开,通过构建部门与员工管理、餐饮业务相关的数据库表,并填充测试数据,系统地阐述了多表查询的多种方式,包括内连接、外连接和不同类型的子查询,同时介绍了事务的处理以及索引…...
MySQL【8.0.41版】安装详细教程--无需手动配置环境
一、MySQL 介绍 1. 概述 MySQL 是一个开源的关系型数据库管理系统,由瑞典公司 MySQL AB 开发,现属于 Oracle 旗下。它基于 SQL(结构化查询语言)进行数据管理,支持多用户、多线程操作,广泛应用于 Web 应用、…...
FRP练手:hello,world实现
方案一:使用 Flask(推荐) from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return "你好啊世界"if __name__ __main__:# 监听所有网络接口(0.0.0.0),端口 3344app.…...
Mysql | 主从复制的工作机制
主从复制的工作机制 Mysql的主从复制 从库主要是读取主库的binlog日志来完成数据同步的, binlog中存储了对数据库所有修改SQL的语句。 首先Master开启BinLog二进制的写入。Slave从库通过ip、port、账号、密码链接到Master主数据库,链接成功后从库会向主数据库获取B…...
清明之后叙
经历了漫长的冬季,春天的脚步近了,要说讲这一年的开始,绝大数人说是从春季,但是我说应该是从冬季开始,中国传统讲冬至是一阳生,冬季收藏好了,开始收敛精气,养精蓄锐,好好…...
Docker新型容器镜像构建技术,如何正确高效的编写Dockerfile
一、容器与容器镜像之间的关系 说到Docker管理的容器不得不说容器镜像,主要因为容器镜像是容器模板,通过容器镜像我们才能快速创建容器。 如下图所示: Docker Daemon通过容器镜像创建容器。 二、容器镜像分类 操作系统类 CentOSUbuntu在do…...
Starrocks的Bitmap索引和Bloom filter索引以及全局字典
写这个的主要作用是梳理一下Starrocks的索引效率以及使用场景。 Starrocks Bitmap索引 原理: Bitmap 索引是一种使用 bitmap 的特殊数据库索引。bitmap 即为一个 bit 数组,一个 bit 的取值有两种:0 或 1。 每一个 bit 对应数据表中的一行&…...
从 0 到上线:Java 项目打包 Docker 镜像全流程实战
📖 摘要 本文是一份超详细的Java项目Docker化实战手册,从环境准备到最终上线,手把手带你完成整个容器化部署流程。你将学会: Docker基础概念与核心原理如何为Java项目编写高效的Dockerfile多阶段构建优化镜像体积镜像推送与容器…...
【符号引用和直接引用是什么?有什么作用?什么场景下使用?为什么符号引用和直接引用在常量池里?】
符号引用与直接引用详解 1. 符号引用(Symbolic Reference) 定义: 符号引用是编译阶段使用的抽象标识符,通过全限定名、方法签名等符号描述目标(如类、方法、字段)。它不涉及具体内存地址,仅作为…...
ESModule和CommonJS在Node中的区别
ESModule console.log(require);//>errorconsole.log(module);//>errorconsole.log(exports);//>errorconsole.log(__filename);//>errorconsole.log(__dirname);//>error全部报错commonjs console.log(require);console.log(module);console.log(exports);co…...
阿里发布实时数字人项目OmniTalker,实时驱动技术再突破~
简介 OmniTalker 是一个由 阿里巴巴集团 Tongyi Lab(通义实验室) 开发的研究项目,专注于实时文本驱动的说话头像生成技术。该项目旨在通过文本输入生成同步的语音和视频内容,同时保留参考视频中的音视频风格。以下是关于 OmniTalk…...
Kubernetes-如何进入某POD中
Kubernetes 如何进入某POD中 工作中需要进入pod中查询比如pod 网络等问题 步骤: 1、 查询某pod, 比如该pod 为namespace test 下的 ip 为 192.168.1.100 #查询namespace 列表 #kubectl get ns #查询该ns下ip 为 192.168.1.100的pod # kubectl -n test get pods …...
java导出postgis空间数据几何对象shapefile文件
项目开发中,需要java后端实现导出postgis空间数据几何对象shapefile文件,以便能直观查看数据详情。注意事项Shapefile 默认的几何字段名为 the_geom,若导出时未显式指定或字段名被修改,部分软件(如 ArcGIS、QGI&#x…...
蓝桥杯嵌入式按键长按双击
直接上代码这个代码里面我们简单实现了如果按键按下时间超过0.8秒K1的值增加,短按只增加一次,按键2长按K2值增加,按键3双击K1的值减1,按键4双击K2的值减1 #include "fun.h" #define long_press_time 800//定义长按时间…...
深入解析Java中的栈:从JVM原理到开发实践
一、栈的双重身份:JVM运行时数据区 vs 数据结构 1. JVM层面的栈 线程私有:每个线程独立拥有自己的栈 LIFO结构:后进先出的方法调用模型 栈帧存储:每个方法对应一个栈帧(Stack Frame) 2. 数据结构中的栈…...
408 计算机网络 知识点记忆(6)
前言 本文基于王道考研课程与湖科大计算机网络课程教学内容,系统梳理核心知识记忆点和框架,既为个人复习沉淀思考,亦希望能与同行者互助共进。(PS:后续将持续迭代优化细节) 往期内容 408 计算机网络 知识…...
从ETL到ELT:大数据时代下两者的选型建议及优势
随着大数据时代的到来,数据量呈爆炸式增长,数据类型日益复杂,ETL与ELT两种技术路径的抉择直接影响着数据处理效率。我们这次来深入解析下两种模式的本质差异与应用场景,为企业提供选型建议。 一、ETL架构的优势 ETL架构遵循“提…...
Java蓝桥杯习题一:for循环和字符串的应用
知道循环次数用for循环 练习题1 小明对数位中含有2.0.1.9的数字很感兴趣,在1到40中这样的数包含1.2.9.10至32.39.40,共28个,他们的和是574.请问,在1到2019中,所有这样的数的和是多少?(2019Jav…...
Windows 图形显示驱动开发-WDDM 2.0功能_分配用法跟踪
随着分配列表的消失,视频内存管理器 (VidMm) 不再能够查看特定命令缓冲区中引用的分配。 因此,VidMm 不再能够跟踪分配使用情况和处理相关同步。 此责任现在由用户模式驱动程序 (UMD) 承担。 具体而言,UMD 需要处理与直接 CPU 访问分配和重命…...
SpringMVC的请求-文件上传
文件上传客户端三要素 1. 表单项type“file” 2. 表单的提交方式是post 3. 表单的enctype属性是多部分表单形式,及enctype“multipart/form-data” <% page contentType"text/html;charsetUTF-8" language"java" %> <html> <he…...
MySQL表的增删查改(基础)
一.插入数据 数据准备 create table student(id INT,sn INT comment 学号,name VARCHAR(20) comment 姓名,qq_mail VARCHAR(20) comment QQ邮箱 ); 1.单行数据全列插入 INSERT INTO student VALUES (100, 10000, 唐三藏, NULL); INSERT INTO student VALUES (101, 10001, …...
C++初阶-C++的讲解1
目录 1.缺省(sheng)参数 2.函数重载 3.引用 3.1引用的概念和定义 3.2引用的特性 3.3引用的使用 3.4const引用 3.5.指针和引用的关系 4.nullptr 5.总结 1.缺省(sheng)参数 (1)缺省参数是声明或定义是为函数的参数指定一个缺省值。在调用该函数是…...
【NLP 面经 9.逐层分解Transformer】
如果我能给你短暂的开心 —— 25.4.7 一、Transformer 整体结构 1.Tranformer的整体结构 Transformer 的整体结构,左图Encoder和右图Decoder,下图是Transformer用于中英文翻译的整体结构: 可以看到 Transformer 由 Encoder 和 Decoder 两个…...
Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(5)
运行官方代码库中提供的Colab代码:vision-based environment(二)(5) Network十八、类SinusoidalPosEmb,继承自nn.Module十八.1 def __init__()十八.2 def forward()总体说明 十九、类Downsample1dÿ…...
西门子S7-1200PLC 工艺指令PID_Temp进行控温
1.硬件需求: 西门子PLC:CPU 1215C DC/DC/DC PLC模块:SM 1231 TC模块 个人电脑:已安装TIA Portal V17软件 加热套:带加热电源线以及K型热电偶插头 固态继电器:恩爵 RT-SSK4A2032-08S-F 其他࿱…...
【深度学习:理论篇】--Pytorch进阶教程
目录 1.神经网络 1.1.torch.nn 核心模块 1.2.定义神经网络 1.3.损失函数 1.4.反向传播 1.5.梯度更新 2.图片分类器 2.1.数据加载 2.2.卷积神经网络 2.3.优化器和损失 2.4.训练网络 2.5.测试网络 2.6.GPU上训练 3.数据并行训练--多块GPU 3.1.导入和参数 3.2.构造…...
卷积神经网络(CNN)基础
目录 一、应用场景 二、卷积神经网络的结构 1. 输入层(Input Layer) 2. 卷积层(Convolutional Layer) 3. 池化层(Pooling Layer) 最大池化(max_pooling)或平均池化(…...
第 28 场 蓝桥入门赛 JAVA 完整题解
前言 本文总结了六个编程题目的解题思路与核心考点,涵盖基础语法、逻辑分析、贪心算法、数学推导等知识点。每个题目均从问题本质出发,通过巧妙的算法设计或数学优化降低复杂度,展现了不同场景下的编程思维与解题技巧。以下为各题的详细考点解…...