【AI模型核心流程】(一)大语言模型输入处理机制详解与常见误解辨析
一、引言
大语言模型(LLM)如GPT、BERT、LLaMA等,已成为自然语言处理领域的核心技术。然而,许多开发者对其底层输入处理机制存在误解,尤其是从自然语言文本到模型可理解的向量表示这一过程。本文将从技术细节出发,解析大语言模型处理用户输入的真实流程,并澄清常见的理解误区。
二、大语言模型如何处理用户输入:核心流程解析
大语言模型(LLM)的输入处理是一个多阶段的标准化流程,其核心目标是将自然语言转换为模型可理解的数学表示,输入的主要处理流程如下:
以下是关键步骤的详细说明:
-
输入接收与预处理
用户输入的文本首先经过标准化处理,例如去除多余空格、统一大小写、处理特殊符号等。例如,华为在无线通信领域的实践表明,意图识别模块会在此阶段对用户问题进行初步分类,以调用对应的知识库。 -
分词(Tokenization)
被分割为语义单元(称为token)。现代模型(如BERT、GPT)普遍采用子词分割算法(如WordPiece或BPE),而非简单的按字或词分割。例如,“unhappiness”可能被拆分为“un”“happiness”,而中文“无线通信”可能被切分为“无”“线”“通信”。分词是将自然语言文本拆解为模型可识别的最小语义单元(Token)的过程,现代大模型普遍采用子词切分(Subword Tokenization),而非传统的中文分字或英文分词。
现代模型采用BPE/WordPiece算法,避免简单分字导致的语义断裂。
-
常见算法:
- Byte-Pair Encoding (BPE):通过合并高频字符对生成子词(如将“un”和“happy”合并为“unhappy”)。
- WordPiece:基于概率合并子词(如BERT的“playing”拆分为“play”和“##ing”)。
-
优势:平衡语义粒度与词汇表大小,解决未登录词(OOV)问题。
-
示例:
输入文本"ChatGPT is powerful!"
可能被拆分为["Chat", "G", "PT", " is", " powerful", "!"]
。 -
常见分词器性能对比表:
| 模型 | 词表大小 | 中文效率(字/Token) | 英文效率(词/Token) | 特性 ||--------------|----------|---------------------|---------------------|----------------------|| DeepSeek-V2 | 100,002 | 1.2915 | 0.7625 | 中文优化子词拆分 || GPT-4 | 100,256 | 0.7723 | 0.7867 | 多语言混合支持 || LLaMA3 | 128,256 | 1.0996 | 0.7870 | 长文本处理优化 || Qwen-1.5 | 151,646 | 1.2989 | 0.7865 | 生僻字覆盖能力强 |
-
数字化映射(Vocabulary Mapping)
每个token通过预定义的词汇表映射为唯一整数ID,这一过程依赖模型预训练时生成的固定词汇表。词汇表通常包含数万至数十万条目,涵盖常见词、子词单元及特殊符号(如[PAD]、[CLS])。例如,BERT的词汇表包含约30,000个token。- 词汇表:一个预定义的字典文件(如
vocab.json
),包含所有可能的Token及其对应ID。 - 示例:
token序列["Chat", "G", "PT"]
可能转换为ID序列[3201, 89, 1503]
。
- 词汇表:一个预定义的字典文件(如
-
嵌入层转换(Embedding Layer)
整数ID序列通过嵌入层(Embedding Layer)转换为稠密向量。每个ID对应一个固定维度的向量(如768维),这些向量在模型训练过程中被优化,以捕捉语义关联性。此步骤完全由模型内部完成,无需外部数据库查询。
Token IDs通过模型的**嵌入层(Embedding Layer)**转换为高维向量,而非依赖外部数据库。- 嵌入矩阵:模型的可训练参数矩阵,形状为
[词汇表大小, 嵌入维度]
(如[50000, 768]
)。 - 映射逻辑:每个Token ID对应矩阵中的一行向量(如ID=3201 → 取第3201行的768维向量)。
- 附加信息:
- 位置编码:为向量添加位置信息(如Transformer的绝对位置编码或旋转位置编码)。
- 特殊标记:添加
[CLS]
、[SEP]
等控制符号,用于分类或分隔句子。
- 嵌入矩阵:模型的可训练参数矩阵,形状为
- 模型处理与输出生成
向量序列输入神经网络(如Transformer)进行上下文理解与特征提取,最终通过解码器生成响应文本。例如,当用户提问“中国的面积有…”,模型会基于训练数据中的相关知识生成回答。
三、常见误解辨析:从错误认知到正确理解
误解1:分词等同于“按字分割”
- 错误表现:认为中文处理仅需逐字切分(如“我爱中国”→“我/爱/中/国”)。
- 纠正:现代模型采用子词算法动态平衡词汇粒度。例如,“无线通信”可能被切分为“无/线/通信”,而非简单分字,以保留专业术语的完整性。
误解2:向量化依赖外部数据库查询
- 错误观点:认为模型需查询外部向量库获取token的向量表示。
- 实际情况:嵌入层是模型的内置组件,所有token向量存储于模型参数中。例如,BERT的嵌入矩阵直接参与梯度更新,无需外部数据交互。
- 向量化技术演进:
误解3:Token化包含向量化过程
- 错误观点:将分词到向量转换视为同一阶段(即“token化”)。
- 实际情况:Tokenization仅指文本分割与ID映射,向量化是后续的嵌入层操作。二者属于不同阶段,前者为离散符号处理,后者为连续空间映射。
误解4:模型直接检索训练数据生成回答
- 错误观点:认为模型通过“查找训练库”生成回答(如直接复制相似文本)。
- 实际情况:模型基于概率生成文本,其输出是统计规律的产物。例如,当用户提问“中国的面积”,模型通过语义理解与参数运算生成答案,而非检索预存数据。
误解5:词汇表是静态预定义的“字词库”
- 错误观点:词汇表包含所有可能的字词组合,类似于传统NLP的词典。
- 实际情况:词汇表仅覆盖高频子词,通过算法动态组合处理未登录词。例如:
- 新词“区块链”可能被拆分为
["区块", "链"]
,即使它未直接出现在词汇表中。
- 新词“区块链”可能被拆分为
误解6:忽略预处理与上下文长度限制
- 错误观点:忽略预处理与上下文长度限制
- 实际情况:
- 预处理必要性:未清洗的输入可能导致模型误解。例如特殊符号“@”可能被错误分词,数字“1000”未统一为“1,000”可能影响数值推理。
- 上下文窗口限制:当输入超过模型最大Token数(如GPT-4的128K窗口),超限部分会被截断。解决方案包括:
• 分段处理长文本并递归汇总(RAG技术);
• 使用滑动窗口注意力(如Longformer)动态管理上下文。
误解7:模型通过字面匹配理解意图
- 错误观点:模型通过字面匹配理解意图
- 实际情况:大模型依赖语义而非关键词匹配。例如输入“苹果”,模型通过上下文区分水果公司(“股价上涨”)与水果品类(“富含维生素”)。这种能力源于训练数据中的共现统计和注意力权重的全局关联。
四、总结说明
大语言模型的输入处理是精密的工程与算法结合体,其核心在于将自然语言映射到数学空间并捕捉深层语义。理解这一过程需区分概念边界(如分词与向量化)、关注子词算法的作用,并避免对模型机制的过度简化。对技术细节的准确认知,有助于开发者优化模型应用,同时规避因误解导致的潜在风险(如幻觉问题)。
常见完整模型结构:
输入的核心要点为:
- 子词切分是核心:传统分词已被淘汰,子词算法(BPE、WordPiece)显著提升模型泛化能力。
- 嵌入层是模型的一部分:向量化依赖模型自身参数,而非外部数据库。
- 动态组合能力:通过子词拆分,模型可处理任意长度文本,即使面对未见过的新词。
相关文章:
【AI模型核心流程】(一)大语言模型输入处理机制详解与常见误解辨析
一、引言 大语言模型(LLM)如GPT、BERT、LLaMA等,已成为自然语言处理领域的核心技术。然而,许多开发者对其底层输入处理机制存在误解,尤其是从自然语言文本到模型可理解的向量表示这一过程。本文将从技术细节出发&…...
如何完整迁移 Git 仓库 ?
Git 已经成为软件开发中版本控制和协作的事实上的标准。有时,开发人员可能需要将整个 Git 存储库 (包括其历史记录、分支和标记) 移动到新的位置或托管服务。在这个全面的指南中,我们将讨论在不丢失任何关键数据或历史记录的情况下无缝地重新定位完整 Gi…...
《在 Ubuntu 22.04 上安装 CUDA 11.8 和 Anaconda,并配置环境变量》
安装 CUDA 11.8 和 Anaconda 并配置环境变量 在本教程中,我们将介绍如何在 Ubuntu 22.04 上安装 CUDA 11.8 和 Anaconda,并配置相应的环境变量。我们还将配置使用 阿里云镜像源 来加速软件包更新。以下是具体步骤。 步骤 1:更新软件源 首先…...
残差神经网络(ResNet)概念解析与用法实例:简洁的图像处理任务
目录 1. 前言 2. ResNet的核心思想 2.1 残差学习 2.2 跳跃连接 3. ResNet的架构 3.1 残差块 3.2 ResNet的整体架构 4. ResNet实例:随便处理处理图像 5. 总结 1. 前言 随着深度学习的发展,神经网络的层数不断增加,但随之而来的是梯度…...
家里网络访问Github有时候打不开,解决办法
1、修改Hosts文件修改法 通过DNS查询工具(如)获取最新GitHub域名解析IP修改系统hosts文件(路径:C:\Windows\System32\drivers\etc\hosts),添加:20.205.243.166 github.com 20.27.177.113 github…...
VirtualBox 配置双网卡(NAT + 桥接)详细步骤
在 VirtualBox 中为 CentOS 虚拟机配置双网卡(NAT 桥接),使其既能访问外网(NAT),又能与宿主机(Windows 10)或局域网通信(桥接)。 步骤 1:关闭虚…...
【2023】ORIGIN或MATLAB 颜色图,等高图,颜色条——需要拟合补全中间的颜色
前言 不是我疯了,就是世界疯了。我不知道究竟是哪一个疯了。瓶口和瓶盖尺寸不符。也许该怪瓶子,也许该怪盖子。但不管怎样,尺寸不符的事实不容动摇——《1Q84》 \;\;\;\;\;\; 有十几二十个导出的曲线数据,其中第一列是频率点,大约1001个,第二列是某种数据,都在0~1之间…...
flutter 专题 七十三Flutter打包未签名的ipa
在Flutter项目开发完成之后,需要把iOS项目拿给第三方(如打包机)进行签名,那我们首先就需要准备打包好未签名的的ipa包。 打包之前,需要先从第三方获取到iOS证书(.p12)和描述文件(.mobileprovision),然后然…...
ngx_get_full_name
定义在 src\core\ngx_file.c ngx_int_t ngx_get_full_name(ngx_pool_t *pool, ngx_str_t *prefix, ngx_str_t *name) {size_t len;u_char *p, *n;ngx_int_t rc;rc ngx_test_full_name(name);if (rc NGX_OK) {return rc;}len prefix->len;#if (NGX_WIN32)if (…...
leetcode-代码随想录-链表-链表总结篇
理论基础 链表: 每个节点由两部分组成:数据域和指针域(存放指向下一个节点的指针);入口节点称为头节点;最后一个节点的指针域指向NULL(空指针)。 分类: 单链表双链表&…...
如何用Python轻松实现快速复制或剪切文件列表中的所有文件呢?
在程序开发的过程中,处理文件是我们日常工作中一个很重要的环节。想象一下,当你需要把一大堆文件从一个文件夹移动到另一个文件夹时,手工操作真的会让人觉得烦躁对吧?这时,用代码来处理这些烦恼,真是太方便…...
【棒垒球规则】全国幼儿软式棒垒球比赛规则(二)·棒球1号位
幼儿棒垒球设备 2.01 球棒 球棒使用组委会提供的泡棉发泡安全球棒,以安全环保材料制成;球棒规格:长度为 53 厘米,重量为 200 克(10 克),棒头直径为 7 厘米,握把直径为 3 厘米。 2…...
在MacOS 10.15上使用MongoDB
这次是在MacOS 10.15上使用MongoDB。先在豆包问支持MacOS 10.15的MongoDB最新版是什么,答案是MongoDB 5.0。 抱着谨慎怀疑的态度去官方网站查询了一下,答案如下 MongoDB 7.x支持的最低版本MacOS是11MongoDB 6.x支持的最低版本MacOS是10.14 又找deepsee…...
【Ragflow】11. 文件解析流程分析/批量解析实现
概述 本文继续对ragflow文档解析部分进行分析,并通过脚本的方式实现对文件的批量上传解析。 文件解析流程 文件解析的请求处理流程大致如下: 1.前端上传文件,通过v1/document/run接口,发起文件解析请求 2.后端api\apps\docum…...
企业供应链管理
企业供应链管理 企业供应链管理 企业供应链管理企业信息化信息化的作用信息化的发展阶段信息化建设的挑战 SRM(供应商关系管理)SRM架构参考图企业内部系统协作: ERP (企业资源计划)OA (办公自动化)业务功能模块:企业日常办公 EMS …...
性能测试之jmeter的基本使用
简介 Jmeter是Apache的开源项目,基于Java开发,主要用于进行压力测试。 优点:开源免费、支持多协议、轻量级、功能强大 官网:https://jmeter.apache.org/index.html 安装 安装步骤: 下载:进入jmeter的…...
常见的微信个人号二次开发功能
一、常见开发功能 1. 好友管理 好友列表维护 添加/删除好友 修改好友信息(备注、标签等) 分组管理 创建/编辑/删除标签 好友分类与筛选 2. 消息管理 信息发送 支持多类型内容:文本、图片、视频、文件、小程序、名片、URL链接等 附加功…...
Muduo网络库实现 [十三] - HttpRequest模块
目录 设计思路 成员设计 模块实现 设计思路 首先我们要先知道HTTP的请求的流程是什么样子的,不然我们会学的很迷糊。对于HTTP请求如何到来以及去往哪里,我们应该很清楚的知道 HTTP请求在服务器系统中的传递流程是一个多层次的过程: 客户端发起请求…...
探索C++11:解锁现代编程(3)
1.包装器 1.1function std::function 是 C 标准库中的一个模板类,位于 <functional> 头文件中。它用于封装可调用对象,包括普通函数、Lambda 表达式、函数对象、成员函数等。std::function 提供了极大的灵活性,使得你可以将不同类型的…...
软件工程(应试版)图形工具总结(二)
遇到的问题,都有解决方案,希望我的博客能为你提供一点帮助。 教材参考《软件工程导论(第六版)》 七、 层次图(H图)与HIPO图 1、概述 1.1、层次图(Hierarchy Chart / H图) 核心…...
人工智能在前端开发中的应用探索
一、人工智能在前端开发中的应用场景 人工智能(AI)技术的快速发展为前端开发带来了新的机遇和挑战。AI在前端开发中的应用主要集中在以下几个方面:智能代码生成、自动化测试、个性化推荐、智能交互设计以及性能优化。这些应用场景不仅提高了…...
木马学习记录
一句话木马是什么 一句话木马就是仅需要一行代码的木马,很简短且简单,木马的函数将会执行我们发送的命令 如何发送命令&发送的命令如何执行? 有三种方式:GET,POST,COOKIE,一句话木马中用$_G…...
WebSocket 也有跨域问题?如何让 Spring Boot WebSocket 允许跨域连接?
前言 在现代 Web 开发中,跨域问题一直是开发者必须面对的挑战。无论是传统的 HTTP 请求还是实时通信的 WebSocket,浏览器的同源策略(Same-Origin Policy)都可能成为功能实现的拦路虎。许多开发者对 HTTP 的跨域解决方案ÿ…...
音视频入门基础:MPEG2-PS专题(8)——使用Wireshark分析GB28181的PS流
音视频入门基础:MPEG2-PS专题系列文章: 音视频入门基础:MPEG2-PS专题(1)——MPEG2-PS官方文档下载 音视频入门基础:MPEG2-PS专题(2)——使用FFmpeg命令生成ps文件 音视频入门基础…...
Bash详解
各类资料学习下载合集 https://pan.quark.cn/s/8c91ccb5a474 Bash详解 Bash(Bourne Again SHell)是Linux和Unix系统中最常用的命令行解释器之一。它不仅提供了强大的命令行操作功能,还支持脚本编程,使得用户能够自动化任务和实现复杂的操作。本文将详细介绍Bash…...
WORD+VISIO输出PDF图片提高清晰度的方法
WORDVISIO输出PDF图片提高清晰度的方法 part 1: visio 绘图part 2: word 导出 part 1: visio 绘图 先在visio中把图片和对应的文字调整为适合插入到文章中的尺寸; 在visio中把所有元素进行组合; 把组合后的图片长和宽等比例放缩,如放大10倍…...
springMVC--Controller配置总结
控制器Controller 控制器复杂提供访问应用程序的行为,通常通过接口定义或注解定义两种方式 控制器负责解析客户的请求并转换成一个模型 在springMVC中,一个控制器类可以包含多种方法 在springMVC中,对于controller的配置有多种 实现Contr…...
JavaScript BOM核心对象、本地存储
目录 BOM 核心对象详解 一、location 对象 1. 常用属性 2. 常用方法 3. 应用场景 二、navigator 对象 1. 核心属性 2. 常用方法 3. 应用场景 三、history 对象 1. 核心属性和方法 2. 应用场景 四、兼容性与注意事项 五、总结 本地存储与复杂数据类型处理 一、本…...
单元测试之测试覆盖率-jacoco基本使用
简介 免费的、开源的、针对java的单元测试覆盖率工具。基于字节码,无需源码也可以工作。 代码覆盖率:用来衡量测试代码对功能代码的测试情况,量化说明测试的充分度。通过执行测试用例,功能代码中的哪些行被执行了,哪…...
css3.31面试题
CSS 相关的面试题一般围绕基础知识、布局、性能优化、兼容性、深入原理等几个方向。以下是一些常见的面试题总结: CSS 基础知识 盒模型(Box Model)是什么?有哪些类型? px、em、rem、vw、vh、% 的区别? …...
Nature Electronics|一种透气、可拉伸的液态金属基3D电子皮肤系统(健康监测/可穿戴电子/透汗透气性电子/电子皮肤/柔性电子/集成电路)
一、 摘要 穿戴式和皮肤电子设备的发展要求高密度可伸展电子系统能够与软组织共形,持续运行并提供长期的生物相容性。大多数可拉伸电子系统的集成密度低,并且与外部印刷电路板连接,这限制了功能,降低了用户体验并阻碍了长期可用性。在此,作者提出了一种可渗透的三维集成电…...
【家政平台开发(15)】解锁Spring Boot:家政平台后端开发全攻略
本【家政平台开发】专栏聚焦家政平台从 0 到 1 的全流程打造。从前期需求分析,剖析家政行业现状、挖掘用户需求与梳理功能要点,到系统设计阶段的架构选型、数据库构建,再到开发阶段各模块逐一实现。涵盖移动与 PC 端设计、接口开发及性能优化…...
AI Agent设计模式二:Parallelization
概念 :并行任务执行引擎 ✅ 优点:提升吞吐量,充分利用多核资源❌ 缺点:复杂度高,存在竞态条件风险 from langchain_openai import ChatOpenAI from langgraph.graph import StateGraph, START, END from typing impor…...
Upload-labs靶场通关
之前搭好了靶场,Upload-labs 靶场搭建 及一句话木马的原理与运用-CSDN博客 今天开始通关并写详细流程 Pass-1 来到靶场的第一关 先随便上传php 代码 点击上传 发现文件类型被限制了 方法1: 改文件后缀为合法文件(.jpg .png .gif…...
Python数据结构之有序列表
一.基本介绍 在有序列表中,元素的相对位置取决于它们的基本特征。它们通常以升序或者降序排列,并且我们假设元素之间能进行有意义的比较。有序列表和无序列表(链表)的许多操作都是相同的。 二.代码实现 class OrderedList:"""有序列表类…...
LMK04828使用指南-01-简介与引脚功能描述
简介 LMK0482x系列是业界性能最高的时钟调节器,支持JEDEC JESD204B。 PLL2的14个时钟输出可以配置为使用设备和SYSREF时钟驱动七个JESD204B转换器或其他逻辑设备。可以使用直流和交流耦合提供SYSREF。不限于JESD204B应用,14个输出中的每一个都可以单独…...
统计学基本原理
目录 文章目录 目录统计学统计学基本概念描述性统计数据可视化图表工具 汇总统计统计数据的分布情况:中位数、众数、平均值统计数据的离散程度:极差、方差、标准差、离散系数 相关分析Pearson 线性关系相关系数Spearman 单调关系相关系数 回归分析回归模…...
日常真实工作环境,Mysql常用操作命令,笔记!
1、开放增删改查权限,不开放表结构修改权限 有许多生产环境是不需要修改表结构的,也是为了防止SQL注入。 创建用户 mysql> grant all on *.* to ie% identified by test1设置权限 1.首先我们先回收所有权限。 revoke all on *.* from ie% ;2.设…...
洛谷题单3-P1307 [NOIP 2011 普及组] 数字反转-python-流程图重构
题目描述 给定一个整数 N N N,请将该数各个位上数字反转得到一个新数。新数也应满足整数的常见形式,即除非给定的原数为零,否则反转后得到的新数的最高位数字不应为零(参见样例 2)。 输入格式 一个整数 N N N。 …...
洛谷题单3-P1420 最长连号-python-流程图重构
题目描述 输入长度为 n n n 的一个正整数序列,要求输出序列中最长连号的长度。 连号指在序列中,从小到大的连续自然数。 输入格式 第一行,一个整数 n n n。 第二行, n n n 个整数 a i a_i ai,之间用空格隔开…...
PostgreSQL:表分区与继承
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...
【NLP 55、投机采样加速推理】
目录 一、投机采样 二、投机采样改进:美杜莎模型 流程 改进 三、Deepseek的投机采样 流程 Ⅰ、输入文本预处理 Ⅱ、引导模型预测 Ⅲ、候选集筛选(可选) Ⅳ、主模型验证 Ⅴ、生成输出与循环 骗你的,其实我在意透了 —— 25.4.4 一、…...
CSS 创建与使用学习笔记
一、CSS 的作用 CSS(层叠样式表)用于控制 HTML 文档的样式和布局。当浏览器读取一个样式表时,它会根据样式表中的规则来格式化 HTML 文档,从而实现页面的美化和布局调整。 二、插入样式表的方法 CSS 可以通过以下三种方式插入到…...
CSS Id 和 Class 选择器学习笔记
一、概述 在 CSS 中,id 和 class 选择器是用于为 HTML 元素指定样式的强大工具。它们可以帮助我们精确地控制页面中元素的样式,让页面设计更加灵活和高效。 二、id 选择器 1. 定义和使用 定义:id 选择器用于为具有特定 id 属性的 HTML 元素…...
从小米汽车事故反思 LabVIEW 开发
近期,小米汽车的一起严重事故引发了社会各界的广泛关注。这起事故不仅让我们对智能汽车的安全性产生了深深的思考,也为 LabVIEW 开发领域带来了诸多值得汲取的知识与领悟。 在智能汽车领域,尤其是涉及到智能驾驶辅助系统时,安全是…...
解锁工业通信:Profibus DP到ModbusTCP网关指南!
解锁工业通信:Profibus DP到ModbusTCP网关指南! 在工业自动化领域,随着技术的不断进步和应用场景的日益复杂,不同设备和系统之间的通讯协议兼容性问题成为了工程师们面临的一大挑战。尤其是在Profibus DP和Modbus/TCP这两种广泛应…...
web漏洞靶场学习分享
靶场:pikachu靶场 pikachu漏洞靶场漏洞类型: Burt Force(暴力破解漏洞)XSS(跨站脚本漏洞)CSRF(跨站请求伪造)SQL-Inject(SQL注入漏洞)RCE(远程命令/代码执行)Files Inclusion(文件包含漏洞)Unsafe file downloads(不安全的文件下载)Unsafe file uploads(不安全的文…...
【C++学习笔记】十三、速通笔记
完整的C编程教程 目录 开发环境配置C知识体系现代C特性设计模式数据结构CMake项目构建调试技巧进阶主题学习资源 1. 开发环境配置 1.1 安装编译器 sudo apt-get install g build-essential1.2 安装构建工具 sudo apt-get install cmake1.3 VS Code配置 安装C扩展配置调试…...
硬件电路(23)-输入隔离高低电平有效切换电路
一、概述 项目中为了防止信号干扰需要加一些隔离电路,而且有时传感器的信号是高有效有时是低有效,所以基于此背景,设计了一款方便实现高低电平有效检测切换电路。 二、应用电路...
基于深度学习的多模态癌症数据集调研
基于深度学习的多模态癌症数据集调研 关键词: 癌症、分割、多模态、radiology、pathology、深度学习 目录: 一、 数据集总结 二、 胶质瘤/脑肿瘤(glioma) 三、 肺癌/非小细胞肺癌(NSCLC) 四、 乳腺癌&am…...