23. AI-大语言模型
文章目录
- 前言
- 一、LLM
- 1. 简介
- 2. 工作原理和结构
- 3. 应用场景
- 4. 最新研究进展
- 5. 比较
- 二、Transformer架构
- 1. 简介
- 2. 基本原理和结构
- 3. 应用场景
- 4. 最新进展
- 三、开源
- 1. 开源概念
- 2. 开源模式
- 3. 模型权重
- 四、再谈DeepSeek
前言
AI
一、LLM
LLM(Large Language Model,大语言模型)
1. 简介
LLM(Large Language Model,大语言模型)是指使用大量文本数据训练的深度学习模型,能够生成自然语言文本或理解语言文本的含义。
LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构,模拟人类的语言认知和生成过程。
2. 工作原理和结构
LLM通常采用Transformer架构和预训练目标(如Language Modeling)进行训练。通过层叠的神经网络结构,LLM学习并模拟人类语言的复杂规律,达到接近人类水平的文本生成能力。这种模型在自然语言处理领域具有广泛的应用,包括文本生成、文本分类、机器翻译、情感分析等。
3. 应用场景
LLM在多种应用场景下表现出色,不仅能执行拼写检查和语法修正等简单的语言任务,还能处理文本摘要、机器翻译、情感分析、对话生成和内容推荐等复杂任务。近期,GPT-4和LLaMA等大语言模型在自然语言处理等领域取得了巨大的成功,并逐步应用于金融、医疗和教育等特定领域。
4. 最新研究进展
最近的研究进展包括AI系统自我复制的能力和自回归搜索方法。复旦大学的研究表明,某些开源LLM具备自我克隆的能力,这标志着AI在自主进化方面取得了重大突破。此外,MIT、哈佛大学等机构的研究者提出了行动-思维链(COAT)机制,使LLM具备自回归搜索能力,提升了其在数学推理和跨领域任务中的表现。
5. 比较
大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源 。
相比传统的自然语言处理(Netural Language Processing, NLP)模型,大语言模型能够更好地理解和生成自然文本,同时表现出一定的逻辑思维和推理能力。
二、Transformer架构
1. 简介
Transformer是一种在自然语言处理(NLP)领域具有革命性意义的神经网络架构,主要用于处理和生成语言相关的任务。
Transformer架构由Google的研究团队在2017年提出,并在BERT等预训练模型中得到了广泛应用。
2. 基本原理和结构
Transformer架构主要由以下几个部分组成:
- 输入部分:包括源文本嵌入层和位置编码器,用于将源文本中的词汇转换为向量表示,并生成位置向量以理解序列中的位置信息。
- 编码器部分:由多个编码器层堆叠而成,每个编码器层包含多头自注意力子层和前馈全连接子层,并通过残差连接和层归一化操作进行优化。
- 解码器部分:由多个解码器层组成,每个解码器层包含带掩码的多头自注意力子层、多头注意力子层(编码器到解码器)和前馈全连接子层。
- 输出部分:包括线性层和Softmax层,用于将解码器的输出转换为最终的预测结果。
3. 应用场景
Transformer架构在NLP领域有着广泛的应用,包括但不限于:
- 机器翻译:将一种语言自动翻译成另一种语言。
- 文本生成:根据给定的文本生成新的文本内容。
- 情感分析:分析文本的情感倾向,如积极、消极或中性。
- 问答系统:根据问题生成答案。
- 语言模型:如GPT系列,用于生成文本。
4. 最新进展
最新的研究和发展方向包括探索如何通过扩展测试时计算量来提升模型推理能力,例如通过深度循环隐式推理方法,显著提升模型在复杂推理任务上的性能。此外,Transformer架构也在其他领域如图像处理和语音识别中展现出强大的应用潜力。
三、开源
1. 开源概念
为了适应时代发展,OSI(Open Source Initiative,开源代码促进会)专门针对 AI 提出了三种开源概念,分别是:
- 开源 AI 系统:包括训练数据、训练代码和模型权重。代码和权重需要按照开源协议提供,而训练数据只需要公开出处(因为一些数据集确实无法公开提供)。
- 开源 AI 模型:只需要提供模型权重和推理代码,并按照开源协议提供。
- 开源 AI 权重:只需要提供模型权重,并按照开源协议提供。
所谓推理代码,就是让大模型跑起来的代码,或者说大模型的使用代码,这也是一个相当复杂的系统性工程,涉及到了 GPU 调用和模型架构。
DeepSeek 只开源了权重,并没有开源训练代码、数据集和推理代码,所以属于第三种开源形式。DeepSeek 官方一直都在说自己开源了模型权重,用词精确。
其实第二种和第三种区别不大,因为在实际部署中,一般都会借助 Ollama 工具包,它已经包含了推理代码(llama.cpp),所以即使官方公布了推理代码,也不一定会被使用。
2. 开源模式
即使获取到训练代码和数据集,复现出类似的模型权重,成本极高,花费几百万几千万甚至几个亿。一般对于大模型用户而言,直接把官方开源的模型权重拿来使用即可。
当然,开源训练代码和数据集,对于学术研究还是有重大帮助的,它能快速推动产业进步,让人类早点从 AGI 时代进入 ASI 时代,所以第一种开源模式的意义也不能被忽视。
3. 模型权重
所谓大模型,就是超大规模的神经网络,它类似于人类的大脑,由无数个神经元(权重/参数)构成。
刚开始的时候,大模型的所有权重都是随机的,就类似于婴儿刚出生时大脑一片空白。训练大模型的过程,就是不断调整权重的过程,这和人类通过学习来调整神经元的连接是一个道理。把训练好的大模型开源,就相当于把学富五车的大脑仍给你,你可以让它做很多事情。
满血版 DeepSeek R1(671B 版本,一个 B 等于 10 个亿)有 6710 亿个参数,模型文件的体积达到了 720GB,相当恐怖。别说个人电脑了,单台服务器都无法运行,只能依赖集群了。
为了方便大家部署,官方又在满血版 R1 的基础上蒸馏出了多个小模型,减少了参数的数量,具体如下:
- 70B 版本,模型体积约 16GB;
- 32B 版本,模型体积约 16GB;
- 7B 版本,模型体积约 4.7GB;
- 1.5B 版本,模型体积约 3.6GB。
最后两个模型在配置强大的个人电脑上勉强能跑起来。
模型权重都是超大型文件,而且有指定的压缩格式(比如 .safetensors 格式),一般都是放在 Hugging Face(抱抱脸)上开源,而不是放在传统的 GitHub 上。
DeepSeek R1 的开源地址(需要梯子才能访问)
四、再谈DeepSeek
虽然 DeepSeek 只开源了模型权重,没有开源模型代码,但是官方通过技术报告/论文公布了很多核心算法,以及降本增效的工程解决方案,同时也为强化学习指明了一种新的范式,打破了 OpenAI 对推理技术的封锁(甚至是误导),让业界重新看到了 AI 持续进步的希望。
另外,DeepSeek 还允许二次蒸馏,不管是商业的还是公益的,你可以随便玩,这让小模型的训练变得更加简单和廉价。你再看看 OpenAI,明确写着不允许竞品进行二次蒸馏,并且妄图以此来指控 DeepSeek。
DeepSeek 的格局是人类,OpenAI 的格局是自己!
总之,对于一家商业公司来说,DeepSeek 的开放程度可以说是非常透明,透明到了毁灭自己的地步。包括 Hugging Face、伯克利大学、香港大学在内的某些机构,已经在尝试复现 DeepSeek 了。
本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
抱歉,DeepSeek并没有开源代码,别被骗了!
相关文章:
23. AI-大语言模型
文章目录 前言一、LLM1. 简介2. 工作原理和结构3. 应用场景4. 最新研究进展5. 比较 二、Transformer架构1. 简介2. 基本原理和结构3. 应用场景4. 最新进展 三、开源1. 开源概念2. 开源模式3. 模型权重 四、再谈DeepSeek 前言 AI 一、LLM LLM(Large Language Mod…...
STM32的启动流程
启动模式 我们知道的复位方式有三种:上电复位,硬件复位和软件复位。当产生复位,并且离开复位状态后, CM33 内核做的第一件事就是读取下列两个 32 位整数的值: (1) 从地址 0x0000 0000 处取出堆…...
C++ Primer 函数匹配
欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…...
Httprint 指纹识别技术:网络安全的关键洞察
引言 Http指纹识别现在已经成为应用程序安全中一个新兴的话题,Http服务器和Http应用程序安全也已经成为网络安全中的重要一部分。从网络管理的立场来看,保持对各种web服务器的监视和追踪使得Http指纹识别变的唾手可得,Http指纹识别可以使得信…...
STM32的HAL库开发---ADC
一、ADC简介 1、ADC,全称:Analog-to-Digital Converter,指模拟/数字转换器 把一些传感器的物理量转换成电压,使用ADC采集电压,然后转换成数字量,经过单片机处理,进行控制和显示。 2、常见的AD…...
PostgreSQL有undo表空间吗?
PostgreSQL有undo表空间吗 PostgreSQL 没有单独的 Undo 表空间,其事务回滚和多版本并发控制(MVCC)机制与 Oracle 等数据库有显著差异。 一 PostgreSQL 的 MVCC 实现 PostgreSQL 通过 多版本并发控制(MVCC) 管理事务…...
Huatuo热更新--安装HybridCLR
1.自行安装unity编辑器 支持2019.4.x、2020.3.x、2021.3.x、2022.3.x 中任一版本。推荐安装2019.4.40、2020.3.26、2021.3.x、2022.3.x版本。 根据你打包的目标平台,安装过程中选择必要模块。如果打包Android或iOS,直接选择相应模块即可。如果你想打包…...
Windows环境安装部署minimind步骤
Windows环境安装部署minimind步骤 必要的软件环境 git git,可下载安装版,本机中下载绿色版,解压到本地目录下(如:c:\soft\git.win64),可将此路径添加到PATH环境变量中,供其他程序…...
前端面试手写--虚拟列表
目录 一.问题背景 二.代码讲解 三.代码改装 四.代码发布 今天我们来学习如何手写一个虚拟列表,本文将把虚拟列表进行拆分并讲解,然后发布到npm网站上. 一.问题背景 为什么需要虚拟列表呢?这是因为在面对大量数据的时候,我们的浏览器会将所有数据都渲染到表格上面,但是渲…...
【算法进阶详解 第一节】树状数组
【算法进阶详解 第一节】树状数组 前言树状数组基础树状数组原理树状数组能够解决的问题 树状数组提高树状数组区间加,区间和操作二维树状数组 树状数组应用树状数组区间数颜色树状数组二维偏序 前言 树状数组在算法竞赛中十分常见,其能解决二维数点&am…...
青少年编程与数学 02-009 Django 5 Web 编程 16课题、权限管理
青少年编程与数学 02-009 Django 5 Web 编程 16课题、权限管理 一、授权授权的主要特点和作用授权的类型应用场景 二、权限系统使用Django内置的权限系统使用组管理权限使用第三方库在视图中应用权限 三、权限管理示例步骤 1: 创建Django项目和应用步骤 2: 定义模型和权限步骤 …...
第四十四篇--Tesla P40+Janus-Pro-7B部署与测试
环境 系统:CentOS-7 CPU: 14C28T 显卡:Tesla P40 24G 驱动: 515 CUDA: 11.7 cuDNN: 8.9.2.26创建环境 conda create --name trans python3.10torch 2.6.0 transformers 4.48.3克隆项目 git clone https:/…...
低成本、高效率且成熟的电商实时数据采集方案:梦想成真?
在电子商务领域,数据是驱动业务决策的核心资源。实时数据采集对于电商企业而言,意味着能够即时洞察市场动态、消费者行为以及运营效果,从而快速调整策略,提升竞争力。然而,如何在保证数据质量的同时,实现低…...
微信小程序之mobx-miniprogram状态管理
目前已经学习了6种小程序页面、组件间的数据通信方案,分别是: 1. 数据绑定: properties 2.获取组件实例: this.selectComponent() 3.事件绑定: this.triggerEvent() 4. 获取应用实例:getApp() 5. 页面间通信: EventChannel 6.事件总线:pubsub-js 在中小型项目…...
uniapp可视化-活动报名表单系统-代码生成器
活动报名表单系统小程序旨在为各类活动组织者提供一个便捷、高效的线上报名管理平台,同时为参与者提供简单易用的报名途径。 主要功能 活动发布:活动组织者可以发布活动的详细信息,包括活动名称、时间、地点、活动内容等。用户可以在小程序中…...
1.从零开始学会Vue--{{基础指令}}
全新专栏带你快速掌握Vue2Vue3 1.插值表达式{{}} 插值表达式是一种Vue的模板语法 我们可以用插值表达式渲染出Vue提供的数据 1.作用:利用表达式进行插值,渲染到页面中 表达式:是可以被求值的代码,JS引擎会将其计算出一个结果 …...
深入解析操作系统控制台:阿里云Alibaba Cloud Linux(Alinux)的运维利器
作为一位个人开发者兼产品经理,我的工作日常紧密围绕着云资源的运维和管理。在这个过程中,操作系统扮演了至关重要的角色,而操作系统控制台则成为了我们进行系统管理的得力助手。本文将详细介绍阿里云的Alibaba Cloud Linux操作系统控制台的功…...
CSS Grid 网格布局,以及 Flexbox 弹性盒布局模型,它们的适用场景是什么?
CSS Grid网格布局和Flexbox弹性盒布局模型都是现代CSS布局的重要工具,它们各自具有独特的优势和适用场景。 作为前端开发工程师,理解这些布局模型的差异和适用场景对于编写高效、可维护的代码至关重要。 CSS Grid网格布局 适用场景: 复杂…...
2025.2.16机器学习笔记:TimeGan文献阅读
2025.2.9周报 一、文献阅读题目信息摘要Abstract创新点网络架构一、嵌入函数二、恢复函数三、序列生成器四、序列判别器损失函数 实验结论后续展望 一、文献阅读 题目信息 题目: Time-series Generative Adversarial Networks会议: Neural Information…...
高通推出骁龙游戏超级分辨率™:充分释放移动游戏性能,带来更持久的续航
Snapdragon Elite Gaming 一直致力于为每位用户打造卓越游戏体验。骁龙支持众多端游级特性,包括144FPS游戏体验、True 10-bit HDR支持的最高视觉质量的超流畅图形,让玩家可以畅享超10亿色的游戏体验。骁龙将许多移动端首创特性引入备受玩家喜爱的游戏中&…...
golangAPI调用deepseek
目录 1.deepseek官方API调用文档1.访问格式2.curl组装 2.go代码1. config 配置2.模型相关3.错误处理4.deepseekAPI接口实现5. 调用使用 3.响应实例 1.deepseek官方API调用文档 1.访问格式 现在我们来解析这个curl 2.curl组装 // 这是请求头要加的参数-H "Content-Type:…...
SOC芯片前端设计对芯片电源完整性的影响
在进行芯片的电源完整性时,因为PI受影响的因素较多,出现问题debug也比较难,所以在进行芯片设计时,需要端到端从前到后进行考虑设计,本篇文章将从芯片前端设计的角度来看看哪些因素会影响到PI的设计。 芯片前端设计的主…...
【区块链】零知识证明基础概念详解
🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 💫个人格言: "如无必要,勿增实体" 文章目录 零知识证明基础概念详解引言1. 零知识证明的定义与特性1.1 基本定义1.2 三个核心…...
面基Spring Boot项目中实用注解一
在Spring Boot项目中,实用注解根据功能可以分为多个类别。以下是常见的注解分类、示例说明及对比分析: 1. 核心配置注解 SpringBootApplication 作用:标记主启动类,组合了Configuration、EnableAutoConfiguration和ComponentScan…...
最新智能优化算法: 中华穿山甲优化( Chinese Pangolin Optimizer ,CPO)算法求解23个经典函数测试集,MATLAB代码
中华穿山甲优化( Chinese Pangolin Optimizer ,CPO)算法由GUO Zhiqing 等人提出,该算法的灵感来自中华穿山甲独特的狩猎行为,包括引诱和捕食行为。 算法流程如下: 1. 开始 设置算法参数和最大迭代次数&a…...
shell脚本备份MySQL数据库和库下表
目录 注意: 一.脚本内容 二.执行效果 三.创建定时任务 注意: 以下为对MySQL5.7.42版本数据库备份shell脚本参考运行备份的机器请确认mysqldump版本>5.7,否则备份参数--set-gtid-purgedOFF无效,考虑到一般数据库节点和备份…...
Unity Shader Graph 2D - Procedural程序化图形之渐变的正弦波形
前言 正弦波形也是一种常用、常见的程序化图形,合理的使用正弦波形会创作出一些有趣、美观和丰富的效果,本文将使用Unity Shader Graph来实现一个正弦波形效果,帮助理解和实践Unity Shader Graph以及正弦函数。 创建一个名为SineWave的Shader…...
【算法与数据结构】并查集详解+题目
目录 一,什么是并查集 二,并查集的结构 三,并查集的代码实现 1,并查集的大致结构和初始化 2,find操作 3,Union操作 4,优化 小结: 四,并查集的应用场景 省份…...
国家队出手!DeepSeek上线国家超算互联网平台!
目前,国家超算互联网平台已推出 DeepSeek – R1 模型的 1.5B、7B、8B、14B 版本,后续还会在近期更新 32B、70B 等版本。 DeepSeek太火爆了!在这个春节档,直接成了全民热议的话题。 DeepSeek也毫无悬念地干到了全球增速最快的AI应用。这几天,国内的云计算厂家都在支持Dee…...
H5接入支付宝手机网站支付并实现
小程序文档 - 支付宝文档中心 1.登录 支付宝开放平台 创建 网页/移动应用 2.填写创建应用信息 3.配置开发设置 4.网页/移动应用:需要手动上线。提交审核后,预计 1 个工作日的审核时间。详细步骤可点击查看 上线应用 。应用上线后,还需要完成…...
Win10环境借助DockerDesktop部署大数据时序数据库Apache Druid
Win10环境借助DockerDesktop部署最新版大数据时序数据库Apache Druid32.0.0 前言 大数据分析中,有一种常见的场景,那就是时序数据,简言之,数据一旦产生绝对不会修改,随着时间流逝,每个时间点都会有个新的…...
(三)Axure制作转动的唱片
效果图 属性: 图标库:iconfont-阿里巴巴矢量图标库 方形图片转为圆角图片,裁剪,然后加圆角, 唱片和底图是两个图片,点击播放,唱片在旋转。 主要是播放按钮和停止按钮,两个动态面板…...
[JVM篇]分代垃圾回收
分代垃圾回收 分代收集法是目前大部分 JVM 所采用的方法,其核心思想是根据对象存活的不同生命周期将内存划分为不同的域,一般情况下将 GC 堆划分为老生代(Tenured/Old Generation)和新生代(Young Generation)。老生代的特点是每次垃圾回收时只有少量对象…...
SpringBoot多数据源实践:基于场景的构建、实现和事务一体化研究
1. 多数据源应用场景剖析 1.1 业务驱动的多数据源需求 数据量与业务复杂度引发的分库分表:在现代企业级应用中,随着业务的不断拓展和用户量的持续增长,数据量呈爆炸式增长。例如,在大型电商平台中,用户数据、订单数据…...
鸿蒙应用开发者基础
目录 判断题 单选题 多选题 判断题 1、 在http模块中,多个请求可以使用同一个httpRequest对象,httpRequest对象可以复用。(错误) 2、订阅dataReceiverProgress响应事件是用来接收HTTP流式响应数据。(错误࿰…...
Java面试第二山!《计算机网络》!
在 Java 面试里,计算机网络知识是高频考点,今天就来盘点那些最容易被问到的计算机网络面试题,帮你轻松应对面试,也方便和朋友们一起探讨学习。 一、HTTP 和 HTTPS 的区别 1. 面试题呈现 HTTP 和 HTTPS 有什么区别?在…...
2025最新Java面试题大全(整理版)2000+ 面试题附答案详解
很多 Java 工程师的技术不错,但是一面试就头疼,10 次面试 9 次都是被刷,过的那次还是去了家不知名的小公司。 问题就在于:面试有技巧,而你不会把自己的能力表达给面试官。 应届生:你该如何准备简历&#…...
低空经济:开启未来空中生活的全新蓝海
引言 随着科技的进步,我们不再仅仅依赖地面交通和传统物流。你是否曾幻想过,未来的某一天,快递、外卖可以像魔法一样直接从空中送到你手中?或者,你能乘坐小型飞行器,快速穿梭于城市之间,告别拥堵…...
【机器学习】线性回归与一元线性回归
【机器学习系列】 KNN算法 KNN算法原理简介及要点 特征归一化的重要性及方式线性回归算法 线性回归与一元线性回归 线性回归模型的损失函数 多元线性回归 多项式线性回归 线性回归与一元线性回归 V1.1线性回归问题线性方程的最优解一元线性回归一元线性回归的方程一元线性回归…...
MongoDB 7 分片副本集升级方案详解(上)
#作者:任少近 文章目录 前言:Mongodb版本升级升级步骤环境1.1环境准备1.2standalone升级1.3分片、副本集升级 前言:Mongodb版本升级 在开始升级之前,请参阅 MongoDB下个版本中的兼容性变更文档,以确保您的应用程序和…...
Fiori APP配置中的Semantic object 小bug
在配置自开发程序的Fiori Tile时,需要填入Semantic Object。正常来说,是需要通过事务代码/N/UI2/SEMOBJ来提前新建的。 但是在S4 2022中,似乎存在一个bug,即无需新建也能输入自定义的Semantic Object。 如下,当我们任…...
坑多多之AC8257 i2c1 rtc-pcf8563
pcf85163 ordering information Ordering information Package Description Version Marking code PCF85163T/1 SO8 ① SOT96-1 PF85163 PCF85163TS/1 TSSOP8 ② SOT505-1 85163 ①plastic small outline package; 8 leads;body width 3.9 mm ②plastic thin…...
制作一个项目用于研究elementUI的源码
需求:修改el-tooltip的颜色,发现传递参数等方法都不太好用,也可以使用打断点的方式,但也有点麻烦,因此打算直接修改源码,把组件逻辑给修改了 第一步下载源码 源码地址 GitHub - ElemeFE/element: A Vue.j…...
Docker高级篇
1.Mysql主从复制Docker版本 mysql主从复制原理 binlog 1.新建主服务器容器实例 docker run -d -p 3307:3306 --privilegedtrue \ -v /opt/mysql8.4.3/log:/var/log/mysql \ -v /opt/mysql8.4.3/conf:/etc/mysql/conf.d \ -v /opt/mysql8.4.3/data:/var/lib/mysql \ -e MYSQL…...
OSI 参考模型和 TCP/IP 参考模型
数据通信是很复杂的,很难在一个协议中完成所有功能。因此在制定协议时经常采用的思路是将复杂的数据通信功能由若干协议分别完成,然后将这些协议按照一定的方式组织起来。最典型的是采用分层的方式来组织协议,每一层都有一套清晰明确的功能和…...
rocketmq-netty通信设计-request和response
1、NettyRemotingServer启动分析 org.apache.rocketmq.remoting.netty.NettyRemotingServer#start public void start() {this.defaultEventExecutorGroup new DefaultEventExecutorGroup(nettyServerConfig.getServerWorkerThreads(),new ThreadFactory() {private AtomicI…...
初识计算机网络
从此篇我将开始网络新篇章! 1. 网络发展史 最初的计算机之间相互独立存在,每个计算机只能持有自己的数据,数据无法共享。此时的计算机为独立模式 随着时代的发展,越来越需要计算机之间互相通信,共享软件和数据&#x…...
kamailio常见问题解答
常见问题解答 本页面接受贡献,你必须通过注册表单创建一个用户账户: https://www.kamailio.org/wiki/start?doregister 如果你有一个适合收录进常见问题解答的问题,并且你不知道答案,那就添加这个问题,并将答案设置…...
Flask框架入门完全指南
一、初识Flask:轻量级框架的魅力 1.1 Flask框架定位 Flask作为Python最受欢迎的轻量级Web框架,以"微核心可扩展"的设计哲学著称。其核心代码仅约2000行,却支持通过扩展实现完整Web开发功能。这种设计使得开发者可以: …...
用deepseek学大模型05逻辑回归
deepseek.com:逻辑回归的目标函数,损失函数,梯度下降 标量和矩阵形式的数学推导,pytorch真实能跑的代码案例以及模型,数据,预测结果的可视化展示, 模型应用场景和优缺点,及如何改进解决及改进方法数据推导。…...