Deepseek技术浅析(二):大语言模型
DeepSeek 作为一家致力于人工智能技术研发的公司,其大语言模型(LLM)在架构创新、参数规模扩展以及训练方法优化等方面都达到了行业领先水平。
一、基于 Transformer 架构的创新
1.1 基础架构:Transformer 的回顾
Transformer 架构是当前最先进的大语言模型架构,其核心机制是自注意力机制(Self-Attention Mechanism),能够有效捕捉序列中长距离的依赖关系。以下是 Transformer 的主要组件及其工作原理:
(1) 编码器(Encoder)
-
多头自注意力机制(Multi-Head Self-Attention):
- 目的: 捕捉输入序列中不同位置之间的依赖关系。
- 工作原理:
- 将输入向量 xx 分别线性变换为查询(Query,
)、键(Key,
)和值(Value,
)矩阵:
其中, 是可训练的权重矩阵。
- 计算注意力权重:
其中, 是键的维度,用于缩放注意力权重,防止梯度消失。
- 多头机制: 将输入向量分割成多个头(head),每个头独立计算注意力,然后将多个头的输出拼接起来,并通过线性变换得到最终输出。
- 将输入向量 xx 分别线性变换为查询(Query,
-
前馈神经网络(Feed-Forward Neural Network, FFN):
- 对每个位置的表示进行非线性变换。
- 通常由两个线性变换和一个激活函数(如 ReLU)组成:
其中, 是可训练的参数。
(2) 解码器(Decoder)
- 除了多头自注意力机制和前馈神经网络外,解码器还包含一个编码器-解码器注意力机制(Encoder-Decoder Attention),用于捕捉编码器输出与解码器输入之间的关系。
- 在训练过程中,使用**掩码(Masking)**机制,防止模型在预测当前词时看到未来的词。
1.2 DeepSeek 的创新与改进
DeepSeek 在 Transformer 基础上进行了多项创新和改进,以提升模型性能、效率和可扩展性。
(1) 稀疏注意力机制(Sparse Attention Mechanisms)
- 问题: 传统的自注意力机制计算复杂度为 O(n2)O(n2),其中 nn 是序列长度。当处理长序列时,计算量和内存需求会急剧增加。
-
解决方案:
-
局部注意力(Local Attention):
- 原理: 只计算相邻位置的注意力权重,例如只计算每个位置与前后 kk 个位置的注意力。
- 公式表示:
其中,是局部键和值矩阵。
- 优点: 降低计算复杂度,适用于局部依赖性强的任务。
- 缺点: 无法捕捉长距离依赖关系。
-
块状注意力(Blockwise Attention):
- 原理: 将序列划分为多个块,只计算块内和块间部分位置的注意力权重。
- 优点: 在一定程度上保留长距离依赖关系,同时降低计算复杂度。
- 缺点: 块间信息传递效率较低。
-
随机注意力(Random Attention):
- 原理: 随机选择部分位置计算注意力权重。
- 优点: 增加模型的多样性,可能捕捉到一些意想不到的依赖关系。
- 缺点: 随机性可能导致模型不稳定。
-
组合策略:
- DeepSeek 采用多种稀疏注意力机制的组合,例如:
- 局部 + 块状: 先使用局部注意力捕捉局部依赖关系,再使用块状注意力捕捉长距离依赖关系。
- 局部 + 随机: 在局部注意力的基础上,添加随机注意力,增加模型的多样性。
- DeepSeek 采用多种稀疏注意力机制的组合,例如:
-
-
优势:
- 显著降低计算复杂度和内存需求。
- 在保持模型性能的同时,提高训练和推理效率。
(2) 混合专家模型(Mixture of Experts, MoE)
- 问题: 大规模模型参数数量庞大,但并非所有参数在所有任务或输入上都发挥作用,导致计算资源浪费。
-
解决方案:
-
专家网络(Expert Networks):
- DeepSeek 将模型划分为多个专家子模型,每个专家网络是一个独立的神经网络,可以是前馈神经网络、注意力机制等。
- 每个专家网络可以专注于不同的任务或领域,例如:
- 语言专家: 处理语言相关的任务。
- 知识专家: 存储和利用知识库信息。
- 推理专家: 执行推理任务。
-
门控网络(Gating Network):
- 根据输入内容,动态选择激活哪些专家网络。
- 公式表示:
其中, 是门控网络的参数。
- 作用: 根据输入的不同,分配不同的计算资源给不同的专家网络。
-
输出组合:
- 将激活的专家网络的输出进行加权组合,得到最终输出。
- 公式表示:
其中,是专家网络的数量,
是第
个专家网络的输出。
-
-
优势:
- 提高模型的参数利用率和计算效率。
- 允许模型根据不同的输入动态调整其行为,提高模型的灵活性和适应性。
(3) 多头潜在注意力(Multi-Head Latent Attention, MLA)
- 问题: 在推理过程中,注意力机制的计算量仍然较大,尤其是当模型规模较大时。
-
解决方案:
-
低秩分解:
- 将键和值矩阵分解为低秩矩阵,从而减少存储和计算需求。
- 公式表示:
其中, 是低秩矩阵,
是压缩矩阵。
-
联合压缩:
- 对压缩后的键和值矩阵进行联合压缩,进一步减少存储需求。
-
潜在注意力计算:
- 在压缩后的表示上进行注意力计算。
- 公式表示:
-
-
优势:
- 显著降低推理过程中的内存占用。
- 保持模型性能的同时,提高推理效率。
二、更大规模的参数
2.1 参数规模
DeepSeek 的 LLM 拥有数百亿到数千亿参数,例如:
- DeepSeek-V3: 拥有 6710 亿参数。
- DeepSeek-LLM: 在 2 万亿 token 的数据集上进行训练。
- DeepSeek-V2: 在 8.1 万亿 token 的多样化语料库上预训练。
2.2 关键技术
(1) 分布式训练
-
数据并行:
- 将训练数据分配到多个计算节点上,每个节点独立计算梯度,最后进行梯度聚合和参数更新。
- 优点: 提高数据吞吐量,加快训练速度。
-
模型并行:
- 将模型参数分配到多个计算节点上,每个节点负责计算模型的一部分参数。
- 优点: 解决单个节点的显存限制问题,支持训练更大规模的模型。
-
流水线并行:
- 将模型的不同层分配到不同的计算节点上,实现流水线式的并行计算。
- 优点: 提高计算资源利用率,减少计算等待时间。
(2) 混合精度训练
-
半精度浮点数:
- 使用半精度(FP16)浮点数表示模型参数和梯度。
- 优点: 减少显存占用和计算量。
-
损失缩放:
- 对损失值进行缩放,以避免梯度消失。
- 原理: 半精度浮点数表示范围有限,损失缩放可以防止梯度值过小,导致梯度消失。
(3) 混合专家模型(MoE)
- 作用: 通过 MoE 架构,DeepSeek 可以有效管理大规模参数,避免计算资源浪费。
- 具体实现:
- 每个 token 仅激活部分专家网络,而不是所有专家网络。
- 例如,DeepSeek-V3 的每个 token 仅激活 370 亿参数,而不是全部 6710 亿参数。
(4) 模型压缩与剪枝
-
权重共享(Weight Sharing):
- 共享模型参数,例如在 Transformer 中共享参数矩阵。
- 优点: 减少参数数量,降低存储和计算需求。
-
剪枝(Pruning):
- 删除模型中不重要的参数或神经元,例如:
- 权重剪枝: 删除权重值较小的参数。
- 神经元剪枝: 删除激活值较低的神经元。
- 优点: 进一步减少参数数量,提高模型效率。
- 删除模型中不重要的参数或神经元,例如:
三、过程模型公式
3.1 稀疏注意力机制
-
局部注意力:
-
块状注意力:
-
随机注意力:
-
组合策略:
其中,
是权重系数。
3.2 混合专家模型(MoE)
-
门控网络:
-
专家网络输出:
-
最终输出:
3.3 多头潜在注意力(MLA)
-
低秩分解:
-
潜在注意力计算:
四、训练方法
4.1 预训练
- 目标: 让模型学习语言的通用表示和知识。
- 方法: 使用海量的文本数据进行训练,模型通过预测文本序列中的下一个词或字符来学习语言模式。
- 数据: 包含互联网上的各种文本数据,如书籍、文章、网页等。
- 训练目标: 例如,**掩码语言模型(Masked Language Model, MLM)**任务,即随机遮蔽文本中的部分词,让模型预测被遮蔽的词。
4.2 监督微调
- 目标: 针对特定任务或应用场景,对预训练模型进行微调。
- 方法: 使用特定任务的数据集对模型进行训练,例如:
- 文本分类: 对文本进行分类,例如情感分析、主题分类等。
- 问答系统: 根据用户的问题生成相应的答案。
- 机器翻译: 将一种语言翻译成另一种语言。
- 训练目标: 根据具体任务设计相应的损失函数,例如交叉熵损失(Cross-Entropy Loss)。
4.3 人类反馈的强化学习
- 目标: 利用人类反馈信息,进一步优化模型输出。
- 方法: 将人类对模型输出的反馈作为奖励信号,使用强化学习算法调整模型参数。
- 优势: 使模型生成的结果更符合人类的期望和需求,提高模型的质量和实用性。
相关文章:
Deepseek技术浅析(二):大语言模型
DeepSeek 作为一家致力于人工智能技术研发的公司,其大语言模型(LLM)在架构创新、参数规模扩展以及训练方法优化等方面都达到了行业领先水平。 一、基于 Transformer 架构的创新 1.1 基础架构:Transformer 的回顾 Transformer 架…...
OpenCV 版本不兼容导致的问题
问题和解决方案 今天运行如下代码,发生了意外的错误,代码如下,其中输入的 frame 来自于 OpenCV 开启数据流的读取 """ cap cv2.VideoCapture(RTSP_URL) print("链接视频流完成") while True:ret, frame cap.rea…...
03.04、化栈为队
03.04、化栈为队 1、题目描述 实现一个 MyQueue 类,该类用两个栈来实现一个队列。 2、解题思路 本题要求使用两个栈来实现一个队列。队列遵循先进先出(FIFO)的原则,而栈遵循后进先出(LIFO)的原则。因此…...
[Effective C++]条款49-52 内存分配
本文初发于 “天目中云的小站”,同步转载于此。 条款49 : 了解new-handler的行为 条款50 : 了解new和delete的合理替换时机 条款51 : 编写new和delete时需固守常规 条款52 :写了placement new也要写placement delete 条款49-52中详细讲述了定制new和d…...
vue3的路由配置
先找到Layout布局文件,从中找到左侧边栏,找到下述代码 <SidebarItem v-for"route in noHiddenRoutes" :key"route.path" :item"route" :base-path"route.path" />/** *菜单项 <SidebarItem>: *使用…...
基于AnolisOS 8.6安装GmSSL 3.1.1及easy_gmssl库测试国密算法
测试环境 Virtual Box,AnolisOS-8.6-x86_64-minimal.iso,4 vCPU, 8G RAM, 60 vDisk。最小化安装。需联网。 系统环境 关闭防火墙 systemctl stop firewalld systemctl disable firewalld systemctl status firewalld selinux关闭 cat /etc/selinux/co…...
Linux系统:Ubuntu替换镜像源具体方法;
在Linux系统更新下载软件时,如遇因镜像源问题下载失败时,我们就需要替换系统原有镜像源,那么,此时,你是否还在百度四处搜索可以用的镜像源地址,然后反复去测试源地址的正确性呢,下面介绍一个亲测…...
机器人介绍
以下是关于机器人的介绍: 定义 机器人是一种能够自动执行任务的机器系统,它集成了机电、机构学、材料学及仿生学等多个学科技术,可以接受人类指挥,运行预先编排的程序,或根据人工智能技术制定的原则纲领行动…...
thinkphp6+swoole使用rabbitMq队列
安装think-swoole安装 composer require php-amqplib/php-amqplib,以支持rabbitMq使用安装rabbitMq延迟队列插件 安装 rabbitmq_delayed_message_exchange 插件,按照以下步骤操作: 下载插件:https://github.com/rabbitmq/rabbitmq-delayed-…...
19.Word:小马-校园科技文化节❗【36】
目录 题目 NO1.2.3 NO4.5.6 NO7.8.9 NO10.11.12索引 题目 NO1.2.3 布局→纸张大小→页边距:上下左右插入→封面:镶边→将文档开头的“黑客技术”文本移入到封面的“标题”控件中,删除其他控件 NO4.5.6 标题→原文原文→标题 正文→手…...
Pandas进行MongoDB数据库CRUD
在数据处理的领域,MongoDB作为一款NoSQL数据库,以其灵活的文档存储结构和高扩展性广泛应用于大规模数据处理场景。Pandas作为Python的核心数据处理库,能够高效处理结构化数据。在MongoDB中,数据以JSON格式存储,这与Pandas的DataFrame结构可以很方便地互相转换。通过这篇教…...
分布式系统相关面试题收集
目录 什么是分布式系统,以及它有哪些主要特性? 分布式系统中如何保证数据的一致性? 解释一下CAP理论,并说明在分布式系统中如何权衡CAP三者? 什么是分布式事务,以及它的实现方式有哪些? 什么是…...
家居EDI:Hom Furniture EDI需求分析
HOM Furniture 是一家成立于1977年的美国家具零售商,总部位于明尼苏达州。公司致力于提供高品质、时尚的家具和家居用品,满足各种家庭和办公需求。HOM Furniture 以广泛的产品线和优质的客户服务在市场上赢得了良好的口碑。公司经营的产品包括卧室、客厅…...
原码、反码、补码以及lowbit运算
原码、反码、补码以及lowbit运算 原码: 可以用来计算正数加减,正数的原码、反码、补码都一样。 第一位为符号位,符号位0为正数,1为负数(32位字符,这里用4位来举例子,后面皆是用4位来举例子,其…...
iOS 集成ffmpeg
前言 本来打算用flutter去实现一个ffmpeg的项目的,不过仔细分析了一下,我后期需要集成OpenGL ES做视频渲染处理,OpenGL ES的使用目前在flutter上面还不是很成熟,所以最后还是选择用原生来开发 ffmpeg集成到iOS工程 iOS对于ffmp…...
DeepSeek的崛起与全球科技市场的震荡
引言 近年来,人工智能(AI)技术的快速发展不断重塑全球科技格局。 近日,中国初创企业DeepSeek推出了一款据称成本极低且性能强大的AI模型,引发全球市场的剧烈反应。NVIDIA、台积电等半导体和AI科技巨头股价大幅下跌&am…...
selenium定位网页元素
1、概述 在使用 Selenium 进行自动化测试时,定位网页元素是核心功能之一。Selenium 提供了多种定位方法,每种方法都有其适用场景和特点。以下是通过 id、linkText、partialLinkText、name、tagName、xpath、className 和 cssSelector 定位元素的…...
Elasticsearch有哪些应用场景?
Elasticsearch的应用场景非常广泛,以下是一些主要的应用场景: 1.全文搜索: Elasticsearch凭借其强大、可扩展和快速的搜索功能,在全文搜索场景中表现出色。它允许用户以近乎实时的响应执行复杂的查询,常用于大型网站…...
MySQL 基础学习(1):数据类型与操作数据库和数据表
MySQL 基础学习:数据类型与操作数据库和数据表 在这篇博客中,我们将深入学习 MySQL 的基础操作,重点关注数据库和数据表的操作,以及 MySQL 中常见的数据类型。希望本文能帮助你更好地理解和掌握 MySQL 的基本用法。 一、操作数据…...
芯片AI深度实战:基础篇之Ollama
有这么多大模型,怎么本地用? Ollama可以解决这一问题。不依赖GPU,也不需要编程。就可以在CPU上运行自己的大模型。 软件甚至不用安装,直接在ollama官网下载可执行文件即可。 现在最流行的deepseek-r1也可以使用。当然还有我认为最…...
安卓(android)订餐菜单【Android移动开发基础案例教程(第2版)黑马程序员】
一、实验目的(如果代码有错漏,可查看源码) 1.掌握Activity生命周的每个方法。 2.掌握Activity的创建、配置、启动和关闭。 3.掌握Intent和IntentFilter的使用。 4.掌握Activity之间的跳转方式、任务栈和四种启动模式。 5.掌握在Activity中添加…...
deb安装失败后,无法再安装别的包的解决方案
把package_name换成出安装问题的包 移除该包的安装标记 sudo dpkg --remove --force-remove-reinstreq package_name清理残留文件和配置 sudo apt-get purge package_name...
算法基础学习——二分查找(附带Java模板)
有单调性的数列一定可以使用二分,没有单调性的题目也可能可以使用二分; (一)整数二分 二分的本质: 在某个整数区间内,存在某种性质使得区间内左半边的数都不满足该性质;而右半边的数都满足该性…...
蓝桥杯例题五
无论你面对多大的困难和挑战,都要保持坚定的信念和积极的态度。相信自己的能力和潜力,努力不懈地追求自己的目标和梦想。不要害怕失败,因为失败是成功的垫脚石。相信自己的选择和决策,不要被他人的意见和批评左右。坚持不懈地努力…...
pyside6-uic form.ui -o ui_form.py 的作用
pyside6-uic form.ui -o ui_form.py 的作用 pyside6-uic form.ui -o ui_form.py 这个命令是用来将 .ui 文件转换为 Python 代码文件的工具。 具体作用: pyside6-uic:这是一个命令行工具,用于将用 Qt Designer 或其他图形界面工具创建的 .ui …...
理解神经网络:Brain.js 背后的核心思想
温馨提示 这篇文章篇幅较长,主要是为后续内容做铺垫和说明。如果你觉得文字太多,可以: 先收藏,等后面文章遇到不懂的地方再回来查阅。直接跳读,重点关注加粗或高亮的部分。放心,这种“文字轰炸”不会常有的,哈哈~ 感谢你的耐心阅读!😊 欢迎来到 brain.js 的学习之旅!…...
工业相机开发操作流程
建议按照如下的流程操作相机(其中有一些步骤是可选的,已经标明): 一、载入SDK的动态链接库档MVCAMSDK.DLL。可以使用动态或者静 态加载两种方式。 如果使用C/C进行开发,在工程引用 CameraApi.h头文件(位于安装目录的SDK/DEMO/VC/include中)和…...
利用飞书机器人进行 - ArXiv自动化检索推荐
相关作者的Github仓库 ArXivToday-Lark 使用教程 Step1 新建机器人 根据飞书官方机器人使用手册,新建自定义机器人,并记录好webhook地址,后续将在配置文件中更新该地址。 可以先完成到后续步骤之前,后续的步骤与安全相关&…...
SpringCloudGateWay和Sentinel结合做黑白名单来源控制
假设我们的分布式项目,admin是8087,gateway是8088,consumer是8086 我们一般的思路是我们的请求必须经过我们的网关8088然后网关转发到我们的分布式项目,那我要是没有处理我们绕过网关直接访问项目8087和8086不也是可以࿱…...
Win10安装MySQL、Pycharm连接MySQL,Pycharm中运行Django
一、Windows系统mysql相关操作 1、 检查系统是否安装mysql 按住win r (调出运行窗口) 输入service.msc,点击【确定】 image.png 打开服务列表-检查是否有mysql服务 (compmgmt.msc) image.png 2、 Windows安装MySQL …...
MR-GDINO: Efficient Open-World Continual Object Detection—— 高效开放世界持续目标检测
这篇文章提出了一种名为MR-GDINO的开放世界持续目标检测方法,旨在解决开放世界检测器在持续学习过程中对已见类别和未见类别的灾难性遗忘问题。文章的主要内容和贡献如下: 问题定义:提出了开放世界持续目标检测任务,要求检测器在持…...
显示当前绑定变量
来自v$sql中的信息 测试两个变量的情况(实际可以看6个,可根据需要修改) DROP TABLE T1 PURGE; CREATE TABLE T1 AS SELECT A.*,SYSDATE RIQI FROM DBA_USERS A ORDER BY 1;var mc char(3); var id number; exec :mc:SYS; exec :id:50;set li…...
如何将xps文件转换为txt文件?xps转为pdf,pdf转为txt,提取pdf表格并转为txt
文章目录 xps转txt方法一方法二 pdf转txt整页转txt提取pdf表格,并转为txt 总结另外参考XPS文件转换为TXT文件XPS文件转换为PDF文件PDF文件转换为TXT文件提取PDF表格并转为TXT示例代码(部分) 本文测试代码已上传,路径如下ÿ…...
STM32 PWM驱动舵机
接线图: 这里将信号线连接到了开发板的PA1上 代码配置: 这里的PWM配置与呼吸灯一样,呼吸灯连接的是PA0引脚,输出比较单元用的是OC1通道,这里只需改为OC2通道即可。 完整代码: #include "servo.h&quo…...
「AI学习笔记」深度学习的起源与发展:从神经网络到大数据(二)
深度学习(DL)是现代人工智能(AI)的核心之一,但它并不是一夜之间出现的技术。从最初的理论提出到如今的广泛应用,深度学习经历了几乎一个世纪的不断探索与发展。今天,我们一起回顾深度学习的历史…...
专业视角深度解析:DeepSeek的核心优势何在?
杭州深度求索(DeepSeek)人工智能基础技术研究有限公司,是一家成立于2023年7月的中国人工智能初创企业,总部位于浙江省杭州市。该公司由量化对冲基金幻方量化(High-Flyer)的联合创始人梁文锋创立,…...
科技巨头AI投资引领未来增长
标题:科技巨头AI投资引领未来增长 文章信息摘要: 2024年科技巨头的资本支出远超预期,达到2360亿美元,主要得益于AI基础设施和数据中心建设的加速。预计2025年这一趋势将继续保持强劲增长,资本支出可能突破3000亿美元。…...
【Unity3D】Tilemap俯视角像素游戏案例
目录 一、导入Tilemap 二、导入像素风素材 三、使用Tilemap制作地图 3.1 制作Tile Palette素材库 3.2 制作地图 四、实现A*寻路 五、待完善 一、导入Tilemap Unity 2019.4.0f1 已内置Tilemap 需导入2D Sprite、2D Tilemap Editor、以及一个我没法正常搜出的2D Tilemap…...
Java 知识速记:全面解析 final 关键字
Java 知识速记:全面解析 final 关键字 什么是 final 关键字? final 关键字是 Java 中的一个修饰符。它可以用于类、方法和变量,其作用是限制对这些元素的修改。究竟如何限制?我们来逐个分析。 final 在变量中的用法 1. 声明常…...
《智能家居“孤岛危机”:设备孤立如何拖垮系统优化后腿》
在科技飞速发展的今天,智能家居不再是遥不可及的概念,它正逐渐走进千家万户,为我们描绘出舒适便捷的未来生活蓝图。想象一下,下班回家前,你可以通过手机远程开启空调,让室内温度恰到好处;到家时…...
大数据学习之Kafka消息队列、Spark分布式计算框架一
Kafka消息队列 章节一.kafka入门 4.kafka入门_消息队列两种模式 5.kafka入门_架构相关名词 Kafka 入门 _ 架构相关名词 事件 记录了世界或您的业务中 “ 发生了某事 ” 的事实。在文档中 也称为记录或消息。当您向 Kafka 读取或写入数据时,您以事件的 形式执行…...
Linux《基础指令》
在之前的Linux《Linux简介与环境的搭建》当中我们已经初步了解了Linux的由来和如何搭建Linux环境,那么接下来在本篇当中我们就要来学习Linux的基础指令。在此我们的学习是包括两个部分,即指令和关于Linux的基础知识;因此本篇指令和基础知识的…...
Avalonia+ReactiveUI跨平台路由:打造丝滑UI交互的奇幻冒险
一、引言 在当今数字化时代,跨平台应用开发已成为大势所趋。开发者们迫切需要一种高效、灵活的方式,能够让应用程序在不同操作系统上无缝运行,为用户提供一致的体验。Avalonia 和 ReactiveUI 的组合,宛如一对天作之合的舞者&…...
Ansible自动化运维实战--通过role远程部署nginx并配置(8/8)
文章目录 1、准备工作2、创建角色结构3、编写任务4、准备配置文件(金甲模板)5、编写变量6、编写处理程序7、编写剧本8、执行剧本Playbook9、验证-游览器访问每台主机的nginx页面 在 Ansible 中,使用角色(Role)来远程部…...
H264原始码流格式分析
1.H264码流结构组成 H.264裸码流(Raw Bitstream)数据主要由一系列的NALU(网络抽象层单元)组成。每个NALU包含一个NAL头和一个RBSP(原始字节序列载荷)。 1.1 H.264码流层次 H.264码流的结构可以分为两个层…...
批量解密,再也没有任何限制了
有的时候我们在网上下载了PDF文档。发现没有办法进行任何的操作,就连打印权限都没有。今天给大家介绍的这个软件可以一键帮你进行PDF解密,非常方便,完全免费。 PDF智能助手 批量解密PDF文件 这个软件不是很大,只有10MBÿ…...
认识小程序的基本组成结构
1.基本组成结构 2.页面的组成部分 3.json配置文件 4.app.json文件(全局配置文件) 5.project.config.json文件 6.sitemap.json文件 7.页面的.json配置文件 通过window节点可以控制小程序的外观...
模型I/O
文章目录 什么是模型I/O模型I/O功能之输出解析器输出解析器的功能输出解析器的使用Pydantic JSON输出解析器结构化输出解析器 什么是模型I/O 模型I/O在所有LLM应用中,核心元素无疑都是模型本身。与模型进行有效的交互是实现高效、灵活和可扩展应用的关键。LangChain…...
DeepSeek模型:开启人工智能的新篇章
DeepSeek模型:开启人工智能的新篇章 在当今快速发展的技术浪潮中,人工智能(AI)已经成为了推动社会进步和创新的核心力量之一。而DeepSeek模型,作为AI领域的一颗璀璨明珠,正以其强大的功能和灵活的用法&…...
git push到远程仓库时无法推送大文件
一、错误 remote: Error: Deny by project hooks setting ‘default’: size of the file ‘scientific_calculator’, is 164 MiB, which has exceeded the limited size (100 MiB) in commit ‘4c91b7e3a04b8034892414d649860bf12416b614’. 二、原因 本地提交过大文件&am…...