当前位置: 首页 > news >正文

SKETCHPAD——允许语言模型生成中间草图,在几何、函数、图算法和游戏策略等所有数学任务中持续提高基础模型的性能

概述

论文地址:https://arxiv.org/pdf/2406.09403
素描是一种应用广泛的有效工具,包括产生创意和解决问题。由于素描能直接传达无法用语言表达的视觉和空间信息,因此从古代岩画到现代建筑图纸,素描在世界各地被用于各种用途。儿童用它来解决几何问题,工程师用它来解释原型,建筑师用它来绘制蓝图,甚至科学家也用它来传达复杂的概念和实验结果。

多模态语言建模的最新进展主要集中在通过绘制所谓的 "中间草图 "来简化推理的任务上。在涉及几何或复杂数学问题等主要基准测试中,模型会收到图表图像,并回答需要符号或空间理解的问题。此时,例如在几何问题中,可以通过绘制中间草图(如辅助线)来提高推理能力,这与人们解决问题的方式相同。

计算机视觉基准具有类似的特点,例如,在物体检测中,会在物体周围绘制一个边界框;在深度估计中,会根据深度绘制一个颜色图,从而提高模型的检测性能。最近提出的 "BLINK "和 "VBench"也侧重于中间草图。但与此同时,对目前基于草图推理的语言模型所使用的框架还没有进行充分的研究。

本文提出的 SKETCHPAD 是一种为推理生成中间草图的工具。它受到文本排序链(CoT)推理的启发,促使底层视觉语言模型生成视觉工件,作为文本、程序和视觉推理混合链的一部分。例如,在证明三角形的角度之和为 180 度时,如下图(a)所示,SKETCHPAD允许代理通过引入新的辅助线来编辑图表。然后,它将提供关于这条新线和与之相关的角的补充信息,并利用这些信息来解决这个几何任务。

SKETCHPAD还提高了计算机视觉中模型空间推理的性能。如上图(d)所示,在判断一块饼干是否堆叠在另一块饼干之上时,模型首先会进行中间深度估计。通过分析这一估算结果,饼干显然是堆叠在一起的,因此模型可以得出准确的答案。

论文展示了 SKETCHPAD 在各种数学和计算机视觉任务中的有效性。在数学方面,论文涉及几何、数学函数、图形算法和策略游戏等问题。对于几何问题,SKETCHPAD 会根据图表输入和问题,使用辅助线和变量提示模型生成 Matplotlib 代码。即使在纯语言输入的情况下,SKETCHPAD 也能让模型绘制函数图并推理其性质。这些结果表明,即使是基于语言的输入,SKETCHPAD 也有能力支持推理。在所有类别的数学任务中,SKETCHPAD的表现都比基准GPT-4好10%左右。

计算机视觉可处理深度、空间推理、拼图、视觉对应、语义对应等各种任务,以及 MMVP 和 VBench 提出的问题。在这一领域,SKETCHPAD 使模型能够生成分割遮罩、裁剪图像、绘制边界框、缩放图像区域和叠加图像。与数学一样,SKETCHPAD 在所有七类计算机视觉任务中始终表现出色。例如,利用 SKETCHPAD,GPT-4 在 VBench 上提高了 14.3%,在 BLINK 深度和语义对应任务上分别提高了 12.1% 和 9.7%。

此外,对 SKETCHPAD 的有效性进行的分析以及对模型生成的计划和人类生成的计划进行的比较表明,它们非常一致,并显示出相似的推理模式。SKETCHPAD有望引发对更先进和可解释的多模态人工智能的新研究。

新的 SKETCHPAD 框架

本文提出的 SKETCHPAD 是多模态语言模型的通用框架,用于绘制草图作为推理的中间步骤,并利用草图进行进一步推理。下图举例说明了 SKETCHPAD 的工作原理。

输入多模态查询后,SKETCHPAD 代理会生成一个草图计划(思维)来处理查询,然后生成一个程序来生成草图(操作)。生成的草图(观察)是推理过程的可视化表示,模型对其进行分析,为查询生成最终输出。

在第一步 "思考 “中,模型分析上下文(包括查询、以前的想法、行动和观察)并生成下一步行动的思考计划。例如, 给定上图(a)中的 查询"查找 ∠EIC” ,模型的思维计划将画出与 BD 平行的辅助线 IX。

在第二步 "行动 "中,基于 “思想”,模型会执行操作视觉和文本内容的行动。在几何图形示例中,模型生成 Python 代码,修改原始几何图形以绘制辅助线。生成的代码将被编译并执行。

在第三步 "观察 "中,SKETCHPAD 环境会根据"操作 "返回新的观察结果。在几何示例中,将返回一个带有新辅助线的新图表。

多模态语言模型可以利用这一框架立即勾勒出来,无需进行微调或学习。

这个多轮交互过程一直持续到模型认为已经收集到足够的信息来回答查询为止。此时,模型会生成一个特殊的退出操作,并输出答案。

在传统研究中,语言模型主要生成和处理基于文本的观察和行为,而 SKETCHPAD 则不同,它允许模型同时处理视觉和文本内容。这样,模型就可以利用他们绘制的草图进行规划和推理,提高解决问题的能力。

草图绘制功能是 SKETCHPAD 的核心,它允许语言模型生成绘制草图的程序。这些程序通过调用各种专用视觉模型和 Python 绘图软件包来执行。与最近报道的 ViperGPT 和 VPD 类似,SKETCHPAD 允许语言模型通过生成代码来绘制草图。我们为语言模型提供了详细的工具说明,使其能够通过提示生成多模态内容(实际提示的示例可在本文的补充材料中找到)。

根据任务的不同,SKETCHPAD 使用多种工具来实现草图。对于数学任务,使用 matplotlib 和 networkx 等常用 Python 软件包绘制草图;而对于图像任务,在绘制草图时使用图像语言模型。这些模型包括在图像上绘制边界框的检测工具、绘制彩色遮罩的分割和标记工具,以及对分割进行编号和标注的工具。

数学任务中的素描

在这里,SKETCHPAD 被用来处理四个复杂的数学任务(几何、函数、图形算法和游戏策略)。我们的研究表明,将草图绘制功能集成到语言模型中能显著提高数学问题的处理能力,并取得新的先进成果。

首先是几何问题。在这方面,画辅助线对解决问题大有帮助。正如我们刚才看到的,在下图(a)中,问题是 “求∠EIC”。在这种情况下,语言模型计划画一条平行于 BD 的辅助线 IX,从而利用平行线的性质求出 ∠EIC。

为了评估 SKETCHPAD 的有效性,我们使用了 Geometry3K 数据集中的一个问题:SKETCHPAD 将几何图形和相应的 matplotlib 代码作为输入,提出并修改代码以生成辅助线,运行代码并在更新代码后添加辅助线。将几何图形可视化。

其次是函数问题。函数在科学、工程和经济学的各种应用中都很重要。在此,我们重点讨论IsoBench 数据集中的以下两项任务:偶偶分类和凸凹判定。偶偶函数分类确定一个函数是偶函数、奇函数还是两者都不是。对于所有 x,偶函数满足 f(-x) = f(x),而奇函数满足 f(-x) = -f(x)。凸凹判定也决定了一个函数是凸函数还是凹函数。

传统的语言模型会分析函数并试图证明其属性,而 SKETCHPAD 可以通过直观地勾画函数来高效地解决问题。为了确定下图(b)中函数的凸性,SKETCHPAD 使用 matplotlib 绘制了函数图,并直观地验证了其整体形状。

下一步是图算法问题。许多与计算机网络和运输系统相关的实际问题都可以表述为图算法问题:我们根据IsoBench 的以下三个图算法任务对 SKETCHPAD 进行了评估:连通性、最大流量和同构性。图形连通性决定了图形中两个顶点之间是否存在路径。最大流量是指在一个有边的网络中,在容量限制条件下,从源顶点发送到汇顶点的最大流量。图同构决定了两个图在结构上是否等同。

如下图 (b) 所示,在给出图形邻接矩阵后,SKETCHPAD 会使用 Python 的 networkx 库绘制实际的图形结构,从而可以直接对图形的属性和关系进行可视化推理。

最后是棋局策略。国际象棋棋局可以用不同的格式表示,如可视化棋盘状态或文本程序符号。即使只给出文本程序符号,SKETCHPAD 也会绘制棋盘、分析局面并制定策略;评估 SKETCHPAD 在 IsoBench 数据集的胜者识别任务中的表现,并根据最终棋盘状态、国际象棋找出对局结果(白胜、黑胜、和棋)。为了创建图形棋盘,SKETCHPAD 使用 Python 国际象棋库,以国际象棋的 Forsyth-Edwards Notation (FEN) 来绘制棋盘。

使用可访问 API 的多模态语言模型(gpt-4-turbo-2024-04-29 和 gpt-4o-2024-05-13)来评估 SKETCHPAD 的性能。这些结果与没有 SKETCHPAD 的基线、主要封闭源模型(如 Claude 3 和 GeminiPro)以及开源模型(如 Mistral 和 LLaMA-2 70B)进行了比较。

如下表所示,在所有任务中,SKETCHPAD 不断提高基础模型的性能,GPT-4o 平均提高 18.8%,GPT-4 Turbo 平均提高 13.5%。

特别是在图形连通性(Connectivity)和最大流量(Maxflow)等图形算法方面,观察到了明显的改进。例如,在 GPT-4o 上使用 SKETCHPAD 时,最大流量(Maxflow)的准确率达到 66.3%,比基础模型提高了 41.3%。同样,在函数任务中,GPT-4 Turbo 的准确率超过 90%,GPT-4o 的准确率超过 88%,在凸性和偶数分类任务中也有显著提高。此外,在游戏策略方面也有约 20% 的提高,这表明绘制的游戏棋盘提高了策略推理能力。这些结果表明,SKETCHPAD 是增强多模态语言模型在多个领域的推理能力的有效手段。

计算机视觉任务中的草图绘制

在这里,SKETCHPAD 被用来处理复杂的视觉推理任务。最近的研究(BLINK)表明,目前许多多模态语言模型仍然缺乏核心的视觉识别能力。而专用计算机视觉模型则具备这种能力。此外,SoM 研究表明,在图像上绘制分割掩码可以利用 GPT-4V 强大的视觉支撑能力。在本文中,我们将这些想法推广到 SKETCHPAD 中,以便使用专用视觉模型绘制语言模型草图。

SKETCHPAD使用三个复杂的视觉推理任务(VBench、MMVP 和BLINK)进行实验:VBench 是一个基准,包含有关图像中小项的问题;MMVP 是一个基准,包含视觉问题,旨在揭示基于 CLIP 的多模态语言模型的视觉缺陷;BLINK 是一个基准,包含视觉问题,旨在揭示基于 CLIP 的多模态语言模型的视觉缺陷。BLINK是一个包含视觉识别任务的基准,这些任务对人类来说很容易,但对多模态语言模型来说却具有挑战性。具体来说,它包括相对深度、空间推理、拼图、视觉对应和语义对应任务。

在 SKETCHPAD 中,语言模型使用多个模块(检测、分割、深度估计、滑动窗口视觉搜索和其他图像处理模块)来绘制和处理图像。这些模块以 Python 函数的形式实现,可由语言模型调用

检测模块将图像和文本查询(如 “猫”)作为输入,运行 Grounding-DINO 开放词汇对象检测模型,并绘制图像中检测到的边界框(带数字标签)。它还会返回边界框的坐标。

分割模块将图像作为输入,并返回一张绘有彩色分割掩码的图像。每个掩码都有一个数字标签。基础分割模型是 SegmentAnything 和 Semantic-SAM。深度估计模块将图像作为输入,并返回深度图。基础模型是 DepthAnything。

滑动窗口视觉搜索模块模仿人类在图像上搜索小物件的方式。它将文本查询作为输入,并在图像上执行滑动窗口。窗口大小为图像大小的 1/3,步长为图像大小的 2/9。返回检测到的图像斑块序列。

其他图像处理模块包括放大和裁剪(将图像和边界框作为输入,并返回框内的图像补丁)和叠加图像(将两幅图像和 alpha 值作为输入,并返回叠加图像)。

SKETCHPAD 充分利用这些模块,显著提高了多模态语言模型的视觉推理能力。这为有效解决复杂的视觉任务提供了一种新方法。

在此,我们在一项复杂的视觉推理任务中对多模态语言模型进行了实验,比较了它们在使用和不使用 SKETCHPAD 的情况下的表现,以及与主要多模态语言模型(Gemini、Claude 3、LLaVA 1.5、LLaVA-NeXT)的表现。资料来源如下表所示,SKETCHPAD 在所有任务中都持续提高了基础模型的性能,特别是带有 SKETCHPAD 的 GPT-4o 在所有任务中都取得了最新的成绩。

VBench 的表现优于 SEAL,在 GPT-4 Turbo 上提高了 18.5%,在 GPT-4o 上提高了 14.3%。在 BLINK 中,SKETCHPAD 对 GPT-4 Turbo 的平均绝对准确率提高了 6.6%,对 GPT-4o 的平均绝对准确率提高了 9.0%。

尽管 SKETCHPAD 模块只处理单幅图像,但在多幅图像任务(拼图、视觉对应、语义对应等)中也有显著改进。SKETCHPAD 的帮助更大。总之,SKETCHPAD 被证明是提高多模态语言模型在视觉推理任务中性能的有效方法。

总结

本文提出的 SKETCHPAD是一个为多模态语言模型生成中间草图的新框架。通过将辅助线、数学函数、图形和游戏可视化,该框架可大幅提高复杂数学推理任务的性能。

对于视觉推理任务,视觉专家已被添加到 SKETCHPAD 中;LM 在推理过程中调用这些专家,将预测结果可视化,例如来自物体检测模型的边界框或来自分割模型的遮罩,然后观察这些预测结果,以便进一步规划和推理。系统。

实验结果表明,SKETCHPAD 取得了新的先进成果,提高了语言模型在所有任务中的性能,SKETCHPAD 正在利用语言和图像的互补优势来应对日益复杂的推理挑战,并使语言模型更像人类。它有望成为实现多模态人工智能的重要一步。

相关文章:

SKETCHPAD——允许语言模型生成中间草图,在几何、函数、图算法和游戏策略等所有数学任务中持续提高基础模型的性能

概述 论文地址:https://arxiv.org/pdf/2406.09403 素描是一种应用广泛的有效工具,包括产生创意和解决问题。由于素描能直接传达无法用语言表达的视觉和空间信息,因此从古代岩画到现代建筑图纸,素描在世界各地被用于各种用途。儿童…...

计算机网络•自顶向下方法:网络应用原理

网络应用原理 网络应用架构 目前有两种主流的网络应用架构: 客户-服务器架构(Client-server) 服务器(server): 有一台总是在线的主机,上面运行着服务器程序(server)服务器主机(server machine)具有永久的…...

python: Oracle Stored Procedure query table

oracel sql script CREATE OR REPLACE PROCEDURE SelectSchool(paramSchoolId IN char,p_cursor OUT SYS_REFCURSOR ) AS BEGINOPEN p_cursor FORSELECT *FROM SchoolWHERE SchoolId paramSchoolId; END SelectSchool; /-- 查询所有 CREATE OR REPLACE PROCEDURE SelectScho…...

Webpack学习笔记(6)

首先搭建一个基本的webpack环境: 执行npm init -y,创建pack.json,保存安装包的一些信息 执行npm install webpack webpack-cli webpack-dev-server html-webpack-plugin -D,出现node_modules和package-lock.json。 1.source-Ma…...

数仓建模:如何进行实体建模?

目录 1 如何进行实体建模? 业务建模 领域建模 逻辑建模 2 实体建模具体步骤 需求分析...

C++ 设计模式:享元模式(Flyweight Pattern)

链接:C 设计模式 链接:C 设计模式 - 单例模式 享元模式(Flyweight Pattern)是一种结构型设计模式,它通过共享尽可能多的相同对象来减少内存使用和提高性能。享元模式适用于大量细粒度对象的场景,这些对象之…...

idea报错:There is not enough memory to perform the requested operation.

文章目录 一、问题描述二、先解决三、后原因(了解) 一、问题描述 就是在使用 IDEA 写代码时,IDEA 可能会弹一个窗,大概提示你目前使用的 IDEA 内存不足,其实就是提醒你 JVM 的内存不够了,需要重新分配。弹…...

Kubernetes Gateway API-2-跨命名空间路由

1 跨命名空间路由 Gateway API 具有跨命名空间路由的核心支持。当多个用户或团队共享底层网络基础设施时,这很有用,但必须对控制和配置进行分段,以尽量减少访问和容错域。 Gateway 和 Route(HTTPRoute,TCPRoute,GRPCRoute) 可以部署到不同的命名空间中,路由可以跨命名空间…...

【视觉SLAM:四、相机与图像】

相机模型 相机模型是计算机视觉中的重要内容,用于描述真实相机如何将三维世界投影到二维图像平面。以下从多个角度介绍常见的相机模型。 针孔相机模型 针孔相机模型是最简单的相机模型,用数学公式描述从三维世界到二维图像平面的映射关系。核心公式如…...

【spring】参数校验Validation

前言 在实际开发中,我们无法保证客户端传来的请求都是合法的。比如一些要求必传的参数没有传递,传来的参数长度不符合要求等,这种时候如果放任不管,继续执行后续业务逻辑,很有可能就会出现意想不到的bug。 有人可能会…...

基于 InternLM 和 LangChain 搭建你的知识库

本文基于InternStudio 算力平台利用 InternLM 和 LangChain 搭建知识库。 InternStudio (OpenAIDE)[1] 是面向算法开发者与研究员的云端集成开发环境。基于「容器实例」,「镜像中心」,「分布式训练」,「公开数据集」模块为用户提供 “算力、算…...

C++ 设计模式:备忘录模式(Memento Pattern)

链接:C 设计模式 链接:C 设计模式 - 状态模式 备忘录模式(Memento Pattern)是一种行为设计模式,它允许在不破坏封装性的前提下捕获和恢复对象的内部状态。这个模式在需要保存和恢复对象状态的场景中非常有用&#xff…...

STM32配合可编程加密芯片SMEC88ST的防抄板加密方案设计

SMEC88ST SDK开发包下载 目前市场上很多嵌入式产品方案都是可以破解复制的,主要是因为方案主芯片不具备防破解的功能,这就导致开发者投入大量精力、财力开发的新产品一上市就被别人复制,到市场上的只能以价格竞争,最后工厂复制的产…...

利用JavaScript实现猜数字

一,使用while循环实现 以下代码为固定数字非随机数,答案通过弹窗来设置,结果太唯一。 let number;while (true) {number prompt(我正在想一个1-10的数字,你猜猜看?);switch (number) {case "1":alert("小了&quo…...

terminal_学习

参考: 让你的 Mac 提前用上 macOS Catalina 的 Shell——Oh My Zsh 配置指南 https://sspai.com/post/55176MAC 终端美化教程(来个全套 )https://blog.csdn.net/weixin_42326144/article/details/121957795 x.1 zsh做美化(安装oh…...

MongoDB 管理工具

关于 MongoDB 的管理工具,目前市面上有多款优秀的 GUI 工具可供选择。这些工具旨在提高 MongoDB 的开发和管理效率,使得数据库操作更加便捷和高效。以下是一些推荐的工具: MongoDB Compass:这是 MongoDB 官方提供的一款 GUI 管理工…...

46. Three.js案例-创建颜色不断变化的立方体模型

46. Three.js案例-创建颜色不断变化的立方体模型 实现效果 知识点 Three.js基础组件 WebGLRenderer THREE.WebGLRenderer是Three.js提供的用于渲染场景的WebGL渲染器。它支持抗锯齿处理,可以设置渲染器的大小和背景颜色。 构造器 antialias: 是否开启抗锯齿&am…...

机器学习-高斯混合模型

文章目录 高斯混合模型对无标签的数据集:使用高斯混合模型进行聚类对有标签的数据集:使用高斯混合模型进行分类总结实战 高斯混合模型 对无标签的数据集:使用高斯混合模型进行聚类 对有标签的数据集:使用高斯混合模型进行分类 总结…...

Linux官文转载-- Linux 内核代码风格

Warning 此文件的目的是为让中文读者更容易阅读和理解,而不是作为一个分支。 因此, 如果您对此文件有任何意见或更新,请先尝试更新原始英文文件。 这是一个简短的文档,描述了 linux 内核的首选代码风格。代码风格是因人而异的&a…...

通过无障碍服务(AccessibilityService)实现Android设备全局水印显示

一、无障碍功能简介 首先我们先来了解下无障碍功能的官方介绍: 无障碍服务仅应用于帮助残障用户使用 Android 设备和应用。它们在后台运行,并在触发 AccessibilityEvents 时接收系统的回调。此类事件表示用户界面中的某些状态转换,例如焦点已…...

Dockerfile基础指令

1.FROM 基于基准镜像(建议使用官方提供的镜像作为基准镜像,相对安全一些) 举例: 制作基准镜像(基于centos:lastest) FROM cenots 不依赖于任何基准镜像 FROM scratch 依赖于9.0.22版本的tomcat镜像 FROM…...

rocketmq5源码系列--(二)--生产者发送消息

这是broker源码系列第一篇。还是和往常一样,建议copy到本地阅读 broker是基于netty的 rocketmq队列分物理队列和逻辑队列,物理队列只有一个而逻辑队列有很多个 rocketmq 物理队列,一个物理队列对应一个文件,一个物理队列可以对…...

uniapp从入门到精通(全网保姆式教程)~ 别再说你不会开发小程序了

目录 一、介绍 二、环境搭建(hello world) 2.1 下载HBuilderX 2.2 下载微信开发者工具 2.3 创建uniapp项目 2.4 在浏览器运行 2.5 在微信开发者工具运行 2.6 在手机上运行 三、项目基本目录结构 四、开发规范概述 五、全局配置文件&#xff0…...

Kali 自动化换源脚本编写与使用

1. 背景与需求 在使用 Kali Linux 的过程中,软件源的配置对系统的更新与软件安装速度至关重要。 Kali 的默认官方源提供了安全且最新的软件包,但有时由于网络条件或地理位置的限制,使用官方源可能会出现速度较慢的问题。 为了解决这一问题&a…...

mysql-二进制安装方式

目录 1. 安装组件即依赖包 2. 创建用户 3. 关闭防火墙 4. 解压mysql二进制源码包 5. 创建文件夹并赋予权限 6. 编译安装mysql,安装完成最后面,会有一串英文,那是登录数据库的密码 7. 设置配置文件 8. 将mysql添加进环境变量 9. 复制…...

深入剖析Android SoundPool及其JNI实现

深入剖析Android SoundPool及其JNI实现 1. SoundPool概述 SoundPool是Android中用于管理和播放音频资源的类,特别适合播放短小的音效,如游戏中的爆炸声、按钮点击声等。与MediaPlayer相比,SoundPool具有以下优势: 低延迟:SoundPool适用于需要快速响应的音效播放。并发播…...

15_C语言 -构造类型

构造类型 数据类型 基本类型: 整型 short / short int(2字节)整型(默认) :int(4字节)长整型:long / long int (8字节 (64位系统)&am…...

Python爬虫 - 豆瓣电影排行榜数据爬取、处理与存储

文章目录 前言一、使用版本二、需求分析1. 分析要爬取的内容1.1 分析要爬取的分类1.2 分析要爬取的单个电影的数据1.3 分析如何获取单个电影数据1.3.1 预览数据1.3.2 查看请求网址、方法及请求头信息1.3.3 查看请求参数 2. 数据用途2.1 统计分析2.2 探索性数据分析 (EDA)2.3 高…...

知识碎片-环境配置

1.添加-i 下载快: pip install onnxruntime-gpu==X.X.X -i https://pypi.tuna.tsinghua.edu.cn/simple 清华源 pip install xxx -i https://pypi.tuna.tsinghua.edu.cn/simple/ 阿里源 pip install xxx -i https://mirrors.aliyun.com/pypi/simple 中科大源 pip install xxx -…...

手机实时提取SIM卡打电话的信令声音-智能拨号器的SIP线路-双卡双待单通方案

手机实时提取SIM卡打电话的信令声音 --智能拨号器的SIP线路-双卡双待单通方案 一、前言 蓝牙电话的技术方案最初是从蓝牙耳机和车机蓝牙的使用领域延伸出来的技术方式。通过蓝牙的HFP协议,把手机通话的声音和通话事件状态提取出来进行复用和处理。但中国大陆现行…...

LangChain教程 - 表达式语言 (LCEL) -构建智能链

系列文章索引 LangChain教程 - 系列文章 LangChain提供了一种灵活且强大的表达式语言 (LangChain Expression Language, LCEL),用于创建复杂的逻辑链。通过将不同的可运行对象组合起来,LCEL可以实现顺序链、嵌套链、并行链、路由以及动态构建等高级功能…...

pytorch学习笔记汇总

一.tensor创建 1.张量的定义 张量在形式上就是多维数组,例如标量就是0维张量,向量就是一维张量,矩阵就是二维张量,而三维张量就可以想象RGB图片,每个channel是一个二维的矩阵,共有三个channel&#xff0…...

uniapp配置文字艺术字体风格

1.vue配置 App.vue中&#xff1a; <style>/*每个页面公共css *//* 全局字体风格 */font-face {font-family: gufengFont;src: url(./static/font/gufeng.ttf) format(truetype);font-weight: normal;font-style: normal;} </style>页面中&#xff1a; .text1 {f…...

江科大学习笔记之——HAL库点亮一个LED灯

HAL三步走&#xff1a;1.建工程。2.设配置。3.写代码 一.建立工程 HAL库写法 点击FinIsh 2.配置时钟 2 、设置配置参数 把模块.C.h单独设置文件 生产代码 三写代码 控制GPIO就三步 1.RCC时钟使能 2.结构体配置GPIO寄存器 3.控制GPIO值 上面的步骤已经把前两步的配置完成了接下…...

java web项目软件自动生成使用初体验-帅帅软件生成平台ASoft

软件默认 登陆账号 admin 密码 123456 一、软件使用简介说 AI软件自动生成越来越成熟&#xff0c;但AI生成的软件代码只是片段化的&#xff0c;不成体系。有没有一款可以10-30分钟自动生成JAVA WEB休系的软件&#xff1f;我也找了好久&#xff0c;终于找到了&#xff0c;开发…...

损失函数-二分类和多分类

二分类和多分类的损失函数 二分类 损失函数 L ( y , y ^ ) − ( y l o g ( y ^ ) ) ( 1 − y ) l o g ( 1 − y ^ ) L(y,\hat{y}) -(ylog(\hat{y})) (1-y)log(1-\hat{y}) L(y,y^​)−(ylog(y^​))(1−y)log(1−y^​) 其中真实标签表示为y&#xff08;取值为 0 或 1&#…...

Springboot:后端接收数组形式参数

1、接收端写法 PermissionAnnotation(permissionName "",isCheckToken true)PostMapping("/batchDeleteByIds")public ReturnBean webPageSelf( NotNull(message "请选择要删除的单据&#xff01;") Long[] ids) {for (Long string : ids) {l…...

CSS系列(46)-- Color Functions详解

前端技术探索系列&#xff1a;CSS Color Functions详解 &#x1f3a8; 致读者&#xff1a;探索颜色函数的艺术 &#x1f44b; 前端开发者们&#xff0c; 今天我们将深入探讨 CSS Color Functions&#xff0c;这个强大的颜色处理特性。 基础函数 &#x1f680; 颜色空间 /…...

MySQL数据库误删恢复_mysql 数据 误删

2、BigLog日志相关 2.1、检查biglog状态是否开启 声明: 当前为mysql版本5.7 当前为mysql版本5.7****当前为mysql版本5.7 2.1.1、Navicat工具执行 SHOW VARIABLES LIKE LOG_BIN%;OFF 是未开启状态&#xff0c;如果不是ON 开启状态需要开启为ON。{默认情况下就是关闭状态} 2.…...

ModiLeo交易平台:引领数字货币交易新未来

在当今数字化高速发展的时代&#xff0c;数字货币作为一种新兴的金融资产形式&#xff0c;正逐渐改变着全球金融格局。而此刻&#xff0c;由印度 ModiLeo 实验室联合全球顶级投行共同打造的全球领先的一站式数字货币交易平台——ModiLeo 即将上线&#xff0c;这无疑是数字货币领…...

57.插入区间 python

插入区间 题目题目描述示例 1&#xff1a;示例 2&#xff1a;提示&#xff1a; 题解解题思路python实现代码解释提交结果 题目 题目描述 给你一个 无重叠的 &#xff0c;按照区间起始端点排序的区间列表 intervals&#xff0c;其中 intervals[i] [starti, endi] 表示第 i 个…...

使用WebRTC进行视频通信

一、WebRTC技术简介 什么是WebRTC&#xff1f; 是一种支持浏览器之间实时音频、视频和数据传输的开放源代码项目。它允许开发者在不需要任何第三方插件或软件的情况下实现点对点的实时通信。WebRTC已经成为现代Web应用中的关键技术&#xff0c;为开发者提供了强大的工具和API…...

详细讲解axios封装与api接口封装管理

一、axios封装 axios是基于promise的http客户端&#xff0c;用于浏览器和nodejs发送http请求 &#xff0c;对它进行封装主要是为了统一管理请求配置和处理请求和响应的通用逻辑等。以下是常用的封装逻辑和要点 1&#xff1a;引入axios相关依赖 首先引用项目中的axios库&…...

likeAdmin架构部署(踩坑后的部署流程

1、gitee下载 https://gitee.com/likeadmin/likeadmin_java.git 自己克隆 2、项目注意 Maven&#xff1a;>3.8 ❤️.9 (最好不要3.9已经试过失败 node &#xff1a;node14 (不能是18 已经测试过包打不上去使用14的换源即可 JDK&#xff1a;JDK8 node 需要换源 npm c…...

算法-回文数判断

给你一个整数 x &#xff0c;如果 x 是一个回文整数&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 回文数 是指正序&#xff08;从左向右&#xff09;和倒序&#xff08;从右向左&#xff09;读都是一样的整数。 例如&#xff0c;121 是回文&#xff0c;…...

力扣-数据结构-7【算法学习day.78】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向&#xff08;例如想要掌握基础用法&#xff0c;该刷哪些题&#xff1f;建议灵神的题单和代码随想录&#xff09;和记录自己的学习过程&#xff0c;我的解析也不会做的非常详细&#xff0c;只会提供思路和一些关…...

计算机组成原理的学习笔记(8)-- 指令系统·其一 指令的组成以及数据寻址方式/RISK和CISK

学习笔记 前言 ​ 本文主要是对于b站尚硅谷的计算机组成原理的学习笔记&#xff0c;仅用于学习交流。 1. 指令 1.1 组成 操作码&#xff08;Opcode&#xff09;&#xff1a;指指令中执行特定操作的部分。地址码&#xff1a;指令中用于指定操作数位置的部分。 1.2 扩展操作…...

Hive刷分区MSCK

一、MSCK刷分区 我们平时通常是通过alter table add partition方式增加Hive的分区的&#xff0c;但有时候会通过HDFS put/cp命令或flink、flum程序往表目录下拷贝分区目录&#xff0c;如果目录多&#xff0c;需要执行多条alter语句&#xff0c;非常麻烦。Hive提供了一个"…...

2024年12月HarmonyOS应用开发者基础认证全新题库

注意事项&#xff1a;切记在考试之外的设备上打开题库进行搜索&#xff0c;防止切屏三次考试自动结束&#xff0c;题目是乱序&#xff0c;每次考试&#xff0c;选项的顺序都不同&#xff0c;如果有两台电脑设备建议一台打开题库一台考试&#xff0c;如果只有一台电脑设备建议手…...

集成方案 | Docusign + 蓝凌 EKP,打造一站式合同管理平台,实现无缝协作!

本文将详细介绍 Docusign 与蓝凌 EKP 的集成步骤及其效果&#xff0c;并通过实际应用场景来展示 Docusign 的强大集成能力&#xff0c;以证明 Docusign 集成功能的高效性和实用性。 在当今数字化办公环境中&#xff0c;企业对于提高工作效率和提升用户体验的需求日益迫切。蓝凌…...