当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(六十八)

请添加图片描述

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models

➡️ 论文标题:Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models
➡️ 论文作者:Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang
➡️ 研究机构: Westlake University、City University of Hong Kong、Johns Hopkins University
➡️ 问题背景:近年来,链式思维(Chain-of-Thought, CoT)及其相关基于推理的工作显著提升了大型语言模型(LLMs)在复杂推理任务中的表现。随着多模态大型语言模型(MLLMs)的发展,增强其处理复杂多模态推理问题的能力成为关键前沿。然而,将多模态推理融入CoT尚未得到充分研究。研究团队提出了一种名为“思维图像”(Image-of-Thought, IoT)的提示方法,旨在帮助MLLMs逐步提取视觉推理依据,从而提高其在复杂视觉推理任务中的表现。
➡️ 研究动机:现有的研究主要集中在通过文本推理来增强模型的推理能力,但这种方法在处理多模态数据时既不直观也不直接。为了克服这一局限,研究团队开发了IoT提示方法,该方法不仅能够自动设计关键视觉信息提取操作,还能通过逐步识别特定的视觉推理依据来支持对复杂视觉推理问题的回答。IoT提示方法通过同时利用视觉和文本推理,帮助MLLMs更好地理解复杂的多模态信息,从而提高其在零样本视觉理解任务中的表现。
➡️ 方法简介:IoT提示方法的核心在于使MLLMs能够直接与图像进行交互,通过逐步推理过程将决策更牢固地建立在视觉现实上,而不仅仅是文本解释。具体来说,IoT提示方法使MLLMs能够设计视觉和文本步骤,引导模型利用外部图像处理工具生成多模态推理系列。这些推理系列随后帮助MLLMs得出答案,确保每一步推理都基于文本和视觉推理的结合,从而减少幻觉现象并降低对文本偏见的依赖。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括视觉问答(Visual Question-Answering, VQA)任务。实验设计了不同的任务和数据集,以评估IoT提示方法在减少传统多模态CoT方法错误方面的有效性。实验结果表明,IoT提示方法不仅提高了模型在视觉问答任务中的准确性,还增强了模型的解释性和透明度。此外,IoT方法的无训练特性消除了其他模型通常需要的昂贵和耗时的微调过程,从而进一步提高了MLLMs的推理能力和解释性。

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

➡️ 论文标题:AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
➡️ 论文作者:Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
➡️ 研究机构: 南京大学
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在探索人工通用智能(AGI)方面被认为是关键的一步。这些模型的核心在于实现跨模态对齐。然而,当前的MLLMs在预训练阶段通常假设所有图像-文本对都是均匀对齐的,而在实际中,不同图像-文本对的对齐程度是不一致的。此外,不同的任务对对齐能力的需求也不同,但现有的MLLMs忽视了这些差异化的对齐需求。
➡️ 研究动机:为了提高MLLMs的对齐能力,研究团队提出了一个新的多模态大语言模型AlignGPT。该模型在预训练阶段通过将图像-文本对分为不同的对齐级别组,使模型能够学习不同对齐级别的表示。在指令调优阶段,模型能够动态地结合这些表示,以满足不同任务的对齐需求。
➡️ 方法简介:研究团队提出了一种新的对齐策略,该策略在预训练阶段学习不同对齐级别,然后在指令调优阶段动态结合这些对齐级别,以满足不同任务的对齐需求。具体来说,通过CLIP分数将图像-文本对分为不同的对齐级别组,并在预训练过程中使用这些组标签作为控制信号。在指令调优阶段,通过门控网络动态分配全局和局部对齐嵌入的权重,以适应不同任务的对齐需求。
➡️ 实验设计:研究团队在12个基准数据集上进行了广泛的实验,包括视觉问答(VQA)、视觉推理(GQA)、视觉问答(VisWiz)、科学问答(SQAI)、文本VQA(TextVQA)等任务。实验结果表明,AlignGPT在多个基准测试中表现出竞争力,特别是在多模态指令跟随任务中。

From Text to Pixel: Advancing Long-Context Understanding in MLLMs

➡️ 论文标题:From Text to Pixel: Advancing Long-Context Understanding in MLLMs
➡️ 论文作者:Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang
➡️ 研究机构: University of California, Santa Barbara、University of Washington
➡️ 问题背景:多模态大语言模型(MLLMs)在处理和理解复杂的视觉和文本信息方面取得了显著进展。然而,处理多个图像和大量文本上下文仍然是一个挑战,因为这些模型在处理长输入序列时效率低下。本文提出了SEEKER,一种旨在通过将文本压缩到视觉像素空间来优化长文本紧凑编码的多模态大语言模型,从而在固定令牌长度预算内高效处理长文本。
➡️ 研究动机:现有的多模态大语言模型在处理长上下文任务时存在局限性,尤其是在处理多图像输入和生成长文本输出方面。SEEKER通过将文本压缩到视觉像素空间,减少了处理相同语义信息所需的令牌数量,从而提高了模型在处理长上下文任务时的效率和性能。
➡️ 方法简介:SEEKER通过将文本转换为图像令牌,利用图像令牌的紧凑表示来处理长文本,从而在固定令牌长度预算内处理更多的上下文信息。该方法在六个长上下文多模态任务中进行了评估,结果表明SEEKER在处理长文本输入和生成长文本输出方面优于现有的专有和开源MLLMs。
➡️ 实验设计:实验在六个长上下文多模态任务上进行,包括长形式多图像输入和长形式文本输出任务。实验设计了不同类型的输入(如单个图像、多个图像、长文本输入)和输出(如长文本输出),以全面评估SEEKER在不同条件下的表现。实验结果表明,SEEKER在处理长上下文任务时表现出色,尤其是在处理多图像输入和生成长文本输出方面。

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception

➡️ 论文标题:Explaining Multi-modal Large Language Models by Analyzing their Vision Perception
➡️ 论文作者:Loris Giulivi, Giacomo Boracchi
➡️ 研究机构: Politecnico di Milano
➡️ 问题背景:多模态大型语言模型(MLLMs)在理解和生成跨模态内容方面展示了卓越的能力,如图像和文本。然而,这些模型的可解释性仍然是一个挑战,这阻碍了它们在关键应用中的采用。研究指出,MLLMs在处理图像和文本输入时,存在显著的偏见和幻觉问题,这进一步突显了对MLLMs解释的迫切需求。
➡️ 研究动机:为了提高MLLMs的可解释性,研究团队提出了一种新的方法,通过结合开放世界定位模型(OWL-ViT)和多模态大型语言模型(MLLMs),创建了一个新的架构,能够同时从同一视觉嵌入中生成文本和对象定位输出。该架构不仅增强了模型的可解释性,还能够设计新的显著性图来解释任何输出标记,识别模型幻觉,并通过语义对抗性扰动评估模型偏见。
➡️ 方法简介:研究团队构建了一个联合开放世界定位(OWL)和多模态大型语言模型(MLLM)的架构(J),通过将OWL-ViT的视觉编码器与LLaVa的语言模型结合,并训练一个对齐的多层感知机(MLP)W,使得模型能够从同一视觉嵌入中同时生成文本和边界框输出。通过分析这些输出的梯度,研究团队开发了一种新的显著性图方法(Gradient Alignment, GA),用于解释MLLM的输出,并设计了语义对抗性攻击来评估模型的偏见。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括COCO数据集,以验证模型J的性能。实验包括评估对齐层W的性能、检测模型幻觉、验证GA显著性图的有效性,以及评估模型的偏见倾向。实验结果表明,模型J在保持良好视觉理解能力的同时,能够有效检测幻觉,并通过显著性图和语义对抗性攻击提供对模型输出的深入解释。

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

➡️ 论文标题:V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM
➡️ 论文作者:Abdur Rahman, Rajat Chawla, Muskaan Kumar, Arkajit Datta, Adarsh Jha, Mukunda NS, Ishaan Bhola
➡️ 研究机构: SuperAGI Research
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在处理文本和图像等多模态信息方面取得了显著进展,但在图形用户界面(GUI)的理解和自动化任务中仍面临挑战。现有的模型和基准主要集中在文本任务上,忽视了视觉信息在问题解决中的重要性。特别是在GUI自动化任务中,模型需要能够准确地检测和定位GUI元素,这要求模型具备高效和精确的视觉-文本对齐能力。
➡️ 研究动机:为了克服现有模型在GUI自动化任务中的局限性,研究团队开发了V-Zen,一个专门设计用于高效GUI理解和任务预测的多模态大语言模型。V-Zen通过引入双分辨率图像编码器和高精度视觉定位模块,显著提高了模型在GUI任务中的性能。
➡️ 方法简介:V-Zen的架构包括五个主要模块:低分辨率视觉特征提取器(LRVFE)、多模态投影适配器(MPA)、预训练语言模型与视觉专家(PLMVE)、高分辨率交叉视觉模块(HRCVM)和高精度视觉定位模块(HPVGM)。这些模块协同工作,使V-Zen能够高效处理图像和文本输入,准确识别GUI元素,并执行相应的任务。
➡️ 实验设计:研究团队使用GUIDE数据集对V-Zen进行了训练和评估。GUIDE数据集包含124,000个数据点,涵盖了多种GUI环境和任务序列。实验评估了V-Zen在两个关键任务上的表现:下一步任务预测和定位。结果表明,V-Zen在下一步任务预测任务中达到了93.2%的准确率,在定位任务中达到了89.7%的准确率,显著优于其他现有模型。

相关文章:

多模态大语言模型arxiv论文略读(六十八)

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models ➡️ 论文标题:Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models ➡️ 论文作者:Qiji Zhou, Ruoc…...

【数据库知识】Mysql进阶-高可用MHA(Master High Availability)方案

mysql高可用MHA(Master High Availability)方案 集群部署模式下的高可用方案一、高可用架构原理1. 核心组件2. 故障切换流程 二、详细部署步骤 (3节点集群)1. 环境准备2. 节点配置(以 node1 为例)3. 初始化集群4. 部署MySQL Route…...

类型别名与接口的对比与选择

在 TypeScript 中,类型系统是非常强大且灵活的。两种最常用的类型定义方式就是 类型别名(type) 和 接口(interface)。它们看似相似,实际上在用法和功能上有所不同。在本文中,我们将深入探讨类型…...

《Effective Python》第1章 Pythonic 思维详解——始终用括号包裹单元素元组

《Effective Python》第1章 Pythonic 思维详解——始终用括号包裹单元素元组 在 Python 编程语言中,元组(tuple)是一种不可变的数据结构,常用于表示一组固定的值。尽管元组的语法看似简单,但其中却隐藏着一些微妙的陷…...

【计算机视觉】OpenCV实战项目:ETcTI_smart_parking智能停车系统深度解析

ETcTI_smart_parking智能停车系统深度解析 1. 项目概述2. 技术原理与系统架构2.1 核心算法1) 车牌识别算法2) ETC交易验证 2.2 系统架构 3. 实战部署指南3.1 环境配置3.2 硬件部署规范3.3 系统初始化 4. 常见问题与解决方案4.1 ETC交易失败4.2 车牌识别异常4.3 系统性能瓶颈 5.…...

LintCode第807题-回文数II

描述 判断一个非负整数 n 的二进制表示是否为回文数 我们保证 0 < n < 2^32 - 1 样例1 输入: n 0 输出: True 解释: 0 的二进制表示为&#xff1a;0。 样例2 输入: n 3 输出: True 解释: 3 的二进制表示为&#xff1a;11。 样例3 输入: n 4 输出: False 解释:…...

快速傅里叶变换暴力涨点!基于时频特征融合的高创新时间序列分类模型

往期精彩内容&#xff1a; 单步预测-风速预测模型代码全家桶-CSDN博客 半天入门&#xff01;锂电池剩余寿命预测&#xff08;Python&#xff09;-CSDN博客 超强预测模型&#xff1a;二次分解-组合预测-CSDN博客 VMD CEEMDAN 二次分解&#xff0c;BiLSTM-Attention预测模型…...

股指期货的保证金交易和资金门槛是多少?

股指期货和股票交易最大的区别&#xff0c;就是它不用“全款买房”&#xff0c;而是“首付买房”——只需交一笔保证金就能撬动大额资金&#xff0c;但这也说明了门槛高、风险大。下面就来拆解&#xff0c;到底要准备多少钱才能“上车”。 一、保证金交易&#xff1a;用12万撬…...

spark:map 和 flatMap 的区别(Scala)

场景设定 假设有一个包含句子的 RDD&#xff1a; scala val rdd sc.parallelize(List("Hello World", "Hi Spark")) 目标是&#xff1a;将每个句子拆分成单词。 1. 用 map 的效果 代码示例 scala val resultMap rdd.map(sentence > sentence…...

判断两台设备是否在同一局域网内的具体方法

以下是判断两台设备是否在同一局域网内的具体方法&#xff1a; 1. 检查IP地址和子网掩码 操作步骤&#xff1a; Windows系统&#xff1a; 按 Win R 键&#xff0c;输入 cmd 并回车。输入 ipconfig&#xff0c;查看 IPv4 地址 和 子网掩码&#xff08;如 192.168.1.5/255.255.2…...

cmake:test project

本文主要探讨cmake在测试和项目中的应用。 add_test add_test(NAME <name> COMMAND <command> [<arg>...] [CONFIGURATIONS <config>...] [WORKING_DIRECTORY <dir>] [COMMAND_EXPAND_LISTS])  add_test(NAME test_uni COMMAND $<TARGET_F…...

Qwen-2.5 omni

问题1 Qwen2.5-Omni的主要功能是什么&#xff1f; Qwen2.5-Omni的主要功能是处理和生成多种模态的数据&#xff0c;包括文本、图像、音频和视频。它能够同时理解和生成这些模态的信息&#xff0c;支持复杂的多模态任务&#xff0c;例如语音对话、视频理解、图像描述生成等。 …...

Problem D: 异常2

1.题目描述 检查危险品程序&#xff1a;生成货物类、机器类&#xff0c;货物类有属性name&#xff0c;机器类有检测的check方法&#xff0c;若货物名称是炸弹、毒药、刀具&#xff0c;则抛出异常提示。 代码如下&#xff1a; import java.util.Scanner; class goods{ Stri…...

AI智慧公园管理方案:用科技重塑市民的“夜游体验”

AI智慧公园管理方案&#xff1a;多场景智能巡检与安全防控 一、背景与痛点分析 夏季夜间&#xff0c;公园成为市民休闲娱乐的核心场所&#xff0c;但管理难度随之激增&#xff1a; 宠物管理失控&#xff1a;未牵绳宠物进入园区&#xff0c;随地排泄、惊扰游客&#xff0c;甚…...

AJAX原理

AJAX使用XHR 对象和服务器进行数据交互 XHR <p class"my-p"></p><script>const xhr new XMLHttpRequest()xhr.open(GET,http://hmajax.itheima.net/api/province)xhr.addEventListener(loadend,()>{// console.log(xhr.response)const data …...

内存泄露,如何判断是资源泄露还是堆栈泄露?

作为软件测试工程师,判断内存泄露类型对于定位和解决问题至关重要。以下是区分资源泄露和堆栈泄露的方法: 1. 基本概念区分 资源泄露(Resource Leak): 指非内存资源未正确释放,如文件句柄、数据库连接、网络套接字等 虽然不直接表现为Java堆内存增长,但会导致系统资源耗…...

无人甘蔗小车履带式底盘行走系统的研究

1.1 研究背景与意义 1.1.1 研究背景 甘蔗作为全球最重要的糖料作物之一&#xff0c;在农业经济领域占据着举足轻重的地位。我国是甘蔗的主要种植国家&#xff0c;尤其是广西、广东、云南等地&#xff0c;甘蔗种植面积广泛&#xff0c;是当地农业经济的重要支柱产业。甘蔗不仅…...

Redis设计与实现——单机Redis实现

RedisDB RedisDB的核心结构 键空间&#xff08;dict*dict&#xff09; 结构&#xff1a;哈希表&#xff08;字典&#xff09;&#xff0c;键为字符串对象&#xff08;SDS&#xff09;&#xff0c;值为 Redis 对象&#xff08;字符串、列表、哈希等&#xff09;。 功能&#x…...

ES C++客户端安装及使用

介绍 Elasticsearch &#xff0c; 简称 ES &#xff0c;它是个开源分布式搜索引擎&#xff0c;它的特点有&#xff1a;分布式&#xff0c;零配置&#xff0c;自动发现&#xff0c;索引自动分片&#xff0c;索引副本机制&#xff0c;restful 风格接口&#xff0c;多数据源&…...

C++学习之STL学习

在经过前面的简单的C入门语法的学习后&#xff0c;我们开始接触C最重要的组成部分之一&#xff1a;STL 目录 STL的介绍 什么是STL STL的历史 UTF-8编码原理&#xff08;了解&#xff09; UTF-8编码原理 核心编码规则 规则解析 编码步骤示例 1. 确定码点范围 2. 转换为…...

【东枫科技】使用LabVIEW进行NVIDIA CUDA GPU 开发

文章目录 工具包 CuLab - LabVIEW 的 GPU 工具包特性和功能功能亮点类似 LabVIEW 的 GPU 代码开发支持的功能数值类型和维数开发系统要求授权售价 工具包 CuLab - LabVIEW 的 GPU 工具包 CuLab 是一款非常直观易用的 LabVIEW 工具包&#xff0c;旨在加速 Nvidia GPU 上的计算密…...

LangChain对话链:打造智能多轮对话机器人

LangChain对话链:打造智能多轮对话机器人 目录 LangChain对话链:打造智能多轮对话机器人ConversationChain 是什么核心功能与特点基本用法示例内存机制自定义提示词应用场景与其他链的结合`SequentialChain` 是什么![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0…...

MIT 6.S081 2020 Lab3 page tables 个人全流程

文章目录 零、写在前面1、关于页表2、RISC-V Rv39页表机制3、虚拟地址设计4、页表项设计5、访存流程6、xv6 的页表切换7、页表遍历 一、Print a page table1.1 说明1.2 实现 二、A kernel page table per process2.1 说明2.2 初始化 / 映射相关2.3 用户内核页表的创建和回收2.4…...

spring cloud loadbalancer实现机房感知的负载均衡

1 概述 在同城多机房情景下&#xff0c;各个机房各自部署一套微服务集群&#xff0c;正常情况下微服务调用在本机房闭环。在如下某些灾难情景&#xff0c;可以尝试拉远调用以最大程度维持业务连续性&#xff0c;这些情景例如&#xff1a; A机房多个服务器宕机。应用由于BUG发…...

vs2022配置opencv

一、下载opencv 1、进入https://opencv.org/官网下载 2、打开下载的exe开始安装&#xff0c;自己新建一个文件夹opencv作为安装路径 3、安装完成得到opencv文件内容 4、开始配置环境变量 4.1、复制下图的路径 4.2、添加到系统环境变量 5、配置VS项目环境 5.1、添加包含目录 …...

Appium-OppoA92S-真机记坑

问题现象 使用Appium操作真机时候&#xff0c;需要安装AppiumSettings软件&#xff0c;但是实际操作&#xff0c;一直提示安装失败&#xff0c;安装包异常 问题分析 [待定] 网上找到方式&#xff0c;都尝试过&#xff0c;无效 问题解决 取消开发者模式&#xff0c;USB连接手…...

ENSP-OSPF综合实验

AR4中通过ospf获取的其他区域路由信息&#xff0c;并且通过路由汇总后简化路由信息 实现全网通&#xff0c;以及单向重发布&#xff0c;以及通过缺省双向访问&#xff0c; 通过stub简化过滤四类五类lsa&#xff0c;简化ospf路由信息 通过nssa简化ospf信息 区域汇总简化R4路由信…...

基于VSCode+PlatformIO环境的ESP8266的HX1838红外模块

以下是针对ESP8266开发板的红外遥控解码系统开发教程&#xff0c;基于VSCodePlatformIO环境编写 一、概述 本实验通过ESP8266开发板实现&#xff1a; 红外遥控信号解码自定义按键功能映射串口监控输出基础设备控制&#xff08;LED&#xff09; 硬件组成&#xff1a; NodeMC…...

HTML12:文本框和单选框

表单元素格式 属性说明type指定元素的类型。text、password、 checkbox、 radio、submit、reset、file、hidden、image 和button&#xff0c;默认为textname指定表单元素的名称value元素的初始值。type为radio时必须指定一个值size指定表单元素的初始宽度。当type为text 或pas…...

JVM规范之运行时数据区域

JVM运行时数据区 前言为什么要阅读jvm规范&#xff1f;阅读本篇文章可以学习到啥&#xff1f; 正文概述JVM线程私有的运行时数据区pc(program counter) RegisterJVM StackNative Method Stack JVM线程共享的运行时数据区HeapMethod AreaRun-time constant pool 总结参考链接 前…...

LVGL(lv_btnmatrix矩阵按钮)

文章目录 &#x1f527; 1. 基本概念&#x1f4cc; lv\_btnmatrix 是什么&#xff1f; &#x1f9f1; 2. 基本结构和用法✅ 创建按钮矩阵✅ 设置按钮文字 &#x1f9f0; 3. 设置按钮行为&#x1f504; 4. 响应按钮点击&#x1f3a8; 5. 自定义样式&#x1f4cc; 6. 使用技巧&am…...

AUTOSAR图解==>AUTOSAR_TR_AIDesignPatternsCatalogue

AUTOSAR 人工智能设计模式目录 AUTOSAR传感器执行器与仲裁设计模式的深入解析与图解 目录 简介传感器和执行器模式 架构概述组件结构交互流程应用场景 多请求者或提供者之间的仲裁模式 架构概述组件结构仲裁流程应用场景 总结 1. 简介 AUTOSAR&#xff08;AUTomotive Open Sy…...

英语时态--中英文对“时间”的不同理解

文章目录 中英文时间上的差异我现在正在休息一般现在时1. 经常发生的动作2. 表客观事实3. 表示现在的状态一般将来时1. will2. be going to含义1:打算在将来某时做某事含义2:某事预计要发生而且不可避免中英文时间上的差异 我现在正在休息 “我现在正在休息。”用英文怎么说…...

Linux基础开发工具一(yum/apt ,vim)

前言 Linux下&#xff0c;如何进行软件安装&#xff0c;查找&#xff0c;卸载 1.源代码安装 2. rpm安装方式&#xff0c;安装包的本质&#xff0c;就是把源代码在Linux下编译好&#xff0c;然后打包&#xff08;别人把自己编译好的软件打包给你让你去安装&#xff09; 上面…...

Java 线程池原理

Java 线程池是一种管理和复用线程的机制&#xff0c;其原理如下&#xff1a; 核心概念 线程池的初始化 &#xff1a;在创建线程池时&#xff0c;需要设置一些关键参数&#xff0c;如核心线程数&#xff08;corePoolSize&#xff09;、最大线程数&#xff08;maximumPoolSize&am…...

AJAX 使用 和 HTTP

ajax学习 promise和 awit Node.js 和 webpack 前端工程化 Git工具 AJAX异步的JS和XML&#xff1a; 使用XML对象和服务器通信 在这里插入图片描述 统一资源定位符 URL HTTP 超文本传输协议 域名 资源路径 资源目录和类型 URL 查询参数 使用&#xff1f;表示之后的参数…...

mem0跟Memgraph交互

目录 1. 安装和设置2. 配置连接3. 使用 mem0 进行交互4. 添加和查询数据5. 代码运行结果 1. 安装和设置 首先&#xff0c;确保你已经安装了 Memgraph 和 mem0 库。你可以使用 pip 来安装 mem0&#xff1a; uv pip install "mem0ai[graph]" uv pip install langchai…...

httpclient请求出现403

问题 httpclient请求对方服务器报403&#xff0c;用postman是可以的 解决方案: request.setHeader( “User-Agent” ,“Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0” ); // 设置请求头 原因&#xff1a; 因为没有设置为浏览器形式&#…...

验证码与登录过程逻辑学习总结

目录 前言 一、验证码与登录 二、使用步骤 1.先apipost测试一波 2.先搞验证码 3.跨域问题 4.后端走起 总结 前言 近期要做一个比较完整的demo&#xff0c;需要自己做一个前端登录页面&#xff0c;不过api接口都是现成的&#xff0c;一开始以为过程会很easy&#xff0c;…...

openai接口参数max_tokens改名max-completion-tokens?

文章目录 关于max_tokens参数max_tokens改max-completion-tokens&#xff1f;控制 OpenAI 模型响应的长度 关于max_tokens参数 大模型 API&#xff08;比如 OpenAI、DeepSeek、Moonshot 等&#xff09;都是按照“Token 数量”来计费。 控制内容&#xff1a;控制一次请求返回的…...

【办公类-39-07】20250511批量生成通义万相图片(七)彩色背景蝴蝶-筛选无黑无白的图片

制作了教师裁剪的拼图块后&#xff0c;发现如果图案上有黑色&#xff0c;就没法看清出凹凸角&#xff0c;剪起来有误差 所以黑色也要剔除 通义万相下载的彩色蝴蝶有彩色背景的图片&#xff0c;放弃有白色和黑色图案的图片&#xff0c;保留彩色图案的蝴蝶 deepseek、阿夏 20250…...

容器技术 20 年:颠覆、重构与重塑软件世界的力量

目录 容器技术发展史 虚拟化技术向容器技术转变 Docker的横空出世 容器编排技术与Kubernetes 微服务的出现与Istio 工业标准的容器运行时 容器技术与 DevOps 的深度融合​ 无服务架构推波助澜 展望未来发展方向 从 20 世纪硬件虚拟化的笨重&#xff0c;到操作系统虚拟…...

Docker 部署 - Crawl4AI 文档 (v0.5.x)

Docker 部署 - Crawl4AI 文档 (v0.5.x) 快速入门 &#x1f680; 拉取并运行基础版本&#xff1a; # 不带安全性的基本运行 docker pull unclecode/crawl4ai:basic docker run -p 11235:11235 unclecode/crawl4ai:basic# 带有 API 安全性启用的运行 docker run -p 11235:1123…...

在C++中,符号位是否参与位运算

在C中&#xff0c;符号位是否参与位运算取决于具体的运算符和数据类型。以下是详细解释&#xff1a; 1. 按位与&#xff08;&&#xff09;、按位或&#xff08;|&#xff09;、按位异或&#xff08;^&#xff09; 规则&#xff1a;这些运算符会处理包括符号位在内的所有二…...

【计算机网络】NAT技术、内网穿透与代理服务器全解析:原理、应用及实践

&#x1f4da; 博主的专栏 &#x1f427; Linux | &#x1f5a5;️ C | &#x1f4ca; 数据结构 | &#x1f4a1;C 算法 | &#x1f152; C 语言 | &#x1f310; 计算机网络 上篇文章&#xff1a;以太网、MAC地址、MTU与ARP协议 下篇文章&#xff1a;五种IO模型与阻…...

redis数据结构-08(SINTER、SUNION、SDIFF、SISMEMBER)

集合运算&#xff1a;SINTER、SUNION、SDIFF、SISMEMBER Redis 集合是一种功能强大的数据结构&#xff0c;可用于存储一组唯一元素。本课基于上一课对 Redis 集合的介绍&#xff0c;深入探讨了使 Redis 集合如此多功能的基本集合操作&#xff1a; SINTER 、 SUNION 、 SDIFF 和…...

大模型都有哪些超参数

大模型的超参数是影响其训练效果、性能和泛化能力的关键设置,可分为以下几大类别并结合实际应用进行详细说明: 一、训练过程相关超参数 学习率(Learning Rate) 作用:控制参数更新的步长,直接影响收敛速度和稳定性。过高会导致震荡或过拟合,过低则收敛缓慢。调整策略:初…...

【更新至2023年】1999-2023年上市公司人工智能词频统计数据(年报词频统计)

【更新至2023年】1999-2023年上市公司人工智能词频统计数据&#xff08;年报词频统计&#xff09; 1、时间&#xff1a;1999-2023年 2、来源&#xff1a;上市公司年报 3、指标&#xff1a;股票代码、公司简称、年报标题、年份、行业名称、行业代码、全文-文本总长度、仅中英…...

通过 Azure DevOps 探索 Helm 和 Azure AKS

俗话说&#xff1a;“慷慨之人必昌盛&#xff1b;滋润他人者&#xff0c;必得滋润。” 如果您觉得这篇文章对您有有所帮助&#xff0c;请点赞&#xff0c;关注&#xff0c;转发&#xff01; 前言 在不断发展的云计算世界中&#xff0c;应用程序的无缝部署和管理至关重要。Azu…...

Go语言标识符

文章目录 标识符的组成规则Go语言关键字预定义标识符标识符命名惯例 特殊标识符标识符访问权限控制 在Go语言中&#xff0c;标识符(Identifier)是用来命名变量、函数、类型、常量等程序实体的名称。 标识符的组成规则 1、必须以字母或下划线(_)开头&#xff1a; 字母包括Unico…...