当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(二十九)

请添加图片描述

Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models

➡️ 论文标题:Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
➡️ 论文作者:Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani
➡️ 研究机构: 北京富士通研发中心、东北大学信息科学研究生院、理化学研究所AIP中心
➡️ 问题背景:多模态大型语言模型(MLLMs)在多媒体内容理解方面取得了显著进展,但处理视频输入时,特别是在事件级别上,会出现幻觉问题,即错误的感知或解释。这种幻觉问题在视频内容中尤为突出,尤其是在按需事件查询中。
➡️ 研究动机:现有研究主要集中在对象级别的幻觉问题上,而事件级别的幻觉问题尚未得到充分研究。本研究旨在解决MLLMs在处理视频输入时的事件级别幻觉问题,通过引入一种新的框架来提取和利用事件特定信息,以提高模型的响应质量。
➡️ 方法简介:研究团队提出了一种新颖的方法,通过将按需事件查询分解为标志性动作,并利用CLIP和BLIP2等模型预测事件发生的具体时间戳,来纠正MLLMs的事件时间幻觉。该方法无需额外训练,成本低且可解释性强。
➡️ 实验设计:研究在Charades-STA数据集上进行了实验,设计了两个任务来评估MLLMs在预测事件发生时间和事件顺序方面的表现。实验结果表明,该方法显著减少了时间幻觉,提高了事件相关问题的响应质量。

Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences

➡️ 论文标题:Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
➡️ 论文作者:Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang
➡️ 研究机构: University of Maryland, College Park、UNC-Chapel Hill, Chapel Hill
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在处理各种视觉-语言任务方面表现出色。然而,现有的MLLM基准测试主要评估基于单个图像的静态信息的推理能力,而对图像序列的推理能力,即理解不断变化的世界的能力,研究较少。为了应对这一挑战,本文介绍了Mementos,一个新的基准测试,旨在评估MLLMs在图像序列上的推理能力。Mementos包含4,761个不同长度的图像序列,涵盖了日常生活、机器人任务和漫画风格的故事板等多种场景。
➡️ 研究动机:尽管现有的MLLMs在处理静态图像方面表现出色,但它们在处理图像序列时往往会出现幻觉(即生成不准确的描述),尤其是在描述动态信息时。为了更全面地评估MLLMs在图像序列上的推理能力,研究团队开发了Mementos基准测试,并通过GPT-4辅助的方法评估了九个最新的MLLMs,包括GPT-4V和Gemini。研究发现,这些模型在处理图像序列时存在显著的物体和行为幻觉,尤其是在机器人和漫画领域。
➡️ 方法简介:研究团队构建了Mementos基准测试,该基准测试包含4,761个图像序列,涵盖了日常生活、机器人任务和漫画风格的故事板。每个序列都配有人类标注的描述,详细说明了主要物体及其行为。为了评估MLLMs的推理能力,研究团队采用了一种GPT-4辅助的评估方法,通过提取AI生成和人类标注描述中的行为和物体关键词,并使用关键词匹配来评估模型的幻觉程度。此外,研究团队还构建了行为和物体同义词图,以确保评估的准确性和细致性。
➡️ 实验设计:研究团队在Mementos基准测试上评估了九个最新的MLLMs,包括黑盒模型和开源模型。实验设计了不同的输入方式(如组合输入和顺序输入),并评估了模型在不同领域(日常生活、机器人和漫画)的表现。实验结果表明,MLLMs在处理图像序列时存在显著的物体和行为幻觉,尤其是在机器人和漫画领域。研究团队还通过定量分析和案例研究,识别了影响MLLMs推理能力的三个关键因素:物体和行为幻觉的相互作用、共现行为的影响以及行为幻觉的累积效应。

MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

➡️ 论文标题:MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
➡️ 论文作者:Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua, Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
➡️ 研究机构: ShanghaiTech University、Meituan、UniDT、Shanghai Engineering Research Center of Intelligent Vision and Imaging、Shanghai Engineering Research Center of Energy Efficient and Custom AI IC
➡️ 问题背景:大型语言模型(LLMs)在自然语言理解和生成任务中展现了卓越的性能,这激发了将其作为构建代理系统中心控制器的探索。然而,当前的LLMs在工具使用能力上受限于单一文本查询,这可能导致对用户真实意图理解的模糊性。为了消除这种模糊性,LLMs需要能够感知视觉或听觉指令的信息,从而更准确地选择匹配的工具。
➡️ 研究动机:现有的研究和系统主要集中在通过文本输入来扩展LLMs的功能,但这种方法在处理模糊或复杂的用户指令时存在局限性。本研究旨在通过引入多模态输入,增强LLMs对工具使用的感知和选择能力,从而解决这一问题。研究团队开发了MLLM-Tool系统,该系统结合了开源的LLMs和多模态编码器,能够处理多模态输入指令,并正确选择匹配的工具。
➡️ 方法简介:研究团队构建了一个名为ToolMMBench的多模态输入基准数据集,该数据集包含从HuggingFace平台收集的多模态输入工具,以及每个指令的多个潜在选择。通过这个数据集,研究团队评估了MLLM-Tool在处理多模态输入和选择合适工具方面的能力。MLLM-Tool系统使用了ImageBind作为主要的多模态编码器,并结合了多种领先的LLMs,如Vicuna、Llama等,通过低秩适应(LoRA)技术对模型进行微调,以减少可学习参数的数量。
➡️ 实验设计:研究团队设计了多种评估指标,包括针对不同模糊类型、多选项支持和不同模态输入的测试子集。实验结果表明,MLLM-Tool在工具选择上的准确率达到了88.19%,证明了该方法的有效性。此外,研究团队还计划在未来扩展系统的输出,包括API参数、代码执行结果和链式思维(CoT)提示等,以支持多轮对话。

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

➡️ 论文标题:InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
➡️ 论文作者:Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Ke Ren, Botian Jiang, Xipeng Qiu
➡️ 研究机构: Fudan University, Shanghai Key Laboratory of Intelligent Information Processing
➡️ 问题背景:大型语言模型(LLMs)在多种AI应用中变得至关重要,但它们在实际应用中需要与人类价值观和意图对齐。当前的对齐方法,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),主要集中在训练时间对齐,这些方法通常复杂且资源消耗大。因此,研究团队开发了InferAligner,一种利用跨模型指导的推理时间对齐方法,旨在提高模型的安全性,同时保持下游任务的性能。
➡️ 研究动机:现有的训练时间对齐方法虽然效果显著,但实施复杂且资源消耗大。而现有的推理时间对齐方法虽然简单易用,但对齐效果较差,且显著影响模型在下游任务中的性能。为了克服这些挑战,研究团队提出了InferAligner,通过跨模型指导在推理阶段实现无害性对齐。
➡️ 方法简介:InferAligner通过从安全对齐的模型中提取安全引导向量(SSVs),并在目标模型的推理阶段使用这些向量来修改激活,从而引导模型对恶意输入提供无害响应。具体来说,InferAligner首先利用安全相关向量(SRVs)来判断输入意图是否无害,如果检测到有害意图,则通过添加SSVs来调整激活,引导模型安全响应。
➡️ 实验设计:研究团队在三个领域(金融、医疗和数学)的特定数据集上进行了实验,评估了InferAligner在这些领域模型中的表现。实验设计了不同的安全性和实用性评估指标,包括攻击成功率(ASR)和下游任务的准确性。实验结果表明,InferAligner在显著降低有害指令和越狱攻击的ASR的同时,几乎不影响下游任务的性能。此外,研究团队还构建了第一个多模态安全数据集MM-Harmful Bench,用于评估多模态模型的安全性。

LLMRA: Multi-modal Large Language Model based Restoration Assistant

➡️ 论文标题:LLMRA: Multi-modal Large Language Model based Restoration Assistant
➡️ 论文作者:Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
➡️ 研究机构: 清华大学、香港中文大学
➡️ 问题背景:多模态大语言模型(MLLMs)因其广泛的知识和强大的感知生成能力,在多种任务中产生了显著影响。然而,将MLLMs应用于低级视觉任务(如图像恢复)仍然是一个开放的研究问题。本文提出了一种基于MLLMs的图像恢复框架,即多模态大语言模型恢复助手(LLMRA),以填补这一空白。
➡️ 研究动机:尽管MLLMs在高级视觉任务中表现出色,但它们在低级视觉任务中的应用仍有限。现有方法主要集中在处理特定类型的图像退化,且训练数据集通常只包含单一类型的退化,这限制了它们处理其他类型退化的能力。LLMRA旨在通过结合预训练的多模态大语言模型和视觉语言模型,生成包含退化信息的文本描述,并将其编码为上下文嵌入,以实现更准确和可调的图像恢复。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建LLMRA框架,利用预训练的多模态大语言模型生成退化图像的文本描述,并通过上下文增强模块(CEM)和基于退化上下文的Transformer网络(DC-former)将这些描述集成到恢复网络中。CEM负责增强文本特征,而DC-former则负责将退化信息从文本特征传播到恢复网络。
➡️ 实验设计:在三个公开数据集上进行了实验,包括图像去噪、去雨和低光图像增强任务。实验设计了不同的退化类型(如噪声、雨和低光照),以全面评估模型在不同条件下的表现。实验结果表明,LLMRA在各种图像恢复任务中均取得了最先进的性能。

相关文章:

多模态大语言模型arxiv论文略读(二十九)

Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models ➡️ 论文标题:Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models ➡️ 论文作者:Li Su…...

【人工智能学习-01-01】20250419《数字图像处理》复习材料的word合并PDF,添加页码

前情提要 20250419今天是上师大继续教育人工智能专升本第一学期的第一次线下课。 三位老师把视频课的内容提炼重点再面授。(我先看了一遍视频,但是算法和图像都看不懂,后来就直接挂分刷满时间,不看了) 今天是面对面授…...

B端APP设计:打破传统限制,为企业开启便捷新通道

B端APP设计:打破传统限制,为企业开启便捷新通道 在数字化转型浪潮中,企业级移动应用正突破传统管理系统的功能边界,演变为连接产业链各环节的核心枢纽。本文从技术架构革新、交互模式进化、安全防护升级三个维度,系统…...

【多线程5】面试常考锁知识点

文章目录 悲观/乐观锁挂起等待锁/自旋锁偏向锁轻量级/重量级锁锁升级CASCAS引发的ABA问题解决方案 原子类 公平/不公平锁可重入锁ReentrantLock读写锁 Callable接口 这里的“悲观”“乐观”“挂起等待”“自旋”“轻量级”“重量级”“公平”“非公平”“可重入”仅代表某个锁的…...

Linux第一个系统程序——进度条

1.回车与换行 回车(CR, \r): 作用:将光标移动到当前行的行首(最左侧),但不换到下一行。 历史来源:源自打字机的“回车”操作——打字机的滑架(Carriage)需…...

C 语 言 --- 指 针 3

C 语 言 --- 指 针 3 函 数 指 针函 数 指 针 数 组代 码 解 释回 调 函 数 - - - qsort模 拟 实 现 qsort 函 数 总结 💻作 者 简 介:曾 与 你 一 样 迷 茫,现 以 经 验 助 你 入 门 C 语 言 💡个 人 主 页:笑口常开x…...

蓝桥杯之递归

1.数字三角形 题目描述 上图给出了一个数字三角形。从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,你的任务就是找到最大的和(路径上的每一步只可沿左斜线向下或右斜线向下走)。 输…...

学习笔记十八——Rust 封装

🧱 Rust 封装终极指南:结构体、模块、Trait、目录结构与模块引用 🧭 目录导航 什么是封装?Rust 的封装理念Rust 的封装工具总览模块(mod)和访问控制(pub)详解结构体和枚举&#xff…...

【面试向】点积与注意力机制,逐步编码理解自注意力机制

点积(dot product)两个向量点积的数学公式点积(dot product)与 Attention 注意力机制(Attention)注意力机制的核心思想注意力机制中的缩放点积自注意力机制中,谁注意谁? 逐步编码理解…...

基础数学知识-线性代数

1. 矩阵相乘 c i j = a i k ∗ b k j c_{ij} = a_{ik} * b_{kj} cij​=aik​∗bkj​ 1. 范数 1. 向量的范数 任意一组向量设为 x ⃗ = ( x 1 , x 2 , . . . , x N ) \vec{x}=(x_1,x_2,...,x_N) x =(x1​,x2​,...,xN​) 如下: 向量的1范数: 向量的各个元素的绝对值之和∥ …...

【KWDB 创作者计划】_上位机知识篇---Docker容器

文章目录 前言1. Docker 容器是什么?隔离性轻量级可移植性可复用性 2. Docker 核心概念镜像容器仓库Dockerfile 3. Docker 基本使用(1) 安装 Docker(2) 容器生命周期管理(3) 镜像管理(4) 进入容器内部(5) 数据持久化(挂载卷)(6) 网络管理 4. …...

指针函数和函数指针

指针函数本质是一个函数,只是函数的返回值是指针类型 函数指针本质是一个指针,只是这个指针指向的是一个函数 指针函数 函数有很多类型的返回值,例如 short funcA(参数列表) // 表示该函数返回值是一个short类型 void funcA(参数列表) // 表…...

案例驱动的 IT 团队管理:创新与突破之路:第六章 组织进化:从案例沉淀到管理体系-6.1 案例库建设方法论-6.1.2案例分级与标签体系

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 案例分级与标签体系构建方法论:IT团队知识管理的结构化实践1. 案例库建设的战略价值与核心挑战1.1 案例管理的战略定位1.2 分级标签体系的核心价值 2. 案例分级体…...

sqlilabs-Less之HTTP头部参数的注入——基础篇

Less-18 user-agent报错注入 这一关的代码漏洞点出现在了insert语句,因为这里没有对user-agent和ip_address进行过滤,,并且输出了mysql的错误信息 补充知识点 PHP里用来获取客户端IP的变量 $_SERVER[HTTP_CLIENT_IP] #这个很少使用&#xf…...

java多线程相关内容

java线程创建的方式 一共有四种方式 继承 Thread 类:本质上是实现了 Runnable 接口的一个实例,代表一个线程的实例 启动线程的唯一方 法就是通过 **Thread 类的 start()**实例方法。start()方法是一个 native 方法,它将启动一个新线 程&…...

Windows Server .NET Core 应用程序部署到 IIS 解决首次访问加载慢的问题

第一篇: Windows .NET Core 应用程序部署到 IIS 解决首次访问加载慢的问题 第二篇:Windows Server .NET Core 应用程序部署到 IIS 解决首次访问加载慢的问题 第三篇:Windows .NET Core 应用程序部署到 IIS 解决首次访问加载慢的问题 设置…...

ubuntu24.04上使用qemu+buildroot+uboot+linux+tftp+nfs模拟搭建vexpress-ca9嵌入式linux开发环境

1 准备工作 1.1 安装依赖工具 sudo apt-get update && sudo apt-get install build-essential git bc flex libncurses5-dev libssl-dev device-tree-compiler1.2 安装arm交叉编译工具链 sudo apt install gcc-arm-linux-gnueabihf安装之后,在终端输入ar…...

Cocos Creater打包安卓App添加隐私弹窗详细步骤+常见问题处理

最终演示效果,包含所有代码内容 + 常见错误问题处理 点击服务协议、隐私政策,跳转到相关网页, 点击同意进入游戏,不同意关闭应用 一,添加Activity,命名为MyLaunchActivity 二,编写MyLaunchActivity.java的内容 package com.cocos.game.launch;import android.os.Bund…...

UI文件上传

1、文件上传:文件上传是自动化中比较麻烦棘手的部分。 有些场景我们需要上传本地文件到项目里。这种比较麻烦,因为需要点开文件上传的窗口后,打开的是windows的文件选择窗口, 而selenium是无法操作这个窗口的。 selenium只能操作…...

2.凸包优化求解

1.减而治之(Decrease and Conquer) 插入排序 典型的减而治之算法就是插入排序方法 插入排序法: 在未排序中选择一个元素,插入到已经排序号的序列中 将凸包也采用减而治之的方法 2.In-Convex-Polygon Test 怎么判断引入的极点存在于多边形里面还是外面&#xff1…...

从0开发一个unibest+vue3项目,使用vscode编辑器开发,总结vue2升vue3项目开始,小白前期遇到的问题

开头运行可看官网 链接: unibest官网 一:vscode中vue3代码显示报错标红波浪线 去查看扩展商店发现一些插件都弃用了,例如h5的插件以及vue老插件 解决办法:下载Vue - Official插件(注意:横杠两边是要加空格的&#xff…...

jmeter中文乱码问题解决

修改jmeter.properties配置文件‌ 进入JMeter安装目录的bin文件夹,找到jmeter.properties文件。搜索参数sampleresult.default.encodingUTF-8,取消注释(删除行首的#),并将其值改为UTF-8。保存文件并‌重启JMeter‌生效…...

额外篇 非递归之美:归并排序与快速排序的创新实现

个人主页:strive-debug 快速排序非递归版本 非递归版本的快速排序是为了解决在空间不够的情况下,利用栈来模拟递归的过程。 递归版本的快速排序是空间换时间,好实现。 实现思路: 1. 创建一个栈,将数组的右边界下标和…...

[文献阅读] EnCodec - High Fidelity Neural Audio Compression

[文献信息]:[2210.13438] High Fidelity Neural Audio Compression facebook团队提出的一个用于高质量音频高效压缩的模型,称为EnCodec。Encodec是VALL-E的重要前置工作,正是Encodec的压缩量化使得VALL-E能够出现,把语音领域带向大…...

JavaSpring 中使用 Redis

创建项目 配置 Redis 服务地址 创建 Controller 类 由于当前只是些简单的测试代码,所以就不进行分层了,只创建一个 Controller 来实现 jedis 通过 jedis 对象里的各种方法来操作 Redis 此处通过 StringRedisTemplate 来操作 Redis 最原始提供的类是 Re…...

B端可视化像企业数据的透视镜,看清关键信息

在数字化时代,数据已成为企业最宝贵的资产之一。然而,数据的价值不仅取决于其数量,更在于企业能否快速、准确地提取关键信息并据此做出决策。B端可视化技术的出现,为企业提供了一种强大的工具,它如同企业的“透视镜”&…...

【愚公系列】《Python网络爬虫从入门到精通》055-Scrapy_Redis分布式爬虫(安装Redis数据库)

🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! &#x1f…...

【MySQL】SQL语句在MySQL中的执行过程?主要存储引擎区别?

MySQL SQL语句执行过程详解 作为面试官,我来详细剖析一条SQL语句在MySQL中的完整执行过程,这是每个后端开发者都应该掌握的核心知识。 一、连接阶段 建立连接 客户端通过TCP/IP协议与MySQL服务器建立连接(默认3306端口)服务器验证用户名、密码和权限…...

致远OA——数据回填表单

文章目录 :apple: 业务需求描述:pineapple: 业务分析和实现 🍎 业务需求描述 测试案例: https://pan.quark.cn/s/3f58972f0a27 官网地址: https://open.seeyoncloud.com/v5devCAP/94/355/359/399/405/406.html 需求描述: 点…...

MongoDB导出和导入数据

安装mongodump工具 参考文章mongodump工具安装及使用详解_mongodump安装-CSDN博客 MongoDB导入导出和备份的命令工具从4.4版本开始不再自动跟随数据库一起安装,而是需要自己手动安装。 官方网站下载链接:Download MongoDB Command Line Database Tools …...

蓝桥杯之递归二

1.数的划分 题目描述 将整数 nn 分成 kk 份,且每份不能为空,任意两份不能相同(不考虑顺序)。 例如:n7,k3n7,k3,下面三种分法被认为是相同的。 1,1,5;1,5,…...

【大疆dji】ESDK开发环境搭建(软件准备篇)

接上一篇【大疆dji】ESDK开发环境搭建(硬件准备篇) 1. 编译环境 ESDK 提供 x86_64/aarch64 基于 Linux 平台 Ubuntu 发行版操作系统构建的静态库,运行 demo 先正确安装所需的依赖包。arm32位就不支持了。建议使用编译安装的方式,…...

Android TTY设备调用流程和简单分析

Linux TTY系统中ioctl的调用流程详解:从应用层到MSM GENI Serial驱动 本文档详细分析Linux系统中从用户空间应用程序发起TTY ioctl请求到特定驱动(例如msm_geni_serial_ioctl)的完整调用流程,包括32位应用与64位内核之间的兼容性问题分析。 1. 总体调用路径概览 以下是完…...

数字孪生赋能管理系统,降本增效立竿见影

1. 数字孪生基础概念及其在管理系统中的应用前景 数字孪生是一种集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。其核心在于将现实世界中的物理对象或系统与其数字化模型相结合&…...

Java学习手册:Web 应用架构概述

一、Web 应用架构的演变 在互联网发展的初期阶段,Web 应用普遍采用客户端 / 服务器(C/S)架构模式。客户端应用程序与服务器端应用程序直接建立连接,进行数据交互和业务处理。然而,这种架构存在诸多局限性。由于客户端…...

企业网站安装 SSL安装的必要性

能够带来安全的加密和快速的访问体验,防止中间人的流量劫持,保障用户隐私信息的安全,帮助用户识别钓鱼网站,提升网站在搜索引擎的排名。 能够防止黑客盗走客户银行卡账号的机密信息,保证信息的机密性,防止…...

【CF】Day38——Codeforces Round 965 (Div. 2) B

B. Minimize Equal Sum Subarrays 题目: 思路: 直觉题 我们可以这样构造,将整个数列左移一位即可,为什么呢? 因为这样我们能尽可能地保证数列的数字尽可能多的同时 且 有一个数不同 这里介绍一个rorate函数&#xf…...

leetcode 300. Longest Increasing Subsequence

目录 题目描述 第一步,明确并理解dp数组及下标的含义 第二步,分析明确并理解递推公式 第三步,理解dp数组如何初始化 第四步,理解遍历顺序 代码 题目描述 这是动态规划解决子序列问题的例子。 第一步,明确并理解…...

解密大模型背后的秘密:训练、优化与挑战

解密大模型背后的秘密:训练、优化与挑战 在当今的人工智能领域,大模型(Large Language Models, LLMs)已经成为了一个不可忽视的存在。从自然语言处理到图像生成,再到推荐系统,大模型以其强大的泛化能力和创…...

第33讲|遥感大模型在地学分类中的初探与实战

目录 🧠 一、什么是“遥感大模型”? 📚 二、遥感大模型在地学分类中的优势 📍三、案例:使用 Segment Anything Model (SAM) 进行遥感地物分割 📦 1. 安装与依赖配置(PyTorch) 🖼 2. 读取遥感图像(可用 Sentinel-2 伪彩色图) 🔧 3. SAM 模型载入 💡 …...

LeetCode 438 找到字符串中所有字母异位词

给定两个字符串 s 和 p,找到 s 中所有 p 的 异位词 的子串,返回这些子串的起始索引。不考虑答案输出的顺序。 示例 1: 输入: s "cbaebabacd", p "abc" 输出: [0,6] 解释: 起始索引等于 0 的子串是 "cba", 它是 "…...

【25软考网工笔记】第二章(6)脉冲编码调制PCM、通信和交换方式

目录 一、脉冲编码调制PCM 1. 脉冲编码调制的数字化过程 1)采样 2)量化 3)编码 2. PCM计算 3. 应用案例 1)例题1 2)例题1 3)例题3 知识小结 二、通信和交换方式 1.数据通信方式分类 1&#x…...

JSON学习笔记

文章目录 1. JSON是什么2. JSON的特点与结构3. JSON的使用4. JSON文件读取 1. JSON是什么 JSON(JavaScript Object Notation,JavaScript对象表示法)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和…...

高阶指南:动态定价下eBay利润率控制的4维财务模型

在eBay平台上,动态定价(Dynamic Pricing)早已不是新鲜概念。随着市场供需的瞬时波动、竞争产品的变化,以及跨境电商红海局势的加剧,卖家若想在残酷的价格战中保住利润、稳住运营基本盘,仅靠经验主义已经远远…...

【NLP 66、实践 ⑰ 基于Agent + Prompt Engineering文章阅读】

你用什么擦干我的眼泪 莎士比亚全集 工业纸巾 还是你同样泛红的眼睛 —— 4.19 一、⭐【核心函数】定义大模型调用函数 call_large_model prompt:用户传入的提示词(如 “请分析这篇作文的主题”),指导模型执行任务 client&…...

Keil MDK中禁用半主机(No Semihosting)

在 ARM 编译器(如 Keil MDK) 中禁用半主机(Semihosting)并实现标准库的基本功能,需要以下步骤: 1. 禁用半主机 #pragma import(__use_no_semihosting) // 禁用半主机模式作用:防止标准库函数&…...

QML中的3D功能--纹理应用

Qt 3D 提供了强大的纹理支持,可以实现各种复杂的材质效果。以下是 Qt 3D 纹理开发的全面技术方案。 一、纹理处理的流程图 纹理处理关键步骤说明: 资源准备阶段 支持格式:PNG/JPG/KTX/DDS等 尺寸要求:建议2的幂次方(非强制) 纹理加载路径 qml Texture2D {source: "…...

LeetCode[459]重复的子字符串(KMP解法)

思路: 最近迷上了KMP算法,所以这道题也是来搞一下KMP算法,总所周知KMP是需要维护一个前缀表,KMP算法不是比较一个字符串包不包含另一个字符串的吗,这个重复字符串的题也能用?猫爷:毋庸置疑&…...

数据驱动未来:大数据在智能网联汽车中的深度应用

数据驱动未来:大数据在智能网联汽车中的深度应用 引言 随着智能网联汽车(Intelligent Connected Vehicles,ICV)的快速发展,数据已成为其核心驱动力。从实时交通数据到车辆传感器信息,大数据的深度应用正在让智能汽车更安全、更高效、更智能化。那么,大数据如何赋能智能…...

基于MCP的RAG系统实战:用Cursor+GroundX构建复杂文档问答引擎

在AI与文档处理的融合趋势下,基于MCP协议的RAG(Retrieval-Augmented Generation)系统为复杂文档的智能问答提供了全新解决方案。本文将详细解析如何通过Cursor编辑器(MCP客户端)与GroundX(MCP服务器)的组合,构建一个可处理科研文献、企业知识库的端到端问答系统,并提供…...