当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（十五）

news 来源：原创 2025/9/13 7:10:57

请添加图片描述 ## Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
➡️ 论文标题：Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
➡️ 论文作者：Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun
➡️ 研究机构: Huazhong University of Science and Technology, Lehigh University
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在生成详细图像描述、代码生成、视觉对象定位和高级多模态推理等任务中表现出强大的能力。然而，这些模型在训练过程中可能会接触到有害或私密内容，因此需要通过安全机制进行微调，以确保生成的内容安全。尽管如此，研究发现，通过对抗性攻击，可以绕过这些模型的安全约束和内容过滤机制，尤其是通过模型API的漏洞。
➡️ 研究动机：现有的研究主要集中在模型输入中的对抗性样本，而对模型API中的漏洞关注较少。为了填补这一研究空白，研究团队发现了GPT-4V中的系统提示泄露漏洞，并基于此提出了一种新的MLLM破解攻击方法——SASP（Self-Adversarial Attack via System Prompt）。此外，研究还探讨了修改系统提示以防御破解攻击的潜力。
➡️ 方法简介：研究团队通过精心设计的对话模拟，成功提取了GPT-4V的内部系统提示。基于这些系统提示，他们开发了SASP方法，通过GPT-4作为红队工具，自动搜索潜在的破解提示。此外，通过人工修改这些提示，进一步提高了攻击成功率至98.7%。研究还评估了修改系统提示以防御破解攻击的效果，结果表明，适当设计的系统提示可以显著降低破解成功率。
➡️ 实验设计：实验在三个公开数据集上进行，包括面部识别任务。实验设计了不同语言（英语、中文、泰语）的四种提示类型（直接请求、基线攻击、SASP、SASP+人工修改），以全面评估模型对破解提示的敏感性和抗干扰能力。实验结果表明，SASP方法在英语提示下的攻击成功率为59%，而经过人工修改后的攻击成功率高达99%。此外，研究还通过系统提示召回方法，评估了系统提示在防御破解攻击中的有效性。

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

➡️ 论文标题：Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
➡️ 论文作者：Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
➡️ 研究机构: vivo Mobile Communication Co., Ltd
➡️ 问题背景：当前的伪装物体检测（Camouflaged Object Detection, COD）方法主要依赖于监督学习模型，这些模型需要大量准确标注的数据集，导致其泛化能力较弱。此外，现有的COD方法在处理新场景时表现不佳，尤其是在视频伪装物体检测（VCOD）等新场景中，性能显著下降。
➡️ 研究动机：为了克服现有COD方法的局限性，研究团队提出了一种基于多模态大语言模型（Multimodal Large Language Models, MLLMs）的零样本伪装物体检测框架（Multimodal Camo-Perceptive Framework, MMCPF）。该框架旨在利用MLLMs的强大泛化能力，提高在伪装场景中的检测性能，而无需重新训练或微调模型。
➡️ 方法简介：研究团队设计了链式视觉感知（Chain of Visual Perception, CoVP）机制，从语言和视觉两个方面增强MLLMs在伪装场景中的感知能力。CoVP包括语言提示机制和视觉完成机制，前者通过描述伪装物体的属性、多义性和多样性来增强MLLMs的感知能力，后者通过改进MLLMs输出的不确定坐标来提高最终生成的二值掩码的准确性。
➡️ 实验设计：研究团队在五个广泛使用的COD数据集上进行了实验，包括CAMO、COD10K、NC4K、MoCA-Mask和OVCamo。实验设计了不同的提示机制，从简单的文本提示到包含物理和动态描述的复杂提示，以及视觉完成机制，以全面评估MMCPF在不同条件下的表现。实验结果表明，MMCPF在零样本设置下显著优于现有的零样本COD方法，并且在弱监督和全监督方法中也表现出竞争力。

InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models

➡️ 论文标题：InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
➡️ 论文作者：Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景：多模态大型语言模型（MLLMs）在人工智能领域日益突出，不仅在传统的视觉-语言任务中表现出色，还在当代多模态基准测试中展示了令人印象深刻的能力。然而，现有的多模态基准测试通常集中在基本的推理任务上，往往只能产生简单的“是/否”或多选答案，这导致了对MLLMs推理能力评估的混淆和困难。
➡️ 研究动机：为了缓解这一问题，研究团队手动策划了一个专门针对MLLMs的基准数据集，重点在于复杂的推理任务。该基准数据集包括三个关键的推理类别：演绎推理、溯因推理和类比推理。每个样本都设计了多个步骤的推理过程，以评估模型在生成答案时的推理能力。
➡️ 方法简介：研究团队提出了一个系统的方法，通过构建InfiMM-Eval基准数据集，来评估MLLMs在复杂视觉推理问题上的表现。该数据集不仅包括图像和问题，还包括详细的推理步骤，这些步骤对于评估模型的推理能力至关重要。评估协议包括直接正确答案的满分和基于推理步骤的相关性和逻辑性的部分分数。
➡️ 实验设计：研究团队在InfiMM-Eval基准数据集上对多个代表性的MLLMs进行了评估，包括了演绎推理、溯因推理和类比推理的样本。实验设计了不同复杂度的推理任务，以全面评估模型的推理能力和决策过程。评估结果通过一个综合的评分系统计算，该系统考虑了推理的复杂度和模型生成答案的准确性。

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

➡️ 论文标题：LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
➡️ 论文作者：Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology, Shenzhen
➡️ 问题背景：现有的多模态大语言模型（MLLMs）主要采用粗略对齐的图像-文本对预训练的视觉编码器，导致视觉知识的提取和推理不足。这使得MLLMs在处理视觉-语言任务时，容易产生错误和幻觉响应。
➡️ 研究动机：为了克服这一问题，研究团队设计了一种双层视觉知识增强的多模态大语言模型（LION），通过细粒度的空间感知视觉知识和高层次的语义视觉证据的注入，提升MLLMs的视觉理解能力。
➡️ 方法简介：LION通过两个层面增强视觉信息：1) 逐步融合细粒度的空间感知视觉知识，设计了一个视觉聚合器与区域级视觉-语言任务合作，采用分阶段的指令调优策略和混合适配器来解决图像级和区域级任务之间的冲突；2) 软提示高层次的语义视觉证据，利用图像标签作为补充信息，并设计了一种软提示方法来减轻不准确标签的影响。
➡️ 实验设计：在多个多模态基准数据集上进行了实验，包括图像描述生成、视觉问答（VQA）和视觉定位任务。实验结果表明，LION在多个任务上显著优于现有模型，例如在VSR任务上比InstructBLIP提高了约5%的准确率，在TextCaps任务上提高了约3%的CIDEr分数，在RefCOCOg任务上比Kosmos-2提高了约5%的准确率。

A Survey on Multimodal Large Language Models for Autonomous Driving

➡️ 论文标题：A Survey on Multimodal Large Language Models for Autonomous Driving
➡️ 论文作者：Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng
➡️ 研究机构: Purdue University, Tencent T Lab, University of Illinois Urbana-Champaign, University of Virginia, New York University, PediaMed AI, SambaNova Systems, Inc, Objective, Inc
➡️ 问题背景：随着大型语言模型（LLMs）和视觉基础模型（VFMs）的出现，多模态AI系统在感知现实世界、做出决策和控制工具方面展现出与人类相当的潜力。LLMs在自动驾驶和地图系统中受到了广泛关注。尽管具有巨大潜力，但目前对将LLMs应用于自动驾驶系统的关键挑战、机遇和未来方向的理解仍然不足。
➡️ 研究动机：为了系统地探讨多模态大型语言模型（MLLMs）在自动驾驶中的应用，本文提供了该领域的全面调查。研究旨在介绍MLLMs的背景、发展以及自动驾驶的历史，概述现有的MLLM工具、数据集和基准，总结首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的工作，并讨论使用MLLMs在自动驾驶系统中需要解决的重要问题。
➡️ 方法简介：研究团队通过分析现有文献和数据集，总结了MLLMs在自动驾驶中的应用，特别是在感知、运动规划和运动控制模块中的作用。此外，研究还探讨了MLLMs在提高车辆智能、决策和乘客互动方面的潜力。
➡️ 实验设计：研究没有进行具体的实验设计，而是通过文献综述和案例分析，探讨了MLLMs在自动驾驶中的应用现状和未来方向。研究团队还组织了首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)，以促进学术界和工业界的合作，探索多模态大型语言模型在自动驾驶领域的可能性和挑战。

多模态大语言模型arxiv论文略读（十五）

## Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts ➡️ 论文标题：Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts ➡️ 论文作者：Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun ➡️ 研究机…...

编程日记 2025/9/13 7:10:57

漏洞报告：多短视频平台时间差举报滥用漏洞

漏洞标题：跨平台内容发布时序漏洞导致的恶意举报攻击向量漏洞类型：逻辑缺陷/滥用机制漏洞等级：中高风险漏洞描述： 攻击者可利用多平台内容发布时间差，伪造原创证明对合法内容发起恶意举报。该漏洞源于平台间缺乏发…...

编程日记 2025/9/13 7:04:35

【LINUX】学习宝典

一.Linux系统常用单词翻译 1.new folder 新建文件夹 2.paste 粘贴 3.select all 全选 4.open in terminal 打开终端/命令行 5.keep aligned 保持对齐 6.organize deaktop by name按名称组织桌面 7.change background更改背景 8.cancel 取消 9.create创造创建 10.wal…...

编程日记 2025/9/12 22:51:46

青少年编程考试 CCF GESP图形化编程四级认证真题 2025年3月

图形化编程四级 2025 年 03 月一、单选题（共 10 题，每题 2 分，共 30 分） 1、2025 年春节有两件轰动全球的事件，一个是 DeepSeek 横空出世，另一个是贺岁片《哪吒 2》票房惊人，入了全球票房榜…...

编程日记 2025/9/13 7:06:46

学习海康VisionMaster之平行线查找

一：进一步学习了今天学习下VisionMaster中的平行线查找，这个还是拟合直线的衍生应用，可以同时测量两条线段，输出中线二：开始学习 1：什么是平行线查找？ 按照传统的算法，必须是开两…...

编程日记 2025/9/8 6:23:08

小甲鱼第004讲：变量和字符串（下）| 课后测试题及答案

问答题: 0. 请问下面代码有没有毛病，为什么? 请问下面代码为什么会出错，应该如何解决？ 答:这是由于在字符串中，反斜杠()会与其随后的字符共同构成转义字符。为了避免这种不测情况的发生，我们可以在字符串的引号前面…...

编程日记 2025/9/13 7:06:45

2025 蓝桥杯省赛c++B组个人题解

声明本题解为退役蒻苟所写，不保证正确性，仅供参考。花了大概2个半小时写完，感觉比去年省赛简单，难度大概等价于 codeforces dv4.5 吧菜鸡不熟悉树上背包，调了一个多小时题目旁边的是 cf 预测分所有代码均以通…...

编程日记 2025/9/13 7:05:55

2025蓝桥杯算法竞赛深度突破：创新题型与高阶策略全解析

一、新型算法范式实战 1.1 元启发式算法应用（预测难度：★★★★） 题目场景：星际货物装载需在飞船载重限制下选择最优货物组合，引入遗传算法解决NP-Hard问题： 染色体编码：二进制串表示货物选择…...

编程日记 2025/9/13 7:04:03

网络流量管理-流（Flow）

1. 传统网络的问题：快递员送信模式想象你每天要寄100封信给同一个朋友，传统网络的处理方式就像一个固执的快递员： 每封信都单独处理：检查地址、规划路线、盖章、装车…即使所有信的目的地、收件人都相同，也要重复100…...

编程日记 2025/9/7 13:27:48

Spring Boot对接马来西亚股票数据源API

随着对东南亚市场的兴趣日益增长，获取马来西亚股票市场的实时和历史数据变得尤为重要。本文将指导您如何使用Spring Boot框架对接一个假定的马来西亚股票数据源API（例如，StockTV API），以便开发者能够轻松访问和处理这些…...

编程日记 2025/9/13 7:05:56

MySQL 面经

1、什么是 MySQL？ MySQL 是一个开源的关系型数据库，现在隶属于 Oracle 公司。是我们国内使用频率最高的一种数据库，我本地安装的是比较新的 8.0 版本。 1.1 怎么删除/创建一张表？ 可以使用 DROP TABLE 来删除表，使用…...

编程日记 2025/9/12 17:58:37

【Flink运行时架构】作业提交流程

本文介绍在单作业模式下Flink提交作业的具体流程，如下图所示。客户端将作业提交给YARN的RM；YARN的RM启动Flink JobManager，并将作业提交给JobMaster；JobMaster向Flink内置的RM请求slots；Flink内置的RM向YARN RM请求…...

编程日记 2025/9/13 7:04:04

【AutoTest】自动化测试工具大全（Java）

😊 如果您觉得这篇文章有用 ✔️ 的话，请给博主一个一键三连 🚀🚀🚀 吧 （点赞 🧡、关注 💛、收藏 💚）！！！您的支持 &#x…...

编程日记 2025/9/10 19:54:37

当DRAM邂逅SSD：新型“DRAM+”存储技术来了！

在当今快速发展的科技领域，数据存储的需求日益增长，对存储设备的性能和可靠性提出了更高的要求。传统DRAM以其高速度著称，但其易失性限制了应用范围；而固态硬盘SSD虽然提供非易失性存储，但在速度上远不及DRAM。为了解…...

编程日记 2025/9/13 7:09:56

【算法】快速排序

算法系列六：快速排序一、快速排序的递归探寻 1.思路 2.书写 3.搭建 3.1设计过掉不符情况（在最底层时） 3.2查验能实现基础结果（在最底层往上点时） 3.3跳转结果继续往上回搭 4.实质二、快速排序里的基准排序 …...

编程日记 2025/9/13 7:08:49

Python快速入门指南：从零开始掌握Python编程

文章目录前言一、Python环境搭建🥏1.1 安装Python1.2 验证安装1.3 选择开发工具二、Python基础语法📖2.1 第一个Python程序2.2 变量与数据类型2.3 基本运算三、Python流程控制🌈3.1 条件语句3.2 循环结构四、Python数据结构🎋…...

编程日记 2025/9/13 7:09:55

机器学习中的数学（PartⅡ）——线性代数：2.1线性方程组

概述： 现实中很多问题都可被建模为线性方程组问题，而线性代数为我们提供了解决这类问题的工具。先看两个例子： 例子1： 一家公司有n个产品，分别是，生产上述产品需要m种原料，每个产品需要其中一…...

编程日记 2025/9/13 7:10:56

大模型上下文协议MCP详解（2）—核心功能

编程日记 2025/9/8 15:48:19

检测到目标URL存在http host头攻击漏洞

漏洞描述修复措施方法一： nginx 的 default_server 指令可以定义默认的 server 去处理一些没有匹配到 server_name 的请求，如果没有显式定义，则会选取第一个定义的 server 作为 default_server。 server {listen 80 default_server; …...

编程日记 2025/9/13 7:08:48

【 Beautiful Soup (bs4) 详解】

引言 Beautiful Soup 是 Python 最流行的 HTML/XML 解析库，能够从复杂的网页文档中高效提取数据。以下是其核心知识点及示例代码。一、库简介 1. 核心模块 BeautifulSoup：主类，用于构建文档树结构Tag：表示 HTML/XML 标签的对象…...

编程日记 2025/9/12 20:38:40

Cuto壁纸 2.6.9 | 解锁所有高清精选壁纸，无广告干扰

Cuto壁纸 App 提供丰富多样的壁纸选择，涵盖动物、风景、创意及游戏动漫等类型。支持分类查找与下载，用户可轻松将心仪壁纸设为手机背景，并享受软件内置的编辑功能调整尺寸。每天更新，确保用户总能找到新鲜、满意的壁纸。大小&am…...

编程日记 2025/9/13 7:04:04

人工智能之数学基础：复矩阵

本文重点复矩阵是线性代数中以复数为元素的矩阵，是实矩阵在复数域上的自然推广。与实矩阵相比，复矩阵在数学性质、运算规则和应用场景上具有独特性，尤其在量子力学、信号处理、控制理论等领域发挥关键作用。复矩阵的定义与表示定义：复矩阵指的是元素含有复数的矩阵。…...

编程日记 2025/9/13 7:06:45

numpy初步掌握

文章目录一、前言二、概述2.1 安装2.2 基础三、数组3.1 数组创建3.1.1 从已有数据创建3.1.2 创建特殊值数组3.1.3 创建数值范围数组3.1.4 随机数组生成3.1.5 其他 3.2 数组属性四、数组操作4.1 索引/切片4.2 数组遍历4.3 修改形状4.4 更多五、数组运算5.1 常规运算5.2 广播…...

编程日记 2025/9/13 3:58:48

unity曲线射击

b站教程 using UnityEngine; using System.Collections;public class BallLauncher : MonoBehaviour {public float m_R;public NewBullet m_BulletPre;public Transform m_Target;private void Start(){StartCoroutine(Attack());}private void OnDestroy(){StopAllCoroutine…...

编程日记 2025/9/12 21:03:32

[特殊字符] 各领域 Dummy 开关实现方式大集合

涵盖硬件、软件、工业控制、游戏开发及网络虚拟化场景： 🔌 1. 电子 / 硬件工程 🛠️ (1) 物理替代方案 🧲 跳线帽（Jumper）或短路块 👉 模拟开关“开/关”状态 ✅ 示例：开发板上的 B…...

编程日记 2025/9/12 6:12:08

深度解析基于 Web Search MCP的Deep Research 实现逻辑

写在前面大型语言模型（LLM）已成为我们获取信息、生成内容的重要工具。但它们的知识大多截止于训练数据的时间点，对于需要实时信息、跨领域知识整合、多角度观点比较的深度研究 (Deep Research) 任务，它们往往力有不逮。如何让 LLM 突破自身知识的局限，像人类研究员一样，…...

编程日记 2025/9/7 21:53:46

set 的 contains

语法： set<int> num_set; st.contains(num); 在 C 中，!num_set.contains(num - 1) 这行代码通常用于检查一个集合（num_set）中是否不存在某个值（num - 1）。以下是对这行代码的详细解释：…...

编程日记 2025/9/12 9:52:19

深度学习总结（7）

用计算图进行自动微分思考反向传播的一种有用方法是利用计算图（compu- tation graph）。计算图是TensorFlow和深度学习革命的核心数据结构。它是一种由运算（比如我们用到的张量运算）构成的有向无环图。下图给出了一个模型的计算图表示。计算图是计算机科学中一个非常…...

编程日记 2025/9/11 4:04:06

linux网络环境配置

今天我们来了解一下ip获取的两种方式,知道两者的特点,并且学会配置静态ip,那么话不多说,来看. linux网络环境配置. .第一种方式(自动获取): 说明:登录后,通过界面的来设置自动获取ip,特点;Linux启动后会自动获取ip,缺点是每次自动获取的ip地址可能不一样. 第二种方式(指定I…...

编程日记 2025/9/9 1:31:13

SSRF漏洞公开报告分析

编程日记 2025/9/10 1:26:33

Java接口深度解析

一、为什么需要接口接口是Java实现多态的重要机制，核心价值体现在： 实现多继承能力：突破单继承限制，允许类实现多个接口规范系统解耦：制定通用标准，隔离实现与调用方增强扩展性…...

编程日记 2025/9/7 15:15:47

VitePress 项目部署 cloudflare page 提示 npm run build 错误

构建的错误信息如下： 09:52:57.975 ➤ YN0000: Done with warnings in 3s 120ms 09:52:58.072 Executing user command: npm run build 09:52:58.817 npm ERR! Missing script: "build" 09:52:58.818 npm ERR! 09:52:58.818 npm ERR! To see a list of …...

编程日记 2025/9/4 1:20:19

#Hash 模式 vs History 模式

📌 一、概念对比：Hash 模式 vs History 模式特性Hash 模式History 模式URL 样式http://example.com/#/homehttp://example.com/home是否刷新页面❌ 不会刷新（仅 hash 变化）✅ 通过 HTML5 API 控制，不刷新原理window.…...

编程日记 2025/9/12 15:55:42

图像融合（Image Fusion）是什么

图像融合（Image Fusion）将来自相同类型传感器或成像方式的多幅图像（通常内容是一样的）进行融合，提高图像清晰度、对比度、空间或时间分辨率。得到比原始图像更清晰或信息更丰富的图像常见类型： 多时相图…...

编程日记 2025/9/9 6:41:14

基于YOLOV8的中草药识别检测系统（包含数据集+PyQt5界面+系统代码）

一、简介本项目构建了基于 YOLOV8 深度学习网络模型的中草药识别检测系统。凭借 YOLOV8 卓越的性能，该系统能够高效、精准地识别检测大枣、百合、黄连、乌梅、厚朴、牡蛎、海马、罗汉果、甘草、三七、通草、薏苡仁、枸杞子、八角茴香等 50种常见植物中草…...

编程日记 2025/9/9 22:57:42

【愚公系列】《高效使用DeepSeek》066-纠纷解决话术

🌟【技术大咖愚公搬代码：全栈专家的成长之路，你关注的宝藏博主在这里！】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主！ 👉 江湖人称"愚公搬代码"，用七年如一日的精神深耕技术领域，以"…...

编程日记 2025/9/8 12:19:54

7. 解立方根

题目描述给定一个正整数 N，请你求 N 的立方根是多少。输入描述第 1 行为一个整数 T，表示测试数据数量。接下来的 T 行每行包含一个正整数 N。 1≤T≤105，0≤N≤105。输出描述输出共 T 行，分别表示每个测试数据的答案…...

编程日记 2025/9/7 15:21:30

【愚公系列】《Python网络爬虫从入门到精通》047-验证码识别（第三方验证码识别）

编程日记 2025/9/12 14:46:13

C++指针（二）

个人主页：PingdiGuo_guo 收录专栏：C干货专栏前言本篇是介绍数组指针与指针数组的概念，用处，操作以及练习的。点赞破五十，更新下一期。文章目录 1.数组指针 1.1数组指针的概念 1.2数组指针的用处 1.3数组指针的操…...

编程日记 2025/9/4 12:01:46

C++有关内存的那些事

个人主页：PingdiGuo_guo 收录转栏：C干货专栏前言本篇博客是讲解关于C内存的一些知识点的。文章目录前言 1.内存函数 1.1memcpy函数 1.2memmove函数 1.3 memset函数 2.各数据类型占用 2.1bool类型 2.2char类型 2.3short、int、long类型及整数…...

编程日记 2025/9/3 3:58:20

4.11时钟延迟

时钟偏差：同一个时钟域内的时钟信号到达数字电路的各个部分（寄存器）所用的时间差异信号达到目标寄存器与接收寄存器的时间差【一般默认信号经过电路时间不计，】图源：优化时钟网络之时钟偏移-CSDN博客时钟周期是计…...

编程日记 2025/9/11 10:34:31

下列软件包有未满足的依赖关系: python3-catkin-pkg : 冲突: catkin 但是 0.8.10-

下列软件包有未满足的依赖关系: python3-catkin-pkg : 冲突: catkin 但是 0.8.10- 解决： 1. 确认当前的包状态首先，运行以下命令来查看当前安装的catkin和python3-catkin-pkg版本，以及它们之间的依赖关系： dpkg -l | grep ca…...

编程日记 2025/9/8 14:35:33

ANSI C 和 C89/C90

在嵌入式开发中提到的 ANSI 通常是指 ANSI C 标准，而 C89 是该标准的另一个名称。以下是详细的解释和两者的关系： 1. ANSI C 是什么？ ANSI（American National Standards Institute，美国国家标准协会）在 19…...

编程日记 2025/9/9 18:42:48

git仓库中.git文件夹过大的问题

由于git仓库中存放了较大的文件，之后即使在gitignore中添加，也不会导致.git文件夹变小。参考1 2 通过 du -d 1 -h查看文件大小使用 git rev-list --objects --all | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail…...

编程日记 2025/9/11 12:20:46

【android bluetooth 框架分析 01】【关键线程 6】【主线程与核心子线程协作机制】

主线程与核心子线程的协作机制一、蓝牙进程中的线程架构全景图在Android蓝牙协议栈中，线程分工非常明确，形成了一个高效的协作体系。我们可以将其想象成一个医院的组织架构： 主线程：相当于医院的"前台接待处"&#…...

编程日记 2025/9/8 21:03:25

蓝桥杯比赛 python程序设计——神奇闹钟

问题描述小蓝发现了一个神奇的闹钟，从纪元时间（19701970 年 11 月 11 日 00：00：0000：00：00）开始，每经过 xx 分钟，这个闹钟便会触发一次闹铃 (纪元时间也会响铃)。这引起…...

编程日记 2025/9/8 18:15:05

旋转位置编码

旋转位置编码（Rotary Position Embedding，RoPE）: 一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。和相对位置编码相比，RoPE 具有更好的外推性，目前是大模型相对位…...

编程日记 2025/9/13 0:17:36

2025年第十八届“认证杯”数学中国数学建模网络挑战赛【B题】完整版+代码+结果

2025年第十八届“认证杯”数学中国数学建模网络挑战赛B题完整word论文代码结果https://download.csdn.net/download/qq_52590045/90592749↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓…...

编程日记 2025/8/17 19:25:15

管理、切换多个 hosts工具之SwitchHosts

管理、切换多个 hosts工具之SwitchHosts 官网：https://switchhosts.vercel.app/zh github: https://github.com/oldj/SwitchHosts 原作者博客：https://oldj.net/article/2015/12/20/switchhosts-v3/ SwitchHosts是一个用于管理hosts文件的应用程序&…...

编程日记 2025/9/10 5:51:34

【Reinforcement Learning For Quadruped Control】2

奖励函数。奖励函数是状态和动作的函数 r t ( s t , a t , s t 1 ) r_t(s_t, a_t, s_{t1}) rt(st,at,st1)，是强化学习（RL）算法的驱动力。在四足机器人等复杂系统的背景下，奖励可能是速度偏差与期望速度的差异、关节扭矩值…...

编程日记 2025/9/9 3:03:23

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

A Survey on Multimodal Large Language Models for Autonomous Driving

相关文章：