多模态大语言模型arxiv论文略读(八十六)
EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models
➡️ 论文标题:EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models
➡️ 论文作者:Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li
➡️ 研究机构: Fudan University、Shanghai Academy of AI for Science、Carnegie Mellon University
➡️ 问题背景:尽管文本到图像生成模型(Text-to-Image Generative Models)取得了显著进展,但该领域缺乏能够准确反映模型性能的评估指标,特别是缺乏能够指导模型优化的细粒度指标。现有的评估方法主要基于预训练模型,这些模型通常是在真实图像上训练的,但用于评估合成图像时表现不佳,存在数据偏差问题。
➡️ 研究动机:为了解决现有评估方法在合成图像评估中的不足,研究团队提出了EVALALIGN,这是一种新的评估指标,旨在通过细粒度的人类反馈数据对多模态大语言模型(MLLMs)进行监督微调(SFT),以实现与人类评估偏好的一致性。EVALALIGN不仅提供了更高的评估准确性,还能有效指导模型的优化方向。
➡️ 方法简介:研究团队构建了一个详细的、细粒度的人类反馈数据集,该数据集包含对合成图像的11项技能的评估,涵盖图像保真度和文本-图像对齐两个方面。通过监督微调(SFT),MLLMs被训练以与人类评估偏好对齐,从而能够准确评估合成图像的生成质量。
➡️ 实验设计:研究团队使用8种最先进的文本到图像生成模型生成了24,000张图像,并对这些图像进行了详细的多轮人工标注。标注内容包括图像中对象的识别、颜色、数量、空间关系等。通过这些标注数据,研究团队对MLLM进行了监督微调,并在24种文本到图像生成模型上进行了评估。实验结果表明,EVALALIGN在评估模型性能方面优于现有的评估方法,特别是在细粒度评估和与人类偏好一致性方面表现突出。
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
➡️ 论文标题:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
➡️ 论文作者:Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Ziteng Wang, Rob Fergus, Yann LeCun, Saining Xie
➡️ 研究机构: New York University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了强大的能力,但视觉组件的设计往往不足,且与视觉表示学习研究脱节。这种差距阻碍了在现实世界场景中实现准确的感官基础。研究团队通过使用LLMs和视觉指令调优作为接口,评估了各种视觉表示,提供了对不同模型和架构的新见解。
➡️ 研究动机:现有的多模态学习研究存在两个潜在问题:1) 过早地过度依赖语言可能成为捷径,补偿了学习有效视觉表示的不足;2) 现有基准可能无法为需要视觉基础的现实世界场景提供足够的指导。这些问题在某些具有挑战性的现实世界应用中尤为明显,尽管在提高一般能力方面取得了显著进展。
➡️ 方法简介:研究团队提出了Cambrian-1,这是一个以视觉为中心的多模态LLM系列。通过使用MLLM指令调优作为评估各种视觉表示的协议,研究团队系统地评估了不同视觉编码器及其组合对MLLM性能的影响。此外,团队还设计了一种新的动态和空间感知连接器(Spatial Vision Aggregator, SVA),以减少视觉令牌的数量,同时处理高分辨率图像。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言感知(Vision-Language Perception, VLP)和图像到图像(Image-to-Image, I2I)任务。实验设计了不同的视觉编码器、连接器设计、指令调优数据和基准测试,以全面评估模型在不同条件下的表现。团队还引入了一个新的视觉中心基准(CV-Bench),通过将传统视觉基准转换为VQA格式,更好地评估视觉表示。
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs
➡️ 论文标题:MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs
➡️ 论文作者:Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai, James M. Rehg, Aidong Zhang
➡️ 研究机构: University of Virginia、Purdue University、University of Illinois Urbana-Champaign、Georgia Institute of Technology
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在联合视觉-语言理解任务中表现出色,但其鲁棒性问题,尤其是虚假偏差(spurious biases)的影响,尚未得到充分探索。虚假偏差是指模型倾向于利用输入属性与目标变量之间的虚假相关性进行预测,这在单模态模型中已显示出严重的鲁棒性问题。然而,多模态模型中是否存在类似的虚假偏差,以及这些偏差对模型性能的影响程度,仍需进一步研究。
➡️ 研究动机:为了填补这一研究空白,研究团队分析了多模态设置中的虚假偏差,揭示了特定测试数据模式如何在视觉模型的偏差传递到视觉和文本标记之间的对齐时表现出来。通过引入MM-SPUBENCH,一个全面的视觉问答(VQA)基准,研究团队旨在评估MLLMs对九种不同类型的虚假相关性的依赖程度,从而为未来的鲁棒性研究提供支持。
➡️ 方法简介:研究团队提出了一种基于属性的自动VQA构建方法,通过理论分析MLLMs中的虚假偏差,构建了包含10,773张图像和2,400个VQA问题的基准。这些VQA问题涵盖了九种不同类型的虚假相关性,旨在系统地评估MLLMs在处理视觉和语言模态中的虚假相关性时的表现。
➡️ 实验设计:研究团队在五个开源图像数据集上进行了实验,设计了不同类型的虚假相关性(如背景、纹理、共现对象等),以评估MLLMs在不同条件下的表现。通过这些实验,研究团队揭示了当前MLLMs在处理虚假相关性时的局限性,并强调了改进模态对齐技术的紧迫性。
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
➡️ 论文标题:Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
➡️ 论文作者:Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee
➡️ 研究机构: 电子科技大学、新加坡科技设计大学、同济大学、新加坡国立大学
➡️ 问题背景:大型语言模型(LLMs)在文本数学问题解决方面展现了卓越的推理能力。然而,现有的开源图像指令微调数据集包含的每张图像的问题-答案对有限,未能充分利用视觉信息来增强多模态语言模型(MLLMs)的多模态数学推理能力。
➡️ 研究动机:为了弥补这一差距,研究团队收集了40,000张高质量图像及其对应的问题-答案对,这些图像和问题涵盖了代数、算术、几何、逻辑、数值常识、科学和视觉问答等多个领域。此外,研究团队提出了一种数据合成管道,基于40,000张图像和种子问题合成了320,000个新的问题-答案对,创建了MathV360K数据集,显著扩展了多模态数学推理的覆盖范围。
➡️ 方法简介:研究团队使用MathV360K数据集对LLaVA-1.5模型进行了微调,开发了Math-LLaVA模型。该模型在MathVista的minitest分割上实现了19%的性能提升,并在Math-V和MathVerse上取得了领先性能。此外,Math-LLaVA在MMMU基准测试中也展示了增强的泛化能力。
➡️ 实验设计:研究团队在MathVista、Math-V、MathVerse和MMMU等多个基准数据集上进行了实验,评估了Math-LLaVA在不同任务类型和难度下的表现。实验设计了多种数据增强方法,包括生成更复杂的问题、逻辑一致的问题和简化的问题,以全面评估模型的推理能力和鲁棒性。
Tell Me Where You Are: Multimodal LLMs Meet Place Recognition
➡️ 论文标题:Tell Me Where You Are: Multimodal LLMs Meet Place Recognition
➡️ 论文作者:Zonglin Lyu, Juexiao Zhang, Mingxuan Lu, Yiming Li, Chen Feng
➡️ 研究机构: New York University
➡️ 问题背景:视觉位置识别(Visual Place Recognition, VPR)是机器人技术中的一个长期挑战,主要任务是基于视觉输入准确识别之前访问过的位置。现有的VPR方法主要集中在视觉表示学习上,通过改进视觉特征的鲁棒性来应对光照、天气和临时物体等无关变化。然而,大型语言模型(LLMs)在推理和常识理解方面表现出色,但其在VPR中的应用尚未得到充分探索。
➡️ 研究动机:研究团队旨在探索如何将多模态大型语言模型(Multimodal LLMs, MLLMs)与视觉位置识别结合,以提高VPR的性能。通过利用视觉基础模型(Vision Foundation Models, VFMs)提供的通用视觉特征和MLLMs的推理能力,研究团队希望在不进行VPR特定监督训练的情况下,提供一个有效的VPR解决方案。
➡️ 方法简介:研究团队提出了一种视觉到语言(vision-to-language)的框架,首先使用视觉基础模型进行粗略检索,生成多个候选位置,然后利用多模态大型语言模型进行精细选择。具体来说,使用预训练的视觉基础模型DINOv2提取鲁棒的视觉特征,生成候选位置;然后使用多模态大型语言模型GPT-4V描述每个候选位置与当前观察之间的差异,并基于这些描述进行最终的推理,确定最佳候选位置。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括Tokyo247、Baidu Mall和Pittsburgh30K。实验评估了不同方法在不同场景下的性能,包括室内、街道视图和驾驶场景。实验结果表明,该方法在多个指标上优于仅基于视觉的方法,并且在某些情况下与监督方法的性能相当。
相关文章:
多模态大语言模型arxiv论文略读(八十六)
EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models ➡️ 论文标题:EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models ➡️ 论文作…...
C++--string类对象
一,引言 string类对象在于更好的处理字符串问题,为对于字符串这一类型提供更加方便的接口和运算符的重载。本片文章首先会引入auto关键字和范围for两个C11小语法。之后按照如下网站所提供的顺序经行讲解。cplusplus.com - The C Resources Networkhttps://legacy.c…...
云计算与大数据进阶 | 28、存储系统如何突破容量天花板?可扩展架构的核心技术与实践—— 分布式、弹性扩展、高可用的底层逻辑(下)
在上篇中,我们围绕存储系统可扩展架构详细探讨了基础技术原理与典型实践。然而,在实际应用场景中,存储系统面临的挑战远不止于此。随着数据规模呈指数级增长,业务需求日益复杂多变,存储系统还需不断优化升级࿰…...
Python _day31
DAY 31 文件的规范拆分和写法 今日的示例代码包含2个部分 notebook文件夹内的ipynb文件,介绍下今天的思路项目文件夹中其他部分:拆分后的信贷项目,学习下如何拆分的,未来你看到的很多大项目都是类似的拆分方法 知识点回顾 规范的文…...
【JavaWeb】MyBatis
1 介绍 什么是MyBatis? MyBatis是一款优秀的 持久层 框架,用于简化JDBC的开发。 MyBatis本是 Apache的一个开源项目iBatis,2010年这个项目由apache迁移到了google code,并且改名为MyBatis 。2013年11月迁移到Github。 MyBatis官网https://my…...
vue2实现【瀑布流布局】
瀑布流 1. 解释2. 形成结构和样式3. 自定义指令 1. 解释 瀑布流特征: 等宽不等高:元素宽度固定,高度根据内容自适应。错落排列:元素像瀑布一样从上到下依次填充,自动寻找最短列插入 体现:图中第一排1&…...
系统架构设计(十六):敏感点、权衡点、风险点和非风险点
术语定义 概念定义说明敏感点(Sensitivity Point)架构设计中对某个质量属性有显著影响的点,一旦改变该点,会显著影响系统的某个质量属性。风险点(Risk Point)由于架构决策带来的潜在失败风险,可…...
优化dp贪心数论
这次三个题目都来自牛客周赛93,个人觉得出的很好,收获颇多。 1.简单贪心 题目意思: 任意选定两个数字,相加之和替代两个数字中的一个,另一个抹除。求操作之后最大字典序之和 思路: 最大字典序之和&…...
详解MySQL 的 binlog,redo log,undo log
MySQL 的 binlog、redo log 和 undo log 是数据库事务处理与数据一致性的核心组件,各自承担不同的职责。 1. binlog(二进制日志) 定位:MySQL Server 层实现的逻辑日志,与存储引擎无关。作用: 主从复制&…...
SymPy|主元、重新表示、分数、约分表达式、极限、级数、ode、获取值、输出形式
SymPy 是一个 Python 的符号计算库,广泛应用于数学计算、物理建模、工程分析等领域。本文将详细介绍 SymPy 在处理主元操作、重新表示、分数、约分表达式、极限、级数、常微分方程(ODE)以及获取值和输出形式等方面的应用,通过完整…...
Java 05正则表达式
正则表达式 1.简介 一个字符串,指定一些规则,来校验其他的字符串 String s"";规则 需要进行匹配的字符串.matches(s);来判断2.字符类**(单个) [abc] String s"[ABC]"; "A".matches(s);返回true…...
IEEE 802.1Q协议下封装的VLAN数据帧格式
1.概要 802.1d定义了生成树 802.1w定义了快速生成树 802.1s定义了多生成树 802.1q定义了VLAN 2.说明 IEEE802.1q协议的作用是(生成VLAN标记)VLAN编号取值范围:0-4095,其中0和4095是保留编号,所最大值是ÿ…...
VMware三种网络配置对比
桥接模式(Bridged Mode) 核心特点: 虚拟机被视为局域网中的独立设备,直接使用物理网络适配器,需配置与宿主机同一网段的IP地址。 典型场景: 虚拟机需对外提供服务(如Web…...
再来1章linux系列-19 防火墙 iptables 双网卡主机的内核 firewall-cmd firewalld的高级规则
学习目标: 实验实验需求实验配置内容和分析 (每一个设备的每一步操作)实验结果验证其他 学习内容: 实验实验需求实验配置内容和分析 (每一个设备的每一步操作)实验结果验证其他 1.实验 2.实验需求 图…...
Word 转 HTML API 接口
Word 转 HTML API 接口 图像/转换 Word 文档转换为 HTML 文件转换 / 超高精度与还原度 文件转换 / Word。 1. 产品功能 超高精度与还原度的 HTML 文件转换;支持将 Word 文档转换为 HTML 格式;支持 .doc 和 .docx 格式;保持原始 Word 文档的…...
深入解析MATLAB codegen生成MEX文件的原理与优势
一、MATLAB codegen底层工作机制 1.1 MATLAB执行引擎的局限性 MATLAB作为解释型语言,其执行过程包含多个关键步骤: 语法解析:将.m文件代码转换为抽象语法树(AST) 类型推断:运行时动态确定变量类型 内存管理:自动处…...
PEFT简介及微调大模型DeepSeek-R1-Distill-Qwen-1.5B
🤗 PEFT(参数高效微调)是由Huggingface团队开发的开源框架,专为大型预训练模型(如GPT、LLaMA、T5等)设计,用于高效地将大型预训练模型适配到各种下游应用,而无需对模型的所有参数进行…...
Python训练营打卡 Day31
文件的规范拆分和写法 今日的示例代码包含2个部分 notebook文件夹内的ipynb文件,介绍下今天的思路项目文件夹中其他部分:拆分后的信贷项目,学习下如何拆分的,未来你看到的很多大项目都是类似的拆分方法 知识点回顾:文件…...
Google精准狙击OpenAI Codex,发布AI编程助手Jules!
自从OpenAI推出 Codex之后,Google就憋不住了,悄悄得瞄准了OpenAI的最新成果。 原计划是是打算在明天举行的Google I/O年度开发者大会上发布相关产品,但Google似乎已经一刻也等不了了。 就在昨天,谷歌正式推出了其AI编程——Ju…...
【办公类-18-04】(Python)“验血单信息”批量生成打印(学校、班级、姓名、性别)
背景说明 督导结束了,准备春游(夏游),搭档在给孩子写打卡单、心愿单,感慨“好多字都不会写了!” 此时,保健老师来发体检材料,叮嘱红色验血单的填写方法。 我觉得我的字也是一塌糊涂。我想用以前做“毕业证书”的方式,将班级幼儿信息打印在体检单上。 【办公类-18-03…...
如何使用通义灵码提高前端开发效率
工欲善其事,必先利其器。对于前端开发而言,使用VSCode已经能够极大地提高前端的开发效率了。但有了AI加持后,前端开发的效率又更上一层楼了! 本文采用的AI是通义灵码插件提供的通义千问大模型,是目前AI性能榜第一梯队…...
苍穹外卖04 新增菜品菜品分页查询删除菜品修改菜品
2-6 新增菜品 02 05-新增菜品_需求分析和设计 03 06-新增菜品_代码开发_1 文件上传接口开发: 在这一部分我们主要在于对阿里云oss的代码开发和实现 1.配置阿里云oss: alioss:endpoint: oss-cn-beijing-internal.aliyuncs.comaccess-key-id: access-ke…...
C++ 读取英伟达显卡名称、架构及算力
C++ 读取英伟达显卡名称、架构及算力 通过CUDA Runtime API获取计算能力(推荐)CUDA计算能力(Compute Capability)的版本号直接对应显卡架构(如8.6=Ampere,9.0=Hopper)。实现步骤: 1.安装依赖: 安装 NVIDIA CUDA Toolkit。确保显卡驱动支持CUDA。2. C…...
VitePress 中以中文字符结尾的字体加粗 Markdown 格式无法解析
背景 在编写vitepress项目过程中,发现了一个markdown格式解析的问题。 md文件中,以中文句号结尾的字体加粗,无法正确解析: 不只是中文句号,只要是加粗语句中以中文字符结尾,都无法被正确解析 需要将中文…...
2.前端汇总
框架 html5 html语法 css css3 css语法 框架 tailwind css 官网 JavaScript JavaScript语法 typescript 语法 nodejs 语法 vue3 官网 组件 vite 打包 vue router -路由 pinia - 状态管理 ui element plus axios - ajax 后台管理系统前端快速开发框架 …...
外部因素导致的 ADC误差来源分析
前面分享了ADC自身因素带来的误差,现在再分享一波由于外部因素导致的ADC采样误差。 一、模拟信号源输入减少带来的误差 看一个STM32的ADC转换器的示意图: 从图中可以看到,输入源与采样引脚之间存在阻抗RAIN,流入引脚的电压可能因…...
集成运算放大器知识汇总
一、集成运放的组成 集成运算放大器,就是通过内部元器件的电参量关系将电参量进行运算,达到放大的目的。我们拆解来看: 集成:将电路封装,留出接口,使其模块化,便于移植。运算:这里…...
HBCPC2025 补题 (F、I)
HBCPC2025 补题 补题连接:Codeforces I 感染 做法1:std做法:树上dp统计贡献找最大 #include <bits/stdc.h> using namespace std; typedef long long ll; #define endl \n #define int long long #define pb push_back #define pii pair<int,…...
针对 CSDN高质量博文发布 的详细指南
结合技术写作规范与平台特性,分为 内容规划、写作技巧、排版优化、发布策略 四部分,确保专业性与传播效果: 一、内容规划:精准定位与深度挖掘 选题策略 热点结合:追踪技术趋势(如2025年AIGC、量子计算&am…...
python读写bin文件
import numpy as np# 创建二进制数据 data np.array([0x33, 0x34, 0x35, 0x36], dtypenp.uint8)# 写入bin文件 with open(example.bin, wb) as f:data.tofile(f)print("bin文件生成成功")data np.fromfile(example.bin, dtypenp.uint8) print("numpy读取结果:…...
矩阵的秩(Rank)
矩阵的秩(Rank)是线性代数中的核心概念,表示矩阵中线性无关的行(或列)的最大数量,反映了矩阵所包含的“独立信息”的多少。以下是其核心要点: 1. 秩的定义 行秩:矩阵中线性无关的行…...
Vue响应式系统演进与实现解析
一、Vue 2 响应式实现详解 1. 核心代码实现 // 依赖收集器(观察者模式) class Dep {constructor() {this.subscribers new Set();}depend() {if (activeEffect) {this.subscribers.add(activeEffect);}}notify() {this.subscribers.forEach(effect &g…...
【SPIN】高级时序规范(SPIN学习系列--6)
时序操作符[](总是)和 <>(最终)可应用于任何LTL公式,因此 []<><>A 和 <>[]<>(A ∧ []B) 在语法上是正确的。本书不涉及LTL的演绎理论(如公理、推理规则及公式的结合律、交换…...
C语言学习之内存函数
今天我们来学习一下C语言中内存函数 以下内存函数的使用均需要包含头文件<string.h> 目录 memcpy函数的使用及其模拟实现 memcpy函数的模拟实现 memmove函数的使用和模拟实现 memmove函数的模拟实现 memset函数的使用 memcmp函数的使用 memcpy函数的使用及其模拟实现…...
Python 数据库编程
一、数据库连接基础 1. 标准流程 import database_module # 如mysql.connector, sqlite3等 # 1. 建立连接 connection database_module.connect( host"localhost", user"username", password"password", database"dbnam…...
软考软件评测师——软件工程之开发模型与方法
目录 一、核心概念 二、主流模型详解 (一)经典瀑布模型 (二)螺旋演进模型 (三)增量交付模型 (四)原型验证模型 (五)敏捷开发实践 三、模型选择指南 四…...
机器学习入门
机器学习入门 1 . 机器学习是什么? 机器学习(Machine Learning, ML)是一种用数据经验替代显式规则编程来完成任务的方法──模型从样本 (X, y) 中学习 映射函数 f: X → Y,并在新样本上做出预测。和传统“if … else”程序相比&…...
git学习与使用(远程仓库、分支、工作流)
文章目录 前言简介git的工作流程git的安装配置git环境:git config --globalgit的基本使用新建目录初始化仓库(repository)添加到暂存区新增/修改/删除 文件状态会改变 提交到仓库查看提交(commit)的历史记录git其他命令…...
制造业或跨境电商相关行业三种模式:OEM、ODM、OBM
一、基础概念对比 模式定义核心能力利润来源控制权OEM代工生产(贴牌生产)纯生产制造能力加工费(薄利)品牌方掌控一切ODM设计生产(自主设计代工)设计研发能力设计溢价生产利润制造商掌握设计OBM自主品牌&am…...
APPtrace 智能参数系统:重构 App 用户增长与运营逻辑
一、免填时代:APPtrace 颠覆传统参数传递模式 传统 App 依赖「邀请码 / 手动绑定」实现用户关联,流程繁琐导致 20%-30% 的用户流失。APPtrace 通过 **「链接参数自动传递 安装后智能识别」** 技术,让用户在无感知状态下完成关系绑定、场景还…...
在 Excel 中使用 C# .NET 用户定义函数 操作步骤
点开选项 点击加载项 点击跳转 点击浏览 选择仙盟excel...
PyTest
一、基本用法: 1.测试框架做了什么: (1).测试发现 a.创建test_开头的文件 b.创建Test开头的类 c.创建test_开头的函数或方法 pytest中以每一个函数或方法作为一个用例 pytest主要以名字区分普通函数(方法)、用例 pytest的启动方式:在给定的项目中执行pytest命令即可 p…...
Python Day27 学习
今天学习讲义Day17的内容:无监督算法中的聚类浙大疏锦行 Q1. 什么是聚类? 本质上就是一种分组分类 关于聚类的准备工作: 代码实现 # 先运行之前预处理好的代码 import pandas as pd import pandas as pd #用于数据处理和分析ÿ…...
在 Win 10 上,Tcl/Tk 脚本2个示例
set PATH 新增 D:\Git\mingw64\bin where tclsh D:\Git\mingw64\bin\tclsh.exe where wish D:\Git\mingw64\bin\wish.exe 编写 test_tk.tcl 如下 #!/usr/bin/tclsh # test 文件对话框 package require Tk# 弹出文件选择对话框,限制选择.txt文件 set filePath […...
渐开线少齿差传动学习笔记
之前看到了一个渐开线一齿差的视频,觉得比较有意思,想自己动手做一个看看,下面是最开始尝试的一个失败的结果,不知道小伙伴们发现问题了没? 本来就是想凑一凑看看,但是发现不是凑起来不是件容易的事。那么…...
基于CATIA参数化圆锥建模的自动化插件开发实践——NX建模之圆锥体命令的参考与移植(二)
引言 在CATIA二次开发领域,参数化建模技术可提升复杂几何体的创建效率达60%。本文基于PySide6 GUI框架与pycatia接口库,深度解析锥体自动化建模工具的开发实践。该工具创新性地融合了NX的交互逻辑与CATIA的混合建模技术,实现双模式输入(高度/锥角)的智能参数转换,较传统…...
Java集合框架详解:单列集合与双列集合
目录 1. 引言:为什么需要集合框架 2. 基础概念:集合框架概述 2.1 集合框架的结构 编辑 编辑 2.2 集合与数组的比较 3. 前置知识:理解集合框架背后的基础数据结构 3.1 数组 3.2 链表 3.3 哈希表 3.4 二叉树与二叉查找树 3.5 红…...
leetcode 33. Search in Rotated Sorted Array
题目描述 可以发现的是,将数组从中间分开成左右两部分的时候,一定至少有一部分的数组是有序的。左部分[left,mid-1],右部分[mid1,right]。 第一种情况:左右两部分都是有序的,说明nums[mid]就是整个数组的最大值。此时…...
OpenCV 图像色彩空间转换
一、知识点: 1、色彩空间转换函数 (1)、void cvtColor( InputArray src, OutputArray dst, int code, int dstCn 0, AlgorithmHint hint cv::ALGO_HINT_DEFAULT ); (2)、将图像从一种颜色空间转换为另一种。 (3)、参数说明: src: 输入图像,即要进行颜…...
python-leetcode 69.最小栈
题目: 设计一个支持push,pop,top,操作,并能在常数时间内检索到最小元素的栈。 辅助栈法: 1:使用两个栈,一个主栈用于存储所有元素,另一个辅助栈用于存储当前元素的最小值 2: 每次push时,将元…...