多模态大语言模型arxiv论文略读(七)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM
➡️ 论文标题:MLLM-DataEngine: An Iterative Refinement Approach for MLLM
➡️ 论文作者:Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang, Conghui He
➡️ 研究机构: Shanghai AI Laboratory
➡️ 问题背景:多模态大语言模型(MLLMs)在指令数据集构建和基准测试方面取得了显著进展。然而,训练和评估的独立性使得当前的MLLMs难以在评估结果的指导下进一步提升能力,尤其是在人力成本相对较低的情况下。此外,现有的数据收集方法与基准测试分离,导致生成的数据针对性、质量和正确性不足。
➡️ 研究动机:为了解决上述问题,研究团队提出了MLLM-DataEngine,旨在通过数据生成、模型训练和评估的闭环系统,实现数据和模型性能的迭代提升。该系统能够根据评估结果生成针对性更强、质量更高、正确性更好的增量数据集,从而在少量人力参与的情况下,有效提升模型能力。
➡️ 方法简介:MLLM-DataEngine通过四个主要步骤实现其目标:1) 模型评估:识别模型的弱点并收集不良案例;2) 查询构建:使用自适应不良案例采样(ABS)模块选择合适的查询图像和上下文学习示例;3) 数据生成:利用GPT-4生成高质量的问答数据,并通过交互式提示优化(IPO)策略提高数据质量;4) 模型训练:根据最新生成的数据对模型进行微调,并循环回到模型评估阶段。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括MMBenchmark和A-OKVQA。实验设计了不同的微调策略(如仅微调投影层和LoRA微调),以评估生成数据对模型性能的影响。实验结果表明,MLLM-DataEngine能够显著提升模型性能和数据质量,尤其是在迭代过程中。
Enhancing Subtask Performance of Multi-modal Large Language Model
➡️ 论文标题:Enhancing Subtask Performance of Multi-modal Large Language Model
➡️ 论文作者:Yongqiang Zhao, Zhenyu Li, Feng Zhang, Xinhai Xu, Donghong Liu
➡️ 研究机构: Peking University、Academy of Military Science
➡️ 问题背景:多模态大型语言模型(MLLMs)通过大型语言模型(LLMs)的认知引擎处理和推断多模态数据,成为多模态理解研究和应用的重要推动力。现有的MLLMs通常通过LLMs将任务分解为多个子任务,使用单个预训练模型完成特定子任务,最后再通过LLMs整合所有子任务的结果以获得最终任务结果。然而,这种方法在实际应用中难以确保每个子任务的最佳结果,从而影响整体任务的性能。
➡️ 研究动机:为了提高MLLMs的子任务性能,研究团队提出了一种新方法,即利用多个预训练模型完成同一子任务,并通过LLMs选择最佳结果。这种方法旨在通过多模型的协同工作,提高子任务结果的准确性和可靠性,从而增强MLLMs的整体性能。
➡️ 方法简介:研究团队提出了一种系统的方法,包括任务规划、最佳子任务结果获取和响应生成三个部分。在任务规划阶段,模型从用户输入请求中识别子任务需求,并提取相关数据和上下文信息。在最佳子任务结果获取阶段,为每个子任务选择多个预训练模型并并行执行,通过LLMs分析和选择最佳结果。在响应生成阶段,模型整合所有子任务的最佳结果,生成最终响应。
➡️ 实验设计:研究团队在GPT-4标注数据集和人工标注数据集上进行了实验,评估了模型在单任务、顺序任务和图任务中的性能。实验结果表明,所提出的方法在所有任务中均显著优于现有的HuggingGPT模型,特别是在F1分数和编辑距离等指标上表现突出。
MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval
➡️ 论文标题:MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval
➡️ 论文作者:Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
➡️ 研究机构: The University of Glasgow, Scotland, UK
➡️ 问题背景:随着多模态大语言模型(MLLMs)的规模不断增大,针对特定任务的模型适应变得越来越具有挑战性,主要原因是高计算和内存需求。传统的微调方法成本高昂,需要大量的任务特定训练。虽然存在一些高效的适应方法,但它们通常存在模态间对齐浅的问题,严重影响了模型的有效性。
➡️ 研究动机:现有的高效适应方法虽然减少了计算成本,但模态间对齐不足,导致模型在多模态任务中的表现不佳。为了克服这一问题,研究团队提出了一种新的框架——MultiWay-Adapter(MWA),旨在通过增强模态间对齐来提高模型的适应性和有效性。
➡️ 方法简介:MWA框架包含两个核心组件:新知识提取器(New Knowledge Extractor)和模态增强器(Alignment Enhancer)。新知识提取器用于从下游任务中提取新知识,而模态增强器则通过增强模态间的对齐来提高模型的性能。MWA通过仅微调新添加的模块,显著减少了计算资源的消耗。
➡️ 实验设计:研究团队在两个最先进的多模态大语言模型(BEiT-3 Base和BEiT-3 Large)上进行了实验,使用了两个广泛使用的图像-文本检索数据集(MSCOCO和Flickr30K)。实验设计了不同的参数设置,包括不同的中间维度和训练参数比例,以全面评估MWA在不同条件下的性能。实验结果表明,MWA不仅在微调性能上优于传统的全模型微调方法,而且在零样本性能上也表现出色,同时显著减少了计算时间和资源消耗。
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics
➡️ 论文标题:Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics
➡️ 论文作者:Haoqin Tu, Bingchen Zhao, Chen Wei, Cihang Xie
➡️ 研究机构: University of Chinese Academy of Sciences、University of Edinburgh、Johns Hopkins University、UC Santa Cruz
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种任务中展现了卓越的能力,尤其是在视觉-语言理解和生成任务中。然而,这些模型在纯自然语言处理(NLP)任务中的表现往往被低估,且未得到充分测试。研究发现,视觉指令调优(Visual Instruction Tuning, VIT)不仅能够提升模型的多模态能力,还能意外地增强模型在纯NLP任务中的真实性和伦理一致性。
➡️ 研究动机:尽管多模态模型在视觉任务中表现出色,但其在纯NLP任务中的表现和潜在改进尚未得到充分探索。本研究旨在通过视觉指令调优,探讨多模态训练如何影响大型语言模型(LLMs)在纯NLP任务中的表现,特别是真实性和伦理一致性。
➡️ 方法简介:研究团队采用了一种系统的方法,通过多模态数据集对LLMs进行调优,包括视觉-语言连接器的训练和LLMs的微调。实验中使用了80k的多模态数据集,这些数据集包含图像和文本对,用于评估模型在不同任务中的表现。
➡️ 实验设计:实验在多个基准数据集上进行,包括TruthfulQA和Ethics,以评估模型在真实性和伦理一致性方面的表现。实验设计了不同的调优方法(如全参数微调和LoRA微调),以及不同的数据类型(如对话、细节和推理数据),以全面评估视觉指令调优对模型性能的影响。结果表明,视觉指令调优不仅能够显著提升模型在真实性和伦理一致性方面的表现,而且在某些情况下还能保持或提升模型在标准NLP任务中的能力。
Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings
➡️ 论文标题:Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings
➡️ 论文作者:Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych
➡️ 研究机构: Ubiquitous Knowledge Processing Lab, Technical University of Darmstadt, Natural Language Processing Department, MBZUAI
➡️ 问题背景:大型语言模型(LLMs)在问答和推理任务中表现出色,但在情境推理中,不同文化背景下的期望可能有所不同。语言与文化紧密相连,因此多语言LLMs(mLLMs)应具备跨文化的推理能力。然而,现有研究对跨语言设置中的文化共同基础理解不足,且在现有LLM文献中被忽视。
➡️ 研究动机:研究团队旨在通过研究mLLMs在处理谚语和俗语时的表现,探讨这些模型是否嵌入了文化共同基础的知识,以及这种知识如何影响其推理性能。此外,研究还探讨了mLLMs是否能在需要理解文化共同基础的情境中进行推理,以及在跨文化推理中是否存在文化差距。
➡️ 方法简介:研究团队构建了MAPS(MulticulturAl Proverbs and Sayings)数据集,该数据集包含来自六种不同语言的谚语和俗语,以及在对话情境中使用这些谚语的推理任务。数据集还包括二元标签,指示谚语的使用是否具有隐喻性。通过这一数据集,研究团队评估了多种开源mLLMs在谚语记忆和推理方面的能力。
➡️ 实验设计:研究团队设计了一系列实验,使用MAPS数据集评估了多种开源mLLMs在谚语记忆和推理任务中的表现。实验包括零样本评估和少量样本评估,以探讨模型在不同语言和文化背景下的表现。此外,研究还通过机器翻译和人工适应翻译,评估了跨文化推理中的文化差距。
相关文章:
多模态大语言模型arxiv论文略读(七)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM ➡️ 论文标题:MLLM-DataEngine: An Iterative Refinement Approach for MLLM ➡️ 论文作者:Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang,…...
STM32单片机入门学习——第27节: [9-3] USART串口发送串口发送+接收
写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.08 STM32开发板学习——第27节: [9-3] USART串口发送&串口发送接收 前言开发板说…...
【元表 vs 元方法】
元表 vs 元方法 —— 就像“魔法书”和“咒语”的关系 1. 元表(Metatable):魔法书 是什么? 元表是一本**“规则说明书”**,它本身是一个普通的 Lua 表,但可以绑定到其他表上,用来定义这个表应该…...
小型园区网实验
划分VLAN SW3 [sw3]vlan batch 2 3 20 30 [sw3]interface GigabitEthernet 0/0/1 [sw3-GigabitEthernet0/0/1]port link-type access [sw3-GigabitEthernet0/0/1]port default vlan 2 [sw3-GigabitEthernet0/0/1]int g0/0/2 [sw3-GigabitEthernet0/0/2]port link-type acces…...
python 数组append数组
在Python中,可以通过多种方式将一个数组(列表)添加到另一个数组(列表)中。以下是几种常见的方法: 1. 使用 append() 方法 append() 方法将一个数组作为整体添加到另一个数组的末尾。 list1 [1, 2, 3] l…...
从0到1:STM32 RTC定时器配置全流程
1. 什么是RTC? RTC(Real-Time Clock) 是嵌入式系统中用于提供独立计时功能的硬件模块,具有以下特点: 独立于主系统时钟(即使MCU进入低功耗模式仍可运行)提供日历功能(年/月/日/时/…...
(学习总结33)Linux Ext2 文件系统与软硬链接
Linux Ext2 文件系统与软硬链接 理解硬件磁盘、服务器、机柜、机房磁盘物理结构磁盘的逻辑结构实际过程 CHS 与 LBA 地址转换 引入文件系统引入 " 块 " 概念引入 " 分区 " 概念引入 " inode " 概念 ext2 文件系统宏观认识Block Group 块组与其内…...
LeetCode算法题(Go语言实现)_36
题目 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到子节点…...
牛客华为机试--HJ48 从单向链表中删除指定值的节点C++
题目描述 示例1 示例2 该题的核心是每来一组数据,都要从头开始找,找到数据后再插入。而不是直接在尾部插入数据。 上代码 #include <iostream> using namespace std;struct ListNode {int val;ListNode *next;ListNode(int x) : val(x), next(nu…...
Jmeter 插件【性能测试监控搭建】
1. 安装Plugins Manager 1.1 下载路径: Install :: JMeter-Plugins.org 1.2 放在lib/ext目录下 1.3 重启Jmeter,会在菜单-选项下多一个 Plugins Manager菜单,打开即可对插件进行安装、升级。 2. 客户端(Jmeter端) 2.1 安装plugins manager…...
从攻防演练到AI防护:网络安全服务厂商F5的全方位安全策略
随着AI和云原生技术的蓬勃兴起,多云架构的广泛采用,企业内部IT系统正经历着翻天覆地的变化。在这个转型期,传统的攻击手段和防守策略正面临着巨大的挑战。基于此,用户需要跳出传统的思维模式,采取新的视角,…...
【Introduction to Reinforcement Learning】翻译解读5
4 核心算法 我们将算法分为三类:基于价值的方法、基于策略的方法和混合算法。 4.1 基于价值的方法Value-based 一个重要的突破是Q-learning的引入,它是一种无模型算法,被视为off-policy时间差分(TD)学习。TD学习无疑…...
Jmeter中的bzm-concurrency thread group 与普通线程组的区别
在 JMeter 中,bzm - Concurrency Thread Group(由 BlazeMeter 提供)和标准的 Thread Group 是两种不同的线程组实现,主要区别在于 并发控制模型 和 负载调节方式。以下是详细对比: 1. 核心区别 特性bzm - Concurrency Thread Group标准 Thread Group负载模型基于并发数(C…...
VBA将Word文档内容逐行写入Excel
如果你需要将Word文档的内容导入Excel工作表来进行数据加工,使用下面的代码可以实现: Sub ImportWordToExcel()Dim wordApp As Word.ApplicationDim wordDoc As Word.DocumentDim excelSheet As WorksheetDim filePath As VariantDim i As LongDim para…...
ubuntu22部署 3d-tiles-tools
安装fnm curl -fsSL https://fnm.vercel.app/install | bash安装nodejs 20.17.0LTS版本 https://nodejs.org/zh-cn/download/package-manager安装依赖包 # Download and install nvm: curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.2/install.sh | bash# in…...
WebStrom关闭模板字符串自动转换
WebStrom关闭模板字符串自动转换 Editor > General > smart Keys > JavaScript > Automatically replace string literal with template string on typing "${"...
【零基础入门unity游戏开发——动画篇】新动画Animator的使用 —— AnimatorController和Animator的使用
考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、…...
npx vite 可以成功运行,但 npm run dev 仍然报错 Missing script: “dev“
npx vite 可以成功运行,但 npm run dev 仍然报错 Missing script: "dev",说明问题可能出在 npm 的脚本解析 或 项目配置 上。以下是具体解决方案: 1. 检查 package.json 的物理位置 可能原因: 你当前运行的目录下可能有一个 无效的 package.json,而真正的 packa…...
Java 泛型的逆变与协变:深入理解类型安全与灵活性
泛型是 Java 中强大的特性之一,它提供了类型安全的集合操作。然而,泛型的类型关系(如逆变与协变)常常让人感到困惑。 本文将深入探讨 Java 泛型中的逆变与协变,帮助你更好地理解其原理和应用场景。 一、什么是协变与…...
C语言核心知识点整理:结构体对齐、预处理、文件操作与Makefile
目录 结构体的字节对齐预处理指令详解文件操作基础Makefile自动化构建总结 1. 结构体的字节对齐 字节对齐原理 内存对齐:CPU访问内存时,对齐的地址能提高效率。操作系统要求变量按类型大小对齐。对齐规则: 每个成员的起始地址必须是min(成…...
深度学习|注意力机制
一、注意力提示 随意:跟随主观意识,也就是指有意识。 注意力机制:考虑“随意线索”,有一个注意力池化层,将会最终选择考虑到“随意线索”的那个值 二、注意力汇聚 这一部分也就是讲第一大点中“注意力汇聚”那个池化…...
特权FPGA之乘法器
完整代码如下: timescale 1ns / 1ps// Company: // Engineer: // // Create Date: 23:08:36 04/21/08 // Design Name: // Module Name: mux_16bit // Project Name: // Target Device: // Tool versions: // Description: // // Dependencies: …...
安全的企业局域网聊天工具哪个好用?
在当今数字化时代,企业对于局域网聊天工具的需求日益增长,尤其是在对数据安全和定制化服务有较高要求的大中型政企单位中。安全的企业局域网聊天工具哪个好用?虽然市面上有很多即时通讯软件,今天来介绍一下已经拥有十年行业经验的…...
如何应对客户频繁变更需求
如何应对客户频繁变更需求?要点包括: 快速响应、深入沟通、灵活规划、过程记录、风险管控。这些策略既能降低项目失控风险,也能帮助团队在变动环境中保持高效率。其中深入沟通尤为关键,它不仅能够让团队第一时间了解客户意图&…...
R语言进行聚类分析
目录 简述6种系统聚类法 实验实例和数据资料: 上机实验步骤: 进行最短距离聚类: 进行最长距离聚类: 进行中间距离聚类: 进行类平均法聚类: 进行重心法聚类: 进行ward.D聚类:…...
1.6-抓包技术(Burp Suite\Yakit抓包\Web、APP、小程序)
1.6-抓包技术(Burp Suite\Yakit抓包\Web、APP、小程序) 如果要使用抓包软件,基本上第一步都是要安装证书的。原因如下: 客户端(浏览器或应用)会检测到证书不受信任,并弹出 证书错误࿰…...
DAPP实战篇:使用web3.js连接合约
说明 本系列内容目录:专栏:区块链入门到放弃查看目录 如果你还没有创建好项目请先查看:《DApp实战篇:先用前端起个项目》,如果你还不知道web3.js是什么请先查看:《DApp实战篇:前端技术栈一览》。 安装 点此查看web3.js官方文档 打开项目根目录,并唤起终端: 键入w…...
用 Python 构建一个简单的本地视频流媒体服务器
你是否曾经想过在本地网络上轻松地将电脑上的视频分享给手机或平板电脑观看?也许你下载了一部电影,想在客厅的智能电视上播放,却不想费力地拷贝文件。今天,我们将深入分析一个 Python 脚本,它使用 wxPython 创建图形用…...
汇丰xxx
1. Spring Boot 的了解,解决什么问题? 我的理解: Spring Boot 是一个基于 Spring 框架的快速开发脚手架,它简化了 Spring 应用的初始搭建和开发过程。解决的问题: 简化配置: 传统的 Spring 应用需要大量的…...
ruby基础语法
以下是 Ruby 基础语法的简明总结,适合快速入门: 一、变量与常量 局部变量 小写字母或下划线开头,作用域为当前代码块。 name "Alice" _age 20实例变量 以 开头,属于对象实例。 name "Bob"类变量 以 开头…...
智体OS-V3.1版:新增了rt-datalink底层数据链通讯,实现【无网络】本机使用
##智体OS-V3.1版本发布 更新简介 dtns.os智体OS-V3.1版:新增了rt-datalink底层数据链通讯(使用本地局域网的websocket端口通讯),解决了本机【无网络】正常使用的问题。 更新内容 dtns.connector支持使用新的rt-datalink与智体…...
Windows系统安装Git以及Git常用命令介绍
本文主要介绍Windows系统安装Git的方法,以及Git常用命令介绍。 一、下载Git 官网: Git - Downloads (git-scm.com) 根据自己的系统选择 我的是64位的Windows系统,选择对应的安装包,点击后开始下载 等待下载完成 二、安装Git 双…...
HTML 开发者的智能助手:通义灵码在 VSCode 中的应用
引言 在 HTML 开发领域,提高编码效率和质量是每位开发者追求的目标。通义灵码,作为一款由阿里云技术团队开发的智能编码助手,能够通过其强大的 AI 能力,为 HTML 开发者提供包括代码自动补全、智能注释、代码优化等多方面的支持。…...
MySQL随机获取记录之方法(The Method of Randomly Obtaining Records in MySQL)
MySQL中如何随机获取一条记录 随机获取一条记录是在数据库查询中常见的需求,特别在需要展示随机内容或者随机推荐的场景下。在 MySQL 中,有多种方法可以实现随机获取一条记录,每种方法都有其适用的情况和性能特点。在本文中,我们将…...
ngx_core_module 的 create_conf
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_core_module-CSDN博客 定义在 src\core\nginx.c ngx_module_t ngx_core_module {NGX_MODULE_V1,&ngx_core_module_ctx, /* module context */ngx_core_commands, /* module directives */…...
41--华为IPSec主备链路实验:当加密隧道遇上“双保险“
🚦 华为IPSec主备链路实验:当加密隧道遇上"双保险" “如果你的IPSec隧道只有一条路,那就像走钢丝不系安全带——刺激但危险!” —— 本文将用华为设备打造主备双加密通道,结合IP-link智能检测,让…...
Reactive编程框架与工具
文章目录 6.2 后端 Reactive 框架6.2.1 Spring WebFlux核心架构核心组件实际应用高级特性性能优化适用场景与限制 6.2.2 Akka(Actor模型)Actor模型基础基本用法高级特性响应式特性实现性能优化实际应用场景优势与挑战 6.2.3 Vert.x(事件驱动&…...
vi/vim常用快捷键
那么今天我们继续昨天没有介绍完的vi编辑器,来看看常用的一些快捷键,方便我们对文件的编辑. 1.拷贝当前行yy,拷贝当前行向下的5行5yy,并粘贴(输入p) 2.删除当前行dd,删除当前行向下的5行5d 3.在文件中查找某个单词[命令模式/关键字,回车查找,输入n就是查找下一个] ⭐️&…...
初始JavaEE篇 —— SpringBoot 统一功能处理
找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏:JavaEE 目录 前言 拦截器 基本使用 拦截器的路径配置 统一数据返回格式 统一异常处理 前言 在实际开发中,某些功能需要强…...
Spring AI Alibaba 文档检索使用
一、文档检索 (Document Retriever)简介 1、核心概念 文档检索(DocumentRetriever)是一种信息检索技术,旨在从大量未结构化或半结构化文档中快速找到与特定查询相关的文档或信息。文档检索通常以在线(online)方式运行。 DocumentRetriever通…...
遍历算法及其应用详解
李升伟 整理 什么是遍历? 遍历是指按照某种规则或顺序,系统地访问数据结构(如树、图等)中的每个节点一次且仅一次的过程。遍历是算法设计中的基本操作,用于访问、检查或修改数据结构中的所有元素。 主要遍历算法 1…...
.NET-EFCore基础知识
.NET EF Core(Entity Framework Core)是微软开发的一款开源的对象关系映射(ORM)框架,用于在.NET 应用程序中与数据库进行交互。以下是一些.NET EF Core 的基础知识: 1. 什么是 EF Core EF Core 是.NET 平…...
R语言基础包可视化(一:axis函数)
R语言基础包可视化(一:axis函数) 背景axis函数(坐标轴函数)各参数的图片示例hadj和padjline和poslty,lwd,lwd.ticksgap.axis总结背景 之前在介绍正态Q-Q图的过程中,画过标准正态分布的随机数、分数数、分布函数、密度函数的图像,相关的文章连接参考此处:R语言正态Q-Q图…...
Axure疑难杂症:垂直菜单折叠与展开(玩转垂直菜单)
亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! 课程主题:垂直菜单折叠与展开 主要内容:折叠与展开效果 应用场景:PC后台菜单、动态下拉菜单、商品分类选择等折叠与展开场景 案例展示: 案例视频: 垂直菜单折叠与展开效果 正文内容: 关于垂直菜单的折叠与…...
docker 中跑faster-whisper 教程(1050显卡)
之前我本地机器运行faster-whisper 会报错类似 Could not load library libcudnn_ops_infer.so.8github 上也有类似的情况 :https://github.com/SYSTRAN/faster-whisper/issues/516#issuecomment-2785038635 缺少.so.8 文件,我通过以下方式,…...
MySQL 在 CentOS 7 环境安装完整步骤
1. 卸载已有环境(MariaDB/旧版MySQL) 1.停止 MariaDB 服务 systemctl stop mariadb.service 2.检查并卸载 MariaDB/MySQL 安装包 rpm -qa | grep mariadb # 检查 MariaDB 相关包 rpm -qa | grep mysql # 检查 MySQL 相关包 sudo yum remo…...
下一代智能爬虫框架:ScrapeGraphAI 详解
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、ScrapeGraphAI 概述1.1 ScrapeGraphAI介绍1.2 核心特点1.3 工作流程1.4 关键模块1.5 对比传统爬虫框架1.6 安装二、基础操作2.1 自定义解析规则2.2 数据后处理2.3 分布式爬取三、高级功能3.1 多步骤交互采集3.2 动态…...
C++-ffmpeg-2-3-工厂模式封装SDL-9-7
1.接口设计 2.窗口渲染器和材质初始化 3.渲染Draw并测试渲染YUV 4.渲染画面随窗口大小自动缩放并抗锯齿 5.清理接口和接收窗口退出事件 1.接口设计:原则 主要的实现步骤: main的流程: 1打开文件 yuv_file.open("400_300_25.yuv&quo…...
下载极客漫画——Beautiful Soup实用案例
文章目录 一、背景介绍 二、实现思路 三、效果图 四、构思 五、实现细节 1. 第一步下载网页 2. 寻找和下载漫画图像 3. 保存图像,找到前⼀张漫画 六、完整代码 七、程序输出 八、附录 九、总结 一、背景介绍 XKCD网站是一个关于浪漫、隐喻、数字、以及…...
【大模型理论篇】SWIFT: 可扩展轻量级的大模型微调基础设施
1. 背景 大模型(LLM)和多模态大模型(MLLM)利用基于Transformer的架构获得了很迅速的发展。为满足对这些模型的训练和轻量级微调需求,目前已有一些开源框架,如LLaMA-Factory、Firefly、FastChat、Axolotl和LMFlow等。但这些框架在支持的模型、技术和功能上…...