当前位置: 首页 > news >正文

论文阅读:KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning

论文来源:AAAI 2024

论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/29844


Abstract 

LLM通过利用能够逐步思考的思维链在NLP任务中取得了很好的性能,但是为LLM扩展多模态能力时计算成本高,且需要大量的硬件资源。为了解决上述问题,本文提出了KAM-CoT框架,集成了CoT推理、知识图谱和多种模态,以全面理解多模态任务。

KAM-CoT采用两阶段式训练过程,连接知识图谱以生成有效的推理和答案,通过在推理过程中整合来自KG的外部知识,使模型获得更很层次的上下文理解,以缓解幻觉,并提高答案的质量。

这种知识增强的CoT推理能够使模型处理需要外部上下文的问题,提供更高质量的答案。


 Introduction

对于CoT推理,KGs可以补充逐步推理过程,通过整合来自KGs的信息,LM可以更连贯地进行推理吗,并利用实体和属性之间的上下文关系。

本文利用KGs来增加多种模态以帮助模型充分挖掘CoT能力来解决复杂问题。LAM-CoT包括一个LM获取文本上下文,一个视觉编码器来编码视觉特征和一个图神经网络(GNN)以基于KGs进行推理。推理过程包括两个阶段,第一阶段生成合理的推理,第二阶段将生成的推理作为额外的输入并提供答案。KAM-CoT将文本、视觉和图特征拼接在一起,是模型能够连贯地思考和推理。

主要贡献:

1. 图提取,基于给定的上下文从ConceptNet中提取三元组;

2. 融合KG,将文本和图像模态与KG融合;

3. KAM-CoT,分阶段联合处理视觉、文本和KG,并逐步推理以生成合理的推理和答案。


Method 

论文的核心思想与论文《Multimodal Chain-of-Thought Reasoning in Language Models》类似,第一步是训练模型生成推理,第二步是将第一步生成的推理作为额外的输入,使模型生成正确的答案,不同点在于MM-CoT只处理图像和文本模态,本文对该方法进行了扩展,将KG作为一种额外的模态,从而将生成过程建立在事实知识的基础上

为了获得用于推理生成的文本输入,论文只是简单的将不同的文本部分进行拼接,X_{lang}^{rat}=[q,c;[a_1,a_2,...,a_k]],对于答案选择预测, 则增加推理X_{lang}^{rat}=[q,c;[a_1,a_2,...,a_k];r]

然后为每个样本提取一个子图X_{kg},通过训练模型F_{rat}\left ( \cdot \right )来生成推理r

r=F_{rat}\left ( X_{lang}^{rat},X_{img},X_{kg} \right )

与上述过程类似,为了生成正确的答案,训练模型F_{ans}\left ( \cdot \right )

a=F_{ans}\left ( X_{lang}^{ans},X_{img},X_{kg} \right )

最后,通过计算生成文本的概率类获得推理或答案:

P\left ( Y|X_{lang},X_{img},X_{kg} \right )=\prod_{i=1}^{N}p_\theta (Y_i|X_{lang},X_{img},X_{kg} ,Y_{<i})

整过的推理过程如下:

编码不同模态的输入

文本编码:使用基于Transformer的语言编码器对X_{lang}进行编码,获得H_{lang}\in \mathbb{R}^{n\times d}

图像编码:使用基于Transformer的语言编码器对X_{img}进行编码,获得H_{img}\in \mathbb{R}^{m\times d}

子图选择:

        对于每个样本,从ConceptNet中选择一个子图。具体来说,将ConceptNet中的关系划分为17中不同的类型,这些可以可以是正向的或反向的,总共34中可能得边类型,三元组被转换为句子,并存储为响应的句子模式,用于从问题、上下文和答案选择中提取结点。

        为了获取初始化节点嵌入,使用与文本编码相同的预训练检查点对语言编码器进行训练(确保语言和结点嵌入在相同的嵌入空间),并在该节点的跨度内取嵌入的平均值。

图编码:利用图神经网络获取子图编码H_{kg}\in\mathbb{R}^{p\times d}

模态间的交互

使用交叉注意力来实现文本、图像和子图表示之间的交互,如图2所示,第一个注意力模块实现语言和图像嵌入之间的交互,另一个注意力模块实现语言和结点之间的交互。

 特征融合

 解码

使用一个Transformer解码器获得自回归生成的文本:

实验 

相关文章:

论文阅读:KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning

论文来源&#xff1a;AAAI 2024 论文地址&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/29844 Abstract LLM通过利用能够逐步思考的思维链在NLP任务中取得了很好的性能&#xff0c;但是为LLM扩展多模态能力时计算成本高&#xff0c;且需要大量的硬件资源。…...

linux内存页块划分及位图存储机制

page_alloc.c - mm/page_alloc.c - Linux source code v5.4.285 - Bootlin Elixir Cross Referencer 一. 什么是页块&#xff08;Pageblock&#xff09;&#xff1f; 定义&#xff1a;页块是物理内存中的一个连续区域&#xff0c;由 2^pageblock_order 个物理页&#xff08;Pag…...

一台云工作站是否能通过共享云桌面让10人流畅进行三维设计

云工作站&#xff0c;作为一种基于云计算技术的远程工作站解决方案&#xff0c;它将高性能的计算资源集中在云端服务器上&#xff0c;用户通过网络访问这些资源&#xff0c;实现高效、灵活的办公和创作环境。而三维设计&#xff0c;尤其是涉及复杂模型、高精度渲染等领域&#…...

安卓应用之服务

服务 服务也是四大组件之一&#xff0c;用于执行长时间运行操作的组件&#xff0c;它与用户界面&#xff08;UI&#xff09;是分开的&#xff0c;因此即使用户切换到其他应用&#xff0c;服务依然可以继续运行。主要用于处理一些不需要用户交互的任务。例如&#xff0c;播放音…...

【Vue CLI脚手架开发】——6.scoped样式

文章目录 一、scoped是什么二、应用案例1.使用代码2.原理3父组件App未添加scoped影响 一、scoped是什么 我们知道vue为了防止css样式污染&#xff0c;在每个组件中提供了 scoped属性进行限定css作用域&#xff1b;当<style>标签有 scoped 属性时&#xff0c;它的 CSS 只…...

JVM参数调整

一、内存相关参数 1. 堆内存控制 -Xmx&#xff1a;最大堆内存&#xff08;如 -Xmx4g&#xff0c;默认物理内存1/4&#xff09;。-Xms&#xff1a;初始堆内存&#xff08;建议与-Xmx相等&#xff0c;避免动态扩容带来的性能波动&#xff09;。-Xmn&#xff1a;新生代大小&…...

NodeJS学习笔记

NodeJS软件安装 node环境安装&#xff1a; https://nodejs.org 安装好后的node通常在C:\Program Files\nodejs验证安装是否成功 node -v npm -v 进入REPL模式命令行模式 nodeNodeJS在REPL模式和编辑器使用 windos在dos下常用命令 windos命令&#xff1a; 1、cmd dos系统2、…...

缺陷管理工具-禅道

目录 一、禅道的介绍 二、禅道的特点 三、禅道使用流程 1.管理缺陷 2.管理用例 黑马测试视频学习记录 一、禅道的介绍 二、禅道的特点 三、禅道使用流程 1.管理缺陷 2.管理用例...

C++ 单词识别_牛客题霸_牛客网

点击链接即可查看题目: 单词识别_牛客题霸_牛客网 一、题目 描述 输入一个英文句子&#xff0c;把句子中的单词(不区分大小写)按出现次数按从多到少把单词和次数在屏幕上输出来&#xff0c;次数一样的按照单词小写的字典序排序输出&#xff0c;要求能识别英文单词和句号。 输入…...

qt open3dAlpha重建

qt open3dAlpha重建 效果展示二、流程三、代码效果展示 二、流程 创建动作,链接到槽函数,并把动作放置菜单栏 参照前文 三、代码 1、槽函数实现 void on_actionAlpha_triggered();//alpha重建 void MainWindow::...

PS内发光、外发光

内外发光&#xff08;图层样式–》内发光、外发光&#xff09;&#xff1a;&#xff08;滤色 效果最好&#xff09; 内发光–》结构&#xff1a;内发光的外形 内发光–》图素&#xff1a;渐变发光细节的调整 内发光–》品质&#xff1a;增加质感 内发光–》图素–》阻塞&#x…...

C++之thread_local变量

C之thread_local变量_c threadlocal-CSDN博客 thread_local简介 thread_local 是 C11 为线程安全引进的变量声明符。表示对象的生命周期属于线程存储期。 线程局部存储(Thread Local Storage&#xff0c;TLS)是一种存储期(storage duration)&#xff0c;对象的存储是在…...

鸿蒙开发中,数据持久化之Transaction(事务)的概念及应用

SQLite 数据库具备事务处理能力。 事务本质上是一组操作的集合&#xff0c;它具有原子性&#xff0c;意味着这一系列操作要么全部成功执行&#xff0c;要么全部失败&#xff0c;不存在部分操作成功而部分失败的中间状态。 以常见的转账功能为例&#xff0c;A 账户向 B 账户转账…...

软考高项笔记 1.1.1 信息

1.1.1 信息 &#x1f4da; 信息(Information) 是物质、能量及其属性的标示的集合&#xff0c;是确定性的增加。它以物质介质为载体&#xff0c;传递和反映世界各种事物存在方式、运动状态等的表征。信息不是物质&#xff0c;也不是能力&#xff0c;它以一种普遍形式&#xff0c…...

【TCP/IP协议栈】计算机网络知识补充

参考资料&#xff1a; 前言 【计算机网络知识】 总结 IP 在互联网中MAC 在局域网中 1. IP地址 IP地址有两个版本&#xff0c;IPv4和IPv6。IPv6现在并没有普及使用&#xff0c;所以现在使用的地址大部分依然是IPv4。 IP地址是在IP协议中&#xff0c;用来标识网络中不同主机的…...

【C++进阶学习】第一讲——继承(下)---深入挖掘继承的奥秘

目录 1.隐藏 1.1隐藏的概念 1.2隐藏的两种方式 2.继承与友元 3、继承与静态成员 4.单继承和多继承 4.1单继承 4.2多继承 5.菱形继承 问题1&#xff1a;冗余性 问题2&#xff1a;二义性 6.虚拟继承 7.总结 1.隐藏 1.1隐藏的概念 在 C 中&#xff0c;继承是一种机制…...

IDEA Generate POJOs.groovy 踩坑小计 | 生成实体 |groovy报错

一、无法生成注释或生成的注释是null 问题可能的原因&#xff1a; 1.没有从表里提取注释信息&#xff0c;修改def calcFields(table)方法即可 def calcFields(table) {DasUtil.getColumns(table).reduce([]) { fields, col ->def spec Case.LOWER.apply(col.getDataType().…...

数据结构与算法 计算机组成 八股

文章目录 数据结构与算法数组与链表的区别堆的操作红黑树定义及其原理 计算机组成int和uint的表示原码反码补码移码的定义&#xff1f;为什么用补码&#xff1f; 数据结构与算法 数组与链表的区别 堆的操作 红黑树定义及其原理 计算机组成 int和uint的表示 原码反码补码移…...

【奇点时刻】通义千问开源QwQ-32B技术洞察报告(扫盲帖)

以下报告将基于今天各大社区对 Qwen/QwQ-32B&#xff08;下文简称「QwQ-32B」&#xff09;模型的讨论、测评与实测体验进行综合性分析与洞察。本报告将从模型背景与定位、核心技术、性能表现与对比、部署与使用方式&#xff0c;以及未来潜力与可能的影响五个维度&#xff0c;帮…...

神经网络中梯度计算求和公式求导问题

以下是公式一推导出公式二的过程。 表达式一 ∂ E ∂ w j k − 2 ( t k − o k ) ⋅ sigmoid ( ∑ j w j k ⋅ o j ) ⋅ ( 1 − sigmoid ( ∑ j w j k ⋅ o j ) ) ⋅ ∂ ∂ w j k ( ∑ j w j k ⋅ o j ) \frac{\partial E}{\partial w_{jk}} -2(t_k - o_k) \cdot \text{sigm…...

IDEA 2024.1.7 Java EE 无框架配置servlet

1、创建一个目录&#xff08;文件夹&#xff09;lib来放置我们的库 2、将tomcat目录下的lib文件夹中的servlet-api.jar文件复制到刚创建的lib文件夹下。 3、把刚才复制到lib下的servlet-api.jar添加为库 4、在src下新建一个package&#xff1a;com.demo&#xff0c;然后创…...

Three.js 快速入门教程【十四】使用Stats.js监控渲染帧率和性能优化

系列文章目录 Three.js 快速入门教程【一】开启你的 3D Web 开发之旅 Three.js 快速入门教程【二】透视投影相机 Three.js 快速入门教程【三】渲染器 Three.js 快速入门教程【四】三维坐标系 Three.js 快速入门教程【五】动画渲染循环 Three.js 快速入门教程【六】相机控件 Or…...

基于RapidOCR与DeepSeek的智能表格转换技术实践

基于RapidOCR与DeepSeek的智能表格转换技术实践 一、技术背景与需求场景 在金融分析、数据报表处理等领域&#xff0c;存在大量图片格式的表格数据需要结构化处理。本文介绍基于开源RapidOCR表格识别与DeepSeek大模型的智能转换方案&#xff0c;实现以下典型场景&#xff1a; …...

简单多状态 dp 问题(典型算法思想)—— OJ例题算法解析思路

目录 一、面试题 17.16. 按摩师 - 力扣&#xff08;LeetCode&#xff09; 算法代码&#xff1a; 代码思路解析&#xff1a; 问题分析&#xff1a; 动态规划定义&#xff1a; 状态转移方程&#xff1a; 初始化&#xff1a; 填表&#xff1a; 返回值&#xff1a; 优化空…...

【电路笔记 TMS320C6***DSP】外部存储器接口 A EMIFA向FPGA(作为异步存储器)写入数据的示例

目录 DSP和FPGA的连接DSP端&#xff1a;传输数据给FPGAFPGA端&#xff1a;接收数据 EMIFA&#xff08;External Memory Interface A&#xff09;的“异步存储器”&#xff08;Asynchronous Memory&#xff09;指的是那些不与系统时钟同步进行读写操作的外部存储设备。这类存储器…...

pgsql 查看数据库、表、索引大小等

查询数据库大小 -- 查询单个数据库大小 select pg_size_pretty(pg_database_size(postgres)) as size;-- 查询所有数据库大小 select datname, pg_size_pretty (pg_database_size(datname)) AS size from pg_database; 查询表大小 -- 查询单个表大小 select pg_size_pretty(p…...

物联网感知层采集的数据 经过etl 后 ,输送给ai 训练模型 和模型本身调优

在物联网(IoT)系统中,感知层采集的数据经过 ETL(Extract, Transform, Load) 处理后,可以作为 AI 模型的训练数据,用于模型训练和调优。以下是实现这一过程的详细步骤和技术方案: 一、数据流程概述 数据采集:通过传感器和物联网设备采集原始数据。ETL 处理:对原始数据…...

C语言基础

一、基础 C语言文件 后缀 .c为源文件 .h为头文件 以 Visual studio 为例右键点击源文件点击添加&#xff0c;新建项 .c为C语言文件&#xff0c;.cpp为C文件 后缀不同编译器会按照不同的编译语法进行编译 .cpp以C语法 第一个程序 #include <stdio.h> //包含 st…...

pinginfoview网络诊断工具中文版

介绍 pinginfoview中文版本是一款实用的网络诊断工具&#xff0c;它专为中文用户设计&#xff0c;提供了方便易用的界面&#xff0c;使得在Windows环境下进行ping测试变得更加简单。该工具是由NirSoft开发的一款免费的桌面应用程序&#xff0c;尽管官方可能并未正式发布中文版…...

Anyting LLM LLM温度设置范围

在Anything LLM中&#xff0c;LLM&#xff08;Language Model&#xff09;的温度设置是一个关键参数&#xff0c;它影响着模型生成文本时的随机性和确定性。关于Anything LLM的LLM温度设置范围&#xff0c;虽然没有官方的明确数值范围说明&#xff0c;但通常温度参数的设置遵循…...

鸿蒙Android4个脚有脚线

效果 min:number122max:number150Row(){Stack(){// 底Text().border({width:2,color:$r(app.color.yellow)}).height(this.max).aspectRatio(1)// 长Text().backgroundColor($r(app.color.white)).height(this.max).width(this.min)// 宽Text().backgroundColor($r(app.color.w…...

RecyclerView与ListView的优化

RecyclerView与ListView的优化 一、基础概念对比 1.1 ListView与RecyclerView概述 ListView和RecyclerView都是Android中用于展示列表数据的重要控件&#xff0c;但RecyclerView是更现代化的解决方案&#xff0c;提供了更多的灵活性和性能优势。 ListView特点 Android早期…...

【人工智能】GPT-4 vs DeepSeek-R1:谁主导了2025年的AI技术竞争?

前言 2025年&#xff0c;人工智能技术将迎来更加激烈的竞争。随着OpenAI的GPT-4和中国初创公司DeepSeek的DeepSeek-R1在全球范围内崭露头角&#xff0c;AI技术的竞争格局开始发生变化。这篇文章将详细对比这两款AI模型&#xff0c;从技术背景、应用领域、性能、成本效益等多个方…...

2025年Cursor最新安装使用教程

Cursor安装教程 一、Cursor下载二、Cursor安装三、Cursor编辑器快捷键(1) 基础编辑快捷键(2) 导航快捷键(3) 其他常用快捷键 一、Cursor下载 Cursor官方网站&#xff08;https://www.cursor.com/ &#xff09; 根据自己电脑操作系统选择对应安装包 二、Cursor安装 下载完成后…...

原码、反码和补码的介绍和区别

在计算机中&#xff0c;有符号整数的表示方法主要有 原码、反码和补码&#xff0c;它们解决了二进制数表示正负数及简化运算的问题。以下是分步说明&#xff1a; 1. 原码&#xff08;Sign-Magnitude&#xff09; 定义&#xff1a;最高位为符号位&#xff08;0正1负&#xff09…...

STM32 进阶 定时器

在stm32中定时器大概分为4类 1、系统定时器&#xff1a;属于arm内核&#xff0c;内嵌在NVIC中 2、高级定时器&#xff1a;可以用来刹车和死区 3、通用定时器&#xff1a;可以用来输出pwm方波 4、基本定时器&#xff1a;只能记数 系统定时器注意&#xff1a; 1、系统定时器…...

山东大学:《DeepSeek应用与部署》

大家好&#xff0c;我是吾鳴。 今天吾鳴要给大家分享一份由山东大学出版的DeepSeek报告——《DeepSeek应用与部署》&#xff0c;这份报告讲述了AIGC的发展历程&#xff0c;DeepSeek应用场景和DeepSeek如何本地化部署。报告一共80页PPT&#xff0c;文末有完整版下载地址。 内容摘…...

【无标题】FrmImport

文章目录 前言一、问题描述二、解决方案三、软件开发&#xff08;源码&#xff09;四、项目展示五、资源链接 前言 我能抽象出整个世界&#xff0c;但是我不能抽象你。 想让你成为私有常量&#xff0c;这样外部函数就无法访问你。 又想让你成为全局常量&#xff0c;这样在我的…...

Android14 OTA升级

因Vendor Freeze的缘故,若开启Non-AB OTA, 则会遇到交叉编译vendor和system的增量升级包时需要检查fingerprint而导致编译失败,从而无法做到增量升级包升级。高版本一般都是打开AB模式。 AB 和 non AB 切换相关宏 /vendor_ap_s0/device/mediatek/system/mssi_64_cn/SystemCo…...

监听 RabbitMQ 延时交换机的消息数、OpenFeign 路径参数传入斜杠无法正确转义

背景 【MQ】一套为海量消息和高并发热点消息&#xff0c;提供高可用精准延时服务的解决方案 我现在有一个需求&#xff0c;就是监听 RabbitMQ 一个延时交换机的消息数&#xff0c;而 RabbitTemplate 是不存在对应的方法来获取的。 而我们在 RabbitMQ 的控制台却可以发现延时交…...

宇树科技嵌入式面试题及参考答案(春晚机器人的公司)

目录 设计一个带看门狗(Watchdog)的嵌入式系统,描述故障恢复流程 在资源受限的 MCU 上实现 OTA 升级功能,描述关键设计点 如何实现 OTA(空中升级)功能?描述固件校验和回滚机制的设计要点 推挽输出与开漏输出的区别?举例说明其在 GPIO 控制中的应用 UART、SPI、I2C …...

Linux内核自定义协议族开发指南:理解net_device_ops、proto_ops与net_proto_family

在Linux内核中开发自定义协议族需要深入理解网络协议栈的分层模型。net_device_ops、proto_ops和net_proto_family是三个关键结构体,分别作用于不同的层次。本文将详细解析它们的作用、交互关系及实现方法,并提供一个完整的开发框架。 一、核心结构体的作用与层级关系 struct…...

【Go语言快速上手】第一部分:数据类型(数组、切片、映射)与控制语句

文章目录 一、复合类型Ⅰ 数组1. 语法2. 示例3. 特点4. 数组的传递 Ⅱ 切片1. 定义2. 语法3. 示例4. 特点5. 切片的创建6. 切片的操作切片的扩展切片的拷贝 Ⅲ 映射1. 定义2. 语法3. 示例4. 特点5. 映射的创建6. 映射的操作示例&#xff1a;插入、访问和删除判断键是否存在示例…...

系统架构评估中的重要概念

(1)敏感点(Sensitivity Point) 和权衡点 (Tradeoff Point)。敏感点和权衡点是关键的架构 决策。敏感点是一个或多个构件(和/或构件之间的关系)的特性。研究敏感点可使设计人员 或分析员明确在搞清楚如何实现质量目标时应注意什么。权衡点是影响多个质量属性的特性&#xff0c; …...

shell逐行读取文件 远程操作服务器

代码示例 while read ip; doecho "uninstalling test programs in $line" ssh root$ip bash -s < remote_remove_tool.shdone < installed_ips总结 ✅ 作用&#xff1a; 逐行读取 installed_ips 文件中的 IP 地址通过 SSH 连接到远程服务器&#xff…...

盛铂科技SCP4000射频微波功率计与SPP5000系列脉冲峰值 USB功率计 区别

在射频&#xff08;RF&#xff09;和微波测试领域&#xff0c;快速、精准的功率测量是确保通信系统、雷达、卫星设备等高性能运行的核心需求。无论是连续波&#xff08;CW&#xff09;信号的稳定性测试&#xff0c;还是脉冲信号的瞬态功率分析&#xff0c;工程师都需要轻量化、…...

【每日八股】计算机网络篇(三):IP

目录 DNS 查询服务器的基本流程DNS 采用 TCP 还是 UDP&#xff0c;为什么&#xff1f;默认使用 UDP 的原因需要使用 TCP 的场景&#xff1f;总结 DNS 劫持是什么&#xff1f;解决办法&#xff1f;浏览器输入一个 URL 到显示器显示的过程&#xff1f;URL 解析TCP 连接HTTP 请求页…...

vtk 3D坐标标尺应用 3D 刻度尺

2d刻度尺 : vtk 2D 刻度尺 2D 比例尺-CSDN博客 简介&#xff1a; 3D 刻度尺&#xff0c;也是常用功能&#xff0c;功能强大 3D 刻度尺 CubeAxesActor vtkCubeAxes调整坐标轴的刻度、原点和显示效果&#xff0c;包括关闭小标尺、固定坐标轴原点&#xff0c;以及设置FlyMode模…...

探秘基带算法:从原理到5G时代的通信变革【十】基带算法应用与对比

文章目录 三、算法在现代通信系统中的应用3.1 5G 通信中的应用3.1.1 信道编码与调制解调3.1.2 大规模 MIMO 技术3.1.3 案例分析&#xff1a;5G 基站与终端实现 3.2 卫星通信中的应用3.2.1 抗干扰与纠错编码3.2.2 信号处理与调制解调3.2.3 案例分析&#xff1a;卫星通信系统实例…...

消费级、工业级、汽车级、军工级、航天级芯片区别对比

汽车电子行业&#xff0c;经常会由于降本原因&#xff0c;听到“消规、工规、车规”方面的讨论。常见的芯片等级一般是按照使用温度、辐射、抗干扰等来分级。等级分为以下5类: 民用级&#xff08;消费级&#xff09;、工业级、汽车级&#xff08;车规级&#xff09;、军工级、航…...