当前位置: 首页 > news >正文

图上思维:基于知识图的大型语言模型的深层可靠推理

摘要

        尽管大型语言模型(LLM)在各种任务中取得了巨大的成功,但它们经常与幻觉问题作斗争,特别是在需要深入和负责任的推理的场景中。这些问题可以通过在LLM推理中引入外部知识图(KG)来部分解决。在本文中,我们提出了一个新的LLM-KG集成范式“LLM\otimesKG”,它把LLM作为一个代理,以交互式地探索相关的实体和KGs上的关系,并进行推理的基础上检索到的知识。我们通过引入一种称为图上思维(ToG)的新方法进一步实现了这种范式,其中LLM代理迭代地在KG上执行波束搜索,发现最有希望的推理路径,并返回最可能的推理结果。我们通过一系列精心设计的实验来检验和说明ToG的以下优点:1)与LLM相比,ToG具有更好的深度推理能力; 2)ToG通过利用LLM推理和专家反馈,具有知识可追溯性和知识可纠正性; 3)ToG为不同的LLM、KG和提示策略提供了一个灵活的即插即用框架,而不需要任何额外的训练成本; 4)在某些场景下,具有小LLM模型的ToG的性能可以超过诸如GPT-4的大LLM,这降低了LLM部署和应用的成本。作为一种具有较低计算成本和较好通用性的免训练方法,ToG在9个数据集中的6个数据集中实现了整体SOTA,而大多数以前的SOTA依赖于额外的训练。我们的代码可在https://github.com/IDEA-FinAI/ToG上公开获取。

一、简介

        大型语言模型(LLM)(Ouyang等人,2022年; OpenAI,2023年; Thoppilan等人,2022; Brown等人,2020年a;乔杜里等人,2022年; Touvron等人,2023)在各种自然语言处理任务中表现出了卓越的性能。这些模型利用应用于大量文本语料库的预训练技术来生成连贯且上下文适当的响应。尽管LLM具有令人印象深刻的性能,但它们在面对复杂的知识推理任务时具有实质性的局限性(Petroni等人,2021年; Talmor等人,2019年; Talmor & Berant,2018年; Zhang等人,2023),需要深入和负责任的推理。首先,LLM通常不能对需要超出预训练阶段所包括的专门知识(图1a中的过时知识)的问题或需要长逻辑链和多跳知识推理的问题提供准确的答案。第二,LLM缺乏责任感、可解释性、透明性,引起了人们对产生幻觉或有毒文字的担忧。第三,LLM的训练过程往往既昂贵又耗时,因此要使他们的知识保持最新很有挑战性。

图1:三种LLM推理范式的代表性工作流程:(a)仅LLM(例如,思想链提示),(B)LLM\bigoplusKG(例如,通过LLM生成的SPARQL查询的KBQA),(c)LLM\bigotimesKG(例如,图上思考)

        认识到这些挑战,一个自然的和有前途的解决方案是结合外部知识,如知识图(KG),以帮助改善LLM推理。KG提供了结构化的、明确的、可编辑的知识表示,提供了一种补充策略来减轻LLM的局限性(Pan等人,2023年)的报告。研究人员(Li等人,2023 c; Xie等人,2022年; Baek等人,2023 b; Yang等人,2023; Wang等人,2023 a; Jiang等,2023)已经探索了将知识组作为外部知识来源来减轻LLM中的幻觉。这些方法遵循一个例程:从KG中检索信息,相应地增加提示,并将增加的提示馈送到LLM中(如图1b所示)。在本文中,我们将这种范式称为“LLM \bigoplusKG”。虽然LLM的目标是整合LLM和KG的能力,但在该范式中,LLM扮演着翻译器的角色,将输入的问题转换成机器可理解的命令,以供KG搜索和推理,但它并不直接参与图推理过程。不幸的是,松耦合的LLM\bigoplus KG范式有其自身的局限性,它的成功在很大程度上取决于KG的完整性和高质量。例如,在图1b中,尽管LLM成功地识别了回答问题所需的必要关系类型,但缺少关系“多数党”会导致检索正确答案失败。

        基于这些考虑,我们提出了一个新的紧耦合的“LLM\bigotimesKG”范式,其中KG和LLM协同工作,在图推理的每一步中互补彼此的能力。图1c提供了一个示例,说明LLM\bigotimes KG的优势。在这个例子中,在图1b中导致失败的缺失关系“多数党,”可以由具有动态推理能力的LLM代理发现的参考三元组(Australia,prime minister,Anthony Albanese)来补充(Yao等人,2022年),以及来自LLM固有知识的安东尼·艾博年的政党成员资格。以这种方式,LLM利用从KG检索到的可靠知识成功地生成正确答案。作为这一范式的一个实现,我们提出了一个算法框架“图上思考”(意思是:LLM“思考”沿着”知识“图”上的推理路径一步一步地进行,以下简称为ToG),用于深度、可靠和高效的LLM推理。在KG/LLM推理中使用波束搜索算法(Jurafsky & Martin,2009年)(Atif等人,2023年; Sun等人,2023 a; Xie等人,2023; Liu等人,2024),ToG允许LLM动态地探索KG中的多个推理路径,并相应地做出决策。给定一个输入问题,ToG首先识别初始实体,然后迭代地调用LLM,以通过探索(通过“在图上”步骤在KG中寻找相关三元组)和推理(通过“思考”步骤决定最相关的三元组)从KG中检索相关三元组,直到通过波束搜索中收集的前N个推理路径的信息以回答问题(由LLM在“思考”步骤中判断)或者达到预定义的最大搜索深度。

        ToG的优点可以概括为:(1)深度推理:ToG从知识库中提取出多样的多跳推理路径,作为LLM推理的基础,增强了LLM对知识密集型任务的深度推理能力。(2)负责任的推理:显式的、可编辑的推理路径提高了LLM推理过程的可解释性,并允许对模型输出的出处进行跟踪和校正。(3)灵活性和效率:a)ToG是一种即插即用的框架,可以无缝地应用于各种LLM和KG。(b)在ToG框架下,知识更新可以通过KG来实现,而LLM的知识更新成本高、速度慢。c)ToG增强了小型LLM的推理能力(例如,LLAMA 2 - 70 B)与大型LLM(例如,GPT-4)的水平。

二、方法

        ToG通过要求LLM在知识图上执行波束搜索来实现“LLM\bigotimesKG”范例。具体地,它提示LLM迭代地探索KG上的多个可能的推理路径,直到LLM确定可以基于当前推理路径来回答问题。ToG不断地更新和维护前N个推理路径P = {p1,p2,...,pN},其中N表示波束搜索的宽度。ToG的整个推理过程包括初始化、探索和推理3个阶段。

2.1图上思考

2.1.1图的初始化

        给定一个问题,ToG利用底层LLM在知识图上定位推理路径的初始实体。该阶段可以被视为前N个推理路径P的初始化。ToG首先提示LLM自动提取所讨论的主题实体,并获得前N个主题实体E^0 = \left \{ e_1^0, e_2^0,\cdots, e_N^0,\right \}的问题。注意,主题实体的数量可能小于N。

2.1.2探索

        在第D次迭代开始时,每条路径p_n由D-1个三元组组成,即,p_n = \left \{ \left ( e_{s,n}^d, r_{j,n}^{d}, e_{o,n}^{d}, \right )\right \}_{d=1}^{D-1},其中e_{s,n}^d, e_{o,n}^{d}示主体和客体实体,r_{j,n}^{d},是它们之间的特定关系,\left ( e_{s,n}^d, r_{j,n}^{d}, e_{o,n}^{d}, \right )\left ( e_{s,n}^{d+1}, r_{j,n}^{d+1}, e_{o,n}^{d+1} \right )彼此连接。P中的尾实体和关系的集合表示为E^{D-1} = \left \{ e_1^{D-1},e_2^{D-1},\cdots,e_N^{D-1} \right \}R^{D-1} = \left \{ r_1^{D-1},r_2^{D-1},\cdots,r_N^{D-1} \right \}

        第D次迭代中的探索阶段旨在利用LLM基于问题从当前N个实体集E^{D-1}的相邻实体中识别最相关的前N个实体E^D,并使用E^D扩展前N个推理路径P。为了解决使用LLM处理众多相邻实体的复杂性,我们实现了两步探索策略:首先,探索重要关系,然后使用所选择的关系来指导实体探索。

关系探索

        关系探索是一个深度为1、宽度为N的波束搜索过程,从E^{D-1}R^{D}。整个过程可以分解为两个步骤:搜索和修剪。LLM作为代理自动完成此过程。

图2:ToG的示例工作流。发光的实体是每次迭代(深度)时搜索开始的中心实体,粗体的实体是修剪后下一次迭代的选定中心实体。在每个修剪步骤中,边缘的暗度表示由LLM给出的排序分数,并且虚线指示由于低评估分数而被修剪的关系。
        搜索

        在第D次迭代开始时,关系探索阶段首先为每个推理路径p_n搜索链接到尾实体e_n^{D-1}的关系R_{cand,n}^D。这些关系被聚合成R_{cand}^D。在图2的情况下,E^1 = \left \{ \mathbf{Canberra }\right \}R_{cand}^1表示向内或向外链接到\mathbf{Canberra }的所有关系的集合。值得注意的是,搜索过程可以通过执行附录E.1和E.2中所示的两个简单的预定义公式查询来轻松完成,这使得ToG能够很好地适应不同的KG,而无需任何训练成本。

        修剪

        一旦我们已经从关系搜索中获得候选关系集R_{cand}^D和扩展的候选推理路径P_{cand},我们就可以利用LLM基于问题x的文字信息和候选关系R_{cand}^DP_{cand}中选出以尾部关系R^D结尾的新的前N个推理路径P。此处使用的提示可参见附录E.3.1。如图2所示,LLM在第一次迭代中从链接到实体\mathbf{Canberra }的所有关系中选择前3个关系{capital of,country,territory}。由于堪培拉是唯一的主题实体,所以前3个候选推理路径被更新为{(堪培拉,首都),(堪培拉,国家),(堪培拉,领土)}。

实体探索

        实体探索与关系探索类似,实体探索也是由LLM从R^DE^D执行的波束搜索过程,并且包括两个步骤,搜索和修剪。

        搜索

        一旦我们已经从关系探索获得了新的前N个推理路径P和新的尾关系R^D的集合,对于每个关系路径p_n \in P,我们可以通过查询\left ( e_{n}^{D-1}, r_{n}^{D}, ? \right )\left ( ? ,r_{n}^{D}, e_{n}^{D-1} \right )来探索候选实体集E_{cand,n}^D,其中e_{n}^{D-1},r_{n}^{D}表示p_n的尾实体和关系。我们可以聚合\left \{ E_{cand,1}^D,E_{cand,2}^D ,\cdots,E_{cand,n}^D\right \}扩展为E_{cand}^D,并利用尾部实体E_{cand,n}^D扩展前N条推理路径PP_{cand}。对于所示的情况,E_{cand,1}^D可以表示为{Australia,Australia,澳大利亚首都直辖区}。

        修剪

        由于每个候选集合E_{cand}^D中的实体是用自然语言表达的,因此我们可以利用LLM来从P_{cand}中选择以尾部实体E^D结束的新的前N个推理路径P。此处使用的提示可参见附录E.3.2。如图2所示,澳大利亚和澳大利亚首都直辖区被评分为1,因为关系capital of、country和territory仅分别链接到一个尾实体,并且当前推理路径p被更新为{(堪培拉,capital of,Australia),(Canberra,country,Australia),(堪培拉,territory,澳大利亚首都直辖区)}。

        在执行上述两个探索之后,我们重新构建新的前N个推理路径P,其中每条路径的长度增加1。每个修剪步骤最多需要N个LLM调用。

2.1.3推理

        在通过探索过程获得当前推理路径P后,我们提示LLM评估当前推理路径是否足以生成答案。如果评估产生了肯定的结果,我们将提示LLM使用推理路径生成答案,并将查询作为输入,如图2所示。用于评价和生成的提示可参见附录E.3.3和E.3.4。相反,如果评估产生负结果,我们会重复探索和推理步骤,直到评估为正或达到最大搜索深度Dmax。如果算法还没有结束,这意味着即使在达到Dmax时,ToG仍然不能探索推理路径来解决问题。在这种情况下,ToG仅基于LLM中的固有知识来生成答案。ToG的整个推理过程包含D个探索阶段、D个评价步骤和一个生成步骤,最多需要2ND +D + 1次对LLM的调用。

2.2基于关系的图上思考

        先前的KBQA方法,特别是基于语义分析的方法,主要依赖于问题中的关系信息来生成正式查询(Lan等人,2022年)的报告。受此启发,我们提出了基于关系的ToG(ToG-R),它探索由主题实体\left \{ e_n^0 \right \}_{n=1}^{N}开始的前N个关系链\left \{ p_n = \left ( e_n^0, r_n^1,r_n^2,\cdots,r_n^N\right ) \right \}_{n=1}^N,而不是基于三元组的推理路径。ToG-R在每次迭代中依次执行关系搜索、关系剪枝和实体搜索,这与ToG相同。然后,ToG-R根据实体搜索得到的所有以E_{cand}^D结尾的候选推理路径进行推理。如果LLM确定所检索的候选推理路径不包含LLM回答问题的足够信息,则我们从候选实体E_{cand}^D中随机采样N个实体,并继续下一次迭代。假设每个实体集合E_{cand}^D中的实体可能属于相同的实体类并且具有相似的相邻关系,则修剪实体集合\left \{ E_{cand,n}^D \right \}_{n=1}^{N}的结果可能对随后的关系探索几乎没有影响。因此,我们使用随机波束搜索代替ToG中的LLM约束波束搜索来进行实体剪枝,称为随机剪枝。算法1和2显示了ToG和ToG-R的实现细节。ToG-R最多需要ND +D + 1个对LLM的调用。

        与ToG相比,ToG-R提供了两个关键的好处:1)它消除了使用LLM修剪实体的过程的需要,从而减少了总体成本和推理时间。2)ToG-R主要强调关系的字面信息,当中间实体的字面信息缺失或不熟悉时,减轻了误导推理的风险。

三、实验

3.1实验设计

3.1.1数据集和评估指标

        为了测试ToG在多跳知识密集型推理任务上的能力,我们在5个KBQA数据集(4个多跳和1个单跳)上评估了ToG:CWQ(Talmor & Berant,2018),WebQSP(Yih et al.,2016),GrailQA(顾等人,2021)、QALD 10-en(Perevalov等人,2022)、简单问题(Bordes等人,2015年)的报告。此外,为了在更一般的任务上检查ToG,我们还准备了一个开放域QA数据集:WebQuestions(Berant等人,2013);两个槽填充数据集:T-REx(ElSahar等人,2018年)和零击RE(Petroni等人,2021);以及一个事实核查数据集:Creak(Onoe等人,2021年)的报告。请注意,对于两个大型数据集GrailQA和Simple Questions,我们仅随机选择了1,000个样本进行测试,以节省计算成本。对于所有数据集,精确匹配准确度(Hitts@1)被用作我们的评估度量,遵循先前的工作(Li等人,2023 c; Baek等人,2023 b; Jiang等人,2023年; Li等人,第2023条a款)。

3.1.2选择用于比较的方法

        我们与标准提示(IO提示)(Brown等人,2020 b)、思维链提示(CoT提示)(Wei等人,2022)和自我一致性(Wang等人,2023 c),具有6个上下文内的范例和“逐步”推理链。此外,对于每个数据集,我们挑选了以前的最新(SOTA)工作进行比较。我们注意到,专门针对评估的数据集微调后的方法通常在本质上比基于提示而不训练的方法具有优势,但牺牲了对其他数据的灵活性和概括性。为了公平起见,因此,我们比较了以前的SOTA中的所有基于排序的方法和以前的SOTA中的所有方法。请注意,Tan等人的论文。(2023)不参与比较,因为其结果不是基于标准精确匹配,因此不可比。

3.1.3实验细节

        考虑到ToG的即插即用便利性,我们在实验中尝试了三个LLM:ChatGPT,GPT-4和Llama-2。我们使用OpenAI API调用ChatGPT(GPT-3.5-turbo)和GPT-41。Llama 2 - 70 B-Chat(Touvron等人,2023)以8 A100- 40 G运行,没有量化,其中温度参数设置为0.4用于探索过程(增加多样性),并设置为0用于推理过程(保证再现性)。生成的最大令牌长度设置为256。在所有实验中,我们将宽度N和深度Dmax都设置为3以进行波束搜索。游离碱(Bollacker等人,2008)被用作CWQ、WebQSP、GrailQA、Simple Questions和Webquestions的KG,而Wikidata(Vrande Kazci 'c & Krötzsch,2014)被用作QALD 10-en、T-REx、Zero-Shot RE和Creak的KG。我们在所有数据集的ToG推理提示中使用5个镜头。

表1:不同数据集的ToG结果。前FT(微调)和提示SOTA包括最著名的结果:α:Das等人(2021); β:Yu等人(2023); γ:Gu等人(2023); δ:桑塔纳等人(2022); δ:Baek等人(2023 a); δ:Kedia等人(2022); η:Glass等人(2022); θ:Petroni等人(2021); i:Yu等人(2022); κ:Li等人(2023 a)。

3.2主要结果

3.2.1与其他方法的比较

        由于CoT使用外部KG来增强LLM,我们首先将其与利用外部知识的方法进行比较。正如我们在图1中所看到的,即使ToG是一种无需训练的基于优化的方法,并且与那些使用数据进行训练以进行评估的微调方法相比具有天然的劣势,但使用GPT-4的ToG仍然在9个数据集中的6个中实现了新的SOTA性能,包括WebQSP,GrailQA,QALD 10-en,WebQuestions,Zero-Shot RE和Creak。甚至对于一些没有SOTA的数据集,例如,在CWQ,CoT的绩效已经接近SOTA(69.5%对百分之七十点四)。如果与所有基于提升的方法相比,使用GPT-4的ToG和使用ChatGPT的ToG的弱版本都能在所有数据集中赢得竞争。特别地,在开放域QA数据集WebQuestions上的1.6%的改进表明了ToG在开放域QA任务上的通用性。我们还注意到ToG在单跳KBQA数据集上的性能不如在其他数据集上的性能。这些结果表明,ToG算法在多跳数据集上具有更好的性能,支持了ToG算法增强了LLM深度推理能力的观点.

        从图1中我们还可以看出,与那些没有利用外部知识的方法(如IO、CoT和SC提示方法)相比,ToG的优势更为显著。例如,在GrailQA和Zero-Shot RE上的性能分别提高了51.8%和42.9%。事实证明,在推理中,外部KG的好处是不可忽视的。

        在大多数数据集上,ToG优于ToG-R,因为与ToG-R检索的关系链相比,基于三元组的推理路径提供了额外的中间实体信息。ToG生成的答案的更详细分析可在附录B.2中查看。为了更好地进行比较,在附录C中报告了每个数据集的先前方法的结果。

3.2.2不同骨干模型的性能

表2:在CWQ和WebQSP上使用不同骨干模型的ToG性能

        考虑到ToG的即插即用的灵活性,我们在两个数据集CWQ和WebQSP上评估了不同骨干模型对其性能的影响。表2显示,正如我们预期的那样,CoT的性能随着主干模型的大小(也部分反映了推理能力)而提高(GPT-4 > ChatGPT > Llama-2)。此外,我们看到,主干模型越大,CoT和ToG之间的差距就越大(CWQ上的增益从Llama-2的18.5%增加到GPT-4的23.5%,WebQSP上的增益从Llama-2的11.5%增加到GPT-4的15.3%),这表明可以使用更强大的LLM挖掘KG的更多潜力。

        此外,即使使用最小的模型Llama-2(70 B参数),ToG也优于使用GPT-4的CoT。这意味着LLM部署和应用的技术路线要便宜得多,即,具有廉价小型LLM的TOG可能是替代昂贵大型LLM的候选者,特别是在外部KG可以覆盖的垂直场景中。

3.2.3消融研究

        我们进行各种消融研究,以了解不同因素在ToG中的重要性。我们对CWQ和WebQSP测试集的两个子集进行了消融研究,每个子集包含1,000个随机抽样的问题。

搜索深度和宽度对ToG重要吗?

图3:不同搜索深度和宽度的ToG性能

        为了探索搜索深度D_{ max}和波束宽度N对ToG性能的影响,我们在深度范围从1到4和宽度范围从1到4的设置下进行实验。如图3所示,ToG的性能随着搜索深度和宽度的增加而提高。这也意味着,随着勘探深度和广度的增加,ToG的性能可能会得到改善。然而,考虑到计算成本(随着深度线性增加),我们将深度和宽度都设置为3作为默认的实验设置。另一方面,当深度超过3时,性能增长减小,这主要是因为只有一小部分问题的推理深度(基于SPARQL中的关系数量,如附录中的图12所示)大于3。

不同的幼儿园是否会影响ToG的表现?

表3:在CWQ和WebQSP上使用不同源KG的ToG性能

        ToG的主要优势之一是其即插即用功能。如表3所示,与CoT相比,ToG在CWQ和WebQSP上使用不同来源的KG实现了显著改进。另一方面,不同来源的KG可能对有ToG性能的不同影响。值得注意的是,Freebase对CWQ和WebQSP的改进比维基数据更显著,因为这两个数据集都是在Freebase上构建的。此外,在像Wikidata这样的大型KG中,搜索和修剪过程相对具有挑战性。

不同的提示设计如何影响ToG?

        我们进行额外的实验,以确定哪些类型的提示表示可以很好地为我们的方法。结果如表4所示。“三元组”表示使用三元组格式作为提示来表示多个路径,例如“(堪培拉,首都,澳大利亚),(澳大利亚,总理,Anthony Albanese)"。“序列”是指使用序列格式,如图2所示。“句子”涉及将三元组转换为自然语言句子。例如,“(堪培拉,capital of,Australia)”可以转换为“The capital of堪培拉is Australia.“结果表明,利用三元组表示的推理路径产生了最高程度的效率和上级性能。相反,当考虑ToG-R时,每个推理路径是从主题实体开始的关系链,使其与基于三元组的提示表示不兼容。因此,将ToG-R转换为自然语言形式会导致过长的提示,从而导致性能显著下降。

表4:使用不同提示设计的ToG性能
比较不同修剪工具的效果

        除了LLM之外,可以测量文本相似性的轻量级模型(如BM25和SentenceBERT)可以在探索阶段用作修剪工具。我们可以根据与问题的字面相似性选择前N个实体和关系。我们研究了不同修剪工具对ToG性能的影响,如表5所示。用BM25或SentenceBERT替换LLM导致了我们的方法的显著性能下降。具体而言,CWQ上的结果平均下降了8.4%,而WebQSP上的结果平均下降了15.1%。实验结果表明,LLM作为剪枝工具的有效性最佳。另一方面,在使用BM25或SentenceBERT之后,我们只需要D + 1个到LLM的调用,而不是如我们在2.1.3节中讨论的2ND +D + 1个,这提高了ToG的效率。

表5:使用不同修剪工具的ToG性能

        我们对种子样本数量的影响以及ToG和初始射束搜索对KG的差异进行了额外的消融研究,如附录B.1所示。

3.3知识图谱中知识的可追溯性和正确性

图4:ToG的知识可追溯性和可纠正性的说明

        知识图谱中的质量对思维导图的正确推理至关重要。ToG的一个有趣的特性是LLM推理过程中的知识可追溯性和知识可纠正性,它提供了一种使用ToG本身来提高KG质量并降低KG构建和纠正成本的方法。如图4所示,可以向用户显示ToG的显式推理路径。如果潜在在ToG答案中的错误或不确定性被人类用户/专家或其他LLM发现时,ToG具有追溯和检查推理路径、发现具有错误的可疑三元组并纠正它们的能力。以图4中的情况为例。给定输入问题“吉祥物Phillie Phanatic的球队的春训体育场是什么?",ToG在第一轮中输出错误答案“Bright House Field”。然后ToG回溯所有的推理路径,定位错误的原因可能来自第二条推理路径(Phillie Phanatic Team − → Philadelphia Phillies竞技场Stadium −−→ Bright House Field),并分析错误来自过时的三元组(Philadelphia Phillies,竞技场Stadium,Bright House Field)中“Bright House Field”的旧名“Specturm Field”。根据ToG的提示,用户可以要求LLM更正此错误,并使用正确的信息回答相同的问题。这个例子揭示了ToG不仅用KG增强了LLM,而且用LLM改进了KG的质量,这被称为知识注入(Moiseev等人,2022年)的报告。

四、相关工作

使用LLM提示的的推理

        (思维链(CoT)Wei等人,2022)已被证明在增强LLM推理方面是有效的。该方法在少次学习范式下,根据推理逻辑生成一系列的提示实例,以提高LLM在复杂任务上的表现。CoT的思想已经沿着不同的维度得到了改进,包括Auto-CoT(Zhang et al.,2022),复合物-CoT(Fu等人,2023),自我一致性(Wang等人,2023 c)、零发射CoT(Kojima等人,2022)、Iter-CoT(Sun等人,2023 b)、ToT(Yao等人,2023)、GoT(Besta等人,2023)等。鉴于所有这些工作都仅使用训练数据中的知识的局限性,最近的工作如ReAct(Yao等人,2022)试图利用来自诸如Wiki文档的外部源的信息来进一步提高推理性能。

KG-增强的LLM

        KG在动态、显式和结构化知识表示方面具有优势(Pan等人,2023)并且将LLM与KG相结合的技术已经被研究了。早期的研究(Peters等人,2019年; Huang等人,2024年; Luo等人,2024; Zhang等人,2021年; Li等人,2023 b; Liu等人,2020)在预训练或微调过程中将来自知识库的结构化知识嵌入到底层神经网络中。然而,嵌入到LLM中的KG牺牲了其自身在知识推理中的可解释性和在知识更新中的效率的性质(Hu等人,2023年)的报告。

        最近的工作通过将相关的结构化知识从知识库翻译成用于LLMs的文本提示来将LLMs与知识库结合起来。所有的方法都遵循一条固定的管道,从KG中检索额外的信息来扩充LLM提示符,它们属于我们在引言部分定义的LLM\bigoplus KG范例。另一方面,Jiang et al.(2023)要求LLM探索KG,因此它可以被视为ToG的一个特例,属于LLM \bigotimesKG范式。

五、结论

        我们引入了LLM\bigotimesKG范式,用于以紧耦合的方式集成LLM和KG,并提出了图上思维(ToG)算法框架,该框架利用LLM作为代理参与KG推理以实现更好的决策。实验结果表明,ToG优于现有的基于微调的方法和基于迭代的方法,而无需额外的训练成本,并减轻了LLM的幻觉问题。

六、鸣谢

        我们衷心感谢尊敬的审稿人提供的宝贵反馈和建设性意见,这些意见对改进和完善本文做出了重大贡献。他们提出的真知灼见和对细节的细致关注,在提高我们研究工作的质量和清晰度方面发挥了关键作用。

相关文章:

图上思维:基于知识图的大型语言模型的深层可靠推理

摘要 尽管大型语言模型(LLM)在各种任务中取得了巨大的成功,但它们经常与幻觉问题作斗争,特别是在需要深入和负责任的推理的场景中。这些问题可以通过在LLM推理中引入外部知识图(KG)来部分解决。在本文中&am…...

37-智慧医疗服务平台(在线接诊/问诊)

系统功能特点: 技术栈: springBootVueMysql 功能点: 医生端 用户端 管理员端 医生端: 科室信息管理、在线挂号管理、预约体检管理、体检报告管理、药品信息管理、处方信息管理、缴费信息管理、病历信息管理、智能导诊管理、在线接诊患者功能 (和患者1V1沟通) 用户…...

【新品发布】VXI可重构信号处理系统模块系列

VXI可重构信号处理系统模块概述 VXI可重构信号处理系统模块包括了 GPU 模块,CPU 模块,射频模块、IO 模块、DSP模块、高速存储模块、交换模块,采集处理模块、回放处理模块等,全套组件为单体3U VPX架构,可自由组合到多槽…...

React 第三十八节 Router 中useRoutes 的使用详解及注意事项

前言 useRoutes 是 React Router v6 引入的一个钩子函数,允许通过 JavaScript 对象(而非传统的 JSX 语法)定义路由配置。这种方式更适合复杂路由结构,且代码更简洁易维护。 一、基础使用 1.1、useRoutes路由配置对象 useRoute…...

Redhat 系统详解

Red Hat 系统深度解析:从企业级架构到核心组件 一、Red Hat 概述:企业级 Linux 的标杆 Red Hat 是全球领先的开源解决方案供应商,其核心产品 Red Hat Enterprise Linux(RHEL) 是企业级 Linux 的黄金标准。RHEL 以 稳…...

docker常用命令总结

常用命令含义docker info查看docker 服务的信息-------------------------镜像篇docker pull XXX从官网上拉取名为XXX的镜像docker login -u name登录自己的dockerhub账号docker push XXX将XXX镜像上传到自己的dockerhub账户中(XXX的命名必须是用户名/镜像名&#x…...

【el-admin】el-admin关联数据字典

数据字典使用 一、新增数据字典1、新增【图书状态】和【图书类型】数据字典2、编辑字典值 二、代码生成配置1、表单设置2、关联字典3、验证关联数据字典 三、查询操作1、模糊查询2、按类别查询(下拉框) 四、数据校验 一、新增数据字典 1、新增【图书状态…...

component :is是什么?

问: component :is是什么? 是组件? 那我们是不是就不需要自己创建组件了?还是什么意思?component :is和什么功能是类似的,同时和类似功能相比对什么时候用component :is…...

适老化洗浴辅具产业:在技术迭代与需求升级中重塑银发经济新生态

随着中国人口老龄化程度的不断加深,老年群体对于适老化产品的需求日益增长。 适老化洗浴辅具作为保障老年人洗浴安全与舒适的关键产品,其发展状况备受关注。 深入剖析中国适老化洗浴辅具的发展现状,并探寻助力产业发展的有效路径&#xff0…...

『Python学习笔记』ubuntu解决matplotlit中文乱码的问题!

ubuntu解决matplotlit中文乱码的问题! 文章目录 simhei.ttf字体下载链接:http://xiazaiziti.com/210356.html将字体放到合适的地方 sudo cp SimHei.ttf /usr/share/fonts/(base) zkfzkf:~$ fc-list | grep -i "SimHei" /usr/local/share/font…...

从AI到新能源:猎板PCB的HDI技术如何定义高端制造新标准?

2025年,随着AI服务器、新能源汽车、折叠屏设备等新兴领域的爆发式增长,高密度互连(HDI)电路板成为电子制造业的“必争之地”。HDI板凭借微孔、细线宽和高层间对位精度,能够实现电子设备的高集成化与微型化,…...

汽车制造行业的数字化转型

嘿,大家好!今天来和大家聊聊汽车制造行业的数字化转型,这可是当下非常热门的话题哦! 随着科技的飞速发展,传统的汽车制造行业正经历着一场深刻的变革。数字化技术已经不再是“锦上添花”,而是车企能否在未…...

Redis 常见数据类型

Redis 常见数据类型 一、基本全局命令详解与实操 1. KEYS 命令 功能:按模式匹配返回所有符合条件的键(生产环境慎用,可能导致阻塞)。 语法: KEYS pattern 模式规则: h?llo:匹配 hello, ha…...

【计算机网络-传输层】传输层协议-TCP核心机制与可靠性保障

📚 博主的专栏 🐧 Linux | 🖥️ C | 📊 数据结构 | 💡C 算法 | 🅒 C 语言 | 🌐 计算机网络 上篇文章:传输层协议-UDP 下篇文章: 网络层 我们的讲解顺序是&…...

对golang中CSP的理解

概念: CSP模型,即通信顺序进程模型,是由英国计算机科学家C.A.R. Hoare于1978年提出的。该模型强调进程之间通过通道(channel)进行通信,并通过消息传递来协调并发执行的进程。CSP模型的核心思想是“不要通过…...

嵌入式openharmony标准系统中HDF框架底层原理分析

1、案例简介 该程序是基于OpenHarmony标准系统编写的基础外设类:简易HDF驱动。 2、基础知识 2.1、OpenHarmony HDF开发简介 HDF(Hardware Driver Foundation)驱动框架,为驱动开发者提供驱动框架能力,包括驱动加载、驱动服务管理、驱动消息机制和配置管理。旨在构建统一…...

238.除自身以外数组的乘积

给你一个数组,求出第 i 个元素以外的数组元素的乘积,不能使用除法,且时间复杂度O(n), 对于一个数,如果知道了前缀元素的乘积和后缀元素的乘积,就知道了这个元素以外的数组元素的乘积,所以现在的问题是如何…...

AI文旅|暴雨打造旅游新体验

今年"五一"假期,全国文旅市场迎来爆发式增长,从丈崖瀑布的磅礴水雾到城市商区的璀璨霓虹,从山野民宿的静谧悠然到主题乐园的欢腾喧嚣,处处人潮涌动。在这火热的景象背后,一股“无形之力”正悄然改变旅游体验…...

学习心得《How Global AI Policy and Regulations Will Impact Your Enterprise》Gartner

AI时代来临,然而与之对应的是海量的数据的安全性和合规性如何保障,如何平衡个人与智能体的利益,恰巧,最近Gartner发布了《How Global AI Policy and Regulations Will Impact Your Enterprise》,我们就其中的观点一起进行探讨。 战略规划假设 我们首先关注的是关键的战略…...

JAVA将一个同步方法改为异步执行

目的: 这么做的目的就是为了使一个高频率执行的方法能不阻塞整个程序,将该方法丢入到线程池中让线程去做异步执行,既提高了程序整体运行速度,也使得在高并发环境下程序能够更加健壮(同步执行可能会使得请求堆积以致系…...

对遗传算法思想的理解与实例详解

目录 一、概述 二、实例详解 1)问题描述与分析 2)初始化种群 3)计算种群适应度 4)遗传操作 5)基因交叉操作 6)变异操作 三、计算结果 四、总结 一、概述 遗传算法在求解最优解的问题中最为常用&a…...

数据可视化大屏——物流大数据服务平台(二)

代码分析: 物流大数据平台代码分析 这是一个基于 Bootstrap 和 ECharts 构建的物流大数据平台前端页面,设计采用了经典的三栏布局,主要展示河南省及全国的物流数据可视化内容。下面从多个维度进行分析: 1. 页面结构分析 整体采…...

MindSpore框架学习项目-ResNet药物分类-构建模型

目录 2.构建模型 2.1定义模型类 2.1.1 基础块ResidualBlockBase ResidualBlockBase代码解析 2.1.2 瓶颈块ResidualBlock ResidualBlock代码解释 2.1.3 构建层 构建层代码说明 2.1.4 定义不同组合(block,layer_nums)的ResNet网络实现 ResNet组建类代码解析…...

ChatTempMail - AI驱动的免费临时邮箱服务

在当今数字世界中,保护在线隐私的需求日益增长。ChatTempMail应运而生,作为一款融合人工智能技术的新一代临时邮箱服务,它不仅提供传统临时邮箱的基本功能,还通过AI技术大幅提升了用户体验。 核心功能与特性 1. AI驱动的智能邮件…...

(leetcode) 力扣100 9.找到字符串中所有字母异位词(滑动窗口)

题目 给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词 的子串&#xff0c;返回这些子串的起始索引。不考虑答案输出的顺序。 数据范围 1 < s.length, p.length < 3 * 104 s 和 p 仅包含小写字母 样例 示例 1: 输入: s "cbaebabacd", p &quo…...

深入了解 Stable Diffusion:AI 图像生成的奥秘

一、引言 AI 艺术与图像生成技术的兴起改变了我们创造和体验视觉内容的方式。在过去几年里&#xff0c;深度学习模型已经能够创造出令人惊叹的艺术作品&#xff0c;这些作品不仅模仿了人类艺术家的风格&#xff0c;甚至还能创造出前所未有的新风格。在这个领域&#xff0c;Sta…...

场外期权平值期权 实值期权 虚值期权有什么区别?收益如何计算?

​​期权汇 场外期权按价值状态分为平值、虚值、实值期权。 01&#xff5c;实值期权对于看涨期权而言&#xff0c;如果行权价格低于标的市场价格&#xff0c;则该期权处于实值状态&#xff1b;对于看跌期权&#xff0c;如果行权价格高于标的市场价格&#xff0c;则处于实值状态…...

微软系统 红帽系统 网络故障排查:ping、traceroute、netstat

在微软&#xff08;Windows&#xff09;和红帽&#xff08;Red Hat Enterprise Linux&#xff0c;RHEL&#xff09;等系统中&#xff0c;网络故障排查是确保系统正常运行的重要环节。 ping、traceroute&#xff08;在Windows中为tracert&#xff09;和netstat是三个常用的网络…...

HOT 100 | 【子串】76.最小覆盖子串、【普通数组】53.最大子数组和、【普通数组】56.合并区间

一、【子串】76.最小覆盖子串 1. 解题思路 定义两个哈希表分别用于 t 统计字符串 t 的字符个数&#xff0c;另一个sub_s用于统计字符串 t 在 s 的子串里面字符出现的频率。 为了降低时间复杂度&#xff0c;定义一个变量t_count用于统计 t 哈希表中元素的个数。哈希表sub_s是一…...

基于CNN的猫狗图像分类系统

一、系统概述 本系统是基于PyTorch框架构建的智能图像分类系统&#xff0c;专门针对CIFAR-10数据集中的猫&#xff08;类别3&#xff09;和狗&#xff08;类别5&#xff09;进行分类任务。系统采用卷积神经网络&#xff08;CNN&#xff09;作为核心算法&#xff0c;结合图形用…...

《时序数据库全球格局:国产与国外主流方案的对比分析》

引言 时序数据库&#xff08;Time Series Database, TSDB&#xff09;是专门用于存储、查询和分析时间序列数据的数据库系统&#xff0c;广泛应用于物联网&#xff08;IoT&#xff09;、金融、工业监控、智能运维等领域。近年来&#xff0c;随着大数据和物联网技术的发展&…...

力扣-2.两数相加

题目描述 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;这两个数都…...

富乐德传感技术盘古信息 | 锚定“未来工厂”新坐标,开启传感器制造行业数字化转型新征程

在数字化浪潮下&#xff0c;制造业正经历深刻变革。 传感器作为智能制造的核心基础部件&#xff0c;正面临着质量精度要求升级、交付周期缩短、成本管控严苛等多重挑战。传统依赖人工纸质管理、设备数据孤岛化的生产模式&#xff0c;已成为制约高端传感器制造突破“高精度、高…...

RT-Thread 深入系列 Part 2:RT-Thread 内核核心机制深度剖析

摘要&#xff1a; 本文从线程管理、调度器原理、中断处理与上下文切换、IPC 同步机制、内存管理五大核心模块出发&#xff0c;深入剖析 RT-Thread 内核实现细节&#xff0c;并辅以源码解读、流程图、时序图与性能数据。 目录 线程管理与调度器原理 1.1 线程控制块&#xff08;T…...

uni-app,小程序自定义导航栏实现与最佳实践

文章目录 前言为什么需要自定义导航栏&#xff1f;基本实现方案1. 关闭原生导航栏2. 自定义导航栏组件结构3. 获取状态栏高度4. 样式设置 内容区域适配跨平台适配要点iOS与Android差异处理 常见导航栏效果实现1. 透明导航栏2. 滚动渐变导航栏3. 自定义返回逻辑 解决常见问题1. …...

小程序消息订阅的整个实现流程

以下是微信小程序消息订阅的完整实现流程&#xff0c;分为 5个核心步骤 和 3个关键注意事项&#xff1a; 一、消息订阅完整流程 步骤1&#xff1a;配置订阅消息模板 登录微信公众平台进入「功能」→「订阅消息」选择公共模板或申请自定义模板&#xff0c;获取模板ID&#xff…...

istio in action之Gateway流量入口与安全

入口网关&#xff0c;简单来说&#xff0c;就是如何让外部世界和我们精心构建的集群内部服务顺畅地对话。在网络安全领域&#xff0c;有一个词叫流量入口&#xff0c;英文叫Ingress。这指的是那些从我们自己网络之外&#xff0c;比如互联网&#xff0c;发往我们内部网络的流量。…...

LeetCode 1722. 执行交换操作后的最小汉明距离 题解

示例&#xff1a; 输入&#xff1a;source [1,2,3,4], target [2,1,4,5], allowedSwaps [[0,1],[2,3]] 输出&#xff1a;1 解释&#xff1a;source 可以按下述方式转换&#xff1a; - 交换下标 0 和 1 指向的元素&#xff1a;source [2,1,3,4] - 交换下标 2 和 3 指向的元…...

区块链详解

1. 引言 1.1 背景 在数字化时代&#xff0c;信息的存储、传输和验证面临诸多挑战&#xff0c;如数据篡改、信任缺失、中心化风险等。区块链技术应运而生&#xff0c;作为一种分布式账本技术&#xff0c;它通过去中心化、去信任化、不可篡改等特性&#xff0c;为解决这些问题提…...

申能集团笔试1

目录 注意 过程 注意 必须开启摄像头和麦克风 只能用网页编程&#xff0c;不能用本地环境 可以用Index进行测试 过程 我还以为是编程&#xff0c;没想到第一次是企业人际关系、自我评价的选择题&#xff0c;哈哈哈有点轻松&#xff0c;哦对他要求不能泄漏题目&#xff0c…...

机器人手臂的坐标变换:一步步计算齐次矩阵过程 [特殊字符]

大家好!今天我们来学习如何计算机器人手臂的坐标变换。别担心,我会用最简单的方式解释这个过程,就像搭积木一样简单! 一、理解问题 我们有一个机器人手臂,由多个关节组成。每个关节都有自己的坐标系,我们需要计算从世界坐标系(W)到末端执行器(P₃)的完整变换。 二、已…...

神经元和神经网络定义

在深度学习中&#xff0c;神经元和神经网络是构成神经网络模型的基本元素。让我们从基础开始&#xff0c;逐步解释它们的含义和作用。 1️⃣ 神经元是什么&#xff1f; 神经元是神经网络中的基本计算单元&#xff0c;灵感来自于生物神经系统中的神经元。每个人的脑中有数以亿…...

Vue——Axios

一、Axios 是什么 Axios 是一个基于 promise 网络请求库&#xff0c;作用于 node.js 和浏览器中。 它是 isomorphic 的 ( 即同一套代 码可以运行在浏览器和 node.js 中 ) 。在服务端它使用原生 node.js http 模块 , 而在客户端 ( 浏览端 ) 则使 用 XMLHttpRequest…...

力扣:轮转数组

题目 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数。 例子 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3,4,5,6] 向右轮转 2 步: [6,7,1,2,3,4,5] 向右轮转 3 步: [5…...

TCP/IP协议的体系结构

文章目录 前言数据链路层网络层传输层应用层 前言 TCP/IP通信体系主要分为四个层次&#xff0c;从底至上分别为&#xff1a; 数据链路层 >网络层 > 传输层 >应用层 该体系的工作原理主要依靠封装与分用的使用完成对信息的传递与解析。 1. 所谓封装&#xff0c;就是上层…...

Vue3 中 ref 与 reactive 的区别及底层原理详解

一、核心区别 1. 数据类型与使用场景 • ref 可定义基本类型&#xff08;字符串、数字、布尔值&#xff09;和对象类型的响应式数据。对于对象类型&#xff0c;ref 内部会自动调用 reactive 将其转换为响应式对象。 语法特点&#xff1a;需通过 .value 访问或修改数据&#…...

MySQL 与 Elasticsearch 数据一致性方案

MySQL 与 Elasticsearch 数据一致性方案 前言一、同步双写&#xff08;Synchronous Dual Write&#xff09;&#x1f504;二、异步双写&#xff08;Asynchronous Dual Write&#xff09;&#x1f4e4;三、定时同步&#xff08;Scheduled Synchronization&#xff09;&#x1f5…...

rust-candle学习笔记11-实现一个简单的自注意力

参考&#xff1a;about-pytorch 定义ScaledDotProductAttention结构体&#xff1a; use candle_core::{Result, Device, Tensor}; use candle_nn::{Linear, Module, linear_no_bias, VarMap, VarBuilder, ops};struct ScaledDotProductAttention {wq: Linear,wk: Linear,wv: …...

RabbitMQ-运维

文章目录 前言运维-集群介绍多机多节点单机多节点 多机多节点下载配置hosts⽂件配置Erlang Cookie启动节点构建集群查看集群状态 单机多节点安装启动两个节点再启动两个节点验证RabbitMQ启动成功搭建集群把rabbit2, rabbit3添加到集群 宕机演示仲裁队列介绍raft算法协议 raft基…...

101 alpha——8 学习

alpha (-1 * rank(((sum(open, 5) * sum(returns, 5)) - delay((sum(open, 5) * sum(returns, 5)),这里我们操作符都明白&#xff0c;现在来看金融意义 金融意义 里层是这个 (sum(open, 5) * sum(returns, 5)) - delay((sum(open, 5) * sum(returns, 5)), 10 这里是两个相减…...