2023.11 Graph-Enriched Biomedical Language Models: A Research Proposal
Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: Student Research Workshop, pages 82–92 November 1–4, 2023. ©2023 Association for Computational Linguistic
https://aclanthology.org/2023.ijcnlp-srw.11.pdf
研究了生物医学领域中语言模型与知识图谱(UMLS)的融合问题,分析现有模型局限,提出四个研究问题,通过开发新的表示对齐方法、探索知识融合策略等,利用 PubMed 摘要等数据进行实验和评估,旨在提升生物医学语言模型性能,深化对文本 - 知识库交互理解,解决知识库利用和低资源语言等问题。
问题
- 最优知识融合策略未明确:尽管已有多种知识融合策略被提出,但对于生物医学领域,从零开始的知识增强语言模型预训练、基于知识库的任务特定微调、预训练语言模型与知识库表示对齐这三种策略中,哪一种或如何组合能达到最优效果尚不明确。
- LM 与生物医学 KB 表示对齐困难:目前尚无有效的语言模型(LM)与生物医学知识库(KB)表示的对齐方法,且直接应用现有方法存在诸多阻碍,如模型架构差异和任务模态差异等。
- LM 缺乏生物医学知识:现有领域特定的语言模型缺乏足够的生物医学事实知识,可能源于提示方法不完善或模型本身知识的缺失或不完整,如何将生物医学知识库中的知识融入语言模型是一个挑战。
- 低资源语言利用问题:多数生物医学 NLP 研究集中于英语数据,低资源语言被忽视,如何利用丰富的英语知识库提升低资源语言在生物医学 NLP 任务中的表现是亟待解决的问题。
挑战
- 语言模型自身局限:现有生物医学语言模型在存储大量事实知识、本体记忆、推理能力以及捕捉复杂专业领域术语方面存在不足。在一般领域,大型语言模型已被证明在这些方面能力有限,生物医学领域同样面临该问题,例如在生物医学知识探测任务中,模型难以捕捉复杂术语,对某些提示存在偏差且不了解同义词12。
- 知识库利用挑战:虽然有像 UMLS 这样的大规模知识库,但将其知识融入语言模型面临困难。如在处理低资源语言文本时,存在严重的语言不平衡问题(从 UMLS 中不同语言概念名称数量占比可看出,英语占比达 70.78%,而许多语言占比极低)。此外,将知识库知识融入语言模型的现有方法存在局限性,如基于知识库增强的语言模型预训练或微调方法中,现代语言模型的注意力机制与知识库图的稀疏结构矛盾,知识库图的线性化也阻碍了文本与知识库模态的直接对齐;同时,一些方法过于依赖特定下游任务,缺乏文本与生物医学概念的明确对齐345。
创新点
- 探索新的知识融合策略:提出对比从零开始的知识增强语言模型预训练、基于知识库的任务特定微调以及预训练语言模型与知识库表示对齐这三种策略,尤其关注基于对齐的策略在生物医学领域的适用性和有效性,这种探索在该领域相对新颖。
- 开发新的表示对齐方法:针对文本与知识库表示对齐这一未被充分探索的领域,计划开发新方法,包括隐式对齐(通过辅助知识库引导训练目标,提出单模态和混合模态图恢复的思路)和显式对齐(结合上下文概念提及与知识库图表示,通过对比目标函数直接最小化二者距离)。
- 跨模态跨语言研究视角:从跨模态(文本与图)和跨语言角度研究知识融合,如在跨语言方面,探索如何利用多语言 UMLS 知识库的概念节点特征,通过跨语言跨模态表示对齐来提升低资源语言在生物医学任务中的性能,这在已有研究中较少被全面深入探讨。
贡献
- 提出研究问题与计划:系统地提出了生物医学语言模型领域的四个重要研究问题,并详细阐述了针对这些问题的研究计划,包括研究方法、实验设置、评估指标等,为后续研究提供了清晰的方向和框架。
- 创新方法思路:为解决语言模型与知识库的融合问题提供了创新的方法思路,如在表示对齐方面的新探索,有望提升生物医学语言模型对知识的利用能力,从而改善在各种生物医学 NLP 任务中的表现。
- 促进跨领域理解:通过研究计划的实施,预期能够加深对文本与知识库交互机制的理解,不仅有助于生物医学 NLP 领域的发展,也可能为其他领域中语言模型与知识库的融合提供参考和借鉴。
提出的方法
- 表示对齐
- 隐式对齐:通过引入多模态目标实现信息交换,考虑两种情况。一是单模态图恢复,将文本和图恢复任务视为单独单模态任务,用单个图编码器编码三元组的头和尾概念;二是混合模态图恢复,用不同模态的嵌入初始化头概念和尾概念,并采用 TransE 或 ComplEx 模型。
- 显式对齐:明确告知模型文本和图嵌入是同一概念的互补表示。包括单模态文本方法(仅用语言模型填充掩码概念槽)和基于投影的方法(学习文本与图嵌入的投影以进行相似性搜索),本研究计划结合上下文概念提及和知识库图表示,通过 Multi - Similarity 或 InfoNCE 损失函数最小化二者距离678。
- 知识探测:将知识注入视为双模态问题,把三元组完成基线重新表述为双模态文本到图任务,即给定文本提示,预测最佳匹配的知识库节点,同时探索结合显式和隐式的模态对齐策略来提高语言模型在知识探测任务中的能力。
- 跨语言对齐:基于跨语言跨模态表示对齐来解决低资源语言利用问题,利用固定概念名的多语言特性和概念节点在图中的语言独立性,以跨语言概念名对齐对 BCN 质量的提升为基础,研究跨模态对齐对其他生物医学任务性能的影响,虽因非英语数据缺乏在其他任务应用受限,但可先从 BCN 实验入手9。
指标
- 主要任务指标:针对研究问题 1 和 2,重点关注问答(QA)和生物医学概念归一化(BCN)任务的相关指标,如准确率、召回率、F1 值等,因为这些任务已有较多知识增强的解决方案可供对比。
- 知识探测指标:对于研究问题 3,采用生物医学知识探测任务(如 MedLAMA 和 BioLAMA 基准)中的评估指标,具体未明确提及,但应与判断模型对生物医学知识的掌握和应用能力相关,可能包括对概念填充准确性、推理能力评估等方面的指标。
- 跨语言任务指标:在研究问题 4 中,为探索低资源语言利用,对比当前跨语言 BCN 模型的性能,采用零样本排名评估,如基于 Mantra 语料库(Kors et al., 2015)和 XL - BEL(Liu et al., 2021b)的跨语言 BCN 基准进行评估,指标可能涉及不同语言环境下概念归一化的准确性、不同语言间知识迁移效果等方面的衡量。
模型结构
- 文本编码器:采用 PubMedBERT 作为获取文本语言表示的编码器,它是在 PubMed 摘要上预训练的先进生物医学语言模型。
- 图编码器:使用 Message Passing 框架,并通过 GraphSAGE 或 GAT 编码器获取概念节点嵌入,每个节点初始化为其概念名的 PubMedBERT 嵌入(随机初始化)。
- 对齐模块(计划开发)
- 隐式对齐:在单模态图恢复中,利用单个图编码器处理文本和图恢复任务;混合模态图恢复则涉及不同模态嵌入的交互,通过特定模型(如 TransE 或 ComplEx)对头尾概念进行关系建模。
- 显式对齐:涉及文本与图嵌入的直接关联,可能通过学习投影或结合上下文概念提及与图表示,利用对比目标函数(如 Multi - Similarity 或 InfoNCE)实现文本与图表示的对齐。
结论
- 明确了现有生物医学预训练语言模型和相关解决方案在处理下游 NLP 任务时存在的关键局限性,如模型对事实知识利用不充分、缺乏文本 - 知识库显式对齐等问题。
- 提出的四个研究问题及相应研究计划,旨在克服这些局限性,通过探索不同知识融合策略、开发新的表示对齐方法等手段,预期能深化对文本 - 知识库交互的理解,为生物医学 NLP 领域中知识库的有效利用提供更优策略。
剩余挑战和未来工作
- 知识图谱特性影响:使用如 UMLS 这样的大型知识图谱时,其规模和复杂性可能影响模型学习和预测能力,不同规模和结构的知识图谱对模型性能的影响仍需深入研究,未来工作可探索如何优化模型以适应不同特性的知识图谱。
- 模型偏差与数据覆盖问题:训练模型可能继承语言模型和知识库中的偏差(如种族、性别等方面)和毒性行为,且现有数据集和知识图谱主要关注文献中常见的医学概念,对罕见事件覆盖不足。未来需要研究如何减少模型偏差,并提高模型对罕见生物医学事件的处理能力,可能涉及数据增强、更公平的模型训练方法等方面的探索。
- 跨语言与跨任务拓展:虽然提出了跨语言跨模态的研究思路,但在实际应用中,非英语数据的缺乏限制了跨语言方法在其他生物医学任务中的应用。未来需进一步收集和整理多语言生物医学数据,拓展跨语言方法在更多任务中的有效性研究,以实现对低资源语言更全面有效的支持。
数据集
- 训练数据:使用 PubMed 摘要作为各种对齐方法的训练数据,并采用 BERN2(一种新的生物医学实体识别和归一化工具)来识别和对齐文本概念提及与 UMLS 概念。
- 评估数据集
- QA 和 BCN 任务:采用 BigBio 基准中的相关数据集,该基准包含 126 个生物医学 NLP 数据集,涵盖 13 种任务(包括 QA 和 BCN),涉及 10 多种语言,用于回答研究问题 1 和 2。
- 知识探测任务:采用 MedLAMA 和 BioLAMA 基准来评估研究问题 3 中模型在生物医学知识探测任务中的性能。
- 跨语言 BCN 任务:除了对比当前跨语言 BCN 模型外,采用基于 Mantra 语料库(Kors et al., 2015)和 XL - BEL(Liu et al., 2021b)的跨语言 BCN 基准进行零样本排名评估,以研究问题 4 中探索低资源语言利用情况。
抽象
生物医学自然语言处理(NLP)的最新进展是由特定领域的预训练语言模型(LMs)推动的,但有效存储大量生物医学事实知识的挑战仍然存在。尽管经过微调的语言模型在下游自然语言处理任务中表现出色,但这些模型在本体记忆、推理能力和捕获复杂的专业领域术语方面存在局限性。为了解决这些问题,我们提出了四个研究问题,探索将语言模型与大型知识图谱(KGs)(如统一医学语言系统(UMLS))相结合。我们的提案引入了新颖的对齐方法,以将语言模型与 UMLS 知识图谱连接起来,目的是利用结构化的背景知识来增强生物医学语言模型的推理和泛化能力。该研究提案讨论了知识库的多语言特性以及跨各种数据集的评估指标。
1 介绍
近年来见证了由领域特定的预训练语言模型(LMs)引起的各种生物医学自然语言处理(NLP)的重大进展(Lee et al.,2020;彭 et al.,2019;阿尔森泽 et al.,2019; Beltagy et al.,2019;Michalopoulos et al.,2021;顾 et al.,2022;Yasunaga et al.,2022b)。尽管,这些模型在生物医学语言理解和推理基准(BLURB)(顾 et al.,2022)和 BigBio 基准(Fries et al.,2022)上表现出卓越的性能,但它们存储广泛的生物医学事实知识的能力仍然是一个悬而未决的问题。在一般领域,大型 LMs(LLMs)被证明具有有限的本体论记忆和推理能力(Wu et al.,2023)。现有的生物医学知识探测任务研究表明,生物医学 LMs 难以捕获复杂的专门领域
术语(孟等人,2022 年),高度偏向于某些提示,并且不知道同义词(Sung 等人,2021 年)。让 LM 充分了解领域内的事实可以帮助各种 NLP 应用,包括药物发现(Wu 等人,2018 年;Khrabrov 等人,2022 年;Zitnik 等人,2018 年)、临床决策(Sutton 等人,2020 年;Peiffer-Smadja 等人,2020 年)和生物医学研究(Lee 等人,2016 年;Fiorini 等人,2018 年;Soni 和 Roberts,2021 年)。
在生物医学领域,有大量的多语言知识库,如统一医学语言系统(UMLS)(Bodenreider,2004 年),这使得将事实知识注入语言系统成为可能。UMLS 中存在来自 27 种语言的 166 多个词汇 / 同义词表,其中包含超过 4M 的概念和 15M 的概念名称。然而,从表 1 中可以看出,严重的语言不平衡是处理低资源语言文本的巨大挑战。
在 KB 中,事实信息通常以知识三元组的形式存储。每个三元组都反映了概念 h 与概念的类型 r 相关的事实概念集 V 和关系三元组的组合可以看作是一个知识图(KG)其中 R 是一组可能的关系类型。尽管大量研究集中于为 LM 开发有效的知识增强通用预训练方法,但这一主题仍然具有挑战性。一种方法是在 KB 三元组增强的文本序列上应用 LM(Wang et al.,2019a; Mannion et al.,2023;徐 et al.,2023;Liu et al.,2020)。这些方法有两个主要的局限性(KE et al.,2021)。首先,现代 LM 中存在的注意力机制的完全连接性质与现有 KB 图的稀疏结构相矛盾。其次,KB 图的线性化阻止了文本和 KB 模式之间的直接对齐。Wang 等人。(2021)获得了维基百科的表示
通过使用 LM 编码简短的文本实体和关系描述来标记,这在生物医学领域是不可行的,因为大多数生物医学概念缺乏文本描述。
由于从零开始的 LM 预训练需要大量的计算资源,因此更便宜的替代方案是特定任务的 KB 感知微调。最近,一系列研究集中在利用 UMLS 概念名称和概念间关系来改进生物医学概念规范化(BCN)(Liu et al.,2021a, b;袁 et al.,2022b;Sakhovskiy et al.,2023)。虽然 Sakhovskiy et al.(2023)提出的 GEBERT 明确地学习了同义概念名称和概念节点表示之间的同一性,但该模型与 BCN 极其相关,并且没有为其推广到其他生物医学任务留下空间。最近提出的问答(QA)(Yasunaga et al.,2022a,2021a;Zhang et al.,2022b)系统采用消息传递(MP)(Gilmer et al.,2017)图神经网络在 KB 上执行有充分根据的推理,从而提高了一般和生物医学领域的质量。这些模型依赖于 LM 和图编码器之间的隐式交互,并且没有显式学习两种模式之间的对齐,从而限制了 LM 记忆知识库事实的能力。
2 相关工作
Chang et al.(2020)对各种生物医学知识表示学习方法进行了广泛的比较。他们比较了语义匹配方法,例如 TransE(Bordes et al.,2013)、DisMult(Yang et al.,2015)、ComplEx(Trouillon et al.,2016)、SimplE(Kazemi and Poole,2018)和 RotatE(Sun et al.,2019),以提高 SNOMED-CT 数据集的链路预测质量。尽管这些方法优于更简单的 Snamed2Vec(Agarwal et al.,2019)和 Cui2Vec(Beam et al.,2020)基线,但它们低于基于 LM 的方法(Wang et al.,2019a)。
将预训练的生物医学 LM 与外部知识库集成的几次尝试提高了各种下游任务的性能。Sakhovskiy 等人(2021 年);Sakhovskiy 和 Tutubalina(2022 年)使用面向药物的化学数据库 DrugBank(Wishart 等人,2008 年,2017 年)将 LM 嵌入与分类层中的药物化学特征相结合,以检测提及药物不良反应的文本。SapBERT(Liu 等人,2021a,b)通过应用对比目标从统一医学语言系统中学习同义生物医学概念名称,实现了最先进的医学概念规范化(MCN)性能
CODER(袁等人,2022b)和 GEBERT(Sakhovskiy 等人,2023)通过引入额外的基于图的对比目标来扩展该想法,以从 UMLS 图中捕获概念间关系。CODER(袁等人,2022b)和多语言 SapBERT(刘等人,2021b)在单语言英语和多语言设置中实现了规范化改进。
在通用和生物医学领域,许多最先进的 QA 解决方案从 KB 中检索相关子图(Lin et al.,2019;冯 et al.,2020; Yasunaga et al.,2021a;Zhang et al.,2022b,a;Yasunaga et al.,2022a)以执行知识感知推理。Yasunaga et al.(2022a)提出了一种语言知识 DRAGON 模型,该模型受益于通用和生物医学领域的联合语言建模和图形完成目标以及文本和图形编码器之间的双向交互。
因此,现有的知识增强文本处理模型至少具有以下关键限制之一。首先,它们过于依赖于特定的下游任务,如 MCN 或 QA。第二,它们没有提供生物医学概念和文本中提及的生物医学概念之间的明确对齐,而是依赖于文本和图形编码器之间的隐式交互。第三,除了多语言 BCN 方法之外,它们主要关注具有最广泛知识库的英语,忽略了低资源案例。
3 研究计划
3.1 研究问题
尽管已经提出了广泛的知识感知语言建模技术,但几个基本的研究问题仍然没有得到回答。在这个提议中,我们制定了一些重要的问题以及回答这些问题的可能轨迹。首先,我们看到三种主要的知识融合策略:
1. 从零开始的知识增强 LM 预培训;
- KB 增强的特定任务微调;3. 预训练的 LM 和信息丰富的 KB 表示之间的对齐。
RQ1。什么是最佳知识融合策略?
虽然现有的知识增强的通用领域和生物医学 LM 受益于外部知识的预训练,但它们通常至少有以下关键限制之一。首先,它们意味着对 LM 架构的修改(Peter et al.,2019; Zhang et al.,2022b;Yasunaga et al.,2022a)。其次,它们需要在增加了外部知识的文本输入上对所有模型参数进行额外的预训练(Wang et al.,2021;Lauscher et al.,2020;El Boukkouri et al.,2022;袁 et al.,2022a;Mannion et al.,2023)。这两个限制都导致从头开始对所有 LM 参数进行资源密集型预训练,这可能是不可行的。最近在文本和图像领域提出的 FROMAGe(Koh 等人,2023b)和 GILL(Koh 等人,2023a)建议在冻结文本编码器的轻量级场景中,通过对比 InfoNCE(Oord 等人,2018)目标将图像表示与其文本标题对齐。这些对齐方法的可训练参数要少得多
ods 甚至能够优于完全可训练的双峰变压器(Vaswani et al.,2017)模型。受基于对齐策略在文本和图像任务中成功的启发,我们努力探索其在生物医学领域的适用性和有效性,并与其余两种策略进行比较。
RQ2。如何在生物医学领域调整知识库和 LM?
据我们所知,到目前为止还没有提出 LM 和生物医学 KB 表示对齐方法。GILL 和 FROMAGe 对生物医学文本和 KB 的直接适应受到两个关键问题的阻碍。首先,这两种模型都依赖于 Transform 编码器 - 解码器架构并采用文本生成任务,而现有的大多数最先进的生物医学 LM 都是仅编码器的 BERT 模型(Alenszer 等人,2019 年;彭等人,2019 年;Beltagy 等人,2019 年;Lee 等人,2020 年;顾等人,2022 年;Liu 等人,2021a;Mannion 等人,2023 年)。其次,虽然图像到文本和文本到图像任务本质上是双模态的,但大多数生物医学 NLP 任务并非如此(即,在微调和评估期间仅提供文本序列)。
3.1.1RQ3。如何用生物医学知识丰富 LM?
当前的生物医学知识探索基准(Sung 等人,2021 年;孟等人,2022 年)表明,现有的特定领域 LMs 缺乏事实知识。这可能是由以下两个原因引起的:(一)提示方法的不完善或(二)LMs 中知识的实际缺失或不完整。我们认为,来自生物医学知识库的领域内知识的集成(例如,来自 UMLS 的生物医学概念之间的相互作用)仍然是一个开放的挑战,需要彻底的探索。
如何为低资源语言开发丰富的英语知识库?
大多数现有的生物医学 NLP 研究都使用了大量的英语数据,将低资源语言排除在范围之外。虽然多语言 UMLS 概念名称的对齐被证明在单模态设置中显着提高了 BCN 质量(Liu et al.,2021b;袁等人,2022b),但他们仍然难以处理 UMLS 概念名称的严重语言不平衡(见表 1)。或者,可以从双模态文本和图形的角度来处理 UMLS 知识库,并使用图形模态捕获 language-independent
概念节点的特点。
3.2 拟议方法论
3.2.1 表示对齐
目前,文本和知识库表示的对齐仍然是一个未被充分讨论的话题。为了回答 RQ1 和 RQ2,我们计划开发新的对齐方法。为了将文本表示与知识库知识对齐,我们计划使用从文本中的上下文化提及嵌入中获得的生物医学概念表示。我们预见了两种可能的对齐方法:(i)通过辅助知识库指导的训练目标进行隐式对齐,以及(ii)通过文本和图形表示的显式对齐。
隐式对齐实现两个或多个模态之间的信息交换的方法之一是引入多模态目标。之前在通用领域 QA 上的工作(Yasunaga et al.,2022a; ke et al.,2021)引入了多任务文本和图恢复目标,以从对齐的文本序列和文本中提及的实体的 KB 子图中学习。然而,这种方法依赖于文本和图模态之间的隐式交互,并且没有明确告知模型子图是由文本诱导的,实际上是它从另一个模态获得的替代表示。在我们的工作中,我们计划采用和扩展图恢复目标的思想,并考虑其以下两种情况:
单模态图恢复:继 Yasunaga 等人(2022a)和 KE 等人(2021)之后,我们将文本和图恢复任务视为单独的单模态任务,使用单个图编码器对三元组的头和尾概念进行编码;
混合模态图恢复:由于概念的 LM 和基于图的表示是互补的,我们建议通过嵌入第一个模态来初始化头部概念,通过嵌入第二个模态来初始化尾部概念。
虽然第一种情况是传统的,但据我们所知,混合模态问题陈述没有得到充分的探索。对于这两种情况,我们将使用 TransE 或 ComplEx,将尾概念建模为头部概念的基于关系的转换。
显式对齐组合多种模式的另一种方法是显式告知模型文本和图嵌入是单个概念的两个互补表示。
单模态文本方法涉及仅使用 LM 填充掩蔽概念槽;
Biemann 等人(2018)提出了图与语言模型对齐的早期尝试:图的稀疏表示与词义的稀疏分布表示相关联。Nikishina 等人(2022)试图通过学习其内部表示的投影来将标准文本 BERT 模型与基于图的 BERT 对齐。同样,静态图和文本嵌入之间的投影可用于计算给定文本图中的相似性搜索,例如用于问答(黄等人,2019)。
在之前的工作(Sakhovskiy et al.,2023)中,应用对比目标从由概念名称和概念节点组成的双峰正对中学习。GILL 和 FROMAGe 受益于通过对比目标和小对齐模型对齐上下文 LM 标记和图像。在我们的研究中,我们计划将这两种方法结合起来,并通过图形编码器对从 UMLS 获得的上下文化概念提及及其图形表示进行上下文对齐。我们期望引入多相似度(Wang et al.,2019b)或 InfoNCE(Oord et al.,2018)损失函数,以直接最小化相同生物医学概念的文本和图形表示之间的距离。
3.2.2 知识探索
提高 LM 能力作为 KB 和回答 RQ3 的两种可能方法是(i)改进提示策略和(ii)修改 LM 及其训练管道。尽管孟等人(2022)和 Sung 等人(2021)在适当的及时调整后观察到探测质量的提高,但就准确率而言,该任务仍远未解决约 10%。我们将坚持第二种选择,并尝试通过与 KB 模态的对齐来提高生物医学 LM 的知识意识:包括隐式和显式。由于当前的生物医学知识探测基准需要在从知识三元组推断的提示中填充掩蔽概念,我们将把知识注入作为一个双模态问题进行研究,并重点关注以下知识探测问题陈述:
双模态文本和 KB 方法将三元组完成基线重新制定为双模态文本图谱任务:给定文本提示,目标是预测最佳匹配的 KG 节点。
虽然纯文本方法通常与多词概念名称作斗争,但我们的目标是探索任务的重新表述是否有助于克服这个问题。此外,第二种方法允许结合上述模态对齐策略:显式和隐式。
3.2.3 跨语言对齐
我们期望通过跨语言跨模态表示对齐来解决 RQuar。虽然固定的概念名称是单语言的,但从语言的角度来看,概念本身是多语言的,从图形的角度来看,它独立于语言。虽然跨语言概念名称对齐提高了 BCN 质量(Liu et al.,2021b;袁等人,2022b),但我们的目标是研究跨模态对齐是否可以进一步提高性能。不幸的是,由于缺乏非英语数据,其他生物医学任务的应用受到阻碍,但关于 BCN 的实验可以作为一个很好的起点。
3.3 实验设置
训练数据作为各种对齐方法的训练数据,我们将利用 PubMed 摘要。为了识别文本概念提及并将其与 UMLS 概念对齐,我们将采用最近提出的生物医学实体识别和归一化工具 BERN2(Sung et al.,2022)。
文本和图编码器为了获得语言表示,我们将采用 PubMedBERT(gu 等人,2022 年),这是一种在 PubMed 摘要上预训练的最先进的生物医学 LM。为了产生图表示,我们将采用消息传递框架(Gilmer 等人,2017 年),并使用 GraphSAGE(Hamilton 等人,2017 年)或 GAT(Velickovi'c 等人,2018 年)编码器获得概念节点嵌入。每个节点都将随机使用其概念名称的 PubMedBERT 嵌入进行初始化。
计算效率由于对齐策略,我们假设文本和图形编码器都已经训练有素,我们努力探索是否
我们可以减少对齐过程的计算负担。对于每个编码器,我们将考虑三种情况:(i)具有小型外部对齐模型的完全冻结编码器,(ii)部分冻结编码器,(iii)完全可训练编码器。
概念掩蔽为了强制知识库对齐的 LM 从完整上下文中学习,而不是仅仅从概念提及中学习,我们将以固定的概率掩蔽概念提及。同样,为了刺激图编码器从 KG 中的概念相邻概念传递更多信息性消息,我们将掩蔽锚的概念名称。掩蔽有望提高模型与知识探测基准的兼容性。
3.4 评价
Fries et al.(2022)发布了 BigBio,这是一个大型数据中心基准测试,包括 126 个生物医学 NLP 数据集,涵盖 13 个任务,包括 10 多种语言的 QA 和 BCN。为了回答 RQ1 和 RQ2,我们将主要关注 QA 和 BCN,因为这些任务已经有知识增强的特定任务解决方案可以与之进行比较。为了探索 RQuar,我们将与当前最先进的 BCN 跨语言模型进行比较(Liu et al.,2021b;袁等人,2022b;Sakhovskiy 等人,2023 年),并另外采用两个跨语言 BCN 基准,用于基于零次排名的评估:(i)基于 Mantra 语料库的(Alekacev 等人,2022 年)(Kors 等人,2015 年)和(ii)XL-BEL(Liu 等人,2021b)。我们将采用 KG 增强的最新 QA 模型:QA-GNN(Yasunaga 等人,2021b)、GreseLM(Zhang 等人,2022b)、JointGT(KE 等人,2021 年)和 DRAGON(Yasunaga 等人,2022a)作为知识增强的 QA 基线。对于 BCN 和 QA 以及其他任务,我们将采用强大的特定领域生物医学 LM,例如 BioBERT(Lee 等人,2020 年)。
对于生物医学知识探索任务和 RQ3,我们将采用上述 MedLAMA 和 BioLAMA 基准。我们将根据现有的生物医学 LM 进行评估,例如 BioBERT(Lee et al.,2020)、Bio-LM(Lewis et al.,2020)和 PubMedBERT(gu et al.,2022)。
4 结论
在本文中,我们确定了现有特定领域预训练生物医学 LM 的关键限制以及当前解决下游 NLP 任务的最先进的特定领域解决方案。我们
提出四个重要的研究问题并提出探索它们的计划。现代 LM 无法充分揭示事实知识的潜力,并且在当前的预训练管道中缺乏明确的文本 - 知识库对齐程序。虽然知识库的使用已经提高了生物医学概念规范化和问答的质量,但将领域知识融合到通用生物医学 LM 中的方法有待探索。为了克服现有的 LM 限制,我们提出了明确对齐知识库概念及其在文本中的代表的想法。我们研究计划的完成有望加深对文本 - 知识库相互作用的理解,并更好地理解生物医学 NLP 中知识库利用的最佳策略。
致谢这项工作得到了俄罗斯科学基金会赠款 #23-11-00358 的支持。
5 道德、限制和风险
大型特定领域图。我们计划采用大型生物医学知识图谱,即统一医学语言系统(UMLS),其中包含 400 万概念和 1500 万概念名称。需要注意的是,对于节点和边数量较少的不同领域使用知识图谱可能会影响性能。知识图谱的大小和复杂性会显著影响模型学习和做出准确预测的能力。
偏见。因此,重要的是要承认经过训练的模型可以继承语言模型和用于初始化的知识图表中存在的偏见和有害行为。例如,语言模型已被证明包含了关于种族、性别和其他人口统计属性的偏见。生物医学研究和临床试验可能无法充分代表某些人群。同样,知识图谱可能包含刻板印象,而不是提供公正的常识性知识。
生物医学概念的多样性。重要的是要强调,数据集和知识图表主要关注文献中有据可查的医学概念。这限制了模型对不频繁或不常见事件的暴露。因此,调整训练有素的模型来处理罕见的生物医学事件可能需要额外的努力和关注。
拓展论文
2023b。为多模态输入和输出将语言模型接地到图像。在国际机器学习大会上,ICML 2023,2023 年 7 月 23-29 日,美国夏威夷檀香山,《机器学习研究论文集》第 202 卷,第 17283-17300 页。PMLR
Jing Yu Koh, Ruslan Salakhutdinov, and Daniel Fried.
2023b. Grounding language models to images for
multimodal inputs and outputs. In International Con-
ference on Machine Learning, ICML 2023, 23-29
July 2023, Honolulu, Hawaii, USA, volume 202 of
Proceedings of Machine Learning Research, pages
17283–17300. PMLR
相关文章:
2023.11 Graph-Enriched Biomedical Language Models: A Research Proposal
Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: Student Research Workshop, pages 82–92 November 1–4, 2023. ©20…...
HTML详解(1)
1.HTML定义 HTML:超文本标记语言。超文本:通过链接可以把多个网页链接到一起标记:标签,带括号的文本后缀:.html 标签语法:<strong>需加粗文字</strong> 成对出现,中间包裹内容&l…...
Taro 鸿蒙技术内幕系列(三) - 多语言场景下的通用事件系统设计
基于 Taro 打造的京东鸿蒙 APP 已跟随鸿蒙 Next 系统公测,本系列文章将深入解析 Taro 如何实现使用 React 开发高性能鸿蒙应用的技术内幕 背景 在鸿蒙生态系统中,虽然原生应用通常基于 ArkTS 实现,但在实际研发过程中发现,使用 C…...
Java图书管理系统(简易保姆级)
前面学习了这么多知识,为了巩固之前的知识,我们就要写一个图书管理系统来帮助大家复习,让大家的知识融会贯通~~~ 话不多说,直接开始今天的内容~ 首先呢,我们要有一个大体的思路: 实现效果思路有两种情况&a…...
maven 中<packaging>pom</packaging>配置使用
在 Maven 项目的 pom.xml 文件中, 元素用于指定项目的打包类型。默认情况下,如果 元素没有被显式定义,Maven 会假设其值为 jar。但是,当您设置 pom 时,这意味着该项目是一个 POM(Project Object Model&…...
uniapp使用腾讯云获取位置转为省市区
腾讯云获取位置转为省市区 腾讯位置服务提供了多种SDK程序包,其中的JavaScript版本的SDK适用于微信小程序,所以我们下载这个SDK包。 下载地址 在小程序项目中,创建lib目录,把SDK文件放入其中 <script>var QQMapWX requ…...
【git实践】分享一个适用于敏捷开发的分支管理策略
文章目录 1. 背景2. 分支管理实践2.1. 敏捷开发中分支管理面临的问题2.2. 分支管理策略2.3. 还需要注意的一些问题 3.总结 1. 背景 在实际的开发工作中,我们往往会面临多任务并行研发,多个环境管理的情况,这种情况下,一个合适的分…...
rpm方式安装postgres数据库及普通用户管理数据库
一、安装postgres 数据库 下载rpm安装包 wget https://ftp.postgresql.org/pub/repos/yum/15/redhat/rhel-7.9-x86_64/postgresql15-libs-15.5-1PGDG.rhel7.x86_64.rpm wget https://ftp.postgresql.org/pub/repos/yum/15/redhat/rhel-7.9-x86_64/postgresql15-15.5-1PGDG.rh…...
使用PgBackRest备份远程PG数据库
文章目录 环境准备总体要求1. 在 PostgreSQL 服务器上配置1.1 配置 PostgreSQL1.2 配置 SSH 密钥1.4 安装PgBackRest1.4.1 使用源码编译1.4.2 直接安装 配置文件 2. 在 PgBackRest 服务器安装PgBackRest2.1 安装 PgBackRest2.2 创建必要的目录2.3 编辑配置文件2.4 配置 SSH 密钥…...
笔记mfc11
Subclass(子类化)是MFC中最常用的窗体技术之一。子类化完成两个工作:一是把窗体类对象attach到一个windows窗体实体中(即把一个窗体的hwnd赋给该类)。另外就是把该类对象的消息加入到消息路由中,使得该类可以捕获消息。 让edit能…...
Softing线上研讨会 | Ethernet-APL:推动数字时代的过程自动化
| (免费)线上研讨会时间:2024年11月19日 16:00~16:30 / 23:00~23:30 Ethernet-APL以10Mb/s的传输速率为过程工业中的现场设备带来了无缝以太网连接和本质安全电源,这不仅革新了新建工厂,也适用于改造现有工厂。 与现…...
Spring Boot 整合 ELK 全面指南:实现日志采集、分析与可视化
一、ELK简介 1.1 什么是ELK? ELK 是三个开源工具的组合: Elasticsearch:一个分布式全文搜索和分析引擎,用于存储和查询日志数据。Logstash:一个数据处理管道工具,用于收集、解析和处理日志数据。Kibana&…...
D80【 python 接口自动化学习】- python基础之HTTP
day80 requests请求加入headers 学习日期:20241126 学习目标:http定义及实战 -- requests请求加入headers 学习笔记: requests请求加入headers import requestsurlhttps://movie.douban.com/j/search_subjects params{"type":…...
在Windows环境下打包Qt C++项目为独立可执行文件的完整指南
目录 1. 配置Qt环境变量步骤: 2. 使用Release模式编译项目步骤: 3. 使用windeployqt工具收集依赖项步骤: 4. 精简复制后的文件目录方法一:使用windeployqt的选项方法二:手动删除不必要的文件方法三:使用静态…...
已存大量数据的mysql库实现主从各种报错----解决方案(看评论)
背景何谓“先死后生”本文使用技术1、实施流程图2、实施2.1、数据库备份2.2、搭建Mysql的Master-Slave2.2.1、准备工作2.2.2、开始部署2.2.3、账号配置2.2.4、slave 同步配置2.2.5、验证 2.3、Master做数据恢复 结语 背景 计划对已有大量数据的mysql库的主从搭建,使…...
Java爬虫:深入探索1688接口的奥秘
在数字化时代,数据成为了企业最宝贵的资产之一。对于电商企业来说,获取和分析数据的能力直接关系到其市场竞争力。阿里巴巴旗下的1688平台,作为中国领先的批发贸易平台,拥有海量的商家和商品信息,成为了众多企业获取数…...
Linux——基础命令(1)
目录 一、认识Linux 终端命令格式 查阅命令帮助信息 -help 辅助操作 自动补全 清屏和查看当前工作目录 二、基本命令 文件和目录常用命令 1.ls-查看文件与目录 2.cd切换目录 (1)touc创建文件或修改文件时间 (2)mkdir创…...
Java知识及热点面试题总结(一)
今天开始对Java进行总复习,主要针对热点面试题,我们再根据试题内容延申相关知识; 1.、Java中equals与“”的区别详解 讲二者区别之前,先大概讲解一下基本数据类型和引用类型的概念,当然,有一定基础的朋友…...
基于 AI 的软件工程: 超级程序员
徐昊 《AI时代的软件工程》-极客时间课程学习总结 帮助你更好地利用 LLM 提高效率,还可以站在一个更全面的立场上,讨论如何将 LLM 引入团队或是组织。 核心观点: AI 辅助业务建模:通过将模型转化为 Mermaid 格式,将我们的模型表达为大语言模型能够理解的形式。通过添加注…...
Spring Boot 2 和 Spring Boot 3 中使用 Spring Security 的区别
文章目录 Spring Boot 2 和 Spring Boot 3 中使用 Spring Security 的区别1. Jakarta EE 迁移2. Spring Security 配置方式的变化3. PasswordEncoder 加密方式的变化4. permitAll() 和 authenticated() 的变化5. 更强的默认安全设置6. Java 17 支持与语法提升7. PreAuthorize、…...
浦语提示词工程实践(LangGPT版,服务器上部署internlm2-chat-1_8b,踩坑很多才完成的详细教程,)
首先,在InternStudio平台上创建开发机。 创建成功后点击进入开发机打开WebIDE。进入后在WebIDE的左上角有三个logo,依次表示JupyterLab、Terminal和Code Server,我们使用Terminal就行。(JupyterLab可以直接看文件夹)…...
微信小程序+Vant-自定义选择器组件(多选
实现效果 无筛选,如有需要可参照单选组件中的方法.json文件配置"component": true,columns需要处理成含dictLabel和dictValue字段,我是这样处理的: let list arr.map(r > {return {...r,dictValue: r.xxxId,dictLabel: r.xxx…...
Vue.js 学习总结(15)—— 如何快速删除 node_modules 依赖文件
一、删除 node_modules 依赖为什么慢? 直接通过图形用户界面删除 node_modules 文件夹慢,原因主要有以下5点原因: (1)文件数量巨大:node_modules依赖可能会有上万个文件和文件夹,那么就使得操作…...
PyTorch基础05_模型的保存和加载
目录 一、模型定义组件——重构线性回归 二、模型的加载和保存 2、序列化保存对象和加载 3、保存模型参数 一、模型定义组件——重构线性回归 回顾之前的手动构建线性回归案例: 1.构建数据集;2.加载数据集(数据集转换为迭代器);3.参数初…...
Vue.js前端web练习范例:随鼠标移动的小球
技术选型:运用html、css、script、及vue组件 开发需求:编写在指定容器区域内随鼠标移动的小球,当鼠标超出容器,小球保持在边界位置不动 程序设计: 1、创建440px*440px的容器;创建30px半径的小球; 2、记录小球在面板中…...
计算机网络----基本概念
基本概念 在这一章从整体上介绍计算机网络的概况, 为后续的学习搭建起整体的框架; 介绍计算机网络中的基础术语和概念; 什么是因特网 『 因特网 』是一个世界范围内互联了数以亿计的计算设备的计算机网络; 因特网具体构成 因特网互联了数以亿计的计算设备, 这些设备被称为…...
创建可直接用 root 用户 ssh 登陆的 Docker 镜像
有时候我们在 Mac OS X 或 Windows 平台下需要开发以 Linux 为运行时的应用,IDE 或可直接使用 Docker 容器,或 SSH 远程连接。本地命令行下操作虽然可以用 docker exec 连接正在运行的容器,但 IDE 远程连接的话 SSH 总是一种较为通用的连接方…...
Linux 查看内核日志的方法
文章目录 1. dmesg 命令一. 介绍内核环形缓冲区的特点 二. 主要功能三. dmesg 使用 2. 查看kmsg文件/dev/kmsg 的用途使用 /dev/kmsg与 dmesg 的关系 3. 内核日志消息的打印行为 1. dmesg 命令 一. 介绍 dmesg(display message 或 display driver message 的缩写&…...
详解登录MySQL时出现SSL connection error: unknown error number错误
目录 登录MySQL时出错SSL connection error: unknown error number 出错原因 使用MySQL自带的工具登录MySQL 登陆之后,使用如下命令进行查看 解决方法 找到MySQL8安装目录下的my.ini配置文件 记事本打开my.ini文件,然后按下图所示添加配置 此时再…...
DRNN 神经网络的Jacobian 信息辨识
DRNN 神经网络的 Jacobian 信息辨识 1. 基本原理 Jacobian 矩阵用于描述多输入多输出系统中输入和输出之间的偏导关系,其形式为: 对于 DRNN(Dynamic Recurrent Neural Network),其动态特性使得 y(t)\mathbf{y}(t)y(t…...
麒麟系统x86安装达梦数据库
一、安装准备前工作 操作系统:银河麒麟V10,CPU: x86_64 架构 下载地址,麒麟官网:https://www.kylinos.cn/ 数据库:dm8_20220915_x86_kylin10_64 下载地址,达梦数据库官网:https://…...
uniapp定义new plus.nativeObj.View实现APP端全局弹窗
为什么要用new plus.nativeObj.View在APP端实现弹窗?因为uni.showModal在APP端太难看了。 AppPopupView弹窗函数参数定义 参数一:弹窗信息(所有属性可不填,会有默认值) 1.title:"", //标题 2.content:"", //内容 3.confirmBoxCo…...
git branch -d 删除分支
Git进行版本控制时,删除分支是常见的操作。特别是当特定的功能开发完成或者分支不再需要时,删除分支可以帮助保持仓库的整洁。删除本地分支和删除远端分支是两个独立的操作。如果需要同时删除本地和远端的分支,需要分别执行以下两个命令。 一…...
kafka生产者和消费者命令的使用
kafka-console-producer.sh 生产数据 # 发送信息 指定topic即可 kafka-console-producer.sh \ --bootstrap-server bigdata01:9092 \ --topic topicA # 主题# 进程 29124 ConsoleProducer kafka-console-consumer.sh 消费数据 # 消费数据 kafka-console-consumer.sh \ --boo…...
MyBatis框架介绍、部署及使用
一、MyBatis介绍 1.1 框架概念 **框架:**就是软件的半成品,完成了软件开发过程中的通用操作,开发者只需很少或者不用进行加工,就能 实现特定的功能。从而简化开发人员在开发过程中的步骤,提高开发效率。 1.2 常用框架…...
MySQL INSERT CRTATE DELETE DORP UPDATE WHERE 的用法
MySQL INSERT CRTATE DELETE DORP UPDATE WHERE 的用法 -- 创建数据库 CREATE DATABASE example_db;-- 使用数据库 USE example_db;-- 创建表 CREATE TABLE employees (id INT AUTO_INCREMENT PRIMARY KEY,name VARCHAR(100),position VARCHAR(50),salary DECIMAL(10, 2) );…...
《安富莱嵌入式周报》第346期:开源2GHz带宽,12bit分辨率,3.2Gsps采样率示波,开源固件安全分析器, 开源口袋电源,开源健康测量,FreeCAD
周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频: https://www.bilibili.com/video/BV1TYBhYKECK/ 《安富莱嵌入式周报》第346期:开源2GHz带…...
Spring ApplicationListener监听
【JavaWeb】Spring ApplicationListener-CSDN博客 ApplicationEvent以及Listener是Spring为我们提供的一个事件监听、订阅的实现,内部实现原理是观察者设计模式,设计初衷也是为了系统业务逻辑之间的解耦,提高可扩展性以及可维护性。事件发布…...
蓝桥杯练习题
目录 1.劲舞团 2.数字诗意 3.封闭图形个数 4.回文数组 欢迎 1.劲舞团 0劲舞团 - 蓝桥云课 #include <iostream> using namespace std; int main() {int num1,M0;long long c[1000000];int cnt0;string a,b ;while(cin>>a>>b>>c[cnt])//系统自动输入…...
【JAVA】Java高级:Java中的常用设计模式——设计模式的基本思想与应用场景
在软件开发中,设计模式是一种被反复使用的解决特定问题的最佳实践。它们提供了一种标准化的方式来解决常见的设计问题,使得代码更具可读性、可维护性和可扩展性。特别是在Java开发中,设计模式的使用可以极大地提高代码的质量和开发效率。 设…...
QT 跨平台实现 SSDP通信 支持多网卡
一.多网卡场景 在做SSDP通信的时候,客户端发出M-search命令后, 主机没有捕捉到SSDP的消息,你可以查看下,是不是局域网下,既打开了wifi,又连接了本地网络,mac os下很容易出现这种场景。此时,我们发送消息时,需要遍历所有网卡并发送M-search命令。 二.QT相关接口介绍 1…...
疑难Tips:NextCloud域名访问登录时卡住,显示违反内容安全策略
[ 知识是人生的灯塔,只有不断学习,才能照亮前行的道路 ] 1使用域名访问Nextcloud用户登录时卡住,显示违反内容安全策略 我使用官方Docker镜像来部署NextCloud 28.0.5,并通过Openresty反向代理Nextcloud,但是在安装后无法稳定工作,每次登录后,页面会卡死在登录界面,无法…...
区块链:非对称加密
在区块链技术中,非对称加密是一项核心技术,用于保障数据的安全性和用户的隐私。它通过公钥和私钥的配合,实现了信息加密、解密、身份验证和数字签名等功能。 1. 非对称加密的基本原理 非对称加密使用两个密钥: 公钥:…...
量子安全与经典密码学:一些现实方面的讨论
量子安全与经典密码学 背景:量子安全与经典密码学量子计算对传统密码学的威胁 安全性分析经典密码学的数学复杂性假设**量子密码学的物理不可克隆性假设** **性能与实现难度**后量子算法在经典计算机上的运行效率**量子通信设备的技术要求与成本** **可扩展性与适用…...
WordCloud参数的用法:
-------------词云图集合------------- 用WordcloudPyQt5写个词云图生成器1.0 WordCloud去掉停用词(fit_wordsgenerate)的2种用法 通过词频来绘制词云图(jiebaWordCloud) Python教程95:去掉停用词词频统计jieba.toke…...
数据库(总结自小林coding)|索引失效的场景、慢查询、原因及如何优化?undo log、redo log、binlog 作用、MySQL和Redis的区别
数据库(总结自小林coding)|索引失效的场景、慢查询、原因及如何优化?undo log、redo log、binlog 作用、MySQL和Redis的区别 说一下索引失效的场景?什么是慢查询?原因是什么?可以怎么优化?undo …...
(计算机组成原理)期末复习
第一章 计算机的基本组成:硬件软件(程序)计算机系统 软件有系统软件(系统管理工具),应用软件 计算机硬件:包括主机和外设,主机包括CPU和内存,***CPU由运算器和控制器所组…...
Linux下一次性关闭多个同名进程
要一次性关闭多个同名的 Python 进程,例如: 你可以使用以下几种方法。在执行这些操作之前,请务必确认这些进程确实是你希望终止的,以避免意外关闭其他重要的进程。 方法一:使用 pkill 命令 pkill 是一个用于根据名称…...
Android显示系统(01)- 架构分析
一、前言: Android是基于Linux的,而显示设备的驱动也都是和Linux普通设备一样去管理,也就是说归根结底还是要按照Linux的方式组织数据送给LCD,因此,我们理解Android设计的这一套复杂的显示系统时候,一定要…...
Bean的生命周期详解保姆级教程,结合spring boot和spring.xml两种方式讲解,5/7/10大小阶段详细分析
文章目录 Spring Bean的生命周期一、为什么知道 Bean 的生命周期?二、生命周期大致了解三、详细分析生命周期3.1 ① 初步划分为 5 步:3.1.1 spring 框架中怎么理解3.1.2 spring boot 项目中怎么理解 3.2 ② 细分 5 步为 7 步:3.2.1 spring 框…...