当前位置: 首页 > news >正文

大语言模型在患者交互任务中的临床使用评估框架

An evaluation framework for clinical use of large language models in patient interaction tasks

An evaluation framework for clinical use of large language models in patient interaction tasks | Nature Medicine

2025.1

收到时间:2023 年 8 月 8 日

Shreya Johri 1,10,Jaehwan Jeong1,2,10,Benjamin A. Tran3,Daniel I.Schlesinger 4,Shannon Wongvibulsin5,Leandra A.Barnes6,Hong-Yu State 1,卓然 Cai6,Eliezer M.Van Allen 7,David Kim 8,Roxana Daneshjou 6,9,11&Pranav Rajpurkar 1,11

接受时间: 2024 年 10 月 1 日

在线发布时间:2025 年 1 月 2

该论文围绕大语言模型在临床诊断中与患者交互任务的应用展开研究,深入剖析现有问题,提出创新评估框架,为推动大语言模型在医疗领域的合理应用提供方向。

1. **问题**:大语言模型(LLMs)融入临床诊断有望改变医患互动,但其实践应用准备程度测试不足。现有评估方法多依赖结构化医学考试和选择题,无法有效评估LLMs在互动式患者对话中的能力,这一差距限制了LLMs在临床场景中的可靠应用。

2. **挑战**:传统评估方法无法模拟真实医患对话的复杂性,难以全面评估LLMs的临床对话推理、病史采集和诊断准确性。使用人类测试者存在资源密集、效率低等问题,早期LLMs与真实患者互动还存在伦理和安全风险。同时,缺乏多模态信息整合评估,且现有数据集存在局限性,影响对LLMs在复杂临床场景下的评估。

3. **创新点**:提出CRAFT-MD评估框架,通过模拟医患对话,利用多智能体方法全面评估临床LLMs。该框架突破传统结构化评估的局限,引入患者AI智能体和评分AI智能体,提升评估的可扩展性和效率,同时降低伦理和安全风险

4. **贡献**:为评估临床LLMs提供了新的框架和方法,揭示了当前LLMs在临床应用中的局限性,为后续研究和模型改进提供了实证依据。提出的一系列建议为未来临床LLMs的评估和发展指明了方向,有助于推动LLMs在医疗领域的安全、有效应用。

5. **提出的方法**:CRAFT-MD框架采用多智能体方法,包含临床LLM、患者AI智能体、评分AI智能体和医学专家四个组件。临床LLM与患者AI智能体进行对话以获取信息并诊断,评分AI智能体评估诊断准确性,医学专家审查对话并验证AI智能体的可靠性。实验设置包括多种对话形式(多轮、单轮、总结对话)和问题类型(四选一选择题、自由回答问题),以全面评估LLMs。

6. **指标**:主要指标为诊断准确性,通过对比LLMs的诊断结果与正确答案来计算。在自由回答问题实验中,评分AI智能体先提取诊断名称,再与正确答案对比,考虑医学术语的同义性和诊断的准确性来确定诊断是否正确。此外,还评估了临床LLM收集完整病史的能力、停止提问时机的合理性等指标。

7. **模型结构**:文中未详细介绍所评估LLMs(如GPT-4、GPT-3.5、Mistral、LLaMA-2-7b等)的内部结构,重点在于使用CRAFT-MD框架对这些模型在临床对话场景下的表现进行评估。

8. **结论**:当前LLMs在适应临床对话进行准确诊断方面存在局限性,对话交互会降低诊断准确性,且在处理开放式诊断任务时表现较差。多模态模型(如GPT-4V)在图像理解和整合方面能力有限。CRAFT-MD框架为评估临床LLMs提供了有效途径,未来需改进模型能力和评估方法,以确保LLMs在临床应用中的可靠性。

9. **剩余挑战和未来工作**:进一步开发更复杂的AI智能体,使其能更好地模拟真实患者,处理超出案例范围的问题,提升评估的准确性。持续监测LLMs的发展,评估不同版本模型的能力变化,以适应快速发展的技术环境。改进数据集,增加数据多样性,确保涵盖更多医疗场景和人群,减少潜在偏差。

10. **数据集**:评估文本LLMs使用了2000个基于案例的问题,其中1800个来自MedQA-USMLE数据集,涵盖12个医学专科;另外100个来自在线题库(Derm-Public),100个为新创建的私人案例(Derm-Private)。评估多模态LLMs(GPT-4V)使用了NEJM Image Challenge数据集,包含案例和对应的医学图像。

摘要

将大型语言模型(LLM)集成到临床诊断中具有改变医患互动的潜力。然而,这些模型在现实世界临床应用中的准备程度仍未得到充分测试。本文介绍了用于评估临床 LLM 的对话推理评估框架(CRAFT-MD)方法。与依赖结构化医学检查的传统方法不同,CRAFT-MD 专注于自然对话,使用模拟人工智能代理在受控环境中与 LLM 进行交互。我们应用 CRAFT-MD 评估了 12 个医学专业的 GPT-4、GPT-3.5、Mistral 和 LLaMA-2-7b 的诊断能力。我们的实验揭示了当前 LLM 在临床对话推理、历史记录和诊断准确性方面的局限性的关键见解。在分析 GPT-4V 的多模态对话和视觉评估能力时,这些局限性也依然存在。基于我们的实证发现,我们提出了一套全面的临床法学硕士未来评估方法。这些建议强调现实的医患对话、全面的病史记录、开放式提问以及使用自动化和专家评估的组合。CRAFT-MD 的引入标志着临床法学硕士测试的进步,旨在确保这些模型有效和合乎道德地增强医疗实践。

Intrution

患者病史收集是医学诊断的基础,使医生能够识别指导其临床决策的关键信息。然而,由于 2019 年冠状病毒病(2019 冠状病毒病)大流行,患者人数不断增加、缺乏护理 1、会诊时间短 2、3 以及远程医疗的加速采用给这种传统的互动模式带来了巨大挑战。由于这些因素有可能损害历史记录的质量,从而影响诊断准确性 2,需要创新的解决方案来提高这些临床对话的有效性。

生成人工智能(AI)的新进展,特别是在大型语言模型(LLM)中,提供了一个潜在的解决方问题 5-9。这些 AI 模型有能力进行细致入微的对话,使它们成为提取全面患者病史和协助医生生成10-12。评估这些模型在现实世界中应用的准备情况 临床方案 13-15。

评估 LLM 的主要方法 医学涉及体检式的问题,具有很强的 强调多项选择题 16-18。尽管在某些情况下,LLM 是在自由反应和推理任务 12、19、20 或 医学对话总结和护理计划生成 21,这些评估不太常见。重要的是,这些评估没有探索 LLM 参与交互式患者对话的能力,这可以增强远程医疗和虚拟医疗访问,帮助急诊室医生分流患者,并通过教授医学生历史记录的最佳实践来促进医学教育。

为了解决这一评估不足,我们提出了一种新的临床 LLM 评估框架,称为医学测试对话推理评估框架(CRAFT-MD)。与传统的依赖结构化医学检查不同,CRAFT-MD 通过模拟通过医患对话主动收集和整合信息来评估临床 LLM,类似于医生与患者的互动。这种模拟是通过与临床 LLM 交互的患者 - 人工智能代理来实现的。然后,分级器 - 人工智能代理评估诊断的正确性,医学专家评估每个人工智能代理的可靠性。CRAFT-MD 极大地增强了评估的可扩展性使更广泛、更快的测试能够跟上 LLM 的快速发展。它解决了单独使用人类测试人员的挑战,减轻了早期 LLM 与真实患者互动的潜在伦理和安全问题,降低了此类参与造成伤害的风险。 我们应用 CRAFT-MD 评估商业和开源 LLM 的临床诊断能力,包括 GPT-4(参考文献 22)、GPT-3.5(参考文献 23)、Mistral(参考文献 24)和 LLaMA-2-7b(参考文献 25),以及多模态 LLM,如 GPT-4V(参考文献 26,27)。我们的评估涵盖了 12 个医学专业的初级和专科护理环境中常见的医疗条件。实验突出了当前 LLM 在整合对话互动细节以实现准确诊断和医学图像解释方面的局限性。在这一经验证据的支持下,我们进一步制定了一套全面的建议来评估临床 LLM 的对话推理能力。因此,CRAFT-MD 为评估 LLM 在医学信息处理、批判性思维和决策方面的熟练程度提供了一个强大的框架 —— 这些技能在临床环境中至关重要 —— 最终支持针对医疗保健复杂性量身定制的 LLM 的发展。

结果

CRAFT-MD 框架 CRAFT-MD 是一个旨在评估临床 LLM 在模拟医患互动中的对话推理能力的框架。其核心是评估临床 LLM 在现实临床环境中进行医学访谈、综合信息和制定诊断的能力。该框架采用多智能体方法,包括四个组成部分(图 1):被评估的临床 LLM、模拟患者反应的患者 - AI 代理、评估诊断准确性的分级器 - AI 代理和验证过程的医学专家。这种设计允许对任何临床 LLM 进行全面评估,因为被测试的模型可以很容易地切换出去。

图 1|CRAFT-MD:一个评估临床法学硕士在医学背景下对话能力的框架。该框架模拟医患互动,以评估临床法学硕士在历史记录、信息合成和诊断准确性方面的熟练程度。患者 - 人工智能代理与临床法学硕士进行对话,而分级器 - 人工智能代理和医学专家进行评估LLM 的性能。这种多智能体方法能够在模拟医疗环境中全面评估临床 LLM 的推理能力。学分:从 Adobe Stock 复制的患者图标。从 Adobe Stock 改编的医生和分级器 - 人工智能图标。经参考文献 49 马萨诸塞州医学协会许可复制的图像。

临床法学硕士与患者 - 人工智能代理互动,询问有关当前症状、病史、药物和家族史的问题,以制定鉴别诊断。患者 - 人工智能代理根据详细的案例插图以外行的方式做出回应。分级器 - 人工智能代理根据插图中提供的正确诊断评估临床法学硕士诊断的准确性,并考虑同义词和疾病变体。最后,医学专家审查模拟对话的子集,以定性地了解临床法学硕士的局限性,并确定每个人工智能代理的可靠性。临床法学硕士根据其收集相关信息的能力进行评估医疗信息和症状以得出最可能的诊断。患者 - AI 代理根据其避免医学术语的能力进行评估,类似于真实患者,而分级器 - AI 代理根据其分级的精度(方法)进行判断。这与客观结构化临床检查(欧安组织)有相似之处,同时也引入了独特的优势,例如评估的可扩展性和快速性。医患对话的模拟能够跨各种医学专业进行有临床意义的评估,医学专家的评估量化了对所获得结果的信心。CRAFT-MD 框架根据总共 2,000 个案例小插曲进行了评估(参见 “数据可用性”)。其中,1,800 份来自 MedQA - 美国医师执照考试(USMLE)28,涵盖了 12 个医学专业的初级和专科护理中常见的医疗状况:皮肤病学、血液学和肿瘤学、神经病学、胃肠病学、儿科和新生儿学、心脏病学、传染病学、妇产科、泌尿科和肾脏病学、内分泌学、风湿病学和其他(扩展数据图 1)。100 个案例小插曲来自在线题库 29(称为 Derm-Public),100 个新生成的私人案例(称为 Derm-Private)也被包括在内,以研究跨数据源的趋势并集中评估皮肤病。商业模型,包括 GPT-4(2024 年 11 月 6 日版本)和 GPT-3.5(2024 年 11 月 6 日版本),以及开源模型,包括 LLaMA-2-7b、Mistral-v1-7b 和 Mistral-v2-7b,被评估其临床对话推理技能。使用记忆效应 Levenshtein 检测器(MELD)分析对 2,000 个病例片段的数据集污染估计 6 没有显示与 GPT-4 训练集(扩展数据图 1)的重叠,尽管注意到 MELD 具有高精度但未知召回率。对于多模态 LLM GPT-4V 的评估,病例片段及其相关图像来自 NEJM 图像挑战数据集(参见 “数据可用性”)。CRAFT-MD 在效率和规模上大大超过了传统的以人为中心的评估方法它在 48-72 小时内处理 10,000 次多轮对话(API 调用是主要限制),外加 15-16 小时的专家评估。相比之下,基于人的方法需要大量招募,患者模拟估计需要 500 小时(每次对话约 3 分钟),专家评估大约需要 650 小时(每次对话约 4 分钟)。这证明了 CRAFT-MD 在大规模临床法学硕士评估中显着减少时间和资源的能力。

对话互动降低诊断准确性

我们评估了 LLM 在四选选择题(MCQs)设置中通过对话与静态病例片段进行诊断时是否保持准确性。使用 CRAFT-MD 框架,我们将片段转换为临床 LLM 和患者 - AI 代理之间的多轮对话(图 2a、b 和方法)。

对于所有评估的 LLM(GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b),使用对话与片段时诊断准确性下降(图 2c 和补充表 1 和 2)。GPT-4 的性能下降为 0.193(0.820 至 0.627),GPT-3.5 的性能下降为 0.19(0.657 至 0.467),Mistral-v2-7b 的性能下降为 0.211(0.637 至 0.426),LLaMA-2-7b 的性能下降为 0.076(0.395 至 0.319),所有调整后的 P 值均小于 0.0001。因此,尽管它们在静态输入上的能力令人印象深刻,但当前的 LLM 在适应四选 MCQ 的动态对话方面受到限制。

图 2 | 在四选 MCQ 和 FRQ 中用模拟医患对话替换案例小插曲的效果。使用案例小插曲(a)、多轮对话(b)、单轮对话(d)和总结对话(e)进行诊断的实验设置,然后是四选 MCQ 或 FRQ(无选择)。c、四个实验设置的诊断准确性 —— 小插曲 + 四选 MCQ、多轮对话 + 四选 MCQ、单轮对话 + 四选 MCQs 和总结对话 + 四选 MCQs—— 跨越四个评估 LLM(GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b)。f、四个实验设置的诊断准确性 —— 小插曲 + FRQ、多轮对话 + FRQs、单轮对话 + FRQs 和总结对话 + FRQs—— 跨越四个评估 LLM(GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b)。误差条表示 10,000 个样本上的 95% 置信区间,数字表示平均准确率。NS,无显著性;≤0.05⋯≤0.01∗∗∗≤0.001∗∗∗∗≤0.0001)。所有 P 值均使用双边无融资创业测试计算,随后进行 Holm-Bonferroni 校正(方法和补充表 1-5)。学分:从 Adobe Stock 复制的患者图标。医生和分级器 - AI 图标改编自 Adobe Stock。

接下来,我们量化了临床 LLM 在多轮对话中后续问题的影响。为此,我们评估了单轮对话的表现(图 2d 和方法),其中临床 LLM 仅根据最初描述的症状进行诊断,而不向患者 AI 代理询问后续问题。GPT-4 单轮与多轮对话的四选 MCQ 准确性降低了 0.107(0.627 至 0.520,调整后P<0.0001D),GPT-3.5 降低了 0.032(0.467 至 0.435,调整后P<0.00011),LLaMA-2-7b 降低了 0.015(0.319 至 0.304,调整后P<0.05),Mistral-v2-7b 提高了 0.022(0.426 至 0.448,调整后P<0.001)(图 2)令人惊讶的是,尽管后续问题与最终诊断相关,但 GPT-4、GPT-3.5 和 LLaMA-2-7b 准确率的下降低于预期。

会话总结改进了 LLM 在多个对话中的有限推理

我们假设,单轮和多轮对话之间准确性的最小变化可能是由于在多个对话中合成信息的困难造成的。如果训练集主要以小插曲类示例而不是扩展对话为特征,这个问题可能会出现。为了验证这一假设,我们开发了一种称为对话总结的技术,它将多轮对话转换为小插曲类摘要,将所有细节整合到一个段落中(以下称为 “总结对话”)(图 2e,扩展数据图 2 和方法)。总结的对话不同于小插曲本身,因为只有患者 - AI 代理揭示的细节被转换。

我们观察到,与多轮对话相比,在四选 MCQ 设置中为所有评估模型提供临床 LLM 时,准确性有所提高

(GPT−4=0.627到 0.669,调整P<0.0001:GPT−3.5=0.467到 0.507,调整P<0.0001;Mistral-v2-7b=0.426 到 0.513,调整P<0.0001LLaMA-2-7b=0.319 到 0.335,调整P<0.05)(图 2 补充表 1 和表 2)这些观察表明,将分散的多圈对话转换为简洁的类似晕影的格式(即总结的对话)可能有助于更准确的诊断。

开放式诊断和跨专业的趋势依然存在。医疗许可考试中使用的四选 MCQ 并不反映真实临床环境中的开放式诊断过程。为了在更现实的场景中评估会话推理,作为 CRAFT-MD 框架的一部分,我们评估了没有答案选择的临床法学硕士的会话推理 —— 即自由回答问题(FRQs)(图 2a、b、d、e 和方法)。临床法学硕士的所有自由文本回答都使用分级器人工智能代理进行评估。

删除答案选项会导致准确性下降。与四选 MCQ 格式相比,FRQ 格式中所有模型的准确性都显着降低(图 2c、f 和补充表 3)。对于小插图,GPT-4 的准确性下降了 0.334(从 0.820 到 0.486),GPT-3.5 下降了 0.282(从 0.657 到 0.375),Mistral-v2-7b 了 0.415(从 0.637 到 0.222),LLaMA-2-7b 了 0.226(从 0.395 到 0.169),所有调整后的 P 值都小于 0.0001。多圈对话也观察到类似的下降(GPT−4=0.627到 0.264;GPT−3.5=0.467到 0.169;Mistral-v2-7b=0.426 到 0.066 LLaMA-2-7b=0.319 到 0.066);单圈对话(GPT−4=0.520到 0.133;GPT−3.5=0.435到 0.123,Mistral-v2−7b=0.448到 0.056;LLaMA-2-7b=0.304 到 0.065);和总结对话(GPT-4=0.669to 0.272;GPT−3.5=0.507到 0.174;Mistral-v2-7b=0.513 到 0.056;LLaMA−2−7b=0.335到 0 这些研究结果表明,删除预定义的答案选项显着降低了所有模型和对话类型的诊断准确性,强调了处理开放式临床诊断任务的困难。

对话互动继续表现不佳的小插曲。用 FRQ 格式中的多圈对话替换小插曲导致准确性大幅下降,类似于四选 MCQ 格式。GPT-4 的准确性从 0.486 下降到 0.264,GPT-3.5 的准确性从 0.375 下降到 0.169,Mistral-v2 - 的准确性从 0.222 下降到 0.0667b 和 LLaMA-2-7b 的准确性从 0.169 下降到 0.066,所有调整后的 P 值都小于 0.0001。多圈和单圈精度之间的差异在 GPT-4(0.264 到 0.133,调整后的P<0.0001)、GPT-3.5(0.169 到 0.123,调整后的P<0.0001)和 Mistral-v2-7b(0.066 到 0.056;调整后的P<0.01)中很显著,但对于 LLaMA-2-7b(0.066 到 0.0650.065)则不然。值得注意的是,尽管在四选 MCQ 设置中,Mistral-v2-7b 显示出比多圈更高的单圈精度,但这一趋势在 FR 此外,摘要和没有答案选择的多轮对话之间的准确性差异仅在开源模型(Mistral-v2−7b=0.0660.056,调整后的P<0.01:LLaMA−2−7b=0.0660.081,调整后的P<0.0001)中显着,但对于非商业模型(GPT−4=0.2640.272;GPT−3.5=0.1690.174)(图 2f 和补充表 4 和 5)。

会话诊断准确性的趋势在医学专业中持续存在。对于我们数据集中的 12 个医学专业中的每一个,我们观察到四选 MCQ 和 FRQ 设置的不同会话格式之间的相似趋势(扩展数据图 3 和 4 以及补充表 6-9)。当小插曲被多轮对话取代时,准确性会显著下降。此外,总结的对话保持比多轮对话更高的准确性,但低于小插曲所达到的准确性。这种一致性强调了这些观察到的趋势的稳健性。

皮肤病案例研究

为了与医学专家进行详细分析,我们选择专注于皮肤病,这是初级保健中常见的投诉 30。皮肤状况的多样性需要围绕发病、进展、相关症状和相关个人或家族病史进行细致入微的上下文相关推理,从而为人工智能能力提供严格的测试平台。

数据集的一致趋势。在三个评估数据集中 ——MedQA-USMLE((n=117)、Derm-Public(n=100)和 Derm Private((n=100))—— 与对话格式(图 3 和补充表 10-13)相比,小插曲始终具有更高的准确性。我们注意到,当答案选项被删除时,从公共数据集中获得的病例小插曲子集有多种可能的诊断。医学专家确定,在这些病例中,症状、药物或体检的额外细节对于最终诊断是必要的。因此,我们还评估了 FRQ 设置中单一可能诊断病例的临床 LLM 诊断准确性,发现更高的准确性并强调需要用于 FRQ 评估的病例插图的改进设计(扩展数据图 4 和补充表 14-17)。值得注意的是,皮肤科医生对皮肤科病例插图的诊断准确性在各种格式中是一致的,在四个选择的 MCQs 上实现了 86% 的准确性,在 FRQs 上实现了 87% 的准确性(见 “数据可用性”)。他们对 MedQA-USMLE 和 Derm-Public 数据集中的许多病例表示了不确定性,表明诊断确定性需要图像。

学专家评估。为了评估 CRAFT-MD 框架中的每个 LLM 代理(患者人工智能和分级人工智能),医学专家评估了对话的子集((n=180)在四个评估模型(GPT-4、GPT-3.5、Mistral-v2-7b 和 LLaMA-2-7b)和三个数据集(MedQA-USMLE、Derm-Public 和 Derm-Private)之间均匀分布(方法)。两名皮肤科医生进行了评估,三分之一的对话被双重注释以估计专家意见一致。在两名皮肤科医生不同意的情况下,第三名皮肤科医生解决了平局(扩展数据表 2)。

我们首先评估了患者 - 人工智能代理和分级 - 人工智能代理的可靠性。当回答临床法学硕士提出的问题时,患者 - 人工智能代理在问题属于案例小插曲范围内的情况下提供了 99.995% 的准确答案。对于小插曲范围之外的问题,代理要么表示信息不可用,要么否认症状。94.25% 的时间提供了相关和完整的答案,当在同一对话中提出多个问题时,通常会出现不完整的答案。此外,7.22% 的对话在代理的回答中包含技术医学语言,相比之下,100% 的案例小插曲。此外,分级 - 人工智能代理以 93.35% 的高比率同意医学专家的观点(参见 “数据可用性”)。

接下来,我们定性地评估了临床法学硕士领导临床对话和收集完整病史的能力。为了评估临床法学硕士对何时继续询问临床信息以及何时收集到足够的信息来做出诊断的理解,我们计算了医学专家能够确定一个最有可能的诊断的对话的百分比,而不管诊断的正确性如何。我们发现评估模型之间存在很大差异:GPT-4 达到 53.33%,GPT-3.5 达到 31.11%,Mistral-v2-7b 达到 11.11%,LLaMA-2-7b 达到 35.55%(图 3i 和补充表 18)。关于在对话中收集完整病史,模型之间再次存在相当大的差异:GPT-4 达到 71.11%,GPT-3.5 达到 31.11%,Mistral-v2-7b 达到 8.88%,LLaMA-2-7b 达到 51.11%(图 3j 和补充表 18)。这些结果可能表明这些 LLM 的医学知识存在潜在差距,影响他们有效领导临床对话的能力。

多模态模型在图像理解方面受到限制

医学诊断通常依赖于视觉检查,通过直接观察或成像技术。这就需要强大的多模态 LLM,能够在自然语言对话的同时进行准确的图像解释 31。我们使用 CRAFT-MD 框架评估了 GPT-4V(方法),以评估其视觉和对话的综合能力。我们的研究比较了有图像输入和没有图像输入的小插图和对话格式之间的诊断准确性(图 4a,b)。这种方法使我们能够评估临床 LLM 在预先提供受影响区域图像时领导医学对话的能力,并将其与没有图像的场景进行对比,就像传统 LLM 一样。

为了评估 GPT-4V 的医学图像解释能力,我们从 NEJM 图像挑战数据集 32(方法)中收集了 74 对(图像和病例斑点)。该数据集特别适合我们的评估,因为每个病例斑点的诊断都严重依赖于相应的医学图像。我们假设如果 GPT-4V 拥有强大的医学图像解释技能,它将

与仅提供文本信息的场景相比,当同时呈现图像和案例小插图时,显示出显着更高的诊断准确性。

我们的研究结果显示,在四选 MCQ 和 FRQ 设置(图 4c-j 和补充表 19 和 20)中,当图像被移除时,所有实验设置(小片段、多圈、单圈和摘要对话)的准确性都有小幅下降。在四选 MCQ 格式中,我们观察到小片段下降了 0.055,多圈对话下降了 0.024,单圈对话下降了 0.074,摘要对话下降了 0.044。同样,在 FRQ 格式中,小片段下降了 0.021,多圈对话下降了 0.058,单圈对话下降了 0.024

和 0.055 总结对话。虽然一致,但这些下降在统计上并不显著(补充表 21)。

需要持续监测 LLM

LLM 的快速发展和新版本的频繁发布需要对其不断发展的能力进行持续监控。我们使用 CRAFT-MD 来评估跨两个开源模型 Mistral 版本(v1 和 v2)领导临床对话的熟练程度。

Mistral-v1-7b 在小插图和对话格式之间表现出与 Mistral-v2-7b 相似的准确性趋势(图 5 和补充表 22 和 23)。

从小插图到多轮对话(调整后的P<0.0001)的准确性显着下降,其次是从多轮对话到摘要对话(调整后的P<0.0001)的准确性显着增加。FRQ 设置显示了类似的趋势。值得注意的是,单圈和多圈对话(调整后的P>0.05)之间的米斯特拉尔 - v1-7b 精度没有显著差异,而米斯特拉尔 - v2-7b

与多轮对话相比,单轮对话表现出明显更高的准确性。

比较这两个版本,在四选 MCQ 设置中,所有格式的平均精度从 Mistral-v1-7b 增加到 Mistral-v2-7b(vignette=0.196、multi−turn=0.095、single−turn=0.124summarized=0.152)。然而,在 FRQ 设置中,只有插图

格式显示改进(increase=0.048)0,而所有对话格式都下降((multi−turn=−0.015、single−turn=−0.005summarized=−0.027)(图 5 和扩展数据表 3)。这些发现强调了在培训 LLM 以使改进与现实世界用例保持一致时,跨不同格式进行综合评估的重要性。

讨论

临床法学硕士声称精通各种医疗任务,但它们的验证仍然主要基于静态的结构化评估,如多项选择题。尽管这些评估展示了某些能力,但它们没有捕捉到动态复杂性

真实世界的临床实践。我们使用 CRAFT-MD 框架进行的评估显示,与基于考试的评估相比,LLM 在对话环境中的表现明显更差。这一研究强调了在 LLM 能够自信地融入临床工作流程之前,需要更现实的测试方法。我们提出了几项建议,以使 LLM 评估与临床实践的需求保持一致,使其有可能用作未来的诊断工具(表 1)。

医学对话本质上比静态考试问题更复杂,需要迭代的信息交换、症状的澄清和持续的诊断推理。因此,研究表明商业或开源的高准确性

乐观的前景。我们的研究结果显示,当在对话环境中评估 LLM 时,诊断准确性持续下降,强调使用医患互动框架来测试这些模型的重要性(建议 1)。

在这些对话环境中,评估 LLM 的开放式诊断推理至关重要。模型必须能够为全面的历史记录提出相关问题,通过分散的信息进行推理,并解释多模态数据,如图像。

当前的评估 16,33-37 通常侧重于即时的、结构化的大学

模态查询 - 例如多项选择题 - 并忽略

这些更复杂的要求。与之前的研究 20,38,39 一致,

我们发现,当面对开放式问题而不是 MCQ 时,LLM 表现更差,这表明它们严重依赖传统格式提供的结构。我们建议过渡到开放式问题 40,这更准确地反映了真实临床推理的非结构化性质(建议 2)。此外,我们的发现表明,LLM 在记录病史时经常错过关键细节,大大损害了他们的诊断能力。这强调了评估模型提出正确问题和提取基本信息的能力的必要性(建议 3)。

当信息在多个对话中传播而不是以简洁的小插曲形式呈现时,LLM 的诊断准确性也会显著下降。这可能是由于处理扩展文本上下文 41 的挑战或训练数据中结构化小插曲的主导地位。未来的发展应侧重于改善上下文理解和信息集成,以便在临床对话中更有效地使用(建议 4),可能通过思想链等技术 42。我们还观察到在使用图像进行诊断方面取得的成功有限,这表明需要更好地将口述历史与视觉检查结果 43 以及可能的其他诊断数据(如心电图和血液测试)相结合(建议 5)。展望未来,在开发 LLM 时,应优先考虑对对话和多模态口译技能的持续评估(建议 6)。此外,改进指导模型反应的提示结构可以进一步提高其性能(建议 7)。我们提倡一种平衡的方法,其中 LLM 补充而不是取代医生的细微诊断过程 44。

除了诊断推理之外,确保评估的可扩展性和可靠性至关重要。涉及人类参与者 45 的对话评估的一个关键挑战是,这些评估是资源密集型的。CRAFT-MD 框架通过使用 LLM 作为主要评估者来解决这一限制,将人类参与保留给

置信度估计。它使用 AI 代理 46,47 来模拟患者交互

行动,允许进行大规模、快速的测试,而不会冒真实患者暴露于未经验证的 LLM 的风险。这些 AI 代理模拟真实的交互,患者只有在提示时才会披露信息,模仿欧安组织风格的评估。然而,我们的研究表明,这些代理在回答超出案例小插曲范围的问题时有时是不可靠的,可能低估了 LLM 的准确性。为了解决这个问题,未来的工作应该集中在开发更复杂的 AI 代理上,这些代理可以解释非语言线索,如面部表情、语气和肢体语言(建议 8)。此外,定期让人类评估人员参与评估 LLM 的可靠性对于它们的实际部署仍然至关重要(建议 9)。CRAFT-MD 的灵活设计允许在改进的患者 - AI 模型可用时进行集成,确保评估过程的持续推进。

最后,评估框架本身依赖于多样化的、公开的数据集。尽管我们的研究跨越了多个医学专业,但它没有评估种族和民族对

由于数据集的多样性有限,因此无法进行诊断。此外,许多病例片段缺乏足够的细节,无法在没有答案选项的情况下进行精确诊断。我们进行了 MELD 分析,并生成了一个私人病例片段数据集,以解决对训练集记忆的担忧 6。然而,我们无法进行更全面的分析,因为许多开源和商业 LLM 的训练数据集不可用 48。我们建议开发能够进行开放式分析并评估 LLM 中潜在偏差的案例片段,以更好地评估其在不同人群中的诊断性能。应鼓励完全透明,包括公众访问模型权重和训练数据集(建议 10)。这些建议为评估 LLM 的更细致和全面的方法奠定了基础,使我们的评估方法与现实世界医疗实践的复杂性和微妙性保持一致。

在线内容

任何方法、附加参考、Nature Portfolio 报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息;作者贡献和竞争兴趣的详细信息;以及数据和代码可用性声明可在An evaluation framework for clinical use of large language models in patient interaction tasks | Nature Medicine获得。

相关文章:

大语言模型在患者交互任务中的临床使用评估框架

An evaluation framework for clinical use of large language models in patient interaction tasks An evaluation framework for clinical use of large language models in patient interaction tasks | Nature Medicine 2025.1 收到时间&#xff1a;2023 年 8 月 8 日 …...

Python—类class复习

Python——类&#xff08;class&#xff09;复习 根据类来创建对象的方法被称为实例化 因此学会使用类&#xff08;class&#xff09;来进行编程就是初步进入面向对象编程的大门 1.1 创建和使用类 首先编写一个小狗的简单类Dog&#xff0c;它表示的不是特定的小狗&#xff…...

QT | 信号与槽(超详解)

前言 对qt信号和槽的详细解释 &#x1f493; 个人主页&#xff1a;普通young man-CSDN博客 ⏩ 文章专栏&#xff1a;C_普通young man的博客-CSDN博客 ⏩ 本人giee: 普通小青年 (pu-tong-young-man) - Gitee.com 若有问题 评论区见&#x1f4dd; &#x1f389;欢迎大家点赞&am…...

Codecraft-17 and Codeforces Round 391 E. Bash Plays with Functions 积性函数

题目链接 题目大意 定义函数 f r ( n ) f_r(n) fr​(n) : 在 r 0 r0 r0时&#xff0c;为满足 p p p ⋅ \cdot ⋅ q n qn qn , 且 g c d ( p , q ) 1 gcd(p,q)1 gcd(p,q)1 的有序对 ( p , q ) (p,q) (p,q) 个数&#xff1b;在 r r r ≥ \geq ≥ 1 1 1时&#xff0…...

粉尘环境下的智能生产革命 ——助力矿山行业实现高效自动化作业

在矿山开采领域&#xff0c;运输系统是保障生产连续性的核心环节。然而&#xff0c;粉尘弥漫、环境恶劣、设备分散等问题&#xff0c;长期制约着矿山运输的效率与安全性。传统的集中式控制系统难以适应复杂工况&#xff0c;而远程分布式 IO 模块与 PLC 的深度融合&#xff0c;正…...

更新vscode ,将c++11更新到c++20

要在CentOS系统中安装最新版本的GCC&#xff0c;你可以使用SCL&#xff08;Software Collections&#xff09;仓库&#xff0c;它提供了开发工具的最新版本。以下是安装步骤&#xff1a; 1、 添加SCL仓库&#xff1a; 首先&#xff0c;添加CentOS的SCL仓库&#xff0c;该仓库…...

Numpy实训:读取并分析iris数据集中鸢尾花的相关数据

实训中相关数据集&#xff0c;请联系博主邮箱"1438077481qq.com"&#xff0c;在邮箱内发送"iris.csv"即可快速获取&#xff0c;无任何套路&#xff0c;秉承开源精神&#xff01; 1、导入模块 #导入模块 import numpy as np import csv 2、获取数据 iri…...

nats jetstream server code 分析

对象和缩写 jetstream导入两个对象&#xff1a;stream and consumer&#xff0c;在stream 之上构造jetstreamapi。在nats代码中&#xff0c;以下是一些常见的缩写 1.mset is stream 2.jsX is something of jetstream 3.o is consumer 代码分析 对于producer &#xff0c;发送…...

德鲁伊连接池

德鲁伊连接池&#xff08;Druid Connection Pool&#xff09;是一个开源的Java数据库连接池项目&#xff0c;用于提高数据库连接的性能和可靠性。德鲁伊连接池通过复用数据库连接、定时验证连接的可用性、自动回收空闲连接等机制&#xff0c;有效减少了数据库连接的创建和销毁开…...

Python从入门到精通1:FastAPI

引言 在现代 Web 开发中&#xff0c;API 是前后端分离架构的核心。FastAPI 凭借其高性能、简洁的语法和自动文档生成功能&#xff0c;成为 Python 开发者的首选框架。本文将从零开始&#xff0c;详细讲解 FastAPI 的核心概念、安装配置、路由设计、请求处理以及实际应用案例&a…...

C语言经典案例-菜鸟经典案例

1.输入某年某月某日&#xff0c;判断这一天是这一年的第几天&#xff1f; //输入某年某月某日&#xff0c;判断这一天是这一年的第几天&#xff1f; #include <stdio.h>int isLeapYear(int year) {// 闰年的判断规则&#xff1a;能被4整除且&#xff08;不能被100整除或…...

SpringBoot过滤器(Filter)的使用:Filter接口、FilterRegistrationBean类配置、@WebFilter注释

1、过滤器(Filter)的介绍 Spring Boot 的过滤器用于对数据进行过滤处理。通过 Spring Boot 的过滤器,程序开发人员不仅可以对用户通过 URL 地址发送的请求进行过滤处理(例如:过滤一些错误的请求或者请求中的敏感词等),而且可以对服务器返回的数据进行过滤处理(例如:压…...

采用内存局部性分配有什么好处?

内存分配时的局部性分配&#xff08;Locality of Allocation&#xff09;是指将相关的内存对象分配在相邻或相近的内存区域中。这种分配策略在现代计算机系统中具有显著的好处&#xff0c;主要体现在以下几个方面&#xff1a; 1. 提高缓存命中率 现代计算机系统依赖于多级缓存…...

一周热点-OpenAI 推出了 GPT-4.5,这可能是其最后一个非推理模型

在人工智能领域,大型语言模型一直是研究的热点。OpenAI 的 GPT 系列模型在自然语言处理方面取得了显著成就。GPT-4.5 是 OpenAI 在这一领域的又一力作,它在多个方面进行了升级和优化。 1 新模型的出现 GPT-4.5 目前作为研究预览版发布。与 OpenAI 最近的 o1 和 o3 模型不同,…...

分布式ETCD面试题及参考答案

目录 ETCD 适用的六大场景及其实现原理 ETCD 与 Redis 在分布式锁实现上的差异 解释 ETCD 的 Watch 机制及其应用场景 ETCD 如何实现服务发现?与 ZooKeeper 有何不同? ETCD 实现服务发现的方式 与 ZooKeeper 的不同 ETCD 的键值存储模型支持哪些操作? 为什么 ETCD 适…...

MySQL进阶-关联查询优化

采用左外连接 下面开始 EXPLAIN 分析 EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card; 结论&#xff1a;type 有All ,代表着全表扫描&#xff0c;效率较差 添加索引优化 ALTER TABLE book ADD INDEX Y ( card); #【被驱动表】&#xff0…...

ESP32驱动OV3660摄像头实现EdgeImpulse图像识别(摄像头支持红外夜视、边缘AI计算)

目录 1、传感器特性 2、硬件原理图 3、驱动程序 ESP32-S3 AI智能摄像头模块是一款专为智能家居和物联网应用打造的高性能边缘AI开发模组。它集成了摄像头、麦克风、音频功放、环境光传感器和夜视补光灯,无需依赖云端即可实现本地化AI推理。 凭借TensorFlow Lite、YOLO和O…...

SpringSecurity认证授权完整流程

SpringSecurity认证流程&#xff1a;loadUserByUsername&#xff08;&#xff09;方法内部实现。 实现步骤&#xff1a; 构建一个自定义的service接口&#xff0c;实现SpringSecurity的UserDetailService接口。建一个service实现类&#xff0c;实现此loadUserByUsername方法。…...

java_了解反射机制

目录 1. 定义 2. 用途 3. 反射基本信息 4. 反射相关的类 4.1 class类&#xff08;反射机制的起源&#xff09; 4.1.1 Class类中的相关方法&#xff08;方法的具体使用在后面的示例中&#xff09; 4.2 反射的示例 4.2.1 获得Class对象的三种方式 4.2.2 反射的使用 Fiel…...

【赵渝强老师】管理MongoDB的运行

MongoDB提供了mongod命令用于启动MongoDB服务器端&#xff1b;而停止MongoDB服务器却可以通过几种不同的方式完成。下面分别进行介绍。 一、【实战】启动MongoDB服务器 通过执行下面的语句可以查看启动MongoDB服务器的帮助信息&#xff1a; mongod --help# 输出的信息如下&a…...

【学习思维模型】

学习思维模型 一、理解类模型二、记忆类模型三、解决问题类模型四、结构化学习模型五、效率与习惯类模型六、高阶思维模型七、实践建议八、新增学习思维模型**1. 波利亚问题解决四步法****2. 主动回忆(Active Recall)****3. 鱼骨图(因果图/Ishikawa Diagram)****4. MECE原则…...

阿里发布新开源视频生成模型Wan-Video,支持文生图和图生图,最低6G就能跑,ComFyUI可用!

Wan-Video 模型介绍&#xff1a;包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本&#xff0c;分别支持文本到视频&#xff08;T2V&#xff09;和图像到视频&#xff08;I2V&#xff09;生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面开放的视频基础模型&…...

安孚科技携手政府产业基金、高能时代发力固态电池,开辟南孚电池发展新赛道

安孚科技出手&#xff0c;发力固态电池。 3月7日晚间&#xff0c;安孚科技&#xff08;603031.SH&#xff09;发布公告称&#xff0c;公司控股子公司南孚电池拟与南平市绿色产业投资基金有限公司&#xff08;下称“南平绿色产业基金”&#xff09;、高能时代&#xff08;广东横…...

moodle 开源的在线学习管理系统(LMS)部署

一、Moodle 简介 Moodle&#xff08;Modular Object-Oriented Dynamic Learning Environment&#xff09;是一个开源的在线学习管理系统&#xff08;LMS&#xff09;&#xff0c;广泛应用于教育机构和企业培训。其核心功能包括课程管理、作业提交、在线测试、论坛互动和成绩跟…...

设备树的概念

可以理解为设备树的树干是系统总线&#xff0c;树枝上面是其他的不同的通信协议线。对于不同通信协议的设备挂载在对应的节点即可 在设备树出现以前&#xff0c;所有关于设备的具体信息都要写在驱动里&#xff0c;一旦外围设备变化&#xff0c;驱动代码就要重写。 ​ 引入了设…...

【ArcGIS】地理坐标系

文章目录 一、坐标系理论体系深度解析1.1 地球形态的数学表达演进史1.1.1 地球曲率的认知变化1.1.2 参考椭球体参数对比表 1.2 地理坐标系的三维密码1.2.1 经纬度的本质1.2.2 大地基准面&#xff08;Datum&#xff09;的奥秘 1.3 投影坐标系&#xff1a;平面世界的诞生1.3.1 投…...

MATLAB控制函数测试要点剖析

一、功能准确性检验 基础功能核验 针对常用控制函数&#xff0c;像用于传递函数建模的 tf 、构建状态空间模型的 ss &#xff0c;以及开展阶跃响应分析的 step 等&#xff0c;必须确认其能精准执行基础操作。以 tf 函数为例&#xff0c;在输入分子与分母系数后&#xff0c;理…...

如何让一个类作为可调用对象被thread调用?

如何让一个类作为可调用对象&#xff0c;被 std::thread 调用 在 C 中&#xff0c;可以让一个类对象作为可调用对象&#xff08;Callable Object&#xff09;&#xff0c;然后用 std::thread 进行调用。要实现这一点&#xff0c;主要有三种方法&#xff1a; 重载 operator()&…...

OpenWrt 串口终端常用命令---拓展篇

以下进一步拓展 OpenWrt 串口终端常用命令,新增更多高级操作与场景化工具,助你深入掌握系统管理与调试技巧: 一、系统信息与状态查询(扩展) 硬件详细探测 cat /proc/mtd # 查看 Flash 分区表(MTD 设备) mtd info # 显示 MTD 分…...

线上接口tp99突然升高如何排查?

当线上接口的 TP99 突然升高时&#xff0c;意味着该接口在 99% 的情况下响应时间变长&#xff0c;这可能会严重影响系统的性能和用户体验。可以按照下面的步骤进行排查。这里我们先说明一下如何计算tp99&#xff1a;监控系统计算 TP99&#xff08;第 99 百分位数的响应时间&…...

如何借助人工智能AI模型开发一个类似OpenAI Operator的智能体实现电脑自动化操作?

这几天关于Manus的新闻铺天盖地&#xff0c;于是研究了一下AI智能体的实现思路&#xff0c;发现Openai 的OpenAI Operator智能体已经实现了很强的功能&#xff0c;但是每月200美金的价格高不可攀&#xff0c;而Manus的邀请码据说炒到了几万块&#xff01;就想能不能求助人工智能…...

langchain系列(终)- LangGraph 多智能体详解

目录 一、导读 二、概念原理 1、智能体 2、多智能体 3、智能体弊端 4、多智能体优点 5、多智能体架构 6、交接&#xff08;Handoffs&#xff09; 7、架构说明 &#xff08;1&#xff09;网络 &#xff08;2&#xff09;监督者 &#xff08;3&#xff09;监督者&…...

springboot旅游管理系统设计与实现(代码+数据库+LW)

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本旅游管理系统就是在这样的大环境下诞生&#xff0c;其可以帮助使用者在短时间内处理完毕庞大的数据信息&a…...

【前端跨域】WebSocket如何实现跨域通信?原理、实践与安全指南

在实时通信场景&#xff08;如在线聊天、实时数据推送&#xff09;中&#xff0c;WebSocket因其高效的双向通信能力成为首选技术 然而&#xff0c;当客户端与服务器部署在不同源时&#xff0c;跨域问题同样可能阻碍WebSocket的连接 一、WebSocket与跨域的关系 WebSocket的跨…...

Go红队开发—格式导出

文章目录 输出功能CSV输出CSV 转 结构体结构体 转 CSV端口扫描结果使用CSV格式导出 HTML输出Sqlite输出nmap扫描 JSONmap转json结构体转jsonjson写入文件json编解码json转结构体json转mapjson转string练习&#xff1a;nmap扫描结果导出json格式 输出功能 在我们使用安全工具的…...

Sharp 存在任意文件读取漏洞( DVB-2025-8923)

免责声明 本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权,请及时与我们联系,我们将尽快处理并删除相关内容。 0x01…...

C++数组,链表,二叉树的内存排列是什么样的,结构体占多大内存如何计算,类占多大内存如何计算,空类的空间是多少,为什么?

C数组是连续存储的&#xff0c;C数组元素依次存放在相邻的内存地址之中&#xff0c;并且内存大小相同。 C链表是离散存储的&#xff0c;C链表是由节点构成的&#xff0c;每个节点之中存在节点的值以及指向下一个节点的指针&#xff0c;每个节点是动态分配的。 C二叉树也是离散…...

【vLLM 教程】使用 TPU 安装

vLLM 是一款专为大语言模型推理加速而设计的框架&#xff0c;实现了 KV 缓存内存几乎零浪费&#xff0c;解决了内存管理瓶颈问题。 更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。 依赖环境​ Google Cloud TPU …...

【RAG】基于向量检索的 RAG (BGE示例)

RAG机器人 结构体 文本向量化: 使用 BGE 模型将文档和查询编码为向量。 &#xff08;BGE 是专为检索任务优化的开源 Embedding 模型&#xff0c;除了本文API调用&#xff0c;也可以通过Hugging Face 本地部署BGE 开源模型&#xff09; 向量检索: 从数据库中找到与查询相关的文…...

【RAG】RAG 系统的基本搭建流程(ES关键词检索示例)

RAG 系统的基本搭建流程 搭建过程&#xff1a; 文档加载&#xff0c;并按一定条件切割成片段将切割的文本片段灌入检索引擎封装检索接口构建调用流程&#xff1a;Query -> 检索 -> Prompt -> LLM -> 回复 1. 文档的加载与切割 # !pip install --upgrade openai…...

PSIM积累经验

1、三极管的部署报错。 出错信息&#xff1a; 元件&#xff1a; R 名称&#xff1a; R2 Error: The RLC branch R2 is connected to the gate node of the switch Q1. The gate node should be connected to an On-Off Controller output. Refer to the switch Help p…...

C++之vector类(超详解)

这节我们来学习一下&#xff0c;C中一个重要的工具——STL&#xff0c;这是C中自带的一个标准库&#xff0c;我们可以直接调用这个库中的函数或者容器&#xff0c;可以使效率大大提升。这节我们介绍STL中的vector。 文章目录 前言 一、标准库类型vector 二、vector的使用 2.…...

Go学习笔记

<!-- 注意* --> 初始化工程 go mod init GoDemo 结构体&#xff0c;接口 type i struct{} type i interface{} 条件&#xff0c;选择 循环 键值对 make(map[string]int) 切片&#xff0c;集合 make([]int,10) 函数 通道 Channel make(chan int) ​ ch <- v…...

前端杂的学习笔记

什么是nginx Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器 Nginx是一款轻量级的Web 服务器/反向代理服务器&#xff0c;处理高并发能力是十分强大的&#xff0c;并且支持热部署&#xff0c;启动简单&#xff0c;可以做到7*24不间断运行 正代和反代 学习nginx&a…...

痉挛性斜颈护理:全方位呵护,重燃生活希望

痉挛性斜颈是一种以颈部肌肉不自主收缩导致头部向一侧扭转或倾斜为特征的疾病。对于痉挛性斜颈患者而言&#xff0c;科学有效的护理能够显著提升其生活质量&#xff0c;辅助病情的改善。 生活护理&#xff1a;在生活环境布置上&#xff0c;要充分考虑患者行动的便利性。确保室内…...

MySQL的安装以及数据库的基本配置

MySQL的安装及配置 MySQL的下载 选择想要安装的版本&#xff0c;点击Download下载 Mysql官网下载地址&#xff1a;​ ​https://downloads.mysql.com/archives/installer/​​ MySQL的安装 选择是自定义安装&#xff0c;所以直接选择“Custom”&#xff0c;点击“Next”​ …...

WangEditor快速实现版

WangEditor快速实现版 效果 案例代码 后端 package com.diy.springboot.controller;import cn.hutool.core.util.IdUtil; import io.swagger.annotations.Api; import io.swagger.annotations.ApiOperation; import io.swagger.annotations.ApiImplicitParam; import org.sp…...

LeetCode Hot100刷题——反转链表(迭代+递归)

206.反转链表 给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1]示例 2&#xff1a; 输入&#xff1a;head [1,2] 输出&#xff1a;[2,1]示例 3&#…...

10.2 继承与多态

文章目录 继承多态 继承 继承的作用是代码复用。派生类自动获得基类的除私有成员外的一切。基类描述一般特性&#xff0c;派生类提供更丰富的属性和行为。在构造派生类时&#xff0c;其基类构造函数先被调用&#xff0c;然后是派生类构造函数。在析构时顺序刚好相反。 // 基类…...

java项目之基于ssm的智能训练管理平台(源码+文档)

项目简介 智能训练管理平台实现了以下功能&#xff1a; 系统可以提供信息显示和相应服务&#xff0c;其管理员增删改查课程信息和课程信息资料&#xff0c;审核课程信息预订订单&#xff0c;查看订单评价和评分&#xff0c;通过留言功能回复用户提问。 &#x1f495;&#x1…...