当前位置：首页 > news >正文

【医学影像 AI】大型语言模型生成 ROP 患者信息材料的能力

news 来源：原创 2025/8/14 2:47:24

【医学影像 AI】大型语言模型生成 ROP 患者信息材料的能力

- 0. 论文简介
- - 0.1 基本信息
  - 0.2 摘要
- 1. 引言
- 2. 材料与方法
- - 2.1 大语言模型的使用
  - 2.2 可读性标准
  - 2.3 统计分析
- 3. 结果
- - 3.1 Bezirci-Yılmaz可读性评分
  - 3.2 Ateşman可读性评分
  - 3.3 全面性评分
  - 3.4 准确性评分
- 4. 讨论
- - 4.1 可读性评估
  - 4.2 研究的局限性
- 5. 结论
- 6. 参考文献

0. 论文简介

0.1 基本信息

2018 年，土耳其 Mustafa Kemal University 的 Sevinç Arzu Postacı 等在 Turk J Ophthalmol. 发表论文 “大型语言模型生成早产儿视网膜病变患者信息材料的能力：可读性、准确性和全面性评估（The Ability of Large Language Models to Generate Patient Information Materials for Retinopathy of Prematurity: Evaluation of Readability, Accuracy, and Comprehensiveness）”。

本文主要研究了大语言模型（LLMs）在生成早产儿视网膜病变（ROP）患者教育材料方面的能力，评估了生成材料的可读性、准确性和全面性，证实了大语言模型特别是 GPT-4.0，在生成 ROP 患者教学材料中的潜力。

本文的主要贡献是：

可读性评估：
研究采用了Bezirci-Yılmaz可读性分析方法，评估了GPT-4.0、Gemini等大语言模型生成的文本的可读性。结果表明，这些模型生成的文本在可读性上表现出较高的水平，适合高中及以上的读者[6][8][10]。
准确性与全面性评估：
研究基于土耳其眼科协会（TOA）的ROP指南，由ROP专家评估了LLMs生成材料的准确性和全面性。评估结果显示，GPT-4.0在生成准确且全面的医疗信息方面表现尤为突出，适合用于创建土耳其ROP指南[5][12][15]。
模型比较：
研究比较了GPT-4.0、Gemini和GPT-4o mini等模型在不同评估指标上的表现。结果显示，GPT-4.0在提供一致且相关的医疗信息方面优于其他模型，强调了其在生成可靠教育材料中的实用性[13][15]。
统计学显著性：
研究通过统计分析得出了显著的结论（p<0.05），进一步验证了GPT-4.0在生成ROP患者教育材料中的优越性[7][14]。

论文下载： ncbi， oftalmoloji
引用格式：
Postacı SA, Dal A. The Ability of Large Language Models to Generate Patient Information Materials for Retinopathy of Prematurity: Evaluation of Readability, Accuracy, and Comprehensiveness. Turk J Ophthalmol. 2024 Dec 31;54(6):330-336. doi: 10.4274/tjo.galenos.2024.58295

在这里插入图片描述

0.2 摘要

目的：
本研究比较了土耳其眼科协会（TOA）早产儿视网膜病变（ROP）指南中的患者教育材料与大型语言模型（LLMs）生成材料的可读性。评估了GPT-4.0、GPT-4o mini和Gemini生成患者教育材料的能力，重点关注其准确性和全面性。
材料与方法：
从TOA ROP指南中选取30个问题，分别向GPT-4.0、GPT-4o mini和Gemini提问。然后使用以下提示重新生成回答：“你能将此文本修改为适合六年级阅读水平吗？”（P1格式）和“你能让这段文字更容易理解吗？”（P2格式）。使用Ateşman和Bezirci-Yılmaz公式分析TOA ROP指南和LLM生成回答的可读性。此外，ROP专家评估了回答的全面性和准确性。
结果：
TOA手册的阅读水平高于文献推荐的六年级水平。GPT-4.0和Gemini生成的材料在可读性上显著优于TOA手册（p<0.05）。在P1和P2格式的调整下，GPT-4.0的可读性有所提高，而GPT-4o mini和Gemini则未观察到显著变化。GPT-4.0在准确性和全面性上得分最高，而Gemini得分最低。
结论：
GPT-4.0在生成更具可读性、准确性和全面性的患者教育材料方面表现出更大的潜力。然而，将LLMs整合到医疗领域时，必须仔细评估地区医疗差异和所提供信息的准确性。

关键词： 早产儿视网膜病变，大型语言模型，可读性，患者教育

1. 引言

早产儿视网膜病变（ROP, Retinopathy of prematurity）是一种视网膜血管增生性疾病，具有多因素致病特点。它主要见于早产儿，但也可能发生在接受高浓度氧疗的足月儿中[1]。新生儿护理的进步提高了早产儿的存活率，这也使得ROP等疾病的发病率增加。全球每年约有1500万婴儿早产（妊娠37周前出生）[2]。每年有23,800至45,600名婴儿因ROP导致不可逆的视力丧失[3]。特别是在低收入和中等收入国家，高达40%的儿童失明归因于可预防的ROP病例，土耳其是其中之一[4]。土耳其的一项多中心研究显示，在6,115名早产儿中，27%被诊断为某种程度的ROP，6.7%发展为严重ROP[5]。

ROP可以通过持续的监测和及时的治疗得到有效管理[6,7]。监测从出生后不久开始，一直持续到视网膜血管完全形成。随访频率根据疾病的严重程度进行调整；严重ROP的婴儿每周随访一次，而其他婴儿则间隔较长时间随访。然而，随访的延迟可能导致治疗机会的丧失，最终导致完全失明[8]。

向家庭传播有关疾病和治疗过程的全面信息至关重要，因为这极大地提高了他们对随访和治疗的依从性。先前的研究表明，家庭知识水平的提高与焦虑的减少和治疗方案的更好依从性相关[9,10]。

在土耳其，土耳其眼科协会（TOA）在其官方网站上为多种疾病提供患者教育资源及知情同意书。确保这些材料易于理解以促进患者的信息获取过程至关重要[11]。根据美国医学会和美国国立卫生研究院的指南，患者教育材料的阅读水平应相当于六年级学生[12]。通常使用分析句子长度和词汇结构等因素的公式来评估可读性[13]。对于土耳其语文本，可读性通常使用Ateşman[14]和Bezirci与Yılmaz[15]的可读性公式进行评估。

近年来，在线信息资源已成为患者常用的工具，并受到广泛青睐。皮尤中心的一项调查显示，61%的美国人通过互联网平台主动获取健康信息[16]。然而，普遍认为在线健康信息的可理解性通常需要更高的教育水平[17,18,19]。大型语言模型（LLMs）是通过互联网内容训练的人工智能系统，能够生成自然语言文本[20]。诸如OpenAI的ChatGPT和Google的Gemini等机器学习模型正在医疗领域用于提供患者教育和创建信息内容[21,22]。然而，这些模型的可靠性仍存在争议，相关研究仍在进行中[23]。

本研究使用Ateşman和Bezirci-Yılmaz公式评估了TOA网站上以问答形式提供的ROP患者教育材料的可读性水平。从这些材料中选取30个问题，分别向高级语言模型GPT-4.0、GPT-4o mini和Gemini提问，并利用其回答生成患者手册。随后评估了这些手册的可读性、准确性和全面性，以评估这些模型在生成患者教育材料方面的有效性。

本研究旨在评估TOA提供的ROP患者教育材料的可读性，并比较LLMs生成材料的可读性、准确性和全面性。

2. 材料与方法

本研究的主要数据来源是土耳其眼科协会（TOA）网站上提供的针对早产儿视网膜病变（ROP）治疗指南的家庭信息手册（网址：https://www.todnet.org/tod-rehber/rop-tedavi-rehberi-2021.pdf），土耳其语版本见【附录1】家庭信息手册—早产儿视网膜病变筛查；【附录2】家庭信息手册—早产儿视网膜病变治疗。

该指南包含 30 个与 ROP 相关的问题及其回答，例如 “什么是ROP？” 以及 “ROP如何治疗？” 等。本研究使用 Ateşman 和 Bezirci-Yılmaz 可读性公式对指南中每个回答进行了独立分析。由于本研究仅使用了公开可获取的数据和文献，未涉及任何动物或人类数据，因此无需伦理委员会批准或患者同意。

2.1 大语言模型的使用

在本研究中，TOA ROP 指南中的30个问题被分别输入到ChatGPT-4.0、ChatGPT-4o mini和Gemini模型中。
表1展示了本研究中使用的人工智能工具所接收到的样本问题。
每个问题均在新的聊天会话中提出，并记录其回答。此外，研究还评估了大语言模型简化文本以适应较低教育水平的能力。为此，模型被要求基于其初始回答（初始格式）生成两种新的回答[25]：
-Prompt 1：“你能否修改以下文本，使其适合六年级阅读水平？”（P1格式）；
-Prompt 2：“你能否修改以下文本，使其更易理解？”（P2格式）。每个回答均使用Ateşman和Bezirci-Yılmaz可读性公式进行独立分析。

在这里插入图片描述

2.2 可读性标准

Ateşman可读性公式：
Ateşman公式根据平均句子长度和单词长度提供0到100分的评分。
我们使用在线程序进行了Ateşman分析。评分系统分类如下[14]：
- 90-100分：相当于四年级或以下水平
- 80-89分：相当于五或六年级水平
- 70-79分：相当于七或八年级水平
- 60-69分：相当于九或十年级水平
- 50-59分：相当于十一或十二年级水平
- 40-49分：相当于大专水平
- 30-39分：相当于本科水平
- 29分及以下：相当于研究生水平。
Bezirci-Yılmaz可读性公式：
Bezirci-Yılmaz公式根据平均句子长度和单词音节数评估可读性。
我们使用专门的软件工具进行了Bezirci-Yılmaz分析。评分系统如下[15]：
- 1-8分：相当于小学水平
- 9-12分：相当于高中水平
- 12-16分：相当于本科水平
- 16分以上：适合学术水平的文本。
大型语言模型生成的面向患者信息的全面性和准确性
LLMs生成的回答根据TOA ROP指南进行了全面性和准确性评估。
由ROP专家和具有临床管理经验的专家（S.A.P.和A.D.）评估了回答的准确性和全面性。
回答的全面性评分如下[26]：
- 1分：不够全面（遗漏关键信息）
- 2分：较为全面（包含最少但必要的信息）
- 3分：中等全面（提供合理水平的详细信息）
- 4分：全面（包含关键信息）
- 5分：非常全面（提供详细且完整的信息）
回答的准确性评分如下[27]：
- 1分：差（包含大量不准确信息，可能对患者有害）
- 2分：中等（存在一些不准确信息，但不太可能对患者产生不良影响）
- 3分：优秀（无错误）

2.3 统计分析

在数据分析中，使用单因素方差分析（ANOVA）进行多组均值的比较，随后进行Tukey事后检验以确定显著的组间差异。统计分析使用SPSS软件（IBM SPSS Statistics，版本26.0）进行。p值<0.05被认为具有统计学显著性。

3. 结果

3.1 Bezirci-Yılmaz可读性评分

Bezirci-Yılmaz可读性分析显示，GPT-4.0和Gemini最初生成的文本阅读水平显著低于TOA手册（分别为p=0.010和p=0.039）。GPT-4o mini生成的材料与TOA手册之间未发现统计学显著差异（p=0.325）。其他组之间的比较也未发现显著差异（表2）。

在比较LLMs（GPT-4.0、Gemini和GPT-4o mini）的初始回答与P1和P2格式的回答时，仅在GPT-4.0的回答中观察到可读性的显著提高（分别为p=0.005和p=0.012）。其他组未发现显著差异。此外，任何LLM组的P1和P2格式回答之间均未观察到统计学显著差异（p>0.05）（表3）。

在这里插入图片描述

3.2 Ateşman可读性评分

在检查Ateşman可读性评分时，发现GPT-4.0和Gemini生成的初始回答的阅读水平显著低于TOA手册（分别为p=0.016和p=0.006）。GPT-4o mini与TOA手册之间未发现显著差异（p=0.910）。此外，GPT-4.0和Gemini的阅读水平显著低于GPT-4o mini（分别为p=0.042和p=0.035）。然而，GPT-4.0和Gemini之间未发现显著差异（表2）。

在比较LLMs的初始回答与P1和P2格式的回答时，未发现Ateşman可读性评分的统计学显著差异。此外，任何模型的P1和P2格式之间也未观察到显著差异（表4）。其他LLM组的阅读水平被评估为9至10年级水平，而GPT-4o mini生成的回答被确定为11至12年级水平。

在这里插入图片描述

3.3 全面性评分

在比较LLMs初始回答的全面性评分时，发现GPT-4.0生成的回答的全面性显著高于GPT-4o mini和Gemini（分别为p=0.045和p=0.001）。然而，GPT-4o mini和Gemini之间的全面性未发现显著差异。GPT-4.0在P1和P2格式的回答中的全面性评分高于GPT-4o mini和Gemini（表5）。

在这里插入图片描述

3.4 准确性评分

在比较LLMs初始回答的准确性评分时，发现GPT-4.0的准确性评分显著高于Gemini（p=0.001）。然而，GPT-4o mini与Gemini或GPT-4.0之间的准确性未发现显著差异。在比较P1和P2格式回答的准确性评分时，GPT-4.0显著比Gemini更准确（分别为p=0.039和p=0.034）。未观察到其他统计学显著差异（表5）。

4. 讨论

4.1 可读性评估

在本研究中，评估了TOA ROP治疗指南中患者教育材料的可读性。根据Bezirci-Yılmaz可读性公式，这些材料的阅读水平平均为高中水平，而Ateşman可读性公式则将其定位为11或12年级水平。土耳其的研究显示，平均教育水平为6.51年[28]。在创建患者教育材料时，必须考虑各国的平均教育水平[29]。文献中建议患者教育材料的阅读水平通常为六年级水平[12]。超过此水平的材料可能对健康素养有限的患者群体难以理解，从而可能降低治疗依从性。因此，TOA ROP指南的阅读水平高于建议的患者教育材料水平，表明需要简化。类似的问题也出现在ChatGPT-4.0、ChatGPT-4o mini和Gemini生成的材料中。这些材料的阅读水平被确定为高于推荐水平，与文献中所述的标准不符[30,31]。

ROP治疗的延迟可能导致不可逆的视力丧失，并对医疗专业人员造成重大的法律问题[32]。与ROP相关的医疗事故中最常见的问题是未能及时进行筛查或随访[33]。主要原因之一是家庭对ROP和筛查过程缺乏足够的了解。文献研究表明，当父母被充分告知并提高意识时，治疗依从性会提高，婴儿的预后也会更好[9,10]。一项研究指出，极低出生体重婴儿的父母，尤其是英语水平有限和健康素养较低的父母，未获得足够的ROP信息，这对治疗产生了负面影响[34]。研究显示，超过一半的父母在婴儿出院时未获得有关ROP病情的充分信息。造成这种信息差距的原因之一是，美国十分之一的成年人健康素养较低[2]。一项针对儿科眼科领域的分析显示，在线患者教育材料适合平均教育水平为11.75±2.72年的受众[34]。这些教育材料的可理解性不足可能导致健康素养有限的人群对治疗的依从性不足。因此，必须为知识水平较低的个人提供易于理解的患者教育材料。

根据我们研究收集的数据，TOA ROP指南的阅读水平过高，因此需要提高这些材料的可理解性。在本研究中，比较GPT-4.0、GPT-4o mini和Gemini生成的手册与TOA手册的可读性水平时，发现GPT-4.0和Gemini的可读性水平低于TOA手册。此外，在旨在提高可理解性的P1和P2格式中，GPT-4.0生成的手册的可读性（根据Bezirci-Yılmaz评分）有所提高，而Gemini和GPT-4o mini未观察到显著变化。这些发现与文献一致[27,35,36]。在可读性方面，这些结果表明GPT-4.0可能是创建土耳其ROP指南的更合适选择。

LLMs正在成为医疗保健领域的新兴工具，尤其在患者咨询、医疗分诊和信息提供方面显示出潜力。LLMs可以通过回答患者的常见医疗问题，改善偏远或服务不足地区个体的医疗保健服务[22,37]。此外，这些模型还被观察到可以承担行政任务，使医疗专业人员能够将更多时间用于患者护理[38]。然而，LLMs的使用也带来了一些挑战。LLMs可能提供不准确的信息，对患者及其家庭构成风险，尤其是在医疗环境中[39]。这些模型的自我检查和纠错能力有限。误导性或不完整的信息可能导致医疗错误，对患者安全构成严重风险[40]。为了将LLMs完全整合到临床实践中，必须进一步改进验证流程并加强对这些模型的监管。

患者教育材料不仅需要易于阅读，还必须全面且准确。在我们的研究中，我们还评估了LLMs生成手册的准确性和全面性。结果显示，GPT-4.0的材料比GPT-4o mini和Gemini的材料更全面。在准确性方面，GPT-4.0得分最高，而Gemini得分最低。这些数据表明，GPT-4.0可能是创建患者教育材料的更可靠模型。类似地，Pushpanathan等人[26]发现，在回答复杂眼部症状查询时，GPT-4.0在准确性和全面性方面优于GPT-3.5和Google Bard，突显了其在患者教育中的潜力。Antaki等人[21]也报告称，GPT-4.0在眼科领域提供的医疗信息比其他LLMs更一致和相关，强调了其在生成可靠教育材料中的实用性。

另一个关于LLMs提供的医疗信息的担忧是数据可能存在地理差异。ROP的筛查标准可能因国家而异[2]。虽然一些标准在发达国家可能不适用，但在欠发达国家，严重ROP的风险更高[39]。TOA ROP指南建议对所有妊娠34周前出生或体重低于1,700克的新生儿进行筛查[5]。GPT-4.0对此问题的回答（“妊娠30周前出生或体重低于1,500克的婴儿”）与英国采用的筛查标准相似，但与土耳其的TOA标准不符[41]。这种差异可能会在患者家属中引发不确定性，可能导致错误信息并降低治疗依从性。

4.2 研究的局限性

本研究的主要局限之一是语言模型在不同语言中的表现存在显著差异。在研究过程中，我们以土耳其语提出问题，并要求模型以土耳其语提供回答。此外，我们还要求语言模型生成比土耳其语来源更易理解的回答。然而，由于大语言模型通常基于英语数据进行训练，因此在土耳其语等语言中的表现可能不如英语。这种差异可以归因于语言结构的不同以及土耳其语数据集的有限性。文献中也指出，大语言模型在生成较少使用语言的医疗信息时，往往表现出性能下降，这可能会增加临床应用中的错误风险。此外，本研究中的问题完全按照TOA手册中的形式提出，并未从土耳其用户的角度提供额外的上下文。因此，类似“我是为土耳其提问”这样的短语对模型回答的潜在影响并未得到评估。综上所述，在土耳其语等语言中使用这些模型需要谨慎考虑，并应由本地专家进行验证流程的支持。

5. 结论

对患者及其家属的教育在ROP的管理中至关重要。TOA患者信息手册的阅读水平被确定为高于可接受水平。在可读性、全面性和准确性方面，GPT-4.0生成的手册优于GPT-4o mini和Gemini生成的手册。尽管LLMs在医疗保健领域是一种有前景的工具，但研究发现，某些信息可能具有误导性，并且由于地理差异存在误导风险。因此，将LLMs整合到医疗保健领域应经过全面测试，并得到相关建议的支持。研究认为，必须仔细评估LLMs生成的信息的准确性，尤其是关键医疗信息的准确性。

6. 参考文献

Dammann O, Hartnett ME, Stahl A. Retinopathy of prematurity. Dev Med Child Neurol. 2023;65:625-631.
Blencowe H, Cousens S, Oestergaard MZ, et al. National, regional, and worldwide estimates of preterm birth rates in the year 2010 with time trends since 1990 for selected countries: a systematic analysis and implications. Lancet. 2012;379:2162-2172.
Blencowe H, Lawn JE, Vazquez T, et al. Preterm-associated visual impairment and estimates of retinopathy of prematurity at regional and global levels for 2010. Pediatr Res. 2013;74(Suppl 1):35-49.
Quinn GE. Retinopathy of prematurity blindness worldwide: phenotypes in the third epidemic. Eye Brain. 2016;8:31-36.
Bas AY, Demirel N, Koc E, et al. Incidence, risk factors and severity of retinopathy of prematurity in Turkey (TR-ROP study): a prospective, multicentre study in 69 neonatal intensive care units. Br J Ophthalmol. 2018;102:1711-1716.
Hartnett ME. Retinopathy of prematurity: evolving treatment with anti vascular endothelial growth factor. Am J Ophthalmol. 2020;218:208-213.
Kong L, Fry M, Al-Samarraie M, et al. An update on progress and the changing epidemiology of causes of childhood blindness worldwide. J AAPOS. 2012;16:501-507.
Dogra MR, Katoch D, Dogra M. An update on retinopathy of prematurity (ROP). Indian J Pediatr. 2017;84:930-936.
Salehnezhad A, Zendetalab H, Naser S, et al. The effect of education based on the health belief model in improving anxiety among mothers of infants with retinopathy of prematurity. J Educ Health Promot. 2022;11:424.
McCahon H, Chen V, Paz EF, et al. Improving follow-up rates by optimizing patient educational materials in retinopathy of prematurity. J AAPOS. 2023;27:134.
Papadakos C, Papadakos J, Catton P, et al. From theory to pamphlet: the 3Ws and an H process for the development of meaningful patient education resources. J Cancer Educ. 2014;29:304-310.
Weiss BD, Schwartzberg JG, Davis TC, et al. Health literacy a manual for clinicians with contributions from. 2008. http://lib.ncfh.org/pdfs/6617.pdf
Crossley SA, Allen DB, Danielle McNamara JS. Text readability and intuitive simplification: a comparison of readability formulas. 2011;23:84-101.
Ateşman E. Türkçede okunabilirliğin ölçülmesi. Dil Dergisi. 1997;58:71-74.
Bezirci B, Yılmaz AE. A software library for measurement of readability of texts and a new readability metric for Turkısh. DEÜ Mühendislik Fakültesi Fen Bilimleri Dergisi. 2010;3;49-62.
The Social Life of Health Information. Pew Research Center. https://www.pewresearch.org/internet/2009/06/11/the-social-life-of-health-information/
Williams AM, Muir KW, Rosdahl JA. Readability of patient education materials in ophthalmology: a single-institution study and systematic review. BMC Ophthalmol. 2016;16:133.
Rouhi AD, Ghanem YK, Hoeltzel GD, et al. Quality and readability of online patient ınformation on adolescent bariatric surgery. Obes Surg. 2023;33:397-399.
Lee KC, Berg ET, Jazayeri HE, et al. Online patient education materials for orthognathic surgery fail to meet readability and quality standards. J Oral Maxillofac Surg. 2019;77:180.
Thirunavukarasu AJ, Ting DSJ, Elangovan K, et al. Large language models in medicine. Nat Med. 2023;29:1930-1940.
Antaki F, Touma S, Milad D, et al. Evaluating the performance of ChatGPT in ophthalmology: an analysis of its successes and shortcomings. Ophthalmol Sci. 2023;3:100324.
Song H, Xia Y, Luo Z, et al. Evaluating the performance of different large language models on health consultation and patient education in urolithiasis. J Med Syst. 2023;47:125.
Goodman RS, Patrinely JR, Stone CA Jr, et al. Accuracy and reliability of chatbot responses to physician questions. JAMA
Netw Open. 2023;6:2336483.
Koç E, Yağmur A, Prof B, et al. Türk Neonatoloji Derneği, Türk Oftalmoloji Derneği, Türkiye Prematüre Retinopatisi Rehberi 2021. https://neonatology.org.tr/uploads/content/tan%C4%B1-tedavi/7_min_min.pdf
Kianian R, Sun D, Crowell EL, et al. The use of large language models to generate education materials about uveitis. Ophthalmol Retina. 2024;8:195-201.
Pushpanathan K, Lim ZW, Er Yew SM, et al. Popular large language model chatbots’ accuracy, comprehensiveness, and self awareness in answering ocular symptom queries. iScience. 2023;26:108163.
Srinivasan N, Samaan JS, Rajeev ND, et al. Large language models and bariatric surgery patient education: a comparative readability analysis of GPT-3.5, GPT-4, Bard, and online institutional resources. Surg Endosc. 2024;38:2522-2532.
Yeşilyurt ME, Karadeniz O, Gülel FE, et al. Mean and expected years of schooling for provinces in Turkey. PJESS. 2016;3:1-7.
Ay IE, Doğan M. An evaluation of the comprehensibility levels of ophthalmology surgical consent forms. Cureus. 2021;13:16639.
Yılmaz FH, Tutar MS, Arslan D, et al. Readability, understandability, and quality of retinopathy of prematurity information on the web. Birth Defects Res. 2021;113:901-910.
Huang G, Fang CH, Agarwal N, et al. Assessment of online patient education materials from major ophthalmologic associations. JAMA Ophthalmol. 2015;133:449-454.
Vinekar A, Gangwe A, Agarwal S, et al. Improving retinopathy of prematurity care: a medico-legal perspective. Asia Pac J
Ophthalmol (Phila). 2021;10:437-441.
Moshfeghi DM. Top five legal pitfalls in retinopathy of prematurity. Curr Opin Ophthalmol. 2018;29:206-209.
John AM, John ES, Hansberry DR, et al. Analysis of online patient education materials in pediatric ophthalmology. J AAPOS. 2015;19:430-434.
Rouhi AD, Ghanem YK, Yolchieva L, et al. Can artificial intelligence improve the readability of patient education materials on aortic stenosis? A pilot study. Cardiol Ther. 2024;13:137-147.
Lambert R, Choo ZY, Gradwohl K, et al. Assessing the application of large language models in generating dermatologic
patient education materials according to reading level: qualitative study. JMIR Dermatol. 2024;7:55898.
Srivastav S, Chandrakar R, Gupta S, et al. ChatGPT in radiology: the advantages and limitations of artificial intelligence for medical imaging diagnosis. Cureus. 2023;15:41435.
Loh E. ChatGPT and generative AI chatbots: challenges and opportunities for science, medicine and medical leaders. BMJ Lead. 2023;000797.
Karakas C, Brock D, Lakhotia A. Leveraging ChatGPT in the pediatric neurology clinic: practical considerations for use to improve efficiency and outcomes. Pediatr Neurol. 2023;148:157-163.
Harrer S. Attention is not all you need: the complicated case of ethically using large language models in healthcare and medicine. EBioMedicine. 2023;90:104512.
Fierson WM; American Academy of Pediatrics Section on Ophthalmology; American Academy of Ophthalmology; American Association for Pediatric Ophthalmology and Strabismus; American Association of Certified Orthoptists. Screening examination of premature infants for retinopathy of prematurity. Pediatrics. 2018;142:e20183061. Erratum in: Pediatrics. 2019;143:e20183810.
Ahn S. The transformative impact of large language models on medical writing and publishing: current applications, challenges and future directions. Korean J Physiol Pharmacol. 2024;28:393-401.

版权说明：
本文由 youcans@xidian 对论文 “The Ability of Large Language Models to Generate Patient Information Materials for Retinopathy of Prematurity: Evaluation of Readability, Accuracy, and Comprehensiveness” 进行摘编和翻译。该论文版权属于原文期刊和作者，本译文只供研究学习使用。

youcans@xidian 作品，转载必须标注原文链接：
【医学影像 AI】大型语言模型生成 ROP 患者信息材料的能力(https://youcans.blog.csdn.net/article/details/146300642)
Crated：2025-03

【医学影像 AI】大型语言模型生成 ROP 患者信息材料的能力

0. 论文简介

0.1 基本信息

0.2 摘要

1. 引言

2. 材料与方法

2.1 大语言模型的使用

2.2 可读性标准

2.3 统计分析

3. 结果

3.1 Bezirci-Yılmaz可读性评分

3.2 Ateşman可读性评分

3.3 全面性评分

3.4 准确性评分

4. 讨论

4.1 可读性评估

4.2 研究的局限性

5. 结论

6. 参考文献

相关文章：