当前位置：首页 > news >正文

如何缓解大语言模型推理中的“幻觉”（Hallucination）？

news 来源：原创 2025/8/6 7:42:55

1. 什么是大语言模型的“幻觉”（Hallucination）？

幻觉的常见类型

2. 如何缓解大模型的幻觉问题？

方法 1：使用知识检索（Retrieval-Augmented Generation, RAG）

方法 2：增加模型校准（Calibration）

方法 3：增加人类反馈强化学习（RLHF）

方法 4：使用多模型交叉验证（Self-Consistency）

3. 总结：如何选择合适的方法？

如何缓解大语言模型推理中的“幻觉”（Hallucination）？

1. 什么是大语言模型的“幻觉”（Hallucination）？

大语言模型（LLM）在推理时可能生成不真实、不准确或与事实不符的内容，这种现象被称为**“幻觉”**（Hallucination）。

幻觉的常见类型

类型	说明	示例
事实错误（Factual Errors）	生成与现实不符的信息	"爱因斯坦于 1950 年获得诺贝尔奖。"（实际是 1921 年）
逻辑矛盾（Logical Inconsistencies）	句子前后矛盾	"巴黎是德国的首都。"
不相关信息（Irrelevance）	生成与问题无关的答案	问 "苹果公司 CEO 是谁？"，回答 "苹果是一种水果。"
编造数据（Fabrication）	生成不存在的内容	引用不存在的研究或文献

2. 如何缓解大模型的幻觉问题？

方法 1：使用知识检索（Retrieval-Augmented Generation, RAG）

原理：

在生成文本时，检索外部知识库（如 Wikipedia、数据库），并根据真实数据生成回答。

示例代码（使用 LangChain 进行 RAG）：

from langchain.chains import RetrievalQA
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.llms import OpenAI# 构建 FAISS 检索数据库
vectorstore = FAISS.load_local("my_faiss_index", OpenAIEmbeddings())
retriever = vectorstore.as_retriever()# 构建 RAG 问答系统
qa = RetrievalQA.from_chain_type(llm=OpenAI(), retriever=retriever)
response = qa.run("爱因斯坦何时获得诺贝尔奖？")
print(response)

✅ 优点：基于外部知识生成答案，提高准确性。 ❌ 缺点：需要维护和更新知识库。

方法 2：增加模型校准（Calibration）

原理：

在训练时加入 置信度控制，让模型对不确定的回答输出 "我不知道"，而不是编造内容。

示例代码（使用 OpenAI API 控制温度参数）：

import openaiopenai.api_key = "your_api_key"
response = openai.ChatCompletion.create(model="gpt-4",messages=[{"role": "user", "content": "请告诉我2025年谁会赢得世界杯？"}],temperature=0.2  # 降低温度，减少随机性
)
print(response["choices"][0]["message"]["content"])

✅ 优点：降低生成虚假信息的可能性。 ❌ 缺点：过低的温度可能导致回答缺乏多样性。

方法 3：增加人类反馈强化学习（RLHF）

原理：

使用 人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF） 来优化模型，减少幻觉。

示例代码（训练 RLHF 以优化输出）：

from trl import PPOTrainer# 初始化强化学习训练器
trainer = PPOTrainer(model, reward_model)
trainer.train()  # 使用人类反馈数据训练

✅ 优点：有效减少模型产生幻觉的概率。 ❌ 缺点：需要大量标注数据，训练成本高。

方法 4：使用多模型交叉验证（Self-Consistency）

原理：

让多个模型或同一个模型多次生成答案，并投票选择最可靠的回答。

示例代码（多次生成结果并选择最常见的答案）：

import openaidef generate_answers(question, n=5):responses = []for _ in range(n):response = openai.ChatCompletion.create(model="gpt-4",messages=[{"role": "user", "content": question}],temperature=0.7)responses.append(response["choices"][0]["message"]["content"])return max(set(responses), key=responses.count)  # 选择最常见的答案print(generate_answers("地球的半径是多少？"))

✅ 优点：提高答案的稳定性，减少随机性错误。 ❌ 缺点：需要多次推理，计算成本较高。

3. 总结：如何选择合适的方法？

方法	适用场景	优点	缺点
RAG（知识检索）	需要基于事实的回答	结合外部知识，提高真实性	需要维护知识库
模型校准（降低温度）	适用于减少随机性幻觉	控制输出置信度	可能降低创造力
RLHF（人类反馈训练）	训练新模型，减少幻觉	长期优化效果好	训练成本高
多模型交叉验证	适用于提高答案一致性	减少随机错误	计算成本高

💡 综合建议：

如果模型用于专业领域（医学、法律） → 使用 RAG。
如果模型容易产生随机幻觉 → 调整 温度参数 或 RLHF。
如果需要提高答案稳定性 → 采用 多次生成并投票。

通过结合这些方法，可以有效缓解大语言模型的幻觉问题，提高推理质量！

如何缓解大语言模型推理中的“幻觉”（Hallucination）？

目录如何缓解大语言模型推理中的“幻觉”（Hallucination）？ 1. 什么是大语言模型的“幻觉”（Hallucination）？ 幻觉的常见类型 2. 如何缓解大模型的幻觉问题？ 方法 1：使用知识检索…...

编程日记 2025/8/6 7:42:55

优选算法系列（3.二分查找）

目录一.二分查找（easy） 题目链接：704. 二分查找 - 力扣（LeetCode） 解法： 代码： 二.在排序数组中查找元素的第⼀个和最后⼀个位置（medium） 题目链接：34.…...

编程日记 2025/8/4 5:02:38

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

论文地址：Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems 摘要近年来，多行为推荐模型取得了显著成功。然而，许多模型未充分考虑不同行为之间的共性与差异性，以…...

编程日记 2025/8/6 10:57:00

细胞计数专题 | 高效 + 精准！点成LUNA-III™细胞计数仪解锁活细胞检测与浓度分析新高度

1 引言在生物医学研究中，准确的细胞计数至关重要，它影响着细胞治疗、疾病诊断、组织再生和生物测定等应用领域。传统的手动计数方法既耗时又容易产生偏差。像点成LUNA-III™自动细胞计数仪这样的自动化系统，为提高计数的准确性、可重复性和…...

编程日记 2025/8/4 20:51:49

糊涂人寄信——递推

思路分析：当有n封信，n个信封时。第k封信没有装在第k个信封里（k从1~n），就算所有的信封都装错了。我们可以得知的是，当有1封信,时，装错类别数为0。当有两封信时，装错类别为1。当有三…...

编程日记 2025/8/1 12:14:54

深入Python C API：掌握常用函数与实战技巧

深入Python C API：掌握常用函数与实战技巧 Python的灵活性和易用性使其成为广泛应用的编程语言，但在某些场景下（如高性能计算、与C/C代码交互），直接使用C语言扩展Python的能力变得尤为重要。Python C API（…...

编程日记 2025/7/30 17:10:08

第16章：基于CNN和Transformer对心脏左心室的实验分析及改进策略

目录 1. 项目需求 2. 网络选择 2.1 UNet模块 2.2 TransUnet 2.2.1 SE模块 2.2.2 CBAM 2.3 关键代码 3 对比试验 3.1 unet 3.2 transformerSE 3.3 transformerCBAM 4. 结果分析 5. 推理 6. 下载 1. 项目需求本文需要做的工作是基于CNN和Transformer的心脏左心室…...

编程日记 2025/7/31 12:54:17

Word中公式自动标号带章节编号

（1）插入一行三列的表格，设置宽度分别为0.5，13.39和1.5，设置纵向居中，中间列居中对齐，最右侧列靠右对齐，设置段落如下 （2）插入域代码【Word】利用域代码快速实…...

编程日记 2025/8/4 3:53:32

AI风向标《AI与视频制作全攻略：从入门到精通实战课程》

课程信息 AI风向标《AI与视频制作全攻略：从入门到精通实战课程》,夸克网盘和百度网盘课程。课程介绍《AI与视频制作全攻略：从入门到精通实战课程》是一套全面融合AI技术与视频制作的实战课程，旨在帮助创作者从基础软件使用到高级视频剪辑…...

编程日记 2025/8/2 13:41:24

el-table折叠懒加载支持排序

el-table折叠懒加载支持排序因为el-table懒加载的子节点是通过缓存实现的，如果想在展开的情况下直接刷新对应子节点数据，要操作el-table组件自身数据，否则不会更新以排序功能为例 maps: new Map() //用于存储子节点懒加载的数据// 加载子…...

编程日记 2025/7/30 7:09:49

Kotlin v2.1.20 发布，标准库又有哪些变化？

大家吼哇！就在三小时前，Kotlin v2.1.20 发布了，更新的内容也已经在官网上更新：What’s new in Kotlin 2.1.20 。我粗略地看了一下，下面为大家选出一些我比较感兴趣、且你可能也会感兴趣的内容。注意！这里…...

编程日记 2025/8/2 13:41:55

AI智能问答“胡说八道“-RAG探索之路

AI智能问答"胡说八道"-RAG探索之路背景信息RAGRAG技术的知识难题分块矛盾知识缺失相互冲突 RAG知识优化实践分块优化缺失优化冲突优化未来展望背景信息你有没有遇到过这样的场景？当你向智能助手提问：“某科技公司为何突然更换高层领导&am…...

编程日记 2025/8/5 7:32:06

【yolo】YOLO训练参数输入之模型输入尺寸

模型输入尺寸是YOLO训练和推理过程中非常重要的参数之一。YOLO要求输入图像的尺寸是固定的，通常为正方形（如416416、640640等）。这个尺寸直接影响模型的性能和速度。以下是对模型输入尺寸的详细介绍： 1. 模型输入尺寸的作用统一…...

编程日记 2025/8/5 4:39:59

[原创](Modern C++)现代C++的关键性概念: 如何声明一个返回数组指针的函数?

[作者] 常用网名: 猪头三出生日期: 1981.XX.XX 企鹅交流: 643439947 个人网站: 80x86汇编小站编程生涯: 2001年~至今[共24年] 职业生涯: 22年开发语言: C/C、80x86ASM、Object Pascal、Objective-C、C#、R、Python、PHP、Perl、开发工具: Visual Studio、Delphi、XCode、C …...

编程日记 2025/8/6 9:12:33

1204. 【高精度练习】密码

文章目录题目描述输入输出样例输入样例输出数据范围限制CAC代码题目描述人们在做一个破译密码游戏： 有两支密码棒分别是红色和蓝色，把红色密码棒上的数字减去蓝色密码棒上的数字，就是开启密码锁的密码。现已知密码棒上的数字位数不超过…...

编程日记 2025/8/5 15:14:29

DigitalFoto公司如何用日事清流程管理工具实现任务优先级与状态可视化？

一、业务介绍在DigitalFoto，设计和制造先进的摄影器材，如稳定器、灯光设备和支架，是日常工作的核心。公司的业务模式包括为其他品牌设计和制造定制产品，无论是作为OEM还是ODM。这样的多样化业务需求推动了公司在产品开发上必须非…...

编程日记 2025/8/1 19:25:55

解锁C++编程能力：基础语法解析

C入门基础一、C的第一个程序二、命名空间三、C输入&输出四、缺省参数/默认参数五、函数重载六、引用1.引用的特性2.引用的使用引用做返回值场景 3.const引用只有指针和引用涉及权限放大、缩小的问题，普通变量没有 4.指针和引用的关系七、inline八、nullptr 一…...

编程日记 2025/8/3 23:00:04

【Leetcode 每日一题】2680. 最大或值

问题背景给你一个下标从 0 0 0 开始长度为 n n n 的整数数组 n u m s nums nums 和一个整数 k k k。每一次操作中，你可以选择一个数并将它乘 2 2 2。你最多可以进行 k k k 次操作，请你返回 n u m s [ 0 ] ∣ n u m s [ 1 ] ∣ . . . ∣ n u m …...

编程日记 2025/7/31 6:33:00

YOLO魔改之SAM空间注意力模块

基于SAM注意力的YOLOv7改进算法详解（可用于工业检测方案）一、应用场景说明本改进算法适用于以下工业检测场景：复杂背景下的微小目标检测（电子元件缺陷、PCB板焊点）密集目标重叠检测（传送带上的包裹分拣、人群计数）动态环境目标追踪（无人机巡检、自动驾…...

编程日记 2025/8/5 15:19:45

基于 TRIZ 理论的筏式养殖吊笼清洗装备设计研究

基于 TRIZ 理论的筏式养殖吊笼清洗装备设计研究一、引言筏式养殖在水产养殖业中占据重要地位，吊笼作为养殖贝类、藻类等生物的关键器具，其清洁程度直接影响养殖生物的健康与产量。传统的吊笼清洗方式多依赖人工，效率低下、劳动强度大且清洗…...

编程日记 2025/8/4 23:27:01

Day11 动态规划入门

动态规划就是 : 给定一个问题，我们把它拆成一个个子问题，直到子问题可以直接解决。然后把子问题的答案保存起来，以减少重复计算。再根据子问题答案反推，得出原问题解的一种方法. 记忆化搜索暴力dfs 记录答案动态规划入门思…...

编程日记 2025/8/4 1:19:50

配置阿里云yum源

配置阿里云yum源修改默认的yum仓库，把原有的移动到创建的目录里（踢出国外的yum源） # 切换到/ect/yum.repos.d/目录下 cd /etc/yum.repos.d/ # 新建repo目录 mkdir repo # 把原有的移动到创建的目录里 mv ./*.repo ./repo/配置yum源 # 找到…...

编程日记 2025/8/2 13:41:55

在Linux系统安装Ollama两种方法：自动安装和手动安装，并配置自启动服务

目录一、命令自动安装‌ （一）使用命令行安装 （二）配置环境变量 （三）重新加载systemd配置并重启服务 ‌二、手动安装‌ （一）下载本地文件 （二）解压并安…...

编程日记 2025/7/26 4:12:52

Python Django入门(创建应用程序)

在本章中，你将学习如何使用 Django（http://djangoproject.com/ ）来开发一个名为“学习笔记”（Learning Log）的项目，这是一个在线日志系统，让你能够记录所学习的有关特定主题的知识。我们将为这…...

编程日记 2025/7/31 9:31:31

HCIP-2 RSTP快速生成树

HCIP-2 RSTP快速生成树 STP的不足： 1.STP的端口角色过于简单不丰富，部署时不能很好的应用与较为复杂的网络环境中。 2.STP的迁移状态过于冗长，侦听、学习、阻塞状态下都是不转发业务流量。 3.STP的算法较为繁琐。 TCN TCA TC。 4.STP被动…...

编程日记 2025/8/3 12:59:02

软考-软件设计师-计算机网络

一、七层模型中继器：信号会随着距离的增加而逐渐衰减，中继器可以接受一端的信息再将其原封不动的发给另一端，起到延长传输距离的作用； 集线器：多端口的中继器，所有端口公用一个冲突域； 网桥&…...

编程日记 2025/8/3 4:59:48

夸克网盘任务脚本——进阶自动版

脚本是用于自动管理和更新夸克云盘（Quark Cloud Drive）上的文件和目录的Python脚本。其主要功能包括自动下载、更新、重命名、删除文件和文件夹，以及处理和发送通知,可以在特定的时间间隔内运行，根据配置文件进行操作。主要功能 1. Quark 类： __init__：初始化类，设置…...

编程日记 2025/7/30 16:16:12

squirrel语言全面介绍

Squirrel 是一种较新的程序设计语言，由意大利人 Alberto Demichelis 开发，其设计目标是成为一个强大的脚本工具，适用于游戏等对大小、内存带宽和实时性有要求的应用程序。以下是对 Squirrel 语言的全面介绍： 语言特性动态类型&a…...

编程日记 2025/8/4 0:11:10

北京南文观点：品牌如何抢占AI 认知的 “黄金节点“

在算法主导的信息洪流中，品牌正在经历一场隐蔽的认知权争夺战，当用户向ChatGPT咨询"哪家新能源车企技术最可靠"时，AI调取的知识图谱数据源将直接决定品牌认知排序。南文乐园科技文化（北京）有限公司&#xff…...

编程日记 2025/7/30 14:56:06

使用Python在Word中创建、读取和删除列表 - 详解

目录工具与设置 Python在Word中创建列表使用默认样式创建有序（编号）列表使用默认样式创建无序（项目符号）列表创建多级列表使用自定义样式创建列表 Python读取Word中的列表 Python从Word中删除列表在Word中&#xff…...

编程日记 2025/8/3 1:04:13

分布式中间件：RabbitMQ确认消费机制

分布式中间件：RabbitMQ确认消费机制在分布式系统中，消息队列是实现异步通信和系统解耦的重要组件。RabbitMQ 作为一款功能强大的消息队列中间件，提供了丰富的特性来保证消息的可靠传输和消费。其中，确认消费机制是确保消息被正确…...

编程日记 2025/8/4 18:52:26

Redis的大Key问题如何解决?

大家好，我是锋哥。今天分享关于【Redis的大Key问题如何解决?】面试题。希望对大家有帮助； Redis的大Key问题如何解决? 1000道互联网大厂Java工程师精选面试题-Java资源分享网 Redis的大Key问题指的是存储在Redis中的某些键（Key&#xf…...

编程日记 2025/8/1 13:37:37

日语学习-日语知识点小记-构建基础-JLPT-N4N5阶段（25）：解释说明：という

日语学习-日语知识点小记-构建基础-JLPT-N4&N5阶段（25）：解释说明：という 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）复习语法（2）解释说明：という3、单词（1）日语单词（2）日语片假名单词4、相近词辨析5、单词辨析记录6、总结1、前言（1）情况说明 …...

编程日记 2025/8/4 16:38:39

下载 # 华为OpenJDK镜像源 https://mirrors.huaweicloud.com/openjdk/11.0.2/解压 # 解压后至于C:\Dev\Env\Java\jdk-11.0.2目录下 https://mirrors.huaweicloud.com/openjdk/11.0.2/openjdk-11.0.2_windows-x64_bin.zip编译安装 # 以管理员身份运行 CMD命令提示符并进入JD…...

编程日记 2025/8/5 4:50:39

Python实验：读写文本文件并添加行号

[实验目的] 熟练掌握内置函数open()的用法；熟练运用内置函数len()、max()、和enumerate()；熟练运用字符串的strip()、ljust()和其它方法；熟练运用列表推导式。 [实验和内容] 1.编写一个程序demo.py，要求运行该程序后&#xff0…...

编程日记 2025/8/4 20:07:57

什么是 NDC 坐标？什么是世界坐标？

什么是 NDC 坐标（归一化设备坐标）？ 定义 NDC（Normalized Device Coordinates） 是三维图形渲染管线中的中间坐标系统，范围为 [-1, 1]（x、y、z 轴均为此范围）。它是设备无关的标准化…...

编程日记 2025/8/2 19:19:19

25年护网二面

《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…...

编程日记 2025/7/31 9:17:06

《鸟哥的Linux私房菜基础篇》---5 vim 程序编辑器

目录一、vim程序编辑器的简介二、命令模式快捷键（默认模式） 1、光标移动 2、编辑操作 3、搜索与替换三、插入模式快捷键四、底行模式快捷键（按：进入） 五、高级技巧 1、分屏操作 2、多文件编辑 3、可视化…...

编程日记 2025/8/3 12:59:52

Day21：在排序数组中查找数字

某班级考试成绩按非严格递增顺序记录于整数数组 scores，请返回目标成绩 target 的出现次数。示例 1： 输入: scores [2, 2, 3, 4, 4, 4, 5, 6, 6, 8], target 4 输出: 3 示例 2： 输入: scores [1, 2, 3, 5, 7, 9], target 6 输出: 0 …...

编程日记 2025/8/4 16:56:05

Android音视频多媒体开源库基础大全

从事音视频开发工作，需要了解哪些常见的开源库，从应用到底软系统，整理了九大类，这里一次帮你总结完。包含了应用层的MediaRecorder、surfaceView，以及常见音视频处理库FFmpeg和OpenCV，还有视频渲染和音频…...

编程日记 2025/8/4 8:43:37

ManiWAV：通过野外的音频-视频数据学习机器人操作

24年6月来自斯坦福大学、哥伦比亚大学和 TRI 的论文“ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data”。音频信号通过接触为机器人交互和物体属性提供丰富的信息。这些信息可以简化接触丰富的机器人操作技能学习，尤其是当视觉信息本身…...

编程日记 2025/8/2 16:51:08

传感器研习社：Swift Navigation与意法半导体（STMicroelectronics）合作共同推出端到端GNSS汽车自动驾驶解决方案

自动驾驶系统单纯依赖感知传感器进行定位在遇到恶劣天气或缺乏车道标线的道路场景时很容易失效。此外，由于激光雷达（LiDAR）、视觉等传感器的成本高昂以及将众多不同组件整合为统一系统的复杂性，都可能增加产品研发成本或延迟产品上…...

编程日记 2025/8/5 15:27:34

Java 二维数组元素降序排序（非冒泡排序）

说明：每次比较出最大值后，把最大值设置为最小值-1，再次比较该数组； 创建Object b[][] new Object[N][2];来存储String和Int两种类型数据到同一个数组里 package com.MyJava;import java.util.Scanner;public class Test {public…...

编程日记 2025/8/2 16:08:29

梦回杭州...

她对我说，烟雨中的西湖更别有情趣，我也怀着对‘人间天堂’的憧憬踏上了向往之旅。第一次亲密接触没有感觉中那么好，现在想起来是那时的人和心情都没能安静下来，去慢慢品味它的美。六下杭州，亲历每一片风景&#xff0c…...

编程日记 2025/7/10 17:47:59

Spring Boot整合Apache BookKeeper教程

精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取 Spring Boot整合Apache BookKeeper教程 1. 简介 Apache BookKeeper 是一个高性能、持久化的分布式日志存储系统，适用于需要强一致性和高吞吐量的…...

编程日记 2025/7/31 13:55:30

C++项目——内存池

C项目——内存池前置知识 std::allocator c中所有stl容器都有自己的allocator类用于分配和回收空间，例如vector类中push_back函数的实现方式： template <class T> void Vector<T>::push_back(const T& t) { // are we out of space…...

编程日记 2025/8/4 15:53:55

【设计模式】SOLID 设计原则概述

SOLID 是面向对象设计中的五大原则，不管什么面向对象的语言， 这个准则都很重要，如果你没听说过，赶紧先学一下。它可以提高代码的可维护性、可扩展性和可读性，使代码更加健壮、易于测试和扩展。SOLID 代表以下五个设计原…...

编程日记 2025/8/6 9:12:11

Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答

文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14bScraperAPI实现联网本地大模型回答1. Code 前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者…...

编程日记 2025/8/5 19:05:21

DHCP工作原理

DHCP报文类型 DHCP Discover 客户端广播发送DHCP discover报文消息, 客户端通过UDP68端口向网络上发送DHCP discover数据包(包含MAC地址和计算机名等信息).源为0.0.0.0, 目的为255.255.255.255 discover等待时间默认为1秒, 1秒内没有得到回应, 客户机会将这一广播包重新发送4次…...

编程日记 2025/8/5 18:00:49

JVM常见面试总结

JVM（Java虚拟机）是Java程序运行的核心，掌握JVM相关知识对于Java开发者至关重要。以下是JVM常见的面试问题总结： 1. JVM内存模型问题：JVM的内存结构分为哪些部分？ 答案： 方法区（Met…...

编程日记 2025/8/5 23:16:05

如何缓解大语言模型推理中的“幻觉”（Hallucination）？

1. 什么是大语言模型的“幻觉”（Hallucination）？

幻觉的常见类型

2. 如何缓解大模型的幻觉问题？

方法 1：使用知识检索（Retrieval-Augmented Generation, RAG）

方法 2：增加模型校准（Calibration）

方法 3：增加人类反馈强化学习（RLHF）

方法 4：使用多模型交叉验证（Self-Consistency）

3. 总结：如何选择合适的方法？

相关文章：