当前位置：首页 > news >正文

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

news 来源：原创 2025/9/17 18:47:36

题目

分支-求解-合并改进了大型语言模型的评估和生成

在这里插入图片描述

摘要

大型语言模型(LLM)经常用于多方面的语言生成和评估任务，这些任务涉及满足复杂的用户约束或考虑多个方面和标准。然而，由于模型缺乏一致性，无法计划和分解问题，他们的表现可能会有所欠缺。我们提出BRANCH-SOLVEMERGE (BSM)，一个大型语言模型程序(Schlag等人，2023)，用于处理这种具有挑战性的自然语言任务。它由分支、求解和合并模块组成，这些模块通过对基本LLM的特定提示进行参数化。这三个模块计划将任务分解成多个并行的子任务，独立地解决它们，并将解决方案融合到子任务中。我们将我们的方法应用于LLM响应评估和受限文本生成任务，并使用多个LLM评估其有效性，包括骆马、美洲驼-2-chat和GPT-4。BSM提高了每个LLM的评估正确性和一致性，将人-LLM一致性提高了26%，将长度和成对位置偏差减少了50%，并允许LLaMA2-chat在大多数领域与GPT-4相当或更好。在有约束的故事生成任务中，BSM提高了故事的连贯性，同时也提高了12%的约束满意度。

引言

大型语言模型(LLM)广泛用于各种文本生成任务(拉德福德等，2019；布朗等人，2020；OpenAI，2023bChowdhery等人，2022；Touvron等人，2023年)。为了评估、评论和改进结果，雇用他们作为这些LLM世代的评估者也变得很普遍(郑等人，2023；白等，2022b)。然而，LLM仍然要努力完成具有复杂需求的任务，比如满足一组约束或满足通常是多维的(例如，根据某些不同的标准评估生成的文本的质量)。这似乎主要源于模型缺乏自洽性和无法规划(姚等，2023b布贝克等人，2023)。最近的研究试图通过开发涉及启发推理、规划和细化的迭代方法来减轻这些限制，但迄今为止，它们仍被认为是开放的问题(白等人，2022bMadaan等人，2023；甘古利等人，2023；姚等，2023c陈等，2023；李等，2023；黄等，2023)。

在这里插入图片描述
图1:使用LLaMA-2-70B-chat对LLM响应进行成对评估的BRANCH-SOLVE-MERGE示例。给定一个问题和两个LLM答案A和B，BSM产生一个偏好判断。分支模块以问题为条件来生成特定于问题的评估计划，在这种情况下，该评估计划包括不同的标准，如与夏威夷旅行主题的“相关性”、“清晰度”等。“求解”模块独立评估每个标准(分支)的响应对，而“合并”模块将各个判断组合起来，以生成最终结论，在这种情况下，B是更好的响应。

在这项工作中，我们提出了分支-求解合并(BSM)，一种解决这种多方面的自然语言任务的分解方法。我们的方法是一个大型语言模型程序的实例(Schlag等人，2023；Dohan等人，2022年)，由三个模块组成:分支、求解和合并，这些模块通过对底层LLM的特定提示进行参数化。给定一个任意的用户任务，“分支”模块通过将该任务分解成多个并行的子任务来生成解决方案，其中每个子任务由一个唯一的分支来表示，该分支表示解决整个问题所需的不同组件。“解决”模块然后解决这些独立的子问题。最后，“合并”模块融合这些子问题的解决方案，以生成整体解决方案。我们将我们的方法应用于两个具有挑战性的任务，在这两个任务中，LLM通常被使用，但它们的性能仍然落后于人类:LLM输出的评估(郑等人，2023)。LLM现在通常用于执行模型响应的自动评估，例如对用户查询的自动评估(Dubois等人，2023)。

从整体上评估逻辑线性模型具有挑战性，因为它们能够对任意用户问题生成长形式的答案(郑等，2023)，缺乏可靠性源于许多偏见(郑等，2023；吴和阿吉，2023；Wang等人，2023b)，以及对手工设计的evalua的依赖影响方法推广的选项计划，引入非故意的人为偏差(刘等，2023；吴和阿吉，2023)。每个分支机构都可以将BSM应用于这项任务，评估需要评估的不同方面和标准。*受约束的文本生成。现有的LLM在受限的文本生成任务上很吃力，例如，编写一个应该包括几个概念的故事的限制。模型通常要么违反约束，要么生成不连贯的文本以满足这些约束(Bubeck等人，2023；姚等，2023a)。BSM可以通过每个分支写故事的一部分来完成这个任务约束，然后是最终合并。

我们将BSM应用于这两个问题，参见图1和图3，并评估其对不同大小和强度的多个开源和黑盒LLM的有效性，包括LLaMA-2-7Bchat (Touvron等人，2023年)，Vicuna-33B (Chiang等人，2023年)，LLaMA-2-70B-chat和GPT-4 (OpenAI，2023年b)。BSM显著改进了这两项任务，解决了LLM评估和生成的上述限制:BSM改进了LLM评估的正确性。特别地，在MT-Bench基准(郑等，2023)上，改进了用于评估属于不同领域(包括写作、编码、推理和数学)的多回合问题的LLMhuman协议。例如，与零触发提示和self-consistency (Wang等人，2022)基线，与LLaMA-2-70B-chat的LLMhuman一致性提高了高达绝对26%,甚至在许多域上与4相当或优于4。BSM与GPT-4的一致程度比GPT-4进一步提高了3%。总的来说，这些发现表明BSM有能力评估LLM对来自不同领域的任意用户问题的回答，并作为评估者改进任何基础LLM。

BSM还提高了LLM评估的一致性。它显著降低了基于LLM的评估者的位置、长度和自我增强偏差。例如，BSM与美洲驼-2-70bc减少了高达50%的绝对位置偏差。重要的是，GPT-4的BSM还提高了GPT-4在评估自己的反应时作为评估者的可靠性。对于受约束的故事生成任务，BSM生成更连贯的故事，与零镜头基线相比，GPT-4法官在93%的情况下更喜欢这些故事。它还将约束满意度提高了12%。总的来说，BSM为解决具有挑战性的多方面语言生成和评估任务提供了一个规划和任务分解的框架。由于这种方法是作为一个通用的逻辑管理程序来设计的，所以它可以应用于任何底层的逻辑管理和潜在的各种任务。

分支-求解-合并

我们首先引入一些符号来正式描述BSM。设pθ表示参数为θ的LLM。我们还将x = x1，，n表示为n个令牌的序列，使得pθ(x) = 串n i=1 pθ(xi |x1，，i1)。BSM是一个LLM计划，旨在解决复杂的规划为基础的任务与三个神经模型:分支、求解和合并。每个模块都使用LLM pθ的唯一提示进行参数化。LLM程序在这些模块之上进一步定义了一个算法，充当控制器并在算法的每一步调用一个模块。

分支-求解-合并LLM程序的组成部分。对于一个给定的任务，BSM将控制器定义为一种算法，它布局了模块之间的转换逻辑。让我们用它们的功能形式来表示这三个模块:branch()、solve()和merge()。然后程序被定义为Prog : (x，branch()，solve()，merge( )) → y，将任务实例x和模块实现作为输入，并生成输出y。

分支模块。给定一个任务，分支模块生成多个子任务，其中每个子任务由一个唯一的分支表示。分支成子问题允许任务分解，这样每个部分可以独立地并行解决，在这一点上，部分解决方案被组合。形式上，给定一个任务输入x，我们定义一个“分支”提示promptbranch(x ),它可以用分支指令和一些演示(如果可用)包装在x周围。以提示为条件，LLM pθ生成一组k个子问题X = {x (1)，x(2)，，x(k)}，其中k称为分支因子。子问题是作为一系列记号自动回归生成的:X∞pθ(X | prompt branch(X))。重要的是，我们方法的灵活性来自于这样一个事实:对于一个给定的问题，LLM本身决定(生成)子问题和相应的分支因子。

求解模块。求解模块通过为分支任务输入x (i)生成输出y (i)来求解手头的任务。类似于分支提示，我们定义了一个“求解”提示promptsolve(x (i))，条件是LLM为每个分支生成一个解y(I)∞pθ(y(I)| prompt solve(x(I))。

合并模块。合并模块融合子问题的解决方案，以生成主问题的全局解决方案。这是通过一个“merge”提示promptmerge(Y)来完成的，该提示生成一个合并的解Y∞pθ(Y | promptmerge(Y))，以一组子解Y = {y (1)，y(2)，，y(k)}为条件。从概念上讲，合并模块学习一个聚合器函数，该函数可以聚合一组值(使用聚合运算符)或者融合文本片段，这取决于任务。接下来，我们用两个具有挑战性的NLP任务激励并进行BSM的案例研究:LLM评估和受限生成。

BSM:案例研究与LLM评估任务描述。我们考虑评估基于LLM的聊天助手的任务。形式上，给定一个开放式问题和来自两个LLM代理的一对回答，该任务要求产生一个偏好判断，即哪个回答更好或者它是否是平局(见图1)。评估LLM响应具有挑战性，原因有很多:

对任意问题的详细回答。为了提供一个通用的助手，用户可以从任何领域提出任意的问题，LLM可以给出长格式的回答(Zheng et al，2023)。基于初始模型响应，用户可以提出后续问题。根据问题的类型，评估过程必须考虑问题的意图、对理想回答的期望以及评估的标准。
LLM评估者容易产生偏见。基于LLM的评估者不可靠，并且容易产生不同的偏差，包括(a)位置偏差:评估根据响应的编码顺序而变化，(b)长度偏差:倾向于更长的响应，©自我增强偏差:LLM评估者倾向于自己的响应(郑等，2023)。
GPT-4作为评估器是昂贵的。虽然像4这样的基于API的模型是相当好的评估器(郑等人，2023)，但这些模型是专有的，并按生成的令牌向用户收费。目前的开源替代方案与人类的相关性较差，并且更容易受到上述偏见的影响。
手工设计评估计划是不可扩展的。一个强有力的评估者应该能够很好地概括，能够评估对任意问题的回答，因此，手动设计每个任务的评估计划是不可取的(刘等人，2023)。例如，参见图1，其中评估对“写作”问题的回答需要考虑诸如“相关性”、“清晰度”等因素，而如果问题是“编码”问题(参见附录中的图2)，则应该评估“代码正确性”、“代码可读性”等。

因此，考虑到这一评估任务的多面性，我们开发了一个BSM版本，如如下所述。在这项研究中，我们重点评估两个话轮的对话问题，尽管我们的方法通常适用于任何话轮数。让我们将第一个问题表示为q1，将后续问题表示为q2。假设来自两个LLMs A和B的响应对于q1是r (A) 1和r (B) 1，对于q2是r (A) 2和r (B) 2。LLM评估的分支模块。它生成一个评估计划，即一组评估标准，将根据这些标准来评估响应。

分支模块只以输入问题为条件，对于第一轮问题，定义为分支(q1)，而对于第二轮问题，它以第一轮和第二轮问题为条件，表示为分支(q1，q2)。输出是一组评估标准，branch(q) → {ci} k i=1，其中每个ci是标准的标题(例如，“相关性”)和如何对其进行评估的简短描述(例如，“评估响应与用户问题的吻合程度…和夏威夷必看的景点。).参见图1和图2，为不同的问题生成分支的例子。

LLM评估的求解模块。它根据特定的标准对响应进行比较和评估。评估的输出是每个回答的一对分数(在特定范围内，根据解答指令，例如1-5)。例如，给定一个评估标准c，我们将问题q的求解模块表示为:solve(q，r (A) 1，r (B) 1，c) → (s (A)，s (B))，其中s (A)和s(B)是分配给两个辅助回答的评估分数。请注意，solve模块是不对称的，即两个响应的编码顺序很重要(我们将在下面的LLM程序中解决这个问题)。该模块还会生成解释和分数。

图1示出了来自具有LLaMA-2-70B-chat模型的solve模块的示例。LLM评估的合并模块。我们开发了合并模块的两个变体。一个简单的非神经变量将所有分支的分数相加。我们还开发了一个神经LLM变体，它以单个评估为条件，并使用模型决定的聚合策略生成最终结论，表示为merge(q，{ci} k i=1，{s (A) i } k i=1，{s (B) i } k i=1) → y，其中评估标准{ci} k i=1是分支模块的输出，s (A) i和s (B) i是基于标准的评估(得分和解释)求解模块生成的两个辅助响应中的一个。最终判决结果是y ∈ {A，B，tie}。

LLM评估项目。算法1中给出了整个LLM程序的伪代码。考虑到位置偏差，程序通过交换“求解”模块中响应的编码顺序来执行两次独立的BSM。当且仅当两个订单的判断一致时，最终判断为“A”或“B ”,否则为“平局”。

BSM:性别任务描述受限案例研究。我们的下一个案例研究通过将BSM应用于一个完全不同的任务，LLM生成，展示了它的普遍适用性。我们考虑一个受约束的故事生成任务——给定一组概念l，任务是通过包含其中的所有概念来生成一个连贯的故事y(参见附录中的图3)。当概念的数量很大时，LLM倾向于忽略一些概念或者生成不连贯的文本。

这项任务需要包含各种约束的组合。约束生成的分支模块。分支模块branch(l) → (l1，l2，t)提出一个故事生成计划，由(1)概念l1和l2的两个子集和(2)故事主题t组成。这两个子集用较少的概念表示原始任务的子问题。故事主题确保作为BSM的一部分生成的所有子故事都属于同一个主题。

约束生成的求解模块。求解模块solve(li，t) → yi以概念li和故事主题t的子集为条件来生成关于该主题的故事yi，同时还包括li中的所有概念。直觉上，用较少的概念“解决”受约束的生成任务更容易。

用于约束生成的合并模块。合并模块合并两个中间故事上的(y1，y2) → y条件，并将它们融合在一起，以生成最终故事y。由于两个中间故事属于同一高级主题，因此融合可以导致最终连贯的故事。总的来说，BSM通过解决子问题来确保更好的约束满足，并通过包括故事主题的顶层计划来保持一致性。

实验

LLM评估

实验设置数据集。我们使用MT-Bench数据集进行实验，该数据集评估LLM在多回合对话中充当有用的人工智能助手时作为其他LLM响应的判断者(郑等人，2023)。它由8个不同领域的指令组成，如写作、推理、数学、编码等。评估指标。我们使用以下四个指标评估BSM(和基线)。

LLM-人类协议(Ag)。根据过去的工作(郑等，2023)，我们报告了LLM-人的协议∈ [0，1]分别为第一回合和第二回合的问题，以及他们的组合。
位置偏差(PB)。为了评估BSM是否有助于减少基于对数正态分布的评估者的一致性问题，我们报告了PB，它是根据回答的编码顺序判断发生变化的样本部分。
长度偏差(磅)。我们测量LB作为样本的一部分，其中人类喜欢较短的响应，而评估者模型不喜欢。换句话说，我们计算评估者选择较长回答的频率，而根据人类的偏好，它不应该选择较长回答。
自我增强偏见(SB)。SB指的是偏好其自己的回答的评估者模型。

孤立地评估这种偏差是具有挑战性的，因为知道模型何时因为这种偏差而不是因为其他原因选择自己的响应是一个可解释性问题。

然而，我们在这里感兴趣研究的问题是:当一个逻辑推理模型在评估自己的回答时(这是使用逻辑推理模型作为评估者时的一个常见现象)，BSM是否导致更好和更可靠的评估？我们通过考虑以下设置来衡量这一点。我们使用GPT-4作为基本判断模型，并考虑来自MT-Bench基准的样本子集，其中一个响应也是由GPT-4生成的。如果BSM和GPT-4提高了人类对这部分样本的认同，这表明即使在模型A判断自己输出的情况下，BSM(和模型A一起)也能产生更好的评估者。虽然这不一定计算评估者是否具有较少的SB，但它确实验证了评估者模型是否与人类更好地相关，即使当它评估自己的回答时。

虽然过去的许多工作都强调了这些偏见的重要性(郑等，2023；Wu和Aji，2023)，我们在同一个评估框架内用具体指标对所有这些指标进行了衡量。从概念上讲，“Ag”评估正确性，而“PB”评估基于LLM的评估器的一致性。这些是互补的方面，一个理想的评估者应该在所有指标上都表现良好，才能可靠地使用它。实施细节。我们在不同规模和能力的多种LLM之上开发BSM:美洲驼-2-7B-chat、骆马-33B、美洲驼-270B-chat和GPT-4。我们零触发实现所有模块，只提供特定于模块的指令，并假设无法访问如何分支、求解或合并的演示。

基线。我们将我们的方法与

具有相同LLM的零触发提示的两个变体进行比较:直接生成偏好判断的相对评估器和为两个响应生成两个分数然后基于较高分数确定最终偏好的绝对评估器，
计划和求解提示(Wang等人，2023a)，其计划(即生成评估标准)但不是独立求解它们，而是在一个LLM调用中一起求解所有分支，
自洽性(Wang等人， 2022)，它从提示的LLM(温度为0.7)中采样多个评价，并选择多数投票作为最终判断。

为了公平比较，自我一致性抽样的世代数与BSM的分支因子相同。我们还注意到，自洽是BSM的一个简单特例，其中分支模块产生同一底层问题的多个实例(而不是子问题)，通过采样不同的解决方案来解决它们，合并操作符是多数投票。有关数据集、实施和基线的更多详细信息，请参考附录A。

在这里插入图片描述
表1:在MT-Bench数据集的“写作”问题上，零射击LLM评估者(相对和绝对)、计划和求解、自洽性和BSM的比较。所有方法都使用LLaMA-2-70B-chat作为基础LLM。我们分别报告了第一轮和第二轮问题的LLM-Human一致性(Ag)、位置偏差(PB)和长度偏差(LB)。BSM提高了一致性分数，减少了位置和长度偏差。

主要结果BSM提高了LLM-human的一致性并减少了偏差。表1评估了使用LLaMA-2-70B-chat作为基本LLM的BSM的功效，特别关注MT-Bench基准测试中的“写作”类问题。我们将主要发现报告如下。总体一致。我们发现，与所有基线相比，BSM提高了第一轮和第二轮问题的LLM-human一致性。特别是比Plan&Solve获得了高达12%的绝对改进，这具体显示了分支到独立子问题并解决它们的效用。BSM也胜过自我一致性。如前所述，自洽是BSM的特例。这一结果值得注意，因为两种方法在生成多个解决方案时利用了相似的计算量，但分支和解决不同的子问题比多次解决同一问题提供了更好的结果。

在这里插入图片描述
表2: BSM导致更少的自我增强偏差。对于其中一个响应也是由GPT-4产生的样本部分，BSM获得了更好的一致性。

第一轮与第二轮问题。评估第2轮问题更难，因为它需要对第1轮问题的回答进行额外的语境化。这也反映在所有基线方法(除了计划和解决方案)中，表现出较低的第二回合一致性分数(例如，零射击结果从第一回合的0.53下降到第二回合的0.34)。BSM表明，生成评估计划的分解方法特别有助于评估长上下文问题，导致第二回合问题的更多改进(例如，高达16%的改进)。图2显示了一个示例，其中对于第2轮问题，模型生成“遵守说明”作为评估的第一标准。

在这里插入图片描述
表3:不同基础LLM评估者在“写作”问题上的零射击评估和BSM的比较。BSM提高了所有模型的一致性，降低了除GPT协议第四版之外的所有模型的偏差。

减少位置和长度偏差。除了提高LLM-human的一致性，BSM还有助于减少基于LLM的评估者的关键偏差(例如，PB减少高达34%)。这是BSM任务分解的直接结果，有助于减少评估中的不一致性。BSM的LB减少可归因于以下几点:当评估者分支到不同的标准时，如果“长度”确实是评估响应的标准之一，则它只算作整体评估的单个分支(即一个子问题),因此，分支允许模型明确评估其他标准，而不仅仅是长度。

自我增强偏置降低。表2通过比较样品的BSM(与零炮GPT-4)，评估自增强偏差，其中一个响应也由GPT-4产生。我们观察到与人类有3%更好的相关性，这表明即使当LLM判断自己的输出时，BSM也改进了评估。BSM不仅提高了整体LLM与人的一致性(根据“Ag”指标)，还提高了由同一评估者LLM产生一个响应的样本比例(根据“SB”指标)，从而表明其作为评估方法的稳健性。总之，BSM提高了基于LLM的评估者的正确性和一致性。

BSM改进了所有的零发基础远射。我们通过在四个不同的基础上实现BSM作为一个LLM项目来证明它的可推广性从美洲驼-2-7B到GPT-4，各种不同的基地运载火箭。如表3所示，与零发射基线相比，BSM提高了所有基础LLM与人类的一致性。即使零炮GPT-4是最先进的基于LLM的评估器，应用BSM获得了3%的进一步改善。此外，将BSM应用于美洲驼-2-70b使其在第一回合问题上与GPT-4具有竞争力。除了GPT-4，BSM还显著降低了所有模型的位置和长度偏差。

在这里插入图片描述
表4:对MT-Bench的“编码”、“推理”和“数学”问题类别的基于参考的LLM评估。BSM改进了基于参考的评估，在数学方面，胜过GPT-4。

BSM推广到基于参考的评估。我们发现，BSM在基于参考的复杂任务评估方面也表现出色，如数学、推理和编码(Cobbe等人，2021；魏等，2022)。根据过去的工作(郑等，2023)，我们通过首先使用4生成答案，然后将其附加到评估提示，这是我们在本实验中的基线，来评估这些类别的响应。对BSM来说，我们遵循类似的方法，根据GPT-4生成的答案调整“求解”模块。这里的关键假设是，这些答案是一次策划的，与开放式问题的答案不同，它们的变化有限。表4显示，BSM在所有类别中显著优于零射击基线(在编码问题中，一致性分数提高了14%，位置偏差提高了27%)。

在这里插入图片描述
表5:对MT-Bench的“角色扮演”、“提取”、“题干”和“人文”问题类别的LLM评估。我们将美洲驼-2-70B-chat BSM与基线零射击方法进行了比较，并报告了GPT-4的结果。BSM在美洲驼基线上取得了显著进步，在四个领域中的三个领域达到或接近GPT-4协议，有时在减少偏差方面优于GPT-4。

在数学方面，它甚至超过了最先进的GPT-4评估器，在所有指标上都超过了它。BSM在更广的领域进行推广。表5显示，BSM能够评估其他类别的问题，如“角色扮演”、“提取”、“题干”和“人文学科”，并得出类似的结果。详见附录A.2。

BSM分支的可伸缩性。BSM的核心优势之一是它的可扩展性——它对所有评估领域(例如，写作、代码、推理等)使用相同的分支提示(如图4所示)。提示只指定了给定任务的分支的含义，LLM能够为不同的域生成自己的分支，而无需任何人工干预。我们观察到编码题和写作题的分支名称几乎没有重叠。例如，最常见的“写作分支”是清晰性、相关性、创造性、准确性、参与性、连贯性、独创性、完整性、语法和可读性等，而最常见的“编码分支”是效率、完整性、准确性、正确性、代码可读性、用户体验、时间效率。从分支的名称来看，属于同一领域的问题的分支显示出更多的重叠。例如，‘正确性’是为评估几乎所有编码问题而产生的一个分支；然而，它们的描述是不同的，并且是特定于问题的(参见图2中的示例)。

约束文本生成

实验设置数据集。我们的受限故事生成任务是生成性常识推理任务CommonGen(林等，2020)的一个更具挑战性的变体。虽然原始任务需要从3或4个概念中生成一个连贯的句子，但我们通过让模型生成一个由10个概念组成的简明故事来增加任务的复杂性(Madaan等人，2023年)。为了这项研究，我们对100个样本进行了实验。

评估指标。我们沿着两个轴评估生成的故事:约束满足度和整体故事质量。对于约束满足度，我们报告两个度量:(a)全部存在(AP):满足所有约束的样本部分，即没有遗漏概念，和(b)遗漏概念(MC):遗漏概念的平均百分比。较高的“全部存在”和较低的“缺失概念”更可取。如果一个概念没有以任何单词的形式出现在故事中，我们认为它是缺失的。为了评估整个故事的质量，我们用GPT-4进行了成对的评估。

图7中提供了评估提示。为了解释这种成对比较中的位置偏差，我们根据LLM评估任务的发现，通过交换故事的顺序，并且只有在评估一致的情况下才选择一个故事，来进行两次评估。实施细节。我们使用美洲驼-2-7B-chat和美洲驼-2-70B-chat评估BSM。所有模块都使用贪婪解码生成文本。对于分支模块，提示LLM将概念分成两组。

基线。我们将BSM比作

具有相同LLM的零触发提示:给定一组概念，直接生成故事，
计划和解决提示，首先提出一个故事主题(作为计划),然后在此基础上生成一个故事主题，
自洽性，我们首先对多个故事进行抽样，然后再次提示LLM从抽样的故事中选择一个满足更多约束的故事。

结果和分析约束满足。我们的主要结果在表6中给出。他们表明，在我们的约束满足度量上，两种模型变体的BSM都优于所有基线。我们还注意到，即使对于更强的LLaMA-2-70B-chat模型，这仍然是一项具有挑战性的任务，并且模型的规模对约束满足度几乎没有影响。例如，即使是使用LLaMA-2-70B-chat的BSM，也有72%的样本忽略了至少一个概念，这与先前工作的发现相呼应，即即使对于最先进的LLM，受约束的文本生成也很困难(Yao等人，2023a)。我们在附录b中提供了对BSM缺失概念的分析

整体故事质量。BSM不仅满足了更多的约束条件，而且几乎总能产生一个更连贯的故事。我们发现，在与零镜头提示基线(使用LLaMA-2-70B-chat)的面对面比较中，BSM生成的故事在相当大的93%的时间里被GPT-4优先选择。这可以归功于BSM的两个方面。首先，在每一个分支中，模型以较少数量的概念为条件，从而生成中间故事，这些故事本身更加连贯。第二，在合并步骤中，模型能够以这两个中间故事为条件，生成进一步提高连贯性的最终故事。

结论

我们提出了BSM，一个提高LLM评估和生成的LLM计划。我们用分支、求解和合并模块的不同实现进行了两个案例研究，展示了BSM的有效性和可推广性。

局限性

我们在下面列出了我们工作的局限性。

对LLM世代的安全性、毒性和偏倚进行评估对于LLM的整体评估也是至关重要的，然而，我们在本文中不涉及这一主题。
虽然BSM在长度偏差方面取得了进步，但我们注意到，孤立地测量长度偏差具有挑战性，因为知道模型是否因为其长度(而不是其他原因)而偏好较长的响应是一个可解释性问题，而人类也倾向于偏好较长的响应，特别是对于开放式问题。
递归或多级BSM，其中LLM递归分支为并行子任务，是未来工作的一个有趣途径，但由于计算成本增加，我们在本工作中不探索这一点。
分解成并行子任务也应该有助于提高效率(例如，与顺序分解相比)(宁等人，2023)，但在这项工作中，我们反而侧重于提高任务性能。

在这里插入图片描述
表7:“推理”问题的无参考评估结果。BSM在评估“推理”问题方面优于零射击基线，即使没有使用参考答案(在100个样本的随机子集上)。

附录

附加实验:LLM评估A.1实验设置数据集。我们使用MT-Bench数据集进行实验，该数据集评估LLM在多回合对话中充当有用的人工智能助手时作为其他LLM响应的判断者(郑等人，2023)。它包括2400个LLM回答和3000个专家判断。LLM输出是对来自8个不同领域的80个代表性指令的响应:写作、角色扮演、提取、推理、数学、编码、知识I (STEM)和知识II(人文/社会科学)。每个问题都是会话式问题，由两个回合组成，其中第二回合问题是第一回合问题的后续。对于每个问题，数据集由来自6个不同LLM(羊驼-13b、骆马-13B、美洲驼-13B、Claudev1、GPT-3.5-turbo和GPT-4)的响应组成，产生15个可能的响应对。因此，整个评估集由每个类别的300个响应对样本组成。

实施细节。算法1展示了LLM程序。为了更好的再现性，BSM的所有模块都使用贪婪解码来生成文本。

对于分支模块，LLM被提示生成一个最多包含五个评估标准的计划(我们在实验中发现它遵守了这些标准)。对于合并模块，我们发现非神经合并的总结标准评估是简单的，并在实践中很好地工作，因此我们所有的实验结果都报告了该方法。提示如图4和图5所示。所有的实验都是在8个A100 GPUs的AWS集群上运行的。

基线。包括BSM在内的所有方法都以相同的方式考虑位置偏差，为两种编码顺序生成判断，并根据各自的判断选择最终的判断(如果两种编码顺序不一致，则指定平局)。

特别是，自洽独立地为每个编码顺序计算多数票。

A.2结果和分析BSM在各个领域都表现良好。在表5中，我们评估了BSM在“角色扮演”、“提取”、“题干”和“人文”类别中评估世代问题的能力。我们发现BSM是健壮的，并且在跨域方面比LLaMa2-70B-chat基线有很好的改进，并且在几个域上接近GPT-4的性能。特别是，在Stem领域，它能够将一致性分数提高26%(绝对值)，与GPT新协议相当，甚至在位置和长度偏差方面超过它。表7显示，BSM在“推理”问题上优于零起点基线，甚至在无参考评估中也是如此(即GPT-4生成的答案在基线或BSM中均未使用)。

组合BSM和SC进一步减少了位置偏差。BSM为每个子问题(每个分支)生成一个单一的解决方案。一种可能的增强是将BSM与自洽相结合，即针对每个子问题采样多个解决方案。

特别是，我们通过对每个分支(温度为0.7)的五个评估进行抽样来实施BSM+SC，然后该分支中每个子评估的分数由平均分数给出。我们在表8中比较了BSM和BSM+SC。虽然一致性分数没有进一步提高，但我们观察到2%位置偏差减少。这指向两个结论。首先，BSM通过其分解方法，已经构建了足够粒度的子问题，因此，通过每个子问题内的自洽性获得的方差减少是有限的。然而，立场偏差的适度减少仍然反映了它的有用性，这是使评价更加一致的直接效果。

分支因子的影响。BSM的优势在于依赖底层LLM来决定分支到什么子问题，而提示控制最大分支因子(参见图4分支提示中的短语“最多五个因子的列表”)。我们将这个最大分支因子从2变到5，并研究它对来自“写作”类问题的100个样本的影响。

表10报告了我们的发现。我们在分支因子为4时观察到最高的一致性，之后结果大部分饱和。一般而言，最佳分支因子应取决于所考虑的具体问题，而不是像过去的工作那样，由用户指定要评估的因子(刘等人，2023；郑等，2023)，自行生成该计划。随着分支因子的增加，位置偏差继续减少，其中更多的分支有助于减少最终判断的方差。

BSM对评价量表稳健。一般来说，评估任务需要定义一个对回答进行评分的尺度。在表11中，我们通过改变“求解”提示(见图5)中指定的评估尺度来比较BSM的性能，评分为1-5(在主要实验中使用)或1-10。我们观察到，BSM是相当稳健的这种变化，获得可比的一致分数。

然而，位置偏差随着尺度的增大而略微增加。

在这里插入图片描述
表8:在分支-求解-合并(BSM+SC)的每个分支中使用自洽性的效果。结果与美洲驼-2-70B-chat模型。虽然总体一致性分数没有进一步提高，但我们的位置偏差进一步降低了2%。

附加实验:BSM缺失概念的受限文本生成分析。BSM中缺失概念的来源可归因于以下两类中的一类:(a)“求解”模块，即，即使当在具有较少数量概念的分支子问题中生成中间故事时，该模型也忽略概念；或者(b)“合并”模块，即中间故事包括它们各自的概念，但是融合过程省略了其中的一些。我们观察到，在72%的BSM故事(包括LLaMA-2-70B-chat)中，至少有一个概念缺失，其中60%属于第一类(即“求解”模块中的概念缺失)，而只有12%属于第二类(即“合并”过程中的概念缺失)。

在这里插入图片描述
表9:“写作”类问题的LLM-人类一致性得分(第一轮和第二轮的整体和单独得分)。这里，使用多数投票来计算一致性(而不是独立地对待每个样本的每个人类投票)。