当前位置：首页 > news >正文

ChatGLM：从GLM-130B到GLM-4全系列大语言模型

news 来源：原创 2025/8/10 2:21:57

摘要

我们介绍了ChatGLM，这是一个不断进化的大语言模型系列，我们一直在持续开发中。本报告主要聚焦于GLM-4语言系列，包括GLM-4、GLM-4-Air和GLM-4-9B。它们代表了我们从ChatGLM前三代中汲取的所有见解和经验教训所训练出的最强大模型。迄今为止，GLM-4模型已在以中文和英文为主的数万亿个token以及24种语言的小规模语料库上进行了预训练，并主要针对中文和英文使用场景进行了对齐。高质量的对齐通过多阶段的后训练过程实现，包括监督微调和人类反馈学习。评估显示，GLM-4在以下方面表现优异：1）在MMLU、GSM8K、MATH、BBH、GPQA和HumanEval等通用指标上，与GPT-4不相上下甚至超越；2）在指令遵循方面，通过IFEval衡量，接近GPT-4-Turbo；3）在长上下文任务中，与GPT-4 Turbo（128K）和Claude 3相当；4）在中文对齐方面，通过AlignBench衡量，优于GPT-4。GLM-4全工具模型进一步对齐，能够理解用户意图并自主决定何时使用何种工具（包括网络浏览器、Python解释器、文本到图像模型和用户定义函数），以有效完成复杂任务。在实际应用中，它在通过网页浏览访问在线信息和使用Python解释器解决数学问题等任务上，与GPT-4全工具模型相当甚至超越。在此过程中，我们开源了一系列模型，包括ChatGLM-6B（三代）、GLM-4-9B（128K、1M）、GLM-4V-9B、WebGLM和CodeGeeX，仅在2023年就在Hugging Face上吸引了超过1000万次下载。

在这里插入图片描述

开源模型可通过https://github.com/THUDM和https://huggingface.co/THUDM访问。本报告主要关注语言模型，即ChatGLM。API公开于https://bigmodel.cn，开源模型可通过https://github.com/THUDM访问。

1 引言

ChatGPT的表现令人瞩目，其能力最初由2022年11月的GPT-3.5模型驱动，随后在2023年3月升级至GPT-4。根据OpenAI的说法，GPT-3.5系列通过引入指令调优、监督微调（SFT）和/或人类反馈强化学习（RLHF）改进了GPT-3。2020年发布的原始GPT-3[3]标志着从GPT-1的1.17亿参数和GPT-2的15亿参数显著扩展到了1750亿参数。这一扩展使GPT-3具备了上下文学习和泛化能力，推动了大型语言模型（LLMs）的兴起。

受GPT-3的启发，我们提出了通用语言模型（GLM）架构[11]，其特点是自回归空白填充目标，并于2021年开源了GLM-10B模型（见图1中的GLM时间线）。从2021年底开始，我们开始预训练GLM-130B，目标是训练一个1000亿规模的模型以匹配或超越GPT-3（davinci），同时验证成功训练这种规模模型的技术，以及其他努力如OPT-175B[55]和BLOOM-176B。我们在7月完成了4000亿token的训练和评估，随后于2022年8月发布了模型和预训练细节。根据2022年11月的HELM评估，GLM-130B在各个维度上与GPT-3（davinci）相当。

此后，我们开始对GLM-130B进行指令调优。后来，ChatGPT进一步激励我们通过SFT和RLHF对齐基础模型。我们从零开始创建并精心制作了提示-响应对，并进行了SFT，同时开始研究如何有效应用RLHF。2023年3月14日，对齐后的模型ChatGLM-130B在https://chatglm.cn上线。此外，一个较小的版本ChatGLM-6B也在同一天开源，吸引了比预期更多的关注。它被设计为拥有62亿参数，

在这里插入图片描述

目的是1）促进预训练和后训练技术以及数据选择的快速迭代，2）使用INT4量化在消费级显卡上实现本地部署。从那时起，我们一直在快速探索和完善预训练和对齐技术，每隔三个月推出第二代和第三代ChatGLM系列，这两代都是从头开始预训练的。

ChatGLM-6B 在大约 1 万亿个中英文语料库的 token 上进行了预训练，上下文长度为 2048（2K），并主要通过监督微调（SFT）进行补充。6 月发布的 ChatGLM2-6B 使用了更多、更好的数据进行预训练和对齐，相比前代模型有了显著提升，包括在 MMLU 上提升了 23%，在 GSM8K 上提升了 571%，在 BBH 上提升了 60%。通过采用 FlashAttention 技术 [8]，其上下文长度扩展到了 32K。此外，多查询注意力机制（Multi-Query Attention）的集成使推理速度提高了 42%。更进一步，我们的第二代代码模型 CodeGeeX2-6B 通过在额外的 6000 亿代码 token 上进行预训练而开发。它在 HumanEval-X 测试中相比初代模型 CodeGeeX-13B [58] 实现了显著提升，Python 提升了 57%，C++ 提升了 71%，Java 提升了 54%，JavaScript 提升了 83%，Go 提升了 56%。通过进一步实现更多样化的训练数据集、更充分的训练步骤和更优化的训练策略，ChatGLM3-6B 在语义、数学、推理、代码和知识等 42 个基准测试中名列前茅。从这一代开始，ChatGLM 还支持函数调用和代码解释器，以及复杂的智能体任务。在这些开发过程中，我们还开发了具有 1.5B、3B、12B、32B、66B 和 130B 参数的模型，使我们能够验证观察结果并建立自己的扩展规律。

基于所有积累的经验和教训，我们启动了 GLM-4 的训练。第一个截止检查点随后经历了多阶段的后训练过程（例如 SFT、RLHF 安全对齐），目前主要针对中文和英文。随后，它被开发为两个不同的版本：GLM-4 和 GLM-4 全工具，两者均支持 128K 的上下文长度。自 2024 年 1 月 16 日起，GLM-4 (0116) 已通过 GLM-4 API 在 https://bigmodel.cn 上提供，而 GLM-4 全工具可通过网站 https://chatglm.cn 和支持创建自定义智能体 GLM 的移动应用程序访问。最新的模型是 GLM-4 (0520) 和 GLM-4-Air (0605)，它们在预训练和对齐方面均进行了升级。GLM-4-Air 在延迟和推理成本更低的情况下，实现了与 GLM-4 (0116) 相当的性能。GLM-4 的评估在多种语言基准测试中进行。这些评估涵盖了 GLM-4 在英语中的通用能力、中英文指令遵循能力，以及中文的对齐、长上下文和智能体能力。

首先，在最常用的英语学术基准测试 MMLU、GSM8K、MATH、BBH、GPQA 和 HumanEval 上，GLM-4 (0520) 的表现与 GPT-4 (0613) 和 Gemini 1.5 Pro [40] 非常接近。例如，在 MMLU 上，它的得分为 83.3，而 GPT-4 和 Gemini 1.5 Pro 分别为 86.4 和 83.7，
在这里插入图片描述

其次，根据 IFEval的评估，GLM-4 在提示和指令层面的指令遵循能力在英文和中文中均与 GPT-4-Turbo 相当。第三，在中文语言对齐方面，GLM-4 在 AlignBench 的八个维度上优于 GPT-4，并与 GPT-4-Turbo 持平。最后，在长上下文任务中，GLM-4 (128K) 模型在 LongBench-Chat 测试中的表现与 GPT-4 Turbo 和 Claude 3 Opus 相当，分别为 87.3、87.2 和 87.7。

GLM-4 全工具模型经过专门对齐，能够更好地理解用户意图并自主选择最合适的工具来完成任务。例如，它可以通过网络浏览器以多轮方式访问在线信息，使用 Python 解释器解决数学问题，利用文本到图像模型生成图像，并调用用户自定义函数。图 2 展示了一个示例，GLM-4 全工具模型结合网络浏览器和 Python 解释器，用于解决用户查询“搜索 2000 年至 2023 年全球人口，然后计算年均增长率”。我们的实际测试表明，它在常见任务中不仅与 GPT-4 全工具模型相当，甚至常常超越其能力。

继我们开源的三代 ChatGLM-6B 模型之后，我们还开源了 GLM-4-9B（128K 和 1M 上下文长度）模型。GLM-4-9B 在大约 10 万亿个多语言语料库的 token 上进行了预训练，上下文长度为 8192（8K），并使用与 GLM-4 (0520) 相同的训练流程和数据进行了后训练。在较少的训练计算量下，它的表现优于 Llama-3-8B，并支持 GLM-4 中全工具模型的所有功能。我们还提供了一个实验模型 GLM-4-9B-Chat-1M，其上下文长度达到 100 万（1M）（约 200 万中文字符）。表 1 展示了两代 ChatGLM-6B 模型和 GLM-4-9B 的表现，展示了 ChatGLM 随时间的逐步改进。

图 3 总结了从 GLM-130B 到 GLM-4 全工具模型的主要改进和特性。在这一过程中，我们还为代码大语言模型（CodeGeeX）以及用于图像理解的视觉语言模型（CogVLM和 CogAgent ）和文本到图像生成模型（CogView）的开源开发做出了贡献。开源模型和数据可通过 https://github.com/THUDM 和 https://huggingface.co/THUDM 访问。

在这里插入图片描述

2 ChatGLM 技术

在本节中，我们介绍了在 ChatGLM 中采用和开发的预训练和后训练技术，包括模型架构、预训练数据、对齐以及全工具功能。我们已发布详细的技术报告，介绍了我们为实现 GLM-4 所使用的主要技术。

预训练数据
我们的预训练语料库由来自不同来源的多语言（主要是英文和中文）文档组成，包括网页、维基百科、书籍、代码和论文。数据处理流程主要包括三个阶段：去重、过滤和分词。去重阶段通过删除重复或相似的文档来提高数据多样性，包括精确去重和模糊去重。过滤阶段通过删除包含攻击性语言、占位符文本、源代码等的噪声文档来提高数据质量。分词阶段将文本转换为 token 序列以便进一步处理。预训练数据中的 token 数量直接影响模型训练速度。为了优化这一点，我们采用字节级字节对编码（BPE）算法 [33] 分别学习中文和多语言 token，并将其与 tiktoken [26] 中的 cl100k_base 分词器合并为一个统一的词汇表，词汇表大小为 150,000。在最终训练集中，我们对不同来源的数据进行重新加权，以增加高质量和教育性来源（如书籍和维基百科）的比例。最终，预训练语料库包含约 10 万亿个 token。

在 ChatGLM 的四代开发过程中，我们的发现与现有研究 [60] 一致：数据质量和多样性对于构建有效的大型语言模型至关重要。尽管我们积累了许多经验教训和见解，但迄今为止，我们尚未找到一个能够指导数据收集、清理和选择过程的基本原则。

架构
GLM 系列大型语言模型基于 Transformer [43] 构建。在 GLM-130B [54] 中，我们探索了多种选项以稳定其预训练，同时考虑到当时面临的硬件限制。具体来说，GLM-130B 采用 DeepNorm [44] 作为层归一化策略，并使用旋转位置编码（RoPE）[38] 以及带有 GeLU [15] 激活函数的门控线性单元 [35] 作为 FFN 的组成部分。在我们的探索过程中，我们研究了不同的策略以提高模型性能和推理效率。最新的 GLM-4 模型采用了以下架构设计选择：

除 QKV 外无偏置：为了提高训练速度，我们移除了所有偏置项，仅保留注意力层中 Query、Key 和 Value（QKV）的偏置。在此过程中，我们观察到长度外推能力略有提升。
RMSNorm 和 SwiGLU：我们采用 RMSNorm 和 SwiGLU 分别替代 LayerNorm 和 ReLU。这两种策略被观察到能够提升模型性能。
旋转位置编码（RoPE）：我们将 RoPE 扩展为二维形式，以适应 GLM 中的二维位置编码。
分组查询注意力（GQA）：我们用分组查询注意力（GQA）替代多头注意力（MHA），以减少推理过程中的 KV 缓存大小。由于 GQA 使用的参数比 MHA 少，我们增加了 FFN 的参数数量以保持相同的模型规模，即将 d_{\mathrm{ffn}} 设置为隐藏层大小的 10/3。

我们的模型的上下文长度从 2K（ChatGLM）扩展到 32K（ChatGLM2 和 ChatGLM3），再到 128K 和 1M（GLM-4）。这一扩展不仅通过上下文扩展——位置编码扩展 [30; 5] 和长文本的持续训练 [47]——实现，还通过长上下文对齐使 GLM-4 能够有效处理长上下文（技术细节参见 [1]）。

对齐
预训练为大型语言模型奠定了基础，而后训练 [28] 则进一步优化这些模型以符合人类偏好，例如理解人类意图、遵循指令和促进多轮对话。对于 GLM-4，对齐主要通过监督微调（SFT）和人类反馈强化学习（RLHF）[17] 实现。在 SFT 中，我们发现真实的人类提示和交互（而非基于模板或模型生成的响应）对对齐质量至关重要。虽然 SFT 在很大程度上使基础模型与人类偏好对齐，但 RLHF 可以进一步帮助缓解响应拒绝、安全性、双语 token 混合生成以及多轮对话连贯性等问题。

对于第一代模型（ChatGLM-6B 和 ChatGLM-130B），提示-响应对主要由模型开发者标注。对于后续模型，对齐数据是内部标注数据和从第三方获取的专有数据的结合，并经过相对严格的质量控制措施。与现有实践 [42] 类似，标注者被指示从多个维度对模型响应进行评分，包括安全性、事实性、相关性、帮助性和人类偏好。

ChatGLM 技术
在 ChatGLM 的开发过程中，我们引入并将发布用于提升其性能的技术：

大型语言模型的涌现能力 [12]：我们研究了预训练损失与下游任务性能之间的关系，发现相同的预训练损失下，不同模型规模和训练 token 数量的大型语言模型生成相同的下游性能。我们还发现，在某些任务（如 MMLU 和 GSM8K）中，只有当预训练损失低于某个阈值时，性能才会超过随机水平。因此，我们将涌现能力重新定义为预训练损失较低的模型所表现出的能力 [12]。
LongAlign [1]：为了扩展大型语言模型的上下文窗口大小，我们提出了 LongAlign，一种用于长上下文对齐的综合方案。它使 GLM-4 能够处理长上下文文本（最多 128K token），性能与 Claude 2 和 GPT-4 Turbo (1106) 相当。
ChatGLM-Math [48]：为了提高大型语言模型解决数学问题的能力，我们引入了 ChatGLM-Math，它利用自我批评而非外部模型或人工标注进行数据选择。
ChatGLM-RLHF [17]：为了将大型语言模型与人类反馈对齐，我们引入了 ChatGLM-RLHF，将 PPO 和 DPO 应用于大型语言模型的实践。
Self-Contrast [22]：为了避免昂贵的人类偏好反馈数据需求，我们开发了一种无反馈的对齐策略 Self-Contrast。它利用目标大型语言模型自身生成大量负样本用于其 RLHF 对齐。
AgentTuning [53]：为了提高大型语言模型的智能体能力，我们开发了 AgentTuning 框架，其中包含 AgentInstruct 指令调优数据集，该数据集包括智能体与环境之间的高质量交互轨迹。
APAR [20]：为了提高大型语言模型对具有层次结构响应的推理速度，我们提出了一种自动并行自回归（APAR）生成方法。它利用指令调优训练大型语言模型规划其（并行）生成过程并执行 APAR 生成。
基准测试：我们还开发了多个开源大型语言模型基准测试，包括用于评估大型语言模型作为智能体的 AgentBench [23]、用于评估大型语言模型长上下文处理性能的 LongBench [2]、用于衡量 ChatGLM 与中文内容对齐质量的 AlignBench [1]、用于评估除 Python 外其他编程语言的 HumanEval [4] 问题的 HumanEval-X [58]，以及用于衡量模型解决实际编程任务能力的 NaturalCodeBench (NCB)。

GLM-4 全工具
最新的 ChatGLM 模型是 GLM-4 和 GLM-4 全工具，两者均使用上述技术进行训练和对齐。GLM-4 全工具是一个进一步对齐以支持智能体及相关任务的模型版本。它能够自主理解用户意图，规划复杂指令，并调用一个或多个工具（例如网络浏览器、Python 解释器和文本到图像模型）以完成复杂任务。图 4 展示了 GLM-4 全工具系统的整体流程。

在这里插入图片描述

当用户发出复杂请求时，模型会分析任务并逐步规划解决过程。如果确定无法独立完成任务，它将依次调用一个或多个外部工具，利用其中间反馈和结果来帮助解决任务。

基于 GLM-4 的全工具能力，我们还开发了 GLMs 应用平台，允许用户创建和定制自己的智能体以完成特定任务。GLMs 不仅支持嵌入式 Python 解释器、网络浏览器、文本到图像模型，还支持用户定义的函数、API 和外部知识库，以更有效地满足用户需求。

3 GLM-4 能力

我们从多个角度评估 GLM-4 模型的能力，包括学术基准测试的基础能力、代码问题解决能力、英文环境中的智能体能力，以及中英文的指令遵循、长上下文处理能力，还有中文对齐能力。如前所述，GLM-4 主要在中文和英文上进行预训练，并主要针对中文进行对齐。在本节中，我们主要报告最新 GLM-4 版本（即 GLM-4 (0520) 和 GLM-4-Air (0605)）的结果，因为 GLM-4 (0520) 在评估的基准测试中略优于其原始版本 (0116)。在评估过程中，GLM-4 和 GLM-4-Air 均以 BFloat16 精度部署。作为基线，我们展示了 GPT-4 (0603)、GPT-4 Turbo (1106, 2024-04-09)、Claude 2、Claude 3 Opus 和 Gemini 1.5 Pro 的结果，这些结果均从相应的技术报告中提取或通过其公共 API 测试获得。

总体而言，GLM-4 在标准基准测试、指令遵循、长上下文处理、代码问题解决以及英文环境中的智能体能力方面接近最先进的模型（如 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus）。在中文对齐方面，GLM-4 在基础语言能力、高级中文理解、专业知识和开放式问题等多个领域表现出色，优于或与最先进的模型相当。总的来说，GLM-4 在中文任务中表现优异。尽管在中文数学和逻辑推理能力上略逊于 GPT-4 Turbo，但与 GPT-4 和 Claude 3 Opus 相当。

3.1 学术基准测试评估

为了评估基础模型的通用性能，我们选择了六个常用的基准测试，涵盖知识、数学、推理、常识和编程等领域：

MMLU [14]：从各种考试中收集的多项选择题，包括数学、历史、计算机科学等。我们将所有答案呈现给模型，并要求其选择正确答案的字母。
GSM8K [7]：8,500 个小学数学应用题（测试集包含 1,000 个），要求模型使用数学概念解决现实生活中的情境问题。我们使用链式思维提示（chain-of-thought prompting）[46] 进行测试。
MATH：12,500 个具有挑战性的竞赛级数学问题（测试集包含 5,000 个）。我们使用链式思维提示 [46] 进行测试。
BBH [39]：包含 23 个具有挑战性的 BIG-Bench [37] 任务。我们使用链式思维提示 [46] 进行测试。
GPQA [31]：一个研究生级别的生物学、化学和物理多项选择题基准测试。
HumanEval [4]：一个编程基准测试，通过自动测试用例检查来衡量合成函数的正确性。

我们将 GLM-4 的性能与原始 GPT-4 [27] 进行比较。结果如表 2 所示。我们可以观察到，GLM-4 在 MMLU 上的准确率达到 GPT-4 的 96.3%，并在其他基准测试中优于 GPT-4。总体而言，GLM-4 的基础能力接近 GPT-4-Turbo 和 Claude 3 Opus。

在这里插入图片描述

3.2 指令遵循能力评估

我们使用最近推出的 IFEval 数据集 [61] 评估 GLM-4 在遵循指令方面的能力。该数据集包含 541 个提示，这些提示源自 25 个不同的指令，这些指令可以通过明确的标准进行验证（例如，“在邮件结尾加上：PS. 我确实喜欢蛋糕”可以通过字符串匹配验证）。我们遵循 [61] 中概述的方法，计算严格模式和宽松模式下的提示级和指令级准确率。为了进一步评估模型在中文指令遵循方面的表现，我们将原始提示翻译成中文，省略了不适用于中文的指令（例如大小写规则），并调整评分脚本以适应中文数据。
在这里插入图片描述

表 3 中的英文和中文部分分别展示了模型在英文和中文上的表现。在宽松模式下，GLM-4 在英文和中文上的指令级准确率与 GPT-4 Turbo 相当。在严格模式下，GLM-4 在英文和中文上的指令级准确率分别达到 GPT-4 Turbo（2024-04-09）的 99.0% 和 98.6%。

3.3 对齐能力评估

AlignBench [21] 提供了一种自动化的“LLMs-as-Judge”方法，用于评估大型语言模型在中文语境下的对齐能力。它包含 683 个查询，涵盖 8 个不同类别，并使用基于 GPT-4 的多维规则校准的逐点参考评分方法对模型响应进行评判。我们在 AlignBench-v1.1 上进行评估，该版本进一步优化了参考生成质量，特别是通过为需要知识的查询（占总查询的 66.5%）补充从网页中收集的带 URL 的人类证据。在此版本中，几乎所有大型语言模型的得分都比之前的 AlignBench 版本有所下降。

在这里插入图片描述

结果如表 4 所示。GLM-4 在总体上优于 GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro，在基线模型中取得了最高的综合得分。特别是在中文逻辑推理和语言理解维度上，GLM-4 显著优于其他所有强大模型。这些结果展示了其对中文语言和知识的深刻掌握。

目前，GLM-4 与 GPT-4 Turbo（2024-04-09）之间的性能差距主要体现在数学维度上。我们一直在采用 ChatGLM-Math [48] 中引入的技术（如自我批评）来持续提升 GLM 模型的推理能力。

3.4 长上下文处理能力评估

为了评估 GLM-4 在长文本任务中的表现，我们在 LongBench-Chat [1] 上进行了测试。该基准测试集的上下文长度范围为 10-100k，涵盖了用户常用的多种长文本场景，例如文档问答、摘要生成和代码处理。为了更详细地比较 GLM-4 在不同语言中的表现，我们还根据语言将 LongBench-Chat 分为两部分：中文和英文。我们分别提供了这两部分的结果，以更细致地展示 GLM-4 的跨语言能力。

在具体的评估设置中，我们基于 GPT-4 对每个模型的输出进行评分，并在 LongBench-Chat 中采用少样本策略。此外，为了尽量减少评分波动并得出更可靠的统计结论，我们进行了多次重复评估。随后，我们计算这些多次评估的平均值，以确保最终的性能指标能够全面反映 GLM-4 在不同条件下的表现。

在这里插入图片描述

3.5 基于真实用户提示的编程评估

尽管 HumanEval [4] 已被广泛用于评估代码生成能力，但其大多数问题都属于基础算法范畴。然而，在实际应用中，真实用户出于生产目的提出的问题通常比 HumanEval 的范围复杂得多。此外，已有研究指出，某些大型语言模型在其训练数据中可能存在 HumanEval 污染 [27; 18; 50]，这使得 HumanEval 的结果相对以往的可信度有所下降。

在这里插入图片描述

因此，除了 HumanEval 之外，我们还在 NaturalCodeBench (NCB) [56] 上评估了 GLM-4。NCB 是一个具有挑战性的双语编程基准测试，其问题源自真实用户提示，旨在反映现实世界编程任务的复杂性。结果如表 6 所示。结果表明，在实际场景中，GLM-4 的编程性能接近 Claude 3 Opus。尽管与 GPT-4 系列模型仍有一定差距，但考虑到 GLM-4 的双语平衡特性，通过改进训练策略和数据筛选，在后续迭代中提升其在 NCB 上的表现仍有很大潜力。

3.6 函数调用能力评估

为了评估 GLM 模型在函数调用方面的性能，我们在 Berkeley Function Call Leaderboard [49] 上进行了测试。该基准测试包含 2,000 个问题-函数-答案对，评估模型在以下三类函数调用中的能力：通过抽象语法树（AST）评估、通过执行 API 评估以及相关性检测。第一类通过 AST 分析将模型输出的函数与函数文档和可能的答案进行比较。第二类通过执行生成的函数调用来检查响应的正确性。相关性检测评估模型识别不适合回答用户问题的函数的能力。结果如表 7 所示。我们可以观察到，GLM-4 (0520) 的函数调用能力与 GPT-4 Turbo（2024-04-09）相当，而 GLM-4-9B-Chat 显著优于 Llama-3-8B-Instruct。另一个观察结果是，整体准确率并未随模型规模提升而提高，而 GLM-4-9B-Chat 甚至优于 GLM-4-Air。另一方面，我们注意到在执行摘要（评估真实 API 的执行结果）方面的性能随着模型规模的增加而稳步提升。
在这里插入图片描述

3.7 智能体能力评估

广泛观察到，大型语言模型（LLMs）能够在多种环境和场景中作为智能体运行 [29; 52]，这被称为“LLMs-as-Agents” [23]。因此，我们在 AgentBench [23] 上对 GLM-4 及其他对比 LLMs 进行了评估。AgentBench 是一个全面的智能体基准测试，涵盖基于文本的 LLMs 在多种实际环境中的表现，包括基于代码、基于游戏和基于网页的场景。具体来说，我们评估了 AgentBench 中 8 个环境中的 7 个，排除了交互时间较长的数字卡牌游戏环境。总体得分使用 AgentBench [23] 中提供的原始数据集权重计算。

在这里插入图片描述

结果如表 8 所示。从表中可以看出，GLM-4 模型在智能体任务中表现非常出色，GLM-4-Air 的表现与 GPT-4 Turbo 和 Claude 3 Opus 相当，而 GLM-4 的得分则超过了它们。在具体环境中，我们发现 GLM-4 系列在数据库、家务管理和网络购物任务中表现尤为突出，但在操作系统、知识图谱和横向思维谜题方面仍与 GPT-4 系列存在一定差距。这一差距表明，GLM-4 在代码相关智能体任务和高度交互的语言任务中仍有改进空间。

3.8 全工具能力评估

GLM-4 进一步对齐以支持智能体和用户在 https://chatglm.cn 上自定义 GLMs 功能，其结果是 GLM-4 全工具模型。如前所述，GLM-4 全工具能够通过自主理解用户意图、规划分步指令并调用多种工具（包括网络浏览器、Python 解释器和文本到图像模型，例如 CogView3 [59]）来完成复杂任务。表 9 显示，GLM-4 全工具（Web）在使用 Python 解释器解决数学问题和使用浏览器进行信息检索方面，分别与 ChatGPT-4（Web）表现相当。

在这里插入图片描述

4 安全性与风险

我们致力于确保 GLM-4 作为一个安全、负责任且无偏见的模型运行。除了解决常见的伦理和公平问题外，我们还仔细评估并减轻模型在现实场景中可能对用户造成的潜在危害。

在这里插入图片描述

风险缓解

在预训练阶段，我们通过删除包含敏感关键词的文本和预定义黑名单中的网页来仔细清理数据。在对齐阶段，我们评估每个训练样本的安全性，并删除任何可能带来潜在风险的样本。无害性也是在对齐多个模型输出时的重要标准。

我们有一个红队，不断用可能引发不安全答案的棘手问题挑战模型。我们从 GLM-4 中收集所有有害的问题-答案对，并通过人工标注进行改进，以进一步对齐模型。

安全性评估

我们在 SafetyBench [57] 数据集上评估 GLM-4 模型，该数据集从 7 个维度评估每个模型的能力：伦理与道德（不道德行为）、非法活动（法律基础知识）、心理健康（对心理健康的不利影响）、冒犯性（冒犯行为）、身体健康（可能导致身体伤害的危险行为）、隐私与财产（隐私泄露或财产损失）、不公平与偏见。我们在 SafetyBench 的中文子集上评估不同模型，该子集通过删除可能被屏蔽的高度敏感问题来创建，以减少不同 API 安全策略的干扰。

表 10 显示了 GLM-4 和最先进模型的安全性结果。在大多数维度上，GLM-4 (0520) 表现出具有竞争力的安全性，总体表现与 Claude 3 Opus 相当。GLM-4 在 GPT-4 系列模型之后略有落后，尤其是在身体健康维度上，该维度需要关于物理世界的强大常识知识以避免潜在风险。我们已在这一方向上投入更多努力，以开发更强大且安全的 GLM 模型。

5 结论

在本报告中，我们介绍了从 GLM-130B 到 GLM-4（全工具）的 ChatGLM 系列大型语言模型。在过去的一年半中，我们从第一手经验中对大型语言模型的各个方面有了更深入的理解。随着每一代模型的发展，团队在模型预训练和对齐方面学习并应用了更有效、更高效的策略。最近的 ChatGLM 模型——GLM-4 (0116, 0520)、GLM-4-Air (0605) 和 GLM-4 全工具——通过自主使用外部工具和功能，在理解和执行复杂任务方面取得了显著进展。这些 GLM-4 模型在性能上与最先进的模型（如 GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro）相当，甚至在某些情况下优于它们，尤其是在处理与中文相关的任务时。此外，我们致力于通过开源模型权重和开发的技术，促进大型语言模型的可访问性和安全性。我们的开源模型（包括语言、代码和视觉模型）仅在 2023 年就在 Hugging Face 上吸引了超过 1000 万次下载。目前，我们正在利用迄今为止学到的所有知识开发更强大的模型。未来，我们将继续通过开源推动前沿大型语言技术的民主化，并推动模型能力向“教会机器像人类一样思考”的使命迈进。

摘要

1 引言

2 ChatGLM 技术

3 GLM-4 能力

3.1 学术基准测试评估

3.2 指令遵循能力评估

3.3 对齐能力评估

3.4 长上下文处理能力评估

3.5 基于真实用户提示的编程评估

3.6 函数调用能力评估

3.7 智能体能力评估

3.8 全工具能力评估

4 安全性与风险

风险缓解

安全性评估

5 结论

相关文章：