当前位置: 首页 > news >正文

Llama 4全面评测:官方数据亮眼,社区测试显不足之处

引言

2025年4月,Meta正式发布了全新的Llama 4系列模型,这标志着Llama生态系统进入了一个全新的时代。Llama 4不仅是Meta首个原生多模态模型,还采用了混合专家(MoE)架构,并提供了前所未有的上下文长度支持。本文将详细介绍Llama 4的主要特性、技术创新以及社区对这次更新的相关评测结果,帮助您全面了解这一AI领域的重大突破。

Llama 4系列模型概览

Llama 4系列模型概览

Meta此次推出了Llama 4系列的三个主要模型:

  1. Llama 4 Scout:拥有17B活跃参数和16个专家,总参数量为109B。它是同类中最佳的多模态模型,可以在单个NVIDIA H100 GPU上运行,并提供业界领先的1000万token上下文窗口。

  2. Llama 4 Maverick:拥有17B活跃参数和128个专家,总参数量为400B。它在多项广泛报告的基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编码方面与新的DeepSeek v3取得了相当的结果,但活跃参数不到后者的一半。

  3. Llama 4 Behemoth:拥有288B活跃参数和16个专家,总参数量接近2万亿。作为Meta最强大的LLM,它在多项STEM基准测试中优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。目前该模型仍在训练中,尚未公开发布。

值得注意的是,虽然Llama 4 Maverick的总参数量为400B,但在处理每个token时,实际参与计算的"活跃参数"始终是17B。这大大降低了推理和训练的延迟。

技术创新与突破

混合专家(MoE)架构:效率与性能的完美平衡

Llama 4 MoE架构示意图

Llama 4是Meta首次使用混合专家(MoE)架构的模型。在MoE模型中,单个token只激活总参数的一小部分。这种架构在训练和推理方面更加计算高效,与固定训练FLOP预算相比,能够提供更高的质量。

例如,Llama 4 Maverick模型有17B活跃参数和400B总参数。它使用交替的密集层和混合专家(MoE)层来提高推理效率。MoE层使用128个路由专家和一个共享专家。每个token都会被发送到共享专家和128个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在提供这些模型服务时,只有一部分总参数被激活。

原生多模态能力:视觉与文本的无缝融合

Llama 4模型设计具有原生多模态性,通过早期融合将文本和视觉token无缝集成到统一的模型主干中。早期融合是一个重大进步,因为它使模型能够用大量未标记的文本、图像和视频数据联合预训练。

这些模型在各种图像和视频帧上进行了训练,以提供广泛的视觉理解能力,包括时间活动和相关图像。这使得模型能够轻松处理多图像输入和文本提示,用于视觉推理和理解任务。模型在预训练阶段支持多达48张图像,并在后训练阶段测试中显示出良好的结果,最多支持8张图像。

超长上下文支持:突破性的1000万token容量

Llama 4 Scout将支持的上下文长度从Llama 3的128K大幅增加到业界领先的1000万token。这开启了许多可能性,包括:

  • 多文档摘要生成
  • 解析大量用户活动进行个性化任务
  • 对庞大代码库的深度推理
  • 长文本理解与分析

技术实现:Llama 4 Scout在预训练和后训练阶段都使用了256K上下文长度,这使基础模型具备了先进的长度泛化能力。Llama 4架构的一个关键创新是使用交替注意力层(无位置嵌入)。此外,还采用了推理时间注意力温度缩放来增强长度泛化。这种架构被称为iRoPE,其中"i"代表"交替"注意力层,突出了支持"无限"上下文长度的长期目标,而"RoPE"指的是大多数层中使用的旋转位置嵌入。

训练方法与优化

预训练创新:MetaP超参数设置技术

Meta开发了一种新的训练技术,称为MetaP,它允许可靠地设置关键模型超参数,如每层学习率和初始化比例。这些超参数在不同的批量大小、模型宽度、深度和训练token上都能很好地迁移。

Llama 4通过在200种语言上进行预训练来支持开源微调工作,其中超过100种语言的token超过10亿个,总体上比Llama 3多10倍的多语言token。

此外,Meta还专注于高效的模型训练,使用FP8精度,同时不牺牲质量并确保高模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,每个GPU达到了390 TFLOP。总体数据混合训练包含超过30万亿个token,是Llama 3预训练混合的两倍多,包括多样化的文本、图像和视频数据集。

后训练优化:创新的三阶段训练流程

Meta为Llama 4 Maverick模型采用了全新的后训练流程:

  1. 轻量级监督微调(SFT)
  2. 在线强化学习(RL)
  3. 轻量级直接偏好优化(DPO)

关键发现:SFT和DPO可能会过度约束模型,限制在线RL阶段的探索,导致次优精度,特别是在推理、编码和数学领域。

解决方案:Meta通过使用Llama模型作为评判标准,移除了超过50%被标记为"简单"的数据,并对剩余的更难数据集进行轻量级SFT。在随后的多模态在线RL阶段,通过仔细选择更难的提示,实现了性能的大幅提升。

模型评测与性能对比

Llama 4系列官方评测结果

从Meta官方给出的评测结果可以看出,Llama 4 Maverick主要是全面对标GPT-4o和Gemini 2.0 Flash,同时作为开源模型,也与DeepSeek v3进行了对比。

Llama 4 Maverick与主流大模型性能对比

而Llama 4 Scout则主要对标轻量级的模型,比如Gemma 3、Gemini 2.0 Flash-Lite等。

Llama 4 Scout与轻量级模型性能对比

尚未发布的最强模型Llama 4 Behemoth,从数据上显著优于Claude 3.7 Sonnet和Gemini 2.0 Pro。

Llama 4 Behemoth与顶级商业模型性能对比

社区独立评测结果

官方评测自然只是一家之言,社区评测则更为客观。以下是来自LMArena的评测结果,可以看到,Llama 4 Maverick仅次于Google刚发布不久的Gemini-2.5-Pro,位居第二。

LMArena社区评测结果

编码能力与Agent能力评测

对于AI研究者和开发者来说,编码能力和Agent能力是评判大语言模型实用性的重要指标。

编码能力评测:从Aider Polyglot leaderboard的结果来看,即使是Llama 4 Maverick,在编码能力上也排名相当靠后,基本就是DeepSeeK V2.5的水平,这与预期有一定差距。

Llama 4编码能力评测结果

Agent能力评测:在huggingface agent leaderboard中,Llama 4 Maverick甚至连前20都排不进去。不仅与商业模型相比有差距,就是与开源的Qwen和DeepSeek相比,也略显不足,甚至不如自家上一代的Llama-3.3,这一点令人意外。

Llama 4 Agent能力评测结果

这两项特别关键的评测中,Llama 4的表现都不尽如人意,期待官方之后能继续优化或对测试结果做出合理解释。

总结

总体来说,Llama 4系列模型在技术上实现了多项创新:

  • 首次采用MoE架构,大幅提升计算效率
  • 原生多模态能力,实现文本与视觉的深度融合
  • 突破性的1000万token超长上下文支持
  • 创新的训练方法与优化技术

然而,在实际社区评测中,特别是在编码能力和Agent能力方面,Llama 4系列的表现还有待提高。作为Meta新一代的开源模型,Llama 4理应在各方面取得更好的评测结果,但目前看来,距离预期还有一定差距。

应用前景:作为问答模型,Llama 4表现尚可,但作为智能体的大脑,还需进一步优化。目前的表现似乎更适合考试场景,而非实战应用,暂时还未能进入我的AI智能体大脑候选列表。

相关文章:

Llama 4全面评测:官方数据亮眼,社区测试显不足之处

引言 2025年4月,Meta正式发布了全新的Llama 4系列模型,这标志着Llama生态系统进入了一个全新的时代。Llama 4不仅是Meta首个原生多模态模型,还采用了混合专家(MoE)架构,并提供了前所未有的上下文长度支持。本文将详细介绍Llama 4…...

kotlin 多个fragment beginTransaction容器添加使用

在Kotlin中如何使用Fragment的beginTransaction来添加多个Fragment到容器中。我需要先回顾一下Fragment的基本用法,然后考虑多个Fragment的情况。 FragmentTransaction的beginTransaction是用来开启一个事务,然后添加、替换或移除Fragment。通常&#x…...

(PTA) L2-011-L2-015

L2-012 关于堆的判断 由于没有得到AC代码(1,3测试点错误),这里先不做展示,等后续复盘的时候进行补充。 L2-011 玩转二叉树 给定一棵二叉树的中序遍历和前序遍历,请你先将树做个镜面反转,再输出反转后的层序…...

管理Linux服务器的用户和组

用户/组 命令符会展示当前用户名和主机名 创建用户,同时创建同名组 useradd 用户名 设置密码 passwd 用户名 切换用户登录 su 用户名 删除用户 userdel -r 用户名 记录用户信息的文件 /etc/passwd 记录密码(密文)信息的文件 /etc/sh…...

奇安信驻场面试题

《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…...

Testbench设计

一、几个名词: 被仿真的文件叫DUT(Design under Test) 编写Testbench的目的 验证设计有没问题。 怎么写Testbench? 四、Teshbench各个部分的写法: 外部信号就是外面连接的信号。...

使用IPython有哪些好处?

这里总结了50个使用IPython的好处,大大提升开发效率! 什么是IPython?可能很多人已经在用,却不知道它到底是什么。 根据维基百科的解释: IPython是一种基于Python的交互式解释器,提供了强大的编辑和交互功能…...

加油站小程序实战教程10开通会员

目录 1 修改用户登录逻辑2 创建变量3 调用API总结 我们上一篇搭建了开通会员的界面,有了界面的时候就需要加入一些逻辑来控制界面显示。我们的逻辑是当用户打开我的页面的时候,在页面加载完毕后调用API看用户是否已经开通会员了,如果未开通就…...

NO.84十六届蓝桥杯备战|动态规划-路径类DP|矩阵的最小路径和|迷雾森林|过河卒|方格取数(C++)

路径类dp是线性dp的⼀种,它是在⼀个nm的矩阵中设置⼀个⾏⾛规则,研究从起点⾛到终点的⽅案数、最⼩路径和或者最⼤路径和等等的问题 矩阵的最小路径和_牛客题霸_牛客网 状态表⽰: dp[i][j]表⽰:到达[i, j]位置处,最⼩…...

WHAT - React 技术栈常用库/工具

目录 基础类状态管理路由管理UI 组件库开发工具 / 辅助库测试相关表单和数据展示其它实用类代码重构应用迁移:PWA代码组织与架构建议(选项) 下面是一个 React 技术栈常用库/工具清单,按不同分类整理,涵盖开发、状态管理…...

FreeSWITCH的SIP配置

确认 FreeSWITCH 的 SIP 配置 FreeSWITCH 的 SIP 配置文件通常位于 /usr/local/freeswitch/conf/sip_profiles 目录下。默认情况下,FreeSWITCH 使用 internal.xml 和 external.xml 作为 SIP 配置文件。 查看 internal.xml 配置 编辑 /usr/local/freeswitch/conf/sip…...

Spark核心知识总结

一、Spark运行架构 (一)整体结构 Spark框架采用标准master - slave结构,Driver为master管理作业任务调度,Executor为slave负责实际执行任务。 (二)核心组件 1. Driver:执行Spark任务的main方法&…...

第1节:计算机视觉发展简史

计算机视觉与图像分类概述:计算机视觉发展简史 计算机视觉(Computer Vision)作为人工智能领域的重要分支,是一门研究如何使机器"看"的科学,更具体地说,是指用摄影机和计算机代替人眼对目标进行识…...

2D 与 3D 连线效果全解析 | 从平面到立体

HT 是一个灵活多变的前端组件库,具备丰富的功能和效果,满足多种开发需求。让我们将其效果化整为零,逐一拆解具体案例,帮助你更好地理解其实现方案。 在此篇文章中,让我们一起深入探讨 2D 与 3D 的连线效果是如何实现的…...

Django Cookies 实际项目示例

Django Cookies 实际项目示例 推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 Django Cookies 实际项目示例介绍什么是 Django Cookies?为什么要关心 Django Cookies?Django Cookie…...

【问题排查】SQLite安装失败

启动 Django 自带的开发服务器 python manage.py runserver出现如下报错: [rootiZ2zedudtf2cwzi9argky2Z myproject]# python manage.py runserver Watching for file changes with StatReloader Performing system checks...System check identified no issues (…...

stream流Collectors.toMap(),key值重复问题

文章目录 一、问题二、问题示例三、原因四、解决方法4.1、方案一 一、问题 发现Collectors.toMap的一个坑,若key值重复的时候会抛异常。如: IllegalStateException: Duplicate key 男 二、问题示例 报错示例如下: import lombok.AllArgsC…...

STM32(基于标准库)

参考博客:江科大STM32笔记 Stm32外设 一、GPIO 基础 GPIO位结构 I/O引脚的保护二极管是对输入电压进行限幅的上面的二极管接VDD, 3.3V,下面接VSS, 0V,当输入电压 >3.3V 那上方这个二极管就会导通,输入电压产生的电流就会大部分充入VD…...

OpenStack Yoga版安装笔记(十八)Self-service networks配置笔记

1、官方文档 在OpenStack官方安装文档中,提供了两个网络配置选项: Option1:Provider networksOption2:Self-service networks 这两个选项并不冲突,可以在OpenStack环境中同时配置。 在《OpenStack Yoga版安装笔记&…...

2025年黑龙江建筑安全员 C3 证考试题库练习题

黑龙江建筑安全员 C3 证考试题库练习题 1、消防控制室是设有火灾自动报警设备和消防设施控制设备,用于接收、显示、处理( ),控制相关消防设施的专门处所2。 A. 安全信息 B. 设备信息 C. 通讯信号 D. 火灾报警信号 答案&…...

JavaScript数据结构-Map的使用

在 JavaScript 中,Map 是 ES6 引入的一种新的数据结构,它类似于对象,也是键值对的集合,但 Map 的键可以是任意类型的值(对象、函数、基本类型等),而传统对象的键只能是字符串或 Symbol&#xff…...

LeetCode面试经典150题

目录 力扣80. 删除有序数组中的重复项 II 代码解析 力扣274. H 指数 代码解析 力扣151. 反转字符串中的单词 解析代码 力扣12. 整数转罗马数字 解析代码 力扣28. 找出字符串中第一个匹配项的下标 解析代码1(暴力模拟) 解析代码2(K…...

mysql之等值连接8个实例

以下实例以常见的业务场景为例,使用 MySQL 语法,假设存在员工表(employees)、部门表(departments)、订单表(orders)、客户表(customers)等,来展示…...

C基础笔记_指针专题

一:C 和 C 偏爱使用指针的原因 1. 通过指针可以直接操作内存 C 和 C 是系统级编程语言,它们的设计目标之一是允许开发者直接与硬件交互并高效地管理资源。 指针的本质:指针本质上是一个存储内存地址的变量,它让程序员可以直接访问和操作内…...

GPT-SoVITS Windows 配置与推理笔记(自用)

GPT-SoVITS Windows 配置与推理笔记(自用) 这是给自己留的备份,方便下次查。Windows 端配置和推理为主,代码为核心,直接干货。 环境准备 系统:Windows 10/11Python:3.9(别用别的版…...

【设计模式】面向对象开发学习OOPC

PLOOC-裸机思维 PLOOC OOPC精要——撩开“对象”的神秘面纱 C/C面向对象编程之封装-KK 面向过程,本质是“顺序,循环,分支”面向对象,本质是“继承,封装,多态”参考的书籍:《UMLOOPC嵌入式C语言…...

LVGL开发指南

一、主流ARM开发UI界面库 主流ARM开发UI界面库的详细对比分析,从多个维度评估各库的适用场景: 1. 基础对比表 特性LVGLQt for MCUEmbedded WizardTouchGFXemWin许可证MIT开源商业商业商业(STM32免费)商业RAM最小需求16KB512KB64KB256KB50KBFlash占用64KB+1MB+200KB+500KB+1…...

linux shell looop循环写法

在 Linux Shell 中编写loop循环的常见方法有以下几种,适用于持续执行任务或监控场景: 1. while true 循环(最常用) while true; do# 循环体内的命令echo "Running..."sleep 1 # 避免 CPU 占用过高 done 终止方式&…...

【力扣hot100题】(075)数据流的中位数

一开始只建立了一个优先队列,每次查询中位数时都要遍历一遍于是喜提时间超限,看了答案才恍然大悟原来还有这么聪明的办法。 方法是建立两个优先队列,一个大根堆一个小根堆,大根堆记录较小的数,小根堆记录较大的数。 …...

蓝桥杯刷题总结 + 应赛技巧

当各位小伙伴们看到这篇文章的时候想必蓝桥杯也快开赛了,那么本篇文章博主就来总结一下一些蓝桥杯的应赛技巧,那么依旧先来走个流程 那么接下来我们分成几个板块进行总结 首先是一些基本语法 编程语言的基本语法 首先是数组,在存数据的时候…...

JetBrains Terminal 又发布新架构,Android Studio 将再次迎来新终端

不到一年的时间,JetBrains 又要对 Terminal 「大刀阔斧」,本次发布的新终端是重构后的全新的架构,而上一次终端大调整还是去年 8 月的 v2024.2 版本,并且在「Android Studio Ladybug | 2024.2.1」也被引入。 不知道你们用不用内置…...

怎么构造思维链数据?思维链提示工程的五大原则

我来为您翻译这篇关于思维链提示工程的文章,采用通俗易懂的中文表达: 思维链(CoT)提示工程是生成式AI(GenAI)中一种强大的方法,它能让模型通过逐步推理来解决复杂任务。通过构建引导模型思考过程的提示,思维链能提高输出的准确性…...

mongodb--用户管理

文章目录 MongoDB 用户管理1. 连接到 MongoDB2. 用户创建2.1 创建管理员用户2.2 创建特定数据库用户2.3 常用内置角色 3. 用户管理操作3.1 查看所有用户3.2 查看特定用户信息3.3 更新用户密码3.4 添加用户角色3.5 移除用户角色3.6 删除用户 4. 权限修改4.1 创建自定义角色4.2 将…...

2025年考OCP认证有用吗?

在数字化转型的浪潮中,数据库管理技术成为企业核心竞争力的基石。Oracle作为全球领先的数据库解决方案提供商,其OCP(Oracle Certified Professional)认证不仅是技术能力的权威背书,更是职业发展的强力引擎。以下从多个…...

川翔云电脑:D5 渲染摆脱硬件限制,云端高效创作

在设计领域,D5 渲染器凭借实时光追技术、高效工作流程及优质输出效果,成为设计师的得力工具。然而,其对高端 RTX 显卡的依赖,导致硬件成本高、本地性能受限及办公地点固定等问题,让不少创作者望而却步。 D5 渲染器的优…...

设计模式(23种设计模式简介)

设计模式 简介 设计模式是解决软件设计中常见问题的可重用解决方案模板,通过总结反复验证的代码设计经验,提升代码的可重用性、可维护性和扩展性。其核心是通过标准化的设计思想,让代码更易理解、协作更高效,并在面向对象编程中…...

Python设计模式:工厂模式

1. 什么是工厂模式? 工厂模式是一种创建对象的设计模式,它提供了一种创建对象的接口,但不暴露对象创建的具体逻辑。工厂模式的核心思想是将对象的创建与使用分离,从而提高代码的灵活性和可维护性。 1.1 工厂模式的类型 1.1.1 简…...

UE5 给函数分类

如果函数太多不方便找,我们可以给函数设置一个分组 选中一个函数,修改它的类别 然后在函数列表里可以看到分好的类 其他函数可以直接拖进类别里,不用每个函数都手动设置类别 一次只能拖动一个函数...

5️⃣ Coze+AI应用基础教学(2025年全新版本)

目录 一、了解应用开发 1.1 扣子应用能做什么 1.2 开发流程 1.3 开发环境 二、快速搭建一个AI应用 2.1 AI翻译应用介绍 2.2 设计你的应用功能 2.3 创建 AI 应用项目 2.4 编写业务逻辑(新建工作流) 2.5 搭建用户界面 2.6 效果测试 2.7 发布应…...

高级前端题库

前端题库 JS篇 如何理解作用域和作用域链 作用域 作用域就是变量或函数在其内能够被访问的“可见区域” 全局作用域局部作用域 作用域链 当在某个作用域中尝试访问一个变量时,JS引擎会从当前作用域开始,沿着作用域链向上逐级开始查找,直到…...

博途 TIA Portal之1200做主站与汇川EASY的TCP通讯

前言,虽然已经做了几篇关于TCP通讯的文章,但是不同的PLC之间的配合可能不同,下面将演示这种差异。 关于汇川EASY做从站的配置请参见下方链接文章:汇川EASY系列之以太网通讯(套接字socket做从站)_汇川以太网tcp套接字fb块-CSDN博客 1、硬件准备: 1200PLC,汇川EASY320…...

在conda虚拟环境安装GIT并且克隆github上项目指南(解决443问题)

此次笔记记录自己在conda虚拟环境安装git,同时克隆github项目,并且解决了git的443问题。 如有不妥欢迎各位大佬批评指正。 首先默认你已经安装了anaconda。 代开命令提示行 配置环境 #首先创建虚拟环境 conda create -n git_env python3.8 #激活虚拟环…...

JavaWeb遇到的问题汇总

问题一:(键值对最后一项没有逗号) 在JSON字符串转自定义对象和自定义对象转JSON字符串时: 如图所示:若忘记删除键值对的最后一项没有逗号时,则下一句转换不会生效,应该删除最后一项的逗号。 解…...

Stable Diffusion + Contronet,调参实现LPIPS最优(带生成效果+指标对比)——项目学习记录

目录 前言 一、数据集:图像文本,部分选取于DeepFashion 二、优化一,img2img 三、优化二,微调sd参数 四、优化三,dreamshaper优化 五、优化四,sdv1.5contronet 六、问题探索历程 1. 从 SDXL 到轻量化模…...

【“星睿O6”AI PC开发套件评测】在O6开发板使用gemma-2b测试CPU性能

前提条件: x64 Linux 主机:安装CMake 和 arm-gnu-toolchain-12.2.rel1-x86_64-aarch64-none-linux-gnu radxa O6主机 1.从 Kaggle 获取模型权重和分词器 Gemma 3 2B 模型文件:访问 Kaggle 上的 Gemma 模型页面 https://www.kaggle.com/mode…...

数学知识——矩阵乘法

使用矩阵快速幂优化递推问题 对于一个递推问题,如递推式的每一项系数都为常数,我们可以使用矩阵快速幂来对算法进行优化。 一般形式为: F n F 1 A n − 1 F_nF_1A^{n-1} Fn​F1​An−1 由于递推式的每一项系数都为常数,因此对…...

3DMax中模型解组

1、从网上下载下来的模型是一个整体,需要解开查看每个样式 2、解开组...

链路聚合+vrrp

1.链路聚合 作用注意事项将多个物理接口(线路)逻辑上绑定在一起形成一条逻辑链路,起到叠加带宽的作用1.聚合接口必须转发速率一致。2.聚合设备两端必须一致 配置命令 方法一 [Huawei]interface Eth-Trunk 0----先创建聚合接口,…...

0 std::process::Command 介绍

std::process::Command 是 Rust 标准库中用于创建和配置子进程的主要类型。它允许你启动新的进程、设置其参数和环境变量、重定向输入/输出等。 基本用法 use std::process::Command;let output Command::new("echo").arg("Hello, world!").output().ex…...

Android 中Intent 相关问题

在回答 Intent 问题时,清晰区分其 定义、类型 和 应用场景。以下是的回答策略: 一、Intent 的核心定义 Intent 是 Android 系统中的 消息传递对象,主要用于三大场景: 2. 隐式 Intent(Implicit Intent) 三、…...