Llama 4 家族:原生多模态 AI 创新新时代的开启
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
要点总结:
- 我们发布了 Llama 4 家族中的首批模型,让人们能够打造更加个性化的多模态体验。
- Llama 4 Scout 是一款拥有 170 亿激活参数和 16 个专家模型的多模态模型,在同类模型中性能最强,胜过所有前代 Llama 模型,并可在单张 NVIDIA H100 GPU 上运行。此外,Llama 4 Scout 拥有业界领先的 1000 万上下文窗口,在多个知名基准测试中超越了 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
- Llama 4 Maverick 拥有 170 亿激活参数、128 个专家,是同类中最强的多模态模型,在广泛基准测试中优于 GPT-4o 和 Gemini 2.0 Flash,且在推理和编程能力方面达到与 DeepSeek v3 相当的水平——但参数量仅为后者的一半。Maverick 实验版聊天模型在 LMArena 中取得了 1417 的 ELO 分数,展现出卓越的性价比。
- 这些模型得益于 Llama 4 Behemoth 的蒸馏训练——这是我们目前最强大的模型,拥有 2880 亿激活参数和 16 个专家,是全球最智能的大型语言模型之一,在多项 STEM 基准上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 仍在训练中,更多细节将持续披露。
- Llama 4 Scout 和 Maverick 模型现已开放下载(可在 llama.com 和 Hugging Face 获取),Meta AI 搭载 Llama 4 的版本也可在 WhatsApp、Messenger、Instagram Direct 和网页版使用。
多模态新时代的开启
我们隆重推出 Llama 4 Scout 和 Llama 4 Maverick,这是首批开源权重的原生多模态模型,支持前所未有的长上下文,并首次采用专家混合(MoE)架构。此外,我们还预览了 Llama 4 Behemoth,它是全球最强之一的大型语言模型,也是我们的教师模型。
这些新模型代表了 Llama 生态系统迈入新纪元的起点。Scout 模型设计紧凑,使用 INT4 量化后可以部署在单张 H100 GPU 上,而 Maverick 则部署于单台 H100 主机。它们均基于 Behemoth 模型蒸馏而成,后者在 STEM 领域表现出色。我们尚未开放 Behemoth 下载,但很快将分享更多技术细节。
我们始终相信,开放是推动创新的核心动力,对开发者、Meta 以及整个世界都有益。因此,Llama 4 Scout 和 Maverick 均已开放下载,我们也将通过合作伙伴提供更多渠道访问。你还可以在 Meta 旗下多款产品中直接体验 Llama 4。
模型训练与架构
Llama 4 是我们首批采用 专家混合(MoE)架构 的模型,其中每个 token 仅激活部分参数,从而大幅提高训练与推理效率。Maverick 模型拥有 4000 亿总参数,但仅使用 170 亿活跃参数,128 个专家交替启用,使得在 NVIDIA H100 上运行高效灵活,适合本地部署与分布式推理。
Llama 4 原生支持多模态,在骨干网络中通过 早期融合(early fusion) 将文本和图像 token 融合。我们还对视觉编码器进行了强化,使其更好地适应语言模型。我们开发的新训练技术 MetaP,可自动设定每层的学习率和初始化比例,确保模型在不同配置下的稳定性。
预训练使用超过 30 万亿 token(是 Llama 3 的两倍),支持 200 种语言,其中 100 多种语言的 token 数超过 10 亿。我们采用 FP8 精度训练,在 32K GPU 上达成了 390 TFLOPs/GPU 的利用率。
Scout 支持 1000 万的上下文窗口,远超 Llama 3 的 128K,为长文本处理和大规模代码分析提供可能。此外,我们采用了 iRoPE 架构,通过交错式注意力层和旋转位置编码的组合来支持超长上下文。
后训练与优化
Maverick 是我们面向通用助手和聊天用例的主力模型,擅长图像理解和创意写作。为平衡多模态输入、推理和对话能力,我们采用了全新后训练流程:
- 轻量监督微调(SFT)
- 在线强化学习(RL)
- 轻量直接偏好优化(DPO)
我们使用 Llama 模型作为“裁判”,筛除超过 50% 的简单数据,仅在困难数据上进行微调。随后在在线 RL 阶段选用更高难度的提示,提升模型能力。通过动态数据筛选和系统指令多样化采样,我们大幅提升了模型的推理与编程能力。
Maverick 的性能优于 GPT-4o 和 Gemini 2.0,在多语言、编程、图像、长上下文等领域均表现出色,并与 DeepSeek v3.1 相媲美。
Scout 模型同样拥有 170 亿激活参数、16 个专家与 1090 亿总参数,在小模型中表现卓越,并在图像定位(image grounding)任务中表现领先,能够将用户提示与视觉概念精准对齐。
Llama 4 Behemoth:两万亿参数的巨兽
我们预览了 Llama 4 Behemoth,这是拥有 2880 亿激活参数、近两万亿总参数的多模态专家混合模型。Behemoth 不仅在数学、多语言和图像任务上表现顶尖,也是训练 Scout 和 Maverick 的教师模型。
我们为此开发了新型蒸馏损失函数,动态加权软标签与硬标签,通过 Behemoth 的推理结果生成训练数据,显著提升学生模型的表现。
由于模型体量庞大,后训练过程需对 SFT 数据进行 95% 精简,并在 RL 阶段构建高难度训练计划,通过分批难度分层、系统指令多样化提升模型泛化能力。我们重构了 RL 基础设施,实现 10 倍训练效率提升。
安全机制与保护
我们构建了 Llama 4 的全流程安全机制:
预训练与后训练防护
- 数据过滤与清洗
- 安全数据注入策略
系统级防护工具(已开源):
- Llama Guard:用于识别输入/输出是否违反应用安全政策
- Prompt Guard:识别恶意提示(如 Jailbreak 和注入攻击)
- CyberSecEval:评估模型网络安全风险
风险评估与红队测试
我们采用自动与人工相结合的方式进行模型极限测试,开发了 GOAT(生成式攻击测试) 工具,可模拟中等攻击者进行多轮交互,极大提升测试覆盖率与效率。
消除偏见的努力
我们努力减少模型在政治与社会话题上的偏见,让 Llama 能平衡呈现不同观点:
- Llama 4 在敏感议题上的拒答率由 7% 降至 2% 以下
- 拒答偏差(对某些立场过于敏感)降至 1% 以下
- 与 Llama 3.3 相比,Llama 4 的强偏政治倾向回答减少了一半,表现与 Grok 相当
拓展 Llama 生态系统
Llama 不只是模型,而是完整生态。除了模型本身,我们也在扩展产品集成,持续与开源社区合作。我们期待在 4 月 29 日的 LlamaCon 大会上分享更多未来愿景。
不论你是开发者、企业用户还是 AI 爱好者,Llama 4 Scout 和 Maverick 都是下一代智能产品的理想选择。我们也期待看到你用这些模型创造的精彩应用。
相关文章:
Llama 4 家族:原生多模态 AI 创新新时代的开启
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
情感语音的“开源先锋”!网易开源
语音合成技术近年来取得了显著进步,特别是在语音克隆、语音助手、配音服务和有声读物等领域。然而,如何让合成的语音更具情感,更贴近人类的真实表达,一直是这一领域的重要研究方向。今天,我们将为大家介绍一款由网易有…...
消息队列基础概念及选型,常见解决方案包括消息可靠性、消息有序、消息堆积、重复消费、事务消息
前言 是时候总结下消息队列相关知识点啦!我搓搓搓搓 本文包括消息队列基础概念介绍,常见解决方案包括消息可靠性、消息有序、消息堆积、重复消费、事务消息 参考资料: Kafka常见问题总结 | JavaGuide RocketMQ常见问题总结 | JavaGuide …...
子类是否能继承
继承 父类: 子 类 构造方法 非私有 不能继承 私有(private)不能继承 成员变量 非私有 能继承 私有&…...
计算机系统--- BIOS(基本输入输出系统)
一、BIOS的定义与核心定位 BIOS(Basic Input/Output System)是计算机启动时运行的底层固件,存储在主板的ROM芯片中。它是连接硬件与操作系统的桥梁,负责初始化硬件、加载启动程序,并提供基础配置界面。其核心目标是&a…...
Ollama 与 llama.cpp 深度对比
Ollama 与 llama.cpp 深度对比 1. 定位与架构 维度llama.cppOllama核心定位Meta LLaMA 的 C 推理框架,专注底层优化基于 llama.cpp 的高层封装工具,提供一站式服务技术栈纯 C 实现,支持量化/内存管理/硬件指令集优化(AVX/NEON/M…...
C++ —— 智能指针
C ——智能指针 智能指针存在的必要性1. 解决内存泄漏问题2. 避免悬垂指针(Dangling Pointer)3. 异常安全性 std::unique_ptr (独占所有权)代码功能说明关键点解析内存管理流程对比传统指针为何使用 make_unique? uniq…...
Go语言的测试框架
Go语言测试框架详解 Go语言(Golang)自发布以来,因其简洁、高效和并发支持而受到广泛欢迎。在软件开发过程中,测试是确保代码质量与稳定性的重要环节。Go语言内置的测试框架为开发者提供了灵活而强大的测试工具,使得编…...
配置多区域集成IS-IS和抓包分析
基本概念 IS-IS区域结构: 使用两级层次结构:Level 1(区域内)和Level 2(区域间) Level 1路由器了解本区域拓扑 Level 2路由器在不同区域间传输流量 Level 1-2路由器同时执行两种功能 NSAP地址ÿ…...
网络原理 - HTTP/HTTPS
1. HTTP 1.1 HTTP是什么? HTTP (全称为 “超文本传输协议”) 是⼀种应用非常广泛的应用层协议. HTTP发展史: HTTP 诞生于1991年. 目前已经发展为最主流使用的⼀种应用层协议 最新的 HTTP 3 版本也正在完善中, 目前 Google / Facebook 等公司的产品已经…...
JavaScript逆向WebSocket协议解析与动态数据抓取
在JavaScript逆向工程中,WebSocket协议的解析和动态数据抓取是关键技能。本文将结合Fiddler、Charles Proxy和APIfox工具,详细讲解如何解析WebSocket协议并抓取动态数据。 一、WebSocket协议解析 (一)WebSocket协议的基本概念 …...
过滤震荡行行策略思路
本文讨论的是如何识别和过滤金融市场中的震荡行情,特别是对于趋势交易者来说,如何避免在震荡行情中频繁止损和资金回撤。 主要观点 震荡行情的定义 - 行情在有序与无序之间的中间状态,由多空力量不足导致的横盘。 震荡行情的分类 - 宽幅震…...
消息队列(kafka 与 rocketMQ)
为什么要使用消息队列?作用1: 削峰填谷(突发大请求量问题)作用2: 解耦(单一原则)作用3: 异步(减少处理时间) 如何选择消息队列(kafka&RocketMQ)成本功能性能选择 rocketMQ是参考kafka进行实现的为什么rocketMQ与kafka性能差距很大呢?kafka 的底层数据储存实现rocketMQ 的…...
Invalid bean definition with name ‘employeeMapper‘ defined in file。解决问题
求解决方法: Error starting ApplicationContext. To display the condition evaluation report re-run your application with debug enabled. 2025-04-06T15:23:24.87308:00 ERROR 30192 --- [ main] o.s.boot.SpringApplication : Appli…...
使用NVM管理nodejs
使用NVM管理nodejs 前言1. 先清空本地安装的node.js版本2. 下载nvm管理工具3. 安装nvm管理工具4. 输入命令查看nvm版本号5. 查看node.js版本号6. 安装对应版本6.1安装命令6.2使用命令(可以快速切换node版本)6.3成功之后就可以查看本地的node版本了 7. 查…...
第11课:Tiled DiffusionVAE高分辨率放大应用
文章目录 Part.01 Tiled Diffusion原理与基本操作Part.02 Tiled Diffusion超高分辨率升级Part.03 与ControlNet Tile配合使用显存和图片大小的对应关系 Part.01 Tiled Diffusion原理与基本操作 降低显存负担,用不到一半的显存消耗实现同一张大图的绘制,提高超过50%的出图效…...
APS相关知识
MRP 在系统中实现 MRP(物料需求计划) 的逻辑,需要基于 数据库 和 算法 进行自动计算,确保物料按时到达,以满足生产需求。以下是 MRP 的核心逻辑和实现步骤: 📌 MRP 系统实现流程 数据输入&…...
浮点数精度问题
目录 ieee754标准解决方法 和c语言一样,所有以ieee754标准的语言都有浮点数精度问题,js也有浮点数精度问题,并且因为是弱类型语言这个问题更严重,js的Number类型的数据都被视为浮点数 ieee754标准 js的数字类型就相当于c语言doub…...
DHCP Snooping各种场景实验案例
一、概述 DHCP Snooping的基本功能能够保证客户端从合法的服务器获取IP地址,而且能够记录DHCP客户端IP地址与MAC地址等参数的对应关系,进而生成绑定表。 DHCP Snooping的基本功能的配置任务如下(只有前面两个是必选的)。 使能DHCP Snooping功能。配置接口信任状态。(可选)使能…...
设计模式简述(八)中介者模式
中介者模式 描述基本使用使用 描述 为了简化多个类间复杂的耦合关系,单独定义一个中介者 将边界交互的部分交给中介者,从而简化各个类内部逻辑 个人建议在3个及以上的类间存在复杂交互关系时再考虑中介者,否则可能反而增加系统复杂度 基本使…...
【力扣hot100题】(064)在排序数组中查找元素的第一个和最后一个位置
调试了半天终于过了…… 神人题目,主要是情况太太太多了,有先找到左边界的情况、先找到右边界的情况、找到中间节点之后要依次找左右边界的情况……其实要是弄多一点循环应该就不会像我写的这么复杂,但我太懒了就是不想多开循环。 class So…...
【Python爬虫高级技巧】深入掌握lxml库:XPath解析/HTML处理/性能优化全攻略|附企业级实战案例
作为Python生态中最快的HTML/XML解析库,lxml凭借其C语言级别的性能表现,成为爬虫和数据处理的利器。但很多开发者仅停留在基础用法,未能充分发挥其潜力。唐叔将通过本期带你深入剖析lxml的奥秘。 文章目录 一、lxml架构设计揭秘1.1 Cython混合…...
ABAP 新语法 - corresponding
在 ABAP 中,CORRESPONDING 操作符用于根据字段名称自动映射结构体(Structure)或内表(Internal Table)的字段值。它比传统的 MOVE-CORRESPONDING 语句更灵活,支持更多控制选项。 基础用法 data: begin of …...
基于高云fpga实现的fir串行滤波器
大家好,随着国产芯片的崛起,本文将专注于使用国产fpga芯片----高云fpga实现串行fir滤波器的项目 1.fir滤波器简介 设计一个频域滤波器(将想要保留的频率段赋值为1,其他频率段赋值为0),将其与含噪声信号的…...
Spring 中的 BeanFactory 和 ApplicationContext
在 Spring 中,BeanFactory 和 ApplicationContext 都是 IOC 容器的实现接口,负责管理 Bean 的生命周期和依赖注入。但它们之间确实有一些关键区别。 🔍 一、什么是 BeanFactory? BeanFactory 是 Spring 最基础的 IOC 容器接口&am…...
木里风景文化|基于Java+vue的木里风景文化管理平台的设计与实现(源码+数据库+文档)
木里风景文化管理平台 目录 基于SSM+vue的木里风景文化管理平台的设计与实现 一、前言 二、系统设计 三、系统功能设计 1 系统功能模块 2 管理员功能模块 3 用户功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源…...
国内 windows powershell 安装 scoop
目录 Win10 Terminal Powershell 安装 scoop 失败1. 网络问题2. 报错 Win10 Terminal Powershell 安装 scoop 失败 1. 网络问题 将通常使用的 get.scoop.sh 改为 scoop.201704.xyz (使用scoop国内镜像优化库) 2. 报错 Running the installer as administrator is disabled b…...
【Linux】iptables命令的基本使用
语法格式 iptables [-t 表名] 管理选项 [链名] [条件匹配] [-j 目标动作或跳转]注意事项 不指定表名时,默认使用 filter 表不指定链名时,默认表示该表内所有链除非设置规则链的缺省策略,否则需要指定匹配条件 设置规则内容 -A:…...
ROS2笔记-2:第一个在Gazebo中能动的例子
第一个在Gazebo中能动的例子 写在前面X-windows 与cursorSimple ROS2 RobotProject StructureFeaturesDependenciesInstallationUsageRobot DescriptionMovement PatternCustomization 解释运行的效果启动控制机器人移动 代码 写在前面 第一个在Gazebo中能动的例子 是指对我来…...
剑指Offer(数据结构与算法面试题精讲)C++版——day6
剑指Offer(数据结构与算法面试题精讲)C版——day6 题目一:不含重复字符的最长子字符串题目二:包含所有字符的最短字符串题目三:有效的回文 题目一:不含重复字符的最长子字符串 这里还是可以使用前面&#x…...
人工智能起源:从图灵到ChatGPT
如今作诗AI的祖先是打卡机、缓慢行动的机器人和神一般的游戏引擎。 “第一台能产生自己想法”的机器问世近70年后,人类的大脑仍然没有真正的对手 1958年冬天,30岁的心理学家弗兰克 罗森布拉特(Frank Rosenblatt)正从康奈尔大学前…...
vue2打包部署到nginx,解决路由history模式下页面空白问题
项目使用的是vue2,脚手架vue-cli 4。 需求:之前项目路由使用的是hash,现在要求调整为history模式,但是整个过程非常坎坷,遇到了页面空白问题。现在就具体讲一下这个问题。 首先,直接讲路由模式由hash改为…...
ASM磁盘组替换
1.udev绑定新磁盘 udevadm control --reload-rules udevadm trigger [rootrac1 ~]# ll /dev/asm* brw-rw---- 1 grid asmadmin 8, 64 Apr 4 13:55 /dev/asm-arc brw-rw---- 1 grid asmadmin 8, 48 Apr 4 14:04 /dev/asm-data brw-rw---- 1 grid asmadmin 8, 80 Apr 4 14:03…...
ZooKeeper集群部署(容器)
文章目录 一、ZooKeeper基本概念二、ZooKeeper集群部署1、前置环境准备2、ZooKeeper伪集群部署(可选)3、ZooKeeper集群部署(可选) 三、ZooKeeper集群验证1、查看集群角色2、数据同步测试3、选举leader测试 一、ZooKeeper基本概念 ZooKeeper是一个分布式且开源的分布式应用程序…...
Scala语言基础:开启你的 Flink 之旅
引言:为什么选择Scala? 大家好,我是心海! Scala(Scalable Language)是一门融合面向对象与函数式编程的现代语言。它像瑞士军刀一样灵活——既能编写简洁的脚本,又能构建复杂的分布式系统。想象你…...
C++计算机视觉实战:100个实际案例分析
【2025最新版】C计算机视觉100个案例算法汇总(长期更新版) 本文是基于C的项目实战,需要具备一点C基础与深度学习基础,并且对opencv、open3d、tensorrt、onnxruntime有一定了解。 你们的订阅是我更新的动力,请订阅、点赞、收藏。 1.Yolov5实…...
V-SHOW和箭头函数在VUE项目的踩坑点
v-show和v-if v-show控制显示隐藏是通过控制CSS的display决定dom节点的显示和隐藏。v-if通过控制dom节点的渲染与否实现元素的显示和隐藏。 在vue中,template标签不参与页面渲染,也不会破坏代码的层级结构,所以多和v-if结合控制元素的显示隐…...
vscode使用方式
一、常用快捷键与代码操作 注释与代码排版 行注释:Ctrl /;块注释:Shift Alt A。 代码缩进:选中代码段后按 Tab(右移)或 Shift Tab(左移)。 代码导航与编辑 快速跳转文件&…...
使用OpenSceneGraph生成3D数据格式文件
OpenSceneGraph (OSG) 提供了多种方式来生成和导出3D数据格式文件。以下是详细的生成方法和示例代码: 一、基本文件生成方法 1. 使用osgDB::writeNodeFile函数 这是最直接的生成方式,支持多种格式: #include <osgDB/WriteFile>osg:…...
网络安全应急响应-系统排查
在网络安全应急响应中,系统排查是快速识别潜在威胁的关键步骤。以下是针对Windows和Linux系统的系统基本信息排查指南,涵盖常用命令及注意事项: 一、Windows系统排查 1. 系统信息工具(msinfo32.exe) 命令执行&#x…...
如何判断JVM中类和其他类是不是同一个类
如何判断JVM中的类是否为同一个类 在Java虚拟机(JVM)中,判断两个类是否相同需要同时满足以下三个条件: 1. 类全限定名必须相同 包括包名类名的完整路径必须完全一致例如:java.lang.String和com.example.String被视为不同类 2. 加载该类的…...
Prolog语言的共识算法
Prolog语言的共识算法 引言 在分布式计算和区块链技术的背景下,共识算法作为确保节点一致性的重要机制,受到了广泛关注。传统的共识算法如PBFT( Practical Byzantine Fault Tolerance )等在许多系统中得到了应用,但随…...
AIDD-深度学习 MetDeeCINE 破译代谢调控机制
深度学习 MetDeeCINE 破译代谢调控机制 目录 使用 FEP/REMD 和 DFT 方法准确预测药物多靶点绝对结合自由能的新途径。Scorpio 框架利用对比学习优化核苷酸序列表示,提升基因组分析效率,尤其在未知序列的分类和泛化能力上表现出色。LPM 模型整合多模态扰…...
pyTorch框架-迁移学习-实现四种天气图片多分类问题
目录 1.导包 2.加载原数据、创建训练与测试目录路径 3.用transforms.Compose、torchvision.datasets.ImageFolder数据预处理 4.加载预训练好的模型 5.固定与修改预训练模型的参数 6.将模型拷到GPU上 7.定义优化器与损失函数 8.定义训练过程 9.测试运行 10.测试结果…...
python1(基础语法输入输出)
输入输出: 输出 print(*objects, sep , end\n, filesys.stdout, flushFalse) objects:这是一个可变参数,意味着你可以传入任意数量的对象。print 函数会将这些对象依次打印出来。在函数内部,这些对象会被转换为字符串形式。 se…...
Linux:页表详解(虚拟地址到物理地址转换过程)
文章目录 前言一、分页式存储管理1.1 虚拟地址和页表的由来1.2 物理内存管理与页表的数据结构 二、 多级页表2.1 页表项2.2 多级页表的组成 总结 前言 在我们之前的学习中,我们对于页表的认识仅限于虚拟地址到物理地址转换的桥梁,然而对于具体的转换实现…...
OpenStack Yoga版安装笔记(十七)安全组笔记
一、安全组与iptables的关系 OpenStack的安全组(Security Group)默认是通过Linux的iptables实现的。以下是其主要实现原理和机制: 安全组与iptables的关系 OpenStack的安全组规则通过iptables的规则链实现。每条安全组规则会被转换为相应的i…...
开源身份和访问管理方案之keycloak(三)keycloak健康检查(k8s)
文章目录 开源身份和访问管理方案之keycloak(三)keycloak健康检查启用运行状况检查 健康检查使用Kubernetes下健康检查Dockerfile 中 HEALTHCHECK 指令 健康检查Docker HEALTHCHECK 和 Kubernetes 探针 开源身份和访问管理方案之keycloak(三&…...
棋盘问题(DFS)
在一个给定形状的棋盘(形状可能是不规则的)上面摆放棋子,棋子没有区别。 要求摆放时任意的两个棋子不能放在棋盘中的同一行或者同一列,请编程求解对于给定形状和大小的棋盘,摆放 kk 个棋子的所有可行的摆放方案数目 C…...
verilog学习--1、语言要素
先看一个例子 /*This is first Verilog progaram*/ timescale 1ns/1ns module HalfAdder(A,B,Sum,Carry);input A,B;output Sum, Carry; /**/assign #2 SumA^B;assign #5 CarryA&B; endmodule; Verilog以module为单位编写,每个文件一个module&#…...