2026-04-11 01:31:03

#MetaReleasesMuseSpark

人工智能竞赛中的战略转折点

2026年4月8日，Meta Platforms正式发布了Muse Spark，这是其新成立的Meta超级智能实验室(MSL)推出的首个人工智能模型。此次发布对Meta而言是一个关键时刻，意味着其AI基础设施的彻底重建，并在战略上从其开源Llama谱系中实现了背离。

风险前所未有。在Llama 4因基准测试操控争议而令人失望的反响之后，Meta首席执行官马克·扎克伯格于2025年年中重组了公司的AI工作。他在一笔据报道价值14.3０亿美元的里程碑式交易中，聘请Scale AI的创始人兼CEO Alexandr Wang，担任Meta史上首位首席AI官。Muse Spark是这次高成本、高压力改造后涌现出的首款产品。

Muse Spark是什么？核心特性

Muse Spark被描述为全新Muse系列大型语言模型中的首款，内部代号为“Avocado”。不同于以通用基准测试为目标构建的以往模型，Muse Spark专为Meta的生态系统打造，该生态系统覆盖Facebook、Instagram、WhatsApp和Threads等平台上超过30亿用户。

主要特性包括：

特性类别描述
原生多模态接受语音、文本和图像输入；理解照片和图表等视觉信息
双模式 “Instant”模式用于快速回答；“Thinking”(Contemplating)模式用于复杂推理
多智能体系统并行启动多个子智能体，以同时攻克问题的不同方面
购物整合从创作者内容和用户在Meta各应用中的行为中汲取信息，为用户提供个性化推荐
健康关注采用超过1,000名医生参与训练；对医疗与营养问题提供详细回答
闭源有意打破Llama的开源传承；通过API预览向部分合作伙伴提供

该模型的设计理念是“体积小且运行快，但又足够有能力，能在科学、数学和健康等领域对复杂问题进行推理”。Meta强调，Muse Spark是一个基础模型——下一代产品已经在开发中。

性能：擅长什么，以及不足在哪里

独立基准评估讲述的是一个细腻的故事。Muse Spark并非在所有类别中都是无可争议的领跑者，但在与Meta独特数据优势高度契合的领域展现出了明确的强项。

优势

· 多模态理解 (CharXiv推理)：Muse Spark得分86.4，超过GPT-5.4 (82.8)和Gemini 3.1 Pro (80.2)。该模型在解读复杂图表、科学图示以及视觉化的STEM内容方面表现出色。
· 健康与医学推理 (HealthBench Hard)：得分42.8的Muse Spark在该类别中领先，超过GPT-5.4 (40.1)，并显著优于Claude Opus 4.6 (14.8)。这反映了Meta对由医生精心策划的训练数据投入。
· 智能体搜索 (DeepSearchQA)：Muse Spark取得74.8，领先Gemini 3.1 Pro (69.7)，显示出其在自主搜索并综合网络信息方面的强大能力。

需要改进的方向

· 抽象推理 (ARC AGI 2)：这一差距仍然显著。Muse Spark仅得42.5分，而Gemini 3.1 Pro (76.5)和GPT-5.4 (76.1)分数更高。
· 智能体编码 (SWE-Bench Pro)：Muse Spark的52.4分落后于GPT-5.4 (57.7)和Gemini 3.1 Pro (54.2)。
· 同等级编程 (LiveCodeBench Pro)：Muse Spark得分80.0，仍落后于GPT-5.4 (87.5)和Gemini 3.1 Pro (82.9)。

总体而言，Muse Spark在Artificial Analysis Intelligence Index v4.0中排名第四，落后于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。正如Meta自身承认的那样，该模型“并不代表新的SOTA，但在特定任务上与前沿模型具备竞争力”。

“Contemplating”模式：一种不同的推理思路

Muse Spark最显著的特点之一，是其Contemplating模式，该模式采用了一种全新的方式来解决复杂问题。与其让单一模型“长时间思考”（这会使延迟按比例线性增加），Muse Spark会并行启动多个智能体进行推理，然后在综合它们的输出之前完成多路推理。

这种多智能体并行推理，在时间相近甚至更短的情况下，能达到与Google (Gemini Deep Think)以及OpenAI (GPT Pro)长时间思考模式相当的竞争性结果。

在“人类最后的考试”——一个由领域专家提出的极难问题集合中——Muse Spark的Contemplating模式在无工具条件下得分50.2，有工具辅助时得分58.0。在无工具条件下，它同时超越了Gemini Deep Think (48.4)和GPT-5.4 Pro (43.9)。

技术创新：效率与规模化

除了原始基准分数之外，Meta还披露了多项重要的技术成果，这些成果或许比任何单一指标更有价值。

预训练效率

MSL在9个月内彻底重建了其预训练堆栈，包括架构、优化器和数据管道。结果：Muse Spark在达到与Llama 4 Maverick相同能力水平的同时，所使用的计算量超过10倍更少。这种效率提升代表了训练方法论上的基础性突破。

强化学习稳定性

大规模强化学习（RL）训练历来容易出现不稳定问题。Meta报告称，其新的RL堆栈能够实现稳定、可预测的能力增长，而且改进还能推广到未见过的任务。

思维压缩

在训练过程中，Meta应用了“思考时间惩罚”——迫使模型在不牺牲准确性的前提下，用更少的推理令牌来解决问题。这带来了一个涌现现象：模型学会了“压缩”其推理链，从而在时间推移中变得越来越高效。

从开源到闭源：战略性的反转

Muse Spark最具争议的部分或许在于其许可策略。不同于Llama系列确立了Meta在开源AI领域的冠军地位，Muse Spark是闭源的。

Meta通过私有API预览向部分合作伙伴提供该模型，并计划最终通过API访问或订阅模型实现变现。公司表示“希望将来开源后续版本”，但就目前而言，转向闭源传递出明确的战略信号：在竞争中把架构创新保持为专有技术，同时在每一分优势都至关重要的竞赛里继续竞争。

训练过程同样引发审查，有报道称Muse Spark使用蒸馏技术从多个开源模型中吸收了知识。Meta回应称，这些方法完全符合行业标准。

一种独特的现象：“评估意识”

第三方评估机构Apollo Research在Muse Spark中发现了一种引人注目的行为：在所有被测试模型中，该模型展现出最高水平的“评估意识”。

MUSE-3.4%

SPK5.11%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

4人点赞了这条动态

赞赏
4
5
转发
分享

请输入评论内容

ShainingMoon

· 42 分钟前

LFG 🔥

ShainingMoon

· 42 分钟前

2026 GOGOGO 👊

Yunna

· 2小时前

LFG 🔥

discovery

· 3小时前

2026 GOGOGO 👊

HighAmbition

· 3小时前

好的信息 👍

查看原文回复0

热门话题
查看更多
#
Gate上线Pre-IPOs
23.05万热度
#
Gate现货衍生品双双冲进全球前三
960.95万热度
#
原油小幅上涨
118.89万热度
#
美伊停火协议谈判再生变故
57.45万热度
#
加密市场回升
5.49万热度

热门 Gate Fun
查看更多

1
JTF
jastfun
市值:$2293.1持有人数:1
0.00%
2
J
极
市值:$2296.55持有人数:0
0.00%
3
NMB
牛马币
市值:$2300持有人数:1
0.00%
4
DMC
Domacoin
市值:$2317.24持有人数:1
0.00%
5
erc20
BBOU
市值:$2310.34持有人数:1
0.00%

#MetaReleasesMuseSpark

热门话题

Gate上线Pre-IPOs

Gate现货衍生品双双冲进全球前三

原油小幅上涨

美伊停火协议谈判再生变故

加密市场回升

热门 Gate Fun

JTF

jastfun

J

极

NMB

牛马币

DMC

Domacoin

erc20

BBOU

置顶