當?shù)貢r間4月8日,Meta發(fā)布多模態(tài)推理模型Muse Spark,標志著Meta AI策略轉型后的階段性成果。
“這是Meta Superintelligence Labs(超級智能實驗室)開發(fā)的首款Muse模型,也是我們從零開始對AI業(yè)務全面改造后的首個產(chǎn)品。為了支持進一步擴展,從研究到模型訓練、基礎設施建設,我們正對整個技術棧進行戰(zhàn)略投資?!盡eta在一篇文章中介紹。
從模型表現(xiàn)看,Meta介紹,Muse Spark在多模態(tài)感知、推理、健康和代理(agentic)任務方面的表現(xiàn)具有競爭力。例如,在多模態(tài)基準測試CharXiv Reasoning中,Muse Spark思考模式得分為86.4,超過GPT-5.4的82.8和Gemini 3.1 Pro High的80.2,但在其他多個多模態(tài)基準測試中,其得分低于Gemini 3.1 Pro High。

在多項與推理能力相關的基準測試中,Muse Spark思考模式的部分得分超過Grok 4.2,但得分均低于Gemini 3.1 Pro High和GPT-5.4。與代理能力相關,Muse Spark思考模式DeepSearchQA測試得分74.8,超過Gemini 3.1 Pro High的69.7和GPT-5.4的73.6,在GDPval-AA Elo測試中的得分超過Gemini 3.1 Pro High和Grok 4.2,但在SWE-Bench Verified等四項基準測試中的得分接近或低于Opus 4.6、Gemini 3.1 Pro High和GPT-5.4。
從基準測試結果看,Muse Spark思考模式并未全面趕超谷歌和OpenAI的前沿模型,但在部分測試中的表現(xiàn)能與當前第一梯隊的模型“掰手腕”。能力更強的將是尚未上線的沉思模式。Meta透露,Muse Spark沉思模式在無工具Humanity’s Last Exam(人類終極考試)和FrontierScience Research(前沿科學研究)中得分超過Gemini 3.1和GPT-5.4 Pro。
去年Meta的AI策略經(jīng)歷了轉向。先是去年4月Llama 4被質(zhì)疑訓練測試集作弊、實際性能不及預期,Meta首席人工智能科學家楊立昆(Yann LeCun)又被質(zhì)疑反對主流LLM路線、導致Meta在AI競爭中落后。多重刺激下,Meta對AI團隊進行了重組。去年6月,Meta以近150億美元的價格注資AI初創(chuàng)公司Scale AI,Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)加入Meta,擔任超級智能實驗室負責人,Meta CEO扎克伯格隨即開啟AI人才爭奪戰(zhàn),為超級智能實驗室招攬人才。去年底,在Meta戰(zhàn)略轉型中,楊立昆宣布將離職。
AI戰(zhàn)略的劇烈變動不僅涉及組織變動和人才流動,也涉及AI發(fā)展的方向。據(jù)楊立昆離職后透露,Meta管理層執(zhí)著于穩(wěn)妥、已被驗證的方案,將重點放在大語言模型開發(fā)上,而不認可一些新穎的創(chuàng)意。
無論如何,這場劇烈的AI策略轉向后,Muse Spark成為Meta拿出的第一個果實。此前Meta的Llama系列模型開源,而Muse Spark為閉源模型,新模型的推出也被外界視為Meta從開源到閉源的轉向。美股4月8日收盤,Meta股價上漲6.5%。
不僅在模型策略上進行了轉向,Meta在AI基礎設施投入方面也有大動作。Meta是AI基礎設施投入最激進的美國科技公司之一,Meta此前預告,2026年資本開支可能相比上一年翻一倍,預計在1150億美元至1350億美元之間。
不過,大模型競爭也趨于激烈,市場預計4月可能還會有多個新模型上線,Meta仍面臨競爭對手的挑戰(zhàn)。
雖然Muse Spark部分基準測試得分超過Anthropic的Opus 4.6,但Anthropic近期也取得新進展,該公司近日稱未發(fā)布的前沿模型Mythos Preview編碼能力達到了一個新的水準,有望重塑網(wǎng)絡安全領域。近日還有未經(jīng)證實的市場傳言稱,OpenAI的GPT-6可能在4月推出。4月8日,DeepSeek也低調(diào)更新了對話界面,新增“快速模式”和“專家模式”選項,被解讀為可能是V4版本上線的前奏。