亚洲天堂在线日,精品少妇人妻一区二区,日韩三级.com,久久久卡一卡,一区日韩高清无久久,黄色动图日韩久久网,日韩一区二区精品av,久久综合福利院,激情内射网站在线观看

Meta策略轉向后首個模型發(fā)布:部分指標超GPT-5.4,尚未全面領先
來源:第一財經(jīng)作者:鄭栩彤2026-04-09 14:01
字號
超大
標準
當?shù)貢r間4月8日,Meta發(fā)布多模態(tài)推理模型Muse Spark,標志著Meta AI策略轉型后的階段性成果。

當?shù)貢r間4月8日,Meta發(fā)布多模態(tài)推理模型Muse Spark,標志著Meta AI策略轉型后的階段性成果。

“這是Meta Superintelligence Labs(超級智能實驗室)開發(fā)的首款Muse模型,也是我們從零開始對AI業(yè)務全面改造后的首個產(chǎn)品。為了支持進一步擴展,從研究到模型訓練、基礎設施建設,我們正對整個技術棧進行戰(zhàn)略投資?!盡eta在一篇文章中介紹。

從模型表現(xiàn)看,Meta介紹,Muse Spark在多模態(tài)感知、推理、健康和代理(agentic)任務方面的表現(xiàn)具有競爭力。例如,在多模態(tài)基準測試CharXiv Reasoning中,Muse Spark思考模式得分為86.4,超過GPT-5.4的82.8和Gemini 3.1 Pro High的80.2,但在其他多個多模態(tài)基準測試中,其得分低于Gemini 3.1 Pro High。

Muse Spark的基準測試分數(shù)

在多項與推理能力相關的基準測試中,Muse Spark思考模式的部分得分超過Grok 4.2,但得分均低于Gemini 3.1 Pro High和GPT-5.4。與代理能力相關,Muse Spark思考模式DeepSearchQA測試得分74.8,超過Gemini 3.1 Pro High的69.7和GPT-5.4的73.6,在GDPval-AA Elo測試中的得分超過Gemini 3.1 Pro High和Grok 4.2,但在SWE-Bench Verified等四項基準測試中的得分接近或低于Opus 4.6、Gemini 3.1 Pro High和GPT-5.4。

從基準測試結果看,Muse Spark思考模式并未全面趕超谷歌和OpenAI的前沿模型,但在部分測試中的表現(xiàn)能與當前第一梯隊的模型“掰手腕”。能力更強的將是尚未上線的沉思模式。Meta透露,Muse Spark沉思模式在無工具Humanity’s Last Exam(人類終極考試)和FrontierScience Research(前沿科學研究)中得分超過Gemini 3.1和GPT-5.4 Pro。

去年Meta的AI策略經(jīng)歷了轉向。先是去年4月Llama 4被質(zhì)疑訓練測試集作弊、實際性能不及預期,Meta首席人工智能科學家楊立昆(Yann LeCun)又被質(zhì)疑反對主流LLM路線、導致Meta在AI競爭中落后。多重刺激下,Meta對AI團隊進行了重組。去年6月,Meta以近150億美元的價格注資AI初創(chuàng)公司Scale AI,Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)加入Meta,擔任超級智能實驗室負責人,Meta CEO扎克伯格隨即開啟AI人才爭奪戰(zhàn),為超級智能實驗室招攬人才。去年底,在Meta戰(zhàn)略轉型中,楊立昆宣布將離職。

AI戰(zhàn)略的劇烈變動不僅涉及組織變動和人才流動,也涉及AI發(fā)展的方向。據(jù)楊立昆離職后透露,Meta管理層執(zhí)著于穩(wěn)妥、已被驗證的方案,將重點放在大語言模型開發(fā)上,而不認可一些新穎的創(chuàng)意。

無論如何,這場劇烈的AI策略轉向后,Muse Spark成為Meta拿出的第一個果實。此前Meta的Llama系列模型開源,而Muse Spark為閉源模型,新模型的推出也被外界視為Meta從開源到閉源的轉向。美股4月8日收盤,Meta股價上漲6.5%。

不僅在模型策略上進行了轉向,Meta在AI基礎設施投入方面也有大動作。Meta是AI基礎設施投入最激進的美國科技公司之一,Meta此前預告,2026年資本開支可能相比上一年翻一倍,預計在1150億美元至1350億美元之間。

不過,大模型競爭也趨于激烈,市場預計4月可能還會有多個新模型上線,Meta仍面臨競爭對手的挑戰(zhàn)。

雖然Muse Spark部分基準測試得分超過Anthropic的Opus 4.6,但Anthropic近期也取得新進展,該公司近日稱未發(fā)布的前沿模型Mythos Preview編碼能力達到了一個新的水準,有望重塑網(wǎng)絡安全領域。近日還有未經(jīng)證實的市場傳言稱,OpenAI的GPT-6可能在4月推出。4月8日,DeepSeek也低調(diào)更新了對話界面,新增“快速模式”和“專家模式”選項,被解讀為可能是V4版本上線的前奏。

責任編輯: 李志強
聲明:證券時報力求信息真實、準確,文章提及內(nèi)容僅供參考,不構成實質(zhì)性投資建議,據(jù)此操作風險自擔
下載"證券時報"官方APP,或關注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
為你推薦
用戶評論
登錄后可以發(fā)言
網(wǎng)友評論僅供其表達個人看法,并不表明證券時報立場
發(fā)表評論
暫無評論
時報熱榜
換一換
    熱點視頻
    換一換
    大同市| 绥中县| 游戏| 临江市| 霍林郭勒市| 泸水县| 张家界市| 建宁县| 旅游| 宣威市| 上高县| 台北县| 苍山县| 石景山区| 米林县| 获嘉县| 嘉义县| 余江县| 类乌齐县| 江都市| 隆安县| 丰台区| 新郑市| 扎囊县| 滦南县| 石城县| 彭山县| 朝阳区| 临安市| 长垣县| 正宁县| 正蓝旗| 西华县| 沾益县| 蓝田县| 大安市| 内黄县| 中江县| 峨边| 获嘉县| 丹江口市|