4月8日,智譜正式發(fā)布GLM-5.1,并宣布正式開源。
二級市場上,港股開盤后智譜大漲,一度漲近18%,股價觸及925港元,截至發(fā)稿,漲幅小幅回至13.48%。
GLM-5.1是全球第一個在真實工程任務中驗證了8小時持續(xù)工作能力的開源模型。有別于當前以分鐘級交互為主的模型,GLM-5.1能夠在單次任務中持續(xù)、自主地工作長達8小時。過程中模型自主規(guī)劃、執(zhí)行、測試,碰壁時主動切換策略,出錯后自行修復,最終交付完整的工程級成果。
據了解,GLM-5.1是智譜迄今智能度排名居前的旗艦模型,也是目前全球領先的開源模型。GLM-5.1大幅提高了代碼能力,在完成長程任務方面提升尤為顯著。和此前分鐘級交互的模型不同,GLM-5.1能夠在一次任務中獨立、持續(xù)地工作超過8小時,期間自主規(guī)劃、執(zhí)行、自我進化,最終交付完整的工程級成果。
過去兩年,大模型行業(yè)用benchmark(基準測試)來衡量模型的智能程度。智譜指出,下一階段的衡量標準應該是“能工作多久”,即模型在長程任務(Long-Horizon Task)中的表現,能獨立完成多長時間的人類任務。
這對模型提出了更深層次的挑戰(zhàn)。在長程任務中保持穩(wěn)定輸出,模型面對的不只是更大的代碼量,而是一連串復雜的工程決策點:主動跑benchmark(基準測試)、定位瓶頸、修改方案、再跑測試。模型需要像一個真正的工程師一樣,形成“實驗→分析→優(yōu)化”的完整閉環(huán),而不是寫完一版代碼就停下來等人打分。
具體來看,用戶在涵蓋50個真實機器學習計算負載的KernelBench Level 3優(yōu)化基準上,讓GLM-5.1對每個負載獨立進行持續(xù)優(yōu)化。在超過24小時的不間斷迭代中,GLM-5.1自主完成了多輪編譯—測試—分析—重寫循環(huán),最終取得3.6倍的幾何平均加速比,顯著高于超torch.compile max-autotune模式的1.49倍。以上體現出GLM-5.1展現的長時間工作和自進化能力,其從單純的“代碼生成器”進化為“主動的系統(tǒng)優(yōu)化器”。
這一結果亦表明,在GPU內核優(yōu)化這一傳統(tǒng)上高度依賴專家經驗的領域,AI模型已經展現出從問題分析、方案設計到迭代調優(yōu)的端到端自主工作能力。在GPU以及更廣泛的高性能計算領域,長期制約工程效率的優(yōu)化瓶頸正在被AI逐步打破。
智譜方面強調,延長模型的“有效工作時長”是提升智能體能力的一個基礎維度。在這條路上仍然有顯著的技術挑戰(zhàn):如何克服模型面對復雜任務的上下文焦慮、如何在數千次工具調用后保持執(zhí)行的一致性、如何更早地跳出局部最優(yōu),以及更重要的是如何在沒有確定數值指標的任務上建立可靠的自我評估機制。
“GLM-5.1是我們在這個方向上邁出的一步,我們會持續(xù)推進?!敝亲V表示。
值得一提的是,智譜正式發(fā)布GLM-5.1之際,模型聚合平臺OpenRouter顯示,智譜GLM再度提價10%,調價后,GLM-5.1在Coding場景的緩存命中Token價格已接近Anthropic旗下Claude Sonnet4.6水平。
據悉,這是國產大模型首次在核心場景實現與海外頭部廠商的價格對齊,一年前,國產大模型廠商還在以降價90%以上爭奪市場份額。這一轉折表明國產大模型不再單純依靠大幅降價爭奪市場,而是以性能溢價錨定國際基準。
據悉,GLM-5.1在編程能力上繼續(xù)保持領先,在SWE-bench Pro、Terminal-Bench、NL2Repo三大代碼評測基準的綜合平均分中,取得全球第三、國產第一、開源第一;在最接近真實軟件開發(fā)的SWE-bench Pro基準測試中更是實現國產模型首次超越Opus 4.6,刷新全球最佳成績。