4月8日,智譜正式發(fā)布GLM-5.1,并宣布正式開源。
二級市場上,港股開盤后智譜大漲,一度漲近18%,截至發(fā)稿,漲幅小幅回至14.78%。

GLM-5.1是在真實(shí)工程任務(wù)中驗(yàn)證了8小時(shí)持續(xù)工作能力的開源模型。有別于當(dāng)前以分鐘級交互為主的模型,GLM-5.1能夠在單次任務(wù)中持續(xù)、自主地工作長達(dá)8小時(shí)。過程中模型自主規(guī)劃、執(zhí)行、測試,碰壁時(shí)主動切換策略,出錯(cuò)后自行修復(fù),最終交付完整的工程級成果。
據(jù)了解,GLM-5.1是智譜迄今智能度排名居前的旗艦?zāi)P?,也是目前全球領(lǐng)先的開源模型。GLM-5.1大幅提高了代碼能力,在完成長程任務(wù)方面提升尤為顯著。
過去兩年,大模型行業(yè)用benchmark(基準(zhǔn)測試)來衡量模型的智能程度。智譜指出,下一階段的衡量標(biāo)準(zhǔn)應(yīng)該是“能工作多久”,即模型在長程任務(wù)(Long-Horizon Task)中的表現(xiàn),能獨(dú)立完成多長時(shí)間的人類任務(wù)。
這對模型提出了更深層次的挑戰(zhàn)。在長程任務(wù)中保持穩(wěn)定輸出,模型面對的不只是更大的代碼量,而是一連串復(fù)雜的工程決策點(diǎn):主動跑benchmark(基準(zhǔn)測試)、定位瓶頸、修改方案、再跑測試。模型需要像一個(gè)真正的工程師一樣,形成“實(shí)驗(yàn)→分析→優(yōu)化”的完整閉環(huán),而不是寫完一版代碼就停下來等人打分。
具體來看,用戶在涵蓋50個(gè)真實(shí)機(jī)器學(xué)習(xí)計(jì)算負(fù)載的KernelBench Level 3優(yōu)化基準(zhǔn)上,讓GLM-5.1對每個(gè)負(fù)載獨(dú)立進(jìn)行持續(xù)優(yōu)化。在超過24小時(shí)的不間斷迭代中,GLM-5.1自主完成了多輪“編譯—測試—分析—重寫”循環(huán),最終取得3.6倍的幾何平均加速比,顯著高于超torch.compile max-autotune模式的1.49倍。以上體現(xiàn)出GLM-5.1展現(xiàn)的長時(shí)間工作和自進(jìn)化能力,其從單純的“代碼生成器”進(jìn)化為“主動的系統(tǒng)優(yōu)化器”。
這一結(jié)果亦表明,在GPU內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗(yàn)的領(lǐng)域,AI模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計(jì)到迭代調(diào)優(yōu)的端到端自主工作能力。在GPU以及更廣泛的高性能計(jì)算領(lǐng)域,長期制約工程效率的優(yōu)化瓶頸正在被AI逐步打破。
智譜方面強(qiáng)調(diào),延長模型的“有效工作時(shí)長”是提升智能體能力的一個(gè)基礎(chǔ)維度。在這條路上仍然有顯著的技術(shù)挑戰(zhàn):如何克服模型面對復(fù)雜任務(wù)的上下文焦慮、如何在數(shù)千次工具調(diào)用后保持執(zhí)行的一致性、如何更早地跳出局部最優(yōu),以及更重要的是如何在沒有確定數(shù)值指標(biāo)的任務(wù)上建立可靠的自我評估機(jī)制。
“GLM-5.1是我們在這個(gè)方向上邁出的一步,我們會持續(xù)推進(jìn)?!敝亲V表示。
值得一提的是,智譜正式發(fā)布GLM-5.1之際,模型聚合平臺OpenRouter顯示,智譜GLM再度提價(jià)10%,調(diào)價(jià)后,GLM-5.1在Coding場景的緩存命中Token價(jià)格已接近Anthropic旗下Claude Sonnet4.6水平。
據(jù)悉,這是國產(chǎn)大模型首次在核心場景實(shí)現(xiàn)與海外頭部廠商的價(jià)格對齊,一年前,國產(chǎn)大模型廠商還在以降價(jià)90%以上爭奪市場份額。這一轉(zhuǎn)折表明國產(chǎn)大模型不再單純依靠大幅降價(jià)爭奪市場,而是以性能溢價(jià)錨定國際基準(zhǔn)。
