北京生數(shù)科技股份有限公司(簡稱“生數(shù)科技”)4月10日宣布,公司完成近20億元B輪融資,由阿里云領(lǐng)投,中網(wǎng)投、九安海棠、好未來、光合創(chuàng)投等投資人戰(zhàn)略投資,星連資本、達(dá)泰資本、建發(fā)新興投資等原有股東追加投資。
生數(shù)科技成立于2023年3月,專注于自主研發(fā)多模態(tài)通用大模型及應(yīng)用,公司旗下Vidu系列視頻模型實現(xiàn)了聲畫同出、長時長、高時空一致性與電影級視覺品質(zhì)。隨著生成式AI步入新發(fā)展階段,公司宣布了通用世界模型戰(zhàn)略,致力于打造對數(shù)字世界和物理世界實現(xiàn)精準(zhǔn)建模、推理、預(yù)測和行動的通用智能體系。
生數(shù)科技創(chuàng)始人朱軍表示:“世界模型的核心,是讓AI具備對現(xiàn)實世界的統(tǒng)一表征與預(yù)測能力。視頻是記錄現(xiàn)實世界的重要載體,天然包含時間、空間、動作與因果關(guān)系等信息,是構(gòu)建這一能力的關(guān)鍵載體。我們希望通過統(tǒng)一的模型架構(gòu),打通從感知到行動的完整鏈路,構(gòu)建起貫通理解世界、生成世界與行動于世界的完整技術(shù)閉環(huán),使通用世界模型真正成為連接數(shù)字世界與物理世界的橋梁?!?/p>
去年用戶和收入超10倍增長
生數(shù)科技成立于2023年3月,核心成員來自清華大學(xué)人工智能研究院,公司核心業(yè)務(wù)是多模態(tài)通用大模型及應(yīng)用。2024年4月,生數(shù)科技在中關(guān)村論壇上發(fā)布中國首個全面對標(biāo)Sora的文生視頻大模型Vidu,隨后于2024年7月全球上線Vidu,此后連續(xù)發(fā)布Vidu Q1、Vidu Q2和Vidu Q3版本。
其中,Vidu Q3模型被稱為“為劇而生”視頻模型,支持16秒聲畫同出、1080P高清畫質(zhì)、精準(zhǔn)切鏡、多國文字渲染等。在國際權(quán)威AI基準(zhǔn)測試機構(gòu)Artificial Analysis最新公布的榜單中,Vidu Q3排名中國第一、全球第二。
Vidu系列模型通過MaaS(Vidu AI開放平臺)和SaaS(Vidu Agent、Vidu Claw)等方式向全球開發(fā)者、創(chuàng)作者和企業(yè)提供服務(wù)。據(jù)生數(shù)科技披露,其用戶和業(yè)務(wù)覆蓋全球200多個國家和地區(qū),客戶及伙伴包括索尼電影、騰訊動漫、閱文集團(tuán)等,2025年實現(xiàn)用戶和收入超10倍增長。
企查查顯示,自成立以來,生數(shù)科技共完成8次融資。2026年2月,公司宣布完成超過6億元人民幣A+輪融資,由中關(guān)村科學(xué)城公司和星連資本領(lǐng)投,上市公司萬興科技、視覺中國、拓爾思進(jìn)行戰(zhàn)略投資,原有股東啟明創(chuàng)投、北京市人工智能產(chǎn)業(yè)投資基金等加碼跟投。
朱軍表示,多模態(tài)視頻模型的上限無限大,它不僅能應(yīng)用于數(shù)字內(nèi)容創(chuàng)作與交互,更能夠構(gòu)建起理解真實世界規(guī)律的世界模型,端到端支持機器決策。生數(shù)科技將依托Vidu在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域的扎實落地,不斷探尋和突破AI在物理世界的價值。
連接數(shù)字世界與物理世界
正如朱軍所言,多模態(tài)視頻模型可以躍遷到幫助AI理解真實世界規(guī)律的世界模型?;谠诙嗄B(tài)視頻模型技術(shù)的長期積累,生數(shù)科技正逐步向通用世界模型延展戰(zhàn)略布局。2025年12月,生數(shù)科技開源了基于視頻生成大模型的世界行動模型Motus。
根據(jù)復(fù)旦大學(xué)等高校的闡釋,所謂世界模型,即通過從感官數(shù)據(jù)中學(xué)習(xí)和預(yù)測運動、力以及空間關(guān)系等動態(tài)特性,來理解物理世界中事物的性質(zhì)、運行規(guī)律和空間特性。借助世界模型,AI從認(rèn)知、識別轉(zhuǎn)向理解、推理,是具身智能和客觀環(huán)境自主高效交互的基礎(chǔ)。
生數(shù)科技在3月下旬舉辦的2026中關(guān)村論壇年會上宣布了通用世界模型戰(zhàn)略,公司稱,將以基座世界模型為核心底層,向上延展出貫通數(shù)字空間與物理空間的雙軌體系,形成面向通用智能的核心基礎(chǔ)架構(gòu)。
其中,在數(shù)字空間,生數(shù)科技基于世界生成模型(WGM)打造視頻大模型產(chǎn)品Vidu。在物理空間,生數(shù)科技基于世界行動模型(WAM)構(gòu)建統(tǒng)一世界模型產(chǎn)品Motus。Motus作為真實世界具身智能的“大腦”,致力于解決傳統(tǒng)具身智能鏈路割裂、數(shù)據(jù)稀缺、泛化能力弱等核心痛點。
朱軍認(rèn)為,視頻是當(dāng)前最接近真實世界的數(shù)據(jù)形態(tài),是連接數(shù)字世界與物理世界的關(guān)鍵載體?;谶@一判斷,生數(shù)科技構(gòu)建了以視頻為核心的數(shù)據(jù)體系:從海量互聯(lián)網(wǎng)視頻,到第一視角操作視頻,再到機器人數(shù)據(jù),形成一個可擴(kuò)展的數(shù)據(jù)金字塔。
在生數(shù)科技B輪融資期間,光合創(chuàng)投合伙人蔡偉表示,通用世界模型正在成為繼大語言模型之后,通往AGI的下一條核心路徑。生數(shù)科技打通多模態(tài)感知與統(tǒng)一建模能力,在“理解—生成—行動”之間建立起完整閉環(huán),這不僅是技術(shù)上的跨越,更是范式上的重構(gòu)。從Vidu在數(shù)字世界的高效生成,到Motus在真實世界的泛化行動,這種雙軌推進(jìn),讓AI第一次具備了同時作用于虛擬與物理世界的能力。
圍繞世界模型這一行業(yè)熱點現(xiàn)象,復(fù)旦大學(xué)管理學(xué)院教授、信息管理與商業(yè)智能系系主任張誠在接受證券時報記者采訪時表示,AI“思考”的本質(zhì)是基于數(shù)據(jù)統(tǒng)計的概率預(yù)測,缺乏真正情感和對世界的深層認(rèn)知。問題的根源在于模型主要建立在語言數(shù)據(jù)之上,當(dāng)模型只通過文本學(xué)習(xí)世界時,其認(rèn)知邊界也被限制在語言所能表達(dá)的范圍內(nèi);而世界模型能讓系統(tǒng)通過多模態(tài)信息,包括視覺、聽覺、空間動態(tài)等去刻畫環(huán)境運行的規(guī)律。
“世界模型試圖讓系統(tǒng)通過多模態(tài)信息,視覺、聽覺、空間動態(tài)去刻畫環(huán)境運行的規(guī)律。”張誠表示,在研究和應(yīng)用層面,世界模型正逐步與具身智能、自動駕駛等領(lǐng)域形成交叉。一方面,這些應(yīng)用場景對環(huán)境理解、長期預(yù)測與因果一致性提出了更高要求;另一方面,相關(guān)模型在模擬真實世界動態(tài)方面的能力,也被視為邁向更通用智能形態(tài)的重要基礎(chǔ)。
校對:蘇煥文