DoNews4月29日消息,商湯科技正式發(fā)布并開源商湯日日新SenseNova U1 系列原生理解生成統(tǒng)一模型。它基于商湯于今年三月份自主研發(fā)的 NEO-unify架構,在單一模型架構上統(tǒng)一了多模態(tài)理解、推理與生成。
NEO-unify架構徹底摒棄了主流的拼接式,去除了視覺編碼器(VE)和變分自編碼器(VAE),重新構建了統(tǒng)一的表征空間,并且深入融入每一層計算中,從而實現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。
SenseNova U1系列模型能夠將語言與視覺信息作為統(tǒng)一的復合體直接建模,實現(xiàn)語言和視覺信息的高效協(xié)同,讓理解與生成能力同步增強,在保留語義豐富度的同時,維持像素級的視覺保真度。
在邏輯推理與空間智能等方向上,它能夠深度理解物理世界的復雜布局與精細關系;在未來,它還能為機器人提供具身大腦,實現(xiàn)在單一模型閉環(huán)內完成從復雜環(huán)境感知、邏輯推演到精準任務執(zhí)行的全過程,為推動技術與產(chǎn)業(yè)發(fā)展提供重要基礎與關鍵引擎。