7月28日晚,阿里AI“四連發(fā)”再落一子,電影級(jí)視頻生成模型通義萬(wàn)相Wan2.2正式開(kāi)源,并全面接入通義APP。手機(jī)用戶只需在通義APP中輸入文本或圖片,即可化身“AI導(dǎo)演”,借助Wan2.2首創(chuàng)的美學(xué)控制系統(tǒng),生成具備電影級(jí)質(zhì)感的1080P高清視頻。目前,用戶單次可生成5秒視頻,并可通過(guò)多輪提示詞進(jìn)一步完成短劇制作。未來(lái),通義萬(wàn)相還將繼續(xù)提升單次視頻生成的時(shí)長(zhǎng),讓視頻創(chuàng)作更高效。
據(jù)介紹,Wan2.2首創(chuàng)的美學(xué)控制系統(tǒng),直接將光影、色彩、鏡頭語(yǔ)言三大電影美學(xué)元素裝進(jìn)模型,可以隨意組合60多個(gè)直觀可控的參數(shù),在構(gòu)圖、微表情、復(fù)雜調(diào)度等能力上媲美專業(yè)電影水平。例如,用戶輸入“黃昏”“柔光”“邊緣光”“暖色調(diào)”“中心構(gòu)圖”等關(guān)鍵詞,模型可自動(dòng)生成落日余暉的浪漫畫(huà)面;使用“冷色調(diào)”“硬光”“平衡構(gòu)圖”“低角度”的組合,則可以生成接近科幻片的畫(huà)面效果。同時(shí),Wan2.2還支持智能美學(xué)詞響應(yīng)、智能參數(shù)聯(lián)動(dòng),用戶只需簡(jiǎn)單描述,模型即可解析創(chuàng)作意圖,并自動(dòng)協(xié)調(diào)相關(guān)參數(shù),大幅提升生成效率。
此外,Wan2.2在人物面部表情、多人交互、復(fù)雜運(yùn)動(dòng)等維度上也實(shí)現(xiàn)了顯著提升。例如,模型不僅能生成“大笑”“驚恐”等經(jīng)典情緒,還能更細(xì)膩地刻畫(huà)“思考時(shí)不經(jīng)意的挑眉”“強(qiáng)忍淚水時(shí)的嘴唇顫抖”等精細(xì)微表情,增強(qiáng)畫(huà)面的情緒表現(xiàn)力。Wan2.2還深度優(yōu)化了對(duì)力學(xué)、光學(xué)、流體力學(xué)等物理規(guī)律的模擬,可精準(zhǔn)還原物體碰撞、光影折射、流體流動(dòng)等真實(shí)動(dòng)態(tài),顯著提升了視頻生成的真實(shí)感與可控性。
案例1-輸入提示詞:視頻展示了一位三十多歲的黑人女性在黃昏色調(diào)的復(fù)古濾鏡下,平靜地坐在行駛中的地鐵車廂內(nèi)。周圍人群來(lái)回走動(dòng),形成明顯的運(yùn)動(dòng)模糊,而她始終保持清晰,象征著混亂中的靜止。柔和的光線與電影畫(huà)質(zhì)營(yíng)造出喜怒無(wú)常的環(huán)境氛圍,突顯她在喧囂世界中的沉穩(wěn)與內(nèi)斂,呈現(xiàn)出強(qiáng)烈的現(xiàn)實(shí)主義風(fēng)格。通義萬(wàn)相Wan2.2即可精準(zhǔn)理解提示詞中的美學(xué)詞,并生成一段復(fù)古且富有文藝感的視頻。
案例2-輸入提示詞:白天,晴天光,邊緣光,暖色調(diào),低飽和度,極端全景,平衡構(gòu)圖,畫(huà)面中有兩名穿著宇航服的人,他們正站在一片廣闊的水域中。他們都穿著白色為主、帶有深色拼接和標(biāo)記的厚重宇航服,并頭戴配有面罩的頭盔。位于前方的人正朝著觀看者的方向涉水前行,水面淹及他的大腿,他的面部表情嚴(yán)肅。另一人站在他身后稍遠(yuǎn)的位置,同樣身處水中。在他們身后,一艘外形具有未來(lái)感的飛行器停泊在水面上。這艘飛行器有著扁平、寬大的機(jī)翼和棱角分明的設(shè)計(jì)。整個(gè)場(chǎng)景的背景是布滿云彩的天空和無(wú)邊無(wú)際的水面。通義萬(wàn)相Wan2.2可生成一段復(fù)刻電影《星際穿越》中宇航員在米勒星球的經(jīng)典畫(huà)面。
Wan2.2此次開(kāi)源的文生視頻模型和圖生視頻模型均為業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B,均由高噪聲專家模型和低噪專家模型組成,分別負(fù)責(zé)視頻的整體布局和細(xì)節(jié)完善,在同等參數(shù)規(guī)模下,計(jì)算資源消耗降低約50%,有效緩解了視頻生成處理Token過(guò)長(zhǎng)帶來(lái)的算力壓力,可進(jìn)一步提升生成效率和用戶體驗(yàn)。
自今年2月以來(lái),通義萬(wàn)相已連續(xù)開(kāi)源文生視頻、圖生視頻、首尾幀生視頻和全能編輯等多款模型,相關(guān)功能均可在通義APP直接體驗(yàn)。
聲明:本站轉(zhuǎn)載此文目的在于傳遞更多信息,并不代表贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容,本網(wǎng)站對(duì)此聲明具有最終解釋權(quán)。