阿里巴巴(9988)旗下達摩院近日低調地在魔搭社區(ModelScope)放出了「文本生成視頻大模型」。據內媒報導,該模型由文本特徵提取、文本特徵到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這3個子網絡組成,整體模型參數約17億,支持英文輸入。擴散模型採用Unet3D結構,通過從純高斯噪聲視頻中,迭代去噪的過程,實現視頻生成的功能。
報導指,這個模型目前已經開放給用戶試玩,只要輸入一些簡單的描述詞,就可以看到生成的視頻效果,舉例輸入「A panda eating bamboo on a rock」,就可以看到一隻大熊貓坐在岩石上吃竹子的畫面。
不過,目前這個模型還不支持中文輸入,而且生成的視頻長度多在2至4秒,等待時間從20多秒到1分多鐘不等,畫面的真實度、清晰度以及長度等方面還有待提升。