科技｜阿里達摩院釋放「文本生成視頻模型」利用AI生成影片

阿里巴巴（9988）旗下達摩院近日低調地在魔搭社區（ModelScope）放出了「文本生成視頻大模型」。據內媒報導，該模型由文本特徵提取、文本特徵到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這3個子網絡組成，整體模型參數約17億，支持英文輸入。擴散模型採用Unet3D結構，通過從純高斯噪聲視頻中，迭代去噪的過程，實現視頻生成的功能。

報導指，這個模型目前已經開放給用戶試玩，只要輸入一些簡單的描述詞，就可以看到生成的視頻效果，舉例輸入「A panda eating bamboo on a rock」，就可以看到一隻大熊貓坐在岩石上吃竹子的畫面。