阿里达摩院上线文本生成视频大模型仅支持英文输入|游民星空

据财经网报道，阿里达摩院已在AI模型社区“魔搭”ModelScope上线了“文本生成视频大模型”。

根据介绍，整体模型参数约17亿，目前只支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

记者发现，这个模型目前已经开放给用户试玩，只要输入一些简单的描述词，就可以看到生成的视频效果。比如输入“A panda eating bamboo on a rock”，就可以看到一只大熊猫坐在岩石上吃竹子的画面。

不过，目前这个模型还不支持中文输入，而且生成的视频长度多在2-4秒，等待时间从20多秒到1分多钟不等，画面的真实度、清晰度以及长度等方面还有待提升。

据了解，“魔搭”是阿里达摩院联手CCF开源发展委员会在2022云栖大会推出的AI模型社区，首批开源模型超过300个，包括视觉、语音、自然语言处理、多模态等AI主要方向。

责任编辑：益达兄

阿里达摩院上线文本生成视频大模型仅支持英文输入