最新超长AI视频模型!一句话即可生成120秒视频,免费开源!

图片[1]-最新超长AI视频模型!一句话即可生成120秒视频,免费开源!-零度博客

近日,由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。

亮点总结:

  1. 生成时长达2分钟(1200帧),超越以往模型
  2. 视频质量优秀
  3. 与业内其他主流模型实现无缝衔接
  4. 开源免费,便于开发者使用和二次开发

图片[2]-最新超长AI视频模型!一句话即可生成120秒视频,免费开源!-零度博客

 

免费在线试玩:【点击进入】 目测在线人太多需要排队

自己本地搭建教程:

1.安装并安装 Python 3.10 and CUDA >= 11.6 环境 【Python 3.10 】、【Cuda 下载

2.克隆开源项目至本地:

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/

StreamingT2V 最新版打包下载:网盘下载

3.安装必备的环境:

conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt

4.(可选)如果您的系统上缺少 FFmpeg,请安装 FFmpeg

 

conda install conda-forge::ffmpeg

5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下

 

6.文本转视频

cd t2v_enhanced
python inference.py --prompt="A cat running on the street"

如要使用其他基本模型,请添加--base_model=AnimateDiff参数。用于python inference.py --help更多选项

7.图片转视频

cd t2v_enhanced
python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD

推理时间

 

ModelscopeT2V作为基础模型

 

帧数 更快预览的推理时间 (256×256) 最终结果的推理时间 (720×720)
24帧 40秒 165秒
56帧 75秒 360秒
80帧 110秒 525秒
240帧 340秒 1610 秒(约 27 分钟)
600帧 860秒 5128 秒(约 85 分钟)
1200帧 1710 秒(约 28 分钟) 10225 秒(约 170 分钟)
AnimateDiff作为基础模型

 

帧数 更快预览的推理时间 (256×256) 最终结果的推理时间 (720×720)
24帧 50秒 180秒
56帧 85秒 370秒
80帧 120秒 535秒
240帧 350秒 1620 秒(约 27 分钟)
600帧 870秒 5138 秒(~85 分钟)
1200帧 1720 秒(约 28 分钟) 10235 秒(约 170 分钟)
SVD作为基本模型

 

帧数 更快预览的推理时间 (256×256) 最终结果的推理时间 (720×720)
24帧 80秒 210秒
56帧 115秒 400秒
80帧 150秒 565秒
240帧 380秒 1650 秒(约 27 分钟)
600帧 900秒 5168 秒(~86 分钟)
1200帧 1750 秒(约 29 分钟) 10265 秒(~171 分钟)

所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。当帧数超过 80 时,采用随机混合。对于随机混合,chunk_size和 的值overlap_size分别设置为 112 和 32。

更多的文生视频在线使用:【点击前往】 支持多模型自由切换!

THE END
喜欢就支持一下吧
点赞2176 分享
谁才是最强 AI !谷歌Bard、ChatGPT、Copilot 谁更胜一筹 ?PK下就知道答案.... | 零度解说-零度博客

谁才是最强 AI !谷歌Bard、ChatGPT、Copilot 谁更胜一筹 ?PK下就知道答案…. | 零度解说

https://youtu.be/OJFhu0_L6KA =============== 注册链接:https://www.freedidi.com/11088.html
admin的头像-零度博客admin
1.6W+1682
微软 Win 11 Edge 弹窗警告,阻止用户下载 Chrome 浏览器,默认浏览器该如何设置? | 零度解说-零度博客
Phi-3 免费开源的最强大模型!本地一键部署!!-零度博客

Phi-3 免费开源的最强大模型!本地一键部署!!

Phi-3  Mini Phi-3 Mini 是一个拥有 38 亿参数的轻量级、最先进的开放模型,使用 Phi-3 数据集进行训练,该数据集包含合成数据和经过过滤的公开网站数据,重点关注高质量和推理密集属性。 该模...
admin的头像-零度博客admin
2.1W+2176
使用 Adob​​e 的免费 AI 工具让嘈杂的录音听起来像专业音频-零度博客

使用 Adob​​e 的免费 AI 工具让嘈杂的录音听起来像专业音频

最近,Adobe 发布了一款免费的 AI 驱动的音频处理工具,可以通过消除背景噪音并使声音听起来更强劲来增强一些质量较差的录音。当它工作时,结果听起来就像是在专业的录音棚里用高质量麦克风录制...
admin的头像-零度博客admin
01.7W+1092
微软正式发布:Windows 11 IoT 企业版 LTSC 2024 !不挑硬件、速度快,10年支持,强烈推荐安装 | 零度解说-零度博客

微软正式发布:Windows 11 IoT 企业版 LTSC 2024 !不挑硬件、速度快,10年支持,强烈推荐安装 | 零度解说

https://youtu.be/ES0GqAJXYQE 1、Windows 11 IoT 企业版官方下载:https://www.freedidi.com/18143.html 2、VMware 虚拟机官方免费下载:https://www.freedidi.com/6937.html
Windows 11 神级功能,99%的人都不知道的效率神器! | 零度解说-零度博客
Wan 2.1 本地部署教程!直接在 ComfyUI 中运行,完全免费开源!-零度博客

Wan 2.1 本地部署教程!直接在 ComfyUI 中运行,完全免费开源!

WAN2.1 是一套全面开放的视频生成模型,它突破了视频生成的界限。1.3B型号仅需要8.19 GB VRAM,使其与几乎所有消费级GPU兼容。它可以在大约4分钟内在RTX 4090上生成5秒的480p视频(无需量化等优...
admin的头像-零度博客admin
12.2W+1518
每个 PC 游戏玩家都应该监控的 3 个关键数据-零度博客

每个 PC 游戏玩家都应该监控的 3 个关键数据

构建台式游戏 PC是一种美妙的消遣,但游戏对您的 PC 的要求很高。因此,您应该关注三个关键统计数据,包括组件温度、帧速率和磁盘运行状况。 与游戏机和一些经过测试和重新测试的预构建 PC 不同...
admin的头像-零度博客admin
01.6W+2251
如何在 Mozilla Firefox 中查看和清除下载历史记录-零度博客

如何在 Mozilla Firefox 中查看和清除下载历史记录

Windows、Mac 和 Linux 上的 Firefox 会跟踪您在其库中下载的所有内容——除非您使用的是 隐私浏览模式并刚刚关闭它。要以其他方式擦除您的曲目,您需要手动执行此操作。就是这样。 首先,打开...
admin的头像-零度博客admin
01.5W+2251