主要特性
- 音视频同步生成:一次生成动作、对话、音效和音乐
- 多种生成模式:支持文生视频、图生视频和视频转视频
- 控制选项:通过 IC-LoRAs 支持 Canny、Depth 和 Pose 视频控制
- 关键帧驱动生成:在关键帧图像之间进行插值
- 原生放大:空间 (2x) 和时间 (2x) 放大器,提升分辨率和帧率
- 提示词增强:支持自动提示词增强
模型检查点
| 名称 | 描述 |
|---|---|
| ltx-2-19b-dev | bf16 完整模型,灵活可训练 |
| ltx-2-19b-dev-fp8 | fp8 量化完整模型 |
| ltx-2-19b-distilled | 蒸馏版本,8 步,CFG=1 |
| ltx-2-spatial-upscaler-x2-1.0 | 2x 空间放大器,提升分辨率 |
| ltx-2-temporal-upscaler-x2-1.0 | 2x 时间放大器,提升帧率 |
快速入门
LTX-2 已原生支持 ComfyUI。开始使用:- 将 ComfyUI 更新到最新版本
- 进入 模板库 > 视频 > 选择任意 LTX-2 工作流
- 按照弹窗提示下载模型并运行工作流
工作流
文生视频
从文本提示词生成视频。 蒸馏版本(更快,8 步):文生视频蒸馏版
下载工作流
图生视频
从输入图像生成视频。 蒸馏版本(更快,8 步):图生视频蒸馏版
下载工作流
控制生成视频
使用 IC-LoRAs 进行结构控制生成视频。 深度控制: Canny 边缘控制: 姿态控制:提示词技巧
编写 LTX-2 提示词时,请专注于详细、按时间顺序描述动作和场景。在一个连贯的段落中包含具体的动作、外观、镜头角度和环境细节。直接从动作开始,保持描述的字面性和精确性。 提示词结构建议:- 用一句话描述主要动作
- 动作和手势的具体细节
- 角色/物体外观
- 背景和环境细节
- 镜头角度和运动
- 光线和色彩
- 任何变化或突发事件
资源
局限性
- 不适用于提供事实信息
- 可能放大现有的社会偏见
- 可能无法完美匹配提示词生成视频
- 提示词遵循度受提示词风格影响较大
- 无语音的音频质量可能较低