跳转到主要内容
LTX-2 是 Lightricks 推出的 190 亿参数 DiT 音视频基础模型。它可以在单次生成中同步产出视频和音频,将动作、对话、背景音效和音乐融为一体。
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

主要特性

  • 音视频同步生成:一次生成动作、对话、音效和音乐
  • 多种生成模式:支持文生视频、图生视频和视频转视频
  • 控制选项:通过 IC-LoRAs 支持 Canny、Depth 和 Pose 视频控制
  • 关键帧驱动生成:在关键帧图像之间进行插值
  • 原生放大:空间 (2x) 和时间 (2x) 放大器,提升分辨率和帧率
  • 提示词增强:支持自动提示词增强

模型检查点

名称描述
ltx-2-19b-devbf16 完整模型,灵活可训练
ltx-2-19b-dev-fp8fp8 量化完整模型
ltx-2-19b-distilled蒸馏版本,8 步,CFG=1
ltx-2-spatial-upscaler-x2-1.02x 空间放大器,提升分辨率
ltx-2-temporal-upscaler-x2-1.02x 时间放大器,提升帧率

快速入门

LTX-2 已原生支持 ComfyUI。开始使用:
  1. 将 ComfyUI 更新到最新版本
  2. 进入 模板库 > 视频 > 选择任意 LTX-2 工作流
  3. 按照弹窗提示下载模型并运行工作流

工作流

文生视频

从文本提示词生成视频。 蒸馏版本(更快,8 步):

文生视频蒸馏版

下载工作流

图生视频

从输入图像生成视频。 蒸馏版本(更快,8 步):

图生视频蒸馏版

下载工作流

控制生成视频

使用 IC-LoRAs 进行结构控制生成视频。 深度控制: Canny 边缘控制: 姿态控制:

提示词技巧

编写 LTX-2 提示词时,请专注于详细、按时间顺序描述动作和场景。在一个连贯的段落中包含具体的动作、外观、镜头角度和环境细节。直接从动作开始,保持描述的字面性和精确性。 提示词结构建议:
  • 用一句话描述主要动作
  • 动作和手势的具体细节
  • 角色/物体外观
  • 背景和环境细节
  • 镜头角度和运动
  • 光线和色彩
  • 任何变化或突发事件
提示词最好控制在 200 词以内。

资源

局限性

  • 不适用于提供事实信息
  • 可能放大现有的社会偏见
  • 可能无法完美匹配提示词生成视频
  • 提示词遵循度受提示词风格影响较大
  • 无语音的音频质量可能较低