MirageLSD - Decart AI推出首个实时AI视频生成模型

38 0

MirageLSD是什么

MirageLSD 是 Decart AI 团队推出的全球首个实时流扩散 AI 视频模型，能实现无限时长的实时视频生成，延迟低至 40 毫秒以内，支持 24 帧/秒的流畅输出。通过 Diffusion Forcing 技术和历史增强训练，解决了传统自回归模型在长时间生成中的误差累积问题，实现了视频的无限生成。基于Hopper 优化的 Mega Kernels、架构感知剪枝和 Shortcut Distillation 等技术，MirageLSD 在保持高画质的同时，大幅提升了生成速度，实现了真正的实时交互。

MirageLSD的主要功能

无限时长实时视频生成：MirageLSD 能生成无限时长的视频流，延迟低至 40 毫秒以内，支持 24 帧/秒的实时生成速度，解决了传统视频生成模型在长时间生成中的误差累积问题。
实时交互性：用户可以在视频生成过程中实时进行提示、转换和编辑，实现连续的交互式体验。
低延迟处理：模型通过优化技术，如 Hopper 优化的 Mega Kernels 和架构感知剪枝，实现了 40 毫秒的超低延迟处理，支持实时视频生成。

MirageLSD的项目地址

Documents techniques：https://about.decart.ai/publications/mirage

MirageLSD的技术原理

Diffusion Forcing 技术：通过逐帧去噪，允许模型在没有完整视频上下文的情况下生成单帧图像，从而实现帧级生成。
历史增强训练：在训练时引入历史帧的噪声数据，使模型能够预测并纠正输入中的误差，从而实现无限生成。
stratégie d'optimisation: :
- Hopper 优化的 Mega Kernels：针对 NVIDIA Hopper GPU 架构优化，减少每层模型延迟。
- 架构感知剪枝：通过调整模型参数大小以适应 GPU 架构，减少计算量。
- Shortcut Distillation：通过训练更小的模型来匹配大模型的去噪轨迹，减少生成所需的扩散步骤。

Comment l'utiliser

使用 MirageLSD 平台：访问 Decart AI 提供的 Mirage 官网：https://mirage.decart.ai/。将准备好的视频流接入 Mirage 平台。
准备输入视频流
- 视频聊天或直播：将摄像头或直播软件的输出作为输入源。
- 游戏画面：从游戏的视频输出中获取实时画面。
- 计算机屏幕：捕获屏幕内容作为输入。
实时转换与编辑：在 Mirage 平台上，用户可以通过输入文本提示或选择预设风格，实时改变视频流的内容。平台支持实时交互，用户可以根据需要随时调整提示或风格，实现动态的视频转换。
输出与应用：转换后的视频流可以直接用于直播、游戏、视频通话等场景。

MirageLSD的模型优势

低延迟与无限生成：MirageLSD 实现了不到 40 毫秒的超低延迟处理，能以 24 帧/秒的速度实时生成无限时长的视频流。突破了传统视频生成模型在时延和长度上的瓶颈，后者通常只能生成 5-10 秒的片段，且延迟在 10 秒以上。模型通过创新的 CUDA Megakernel 优化和抗漂移训练技术，整体效率提升超过 100 倍。
强大的实时交互性：MirageLSD 支持实时动态响应，用户可以在视频生成过程中动态调整内容，确保输出的画面始终与创意保持一致。高度的灵活性和可控性，使 MirageLSD 在创意内容生产中展现出巨大潜力。用户可以通过简单的交互方式，如手势控制，实时改变视频中的外观、场景或服装。