WaveSpeed 博客

LTX-2.3 是一款基于 DiT 架构的音视频基础模型，专为在单一模型内同步生成视频与音频而设计，具备更出色的音频与画面质量。

LTX-2.3 Lipsync 可根据音频生成说话人物视频，具备同步的唇部动作和自然的面部表情。基于 DiT 架构构建，拥有卓越的口型同步效果。

支持LoRA的LTX-2.3是一款基于DiT架构的音视频基础模型，专为生成具有自定义风格、动作或形象的同步音视频内容而设计。

LTX Video 2.0通过在视频开头或结尾生成新内容来延长现有视频。支持提示词引导的扩展，最长可达20秒。即用型REST推理接口。

GPT-5.4 在被删除之前曾短暂出现在 OpenAI Codex 仓库中。以下是此次泄露信号对开发者可能意味着什么。

Helios 可在单块 H100 上以 19.5 FPS 生成长达一分钟的视频——无需 KV 缓存、稀疏注意力或任何常见的加速技巧。本文带你了解它的独特之处。

从每日研究简报到自动化Slack报告——探索7个你今天就能上手的MaxClaw实用场景，无需编写任何代码。

Gemini 3.1 Flash-Lite 是 Google 成本最低的推理模型。了解其功能、实际使用场景，以及与 Gemini Flash 的直接对比。

用通俗易懂的语言解析MaxClaw各定价层级的内容、每个套餐包含的功能，以及与自建方案相比的成本对比——助您自信做出决策。

SkyReels 从无限时长视频（V2）进化到音视频联合生成（V4）。以下是具体的变化、改进之处，以及各版本目前最适合的使用场景。

Depth Anything Video 可从视频输入中估算深度图，并保持时间一致性。支持多种模型尺寸和颜色映射方案，提供即用型 REST 推理接口。

Qwen Image 2.0 Edit 是一款高级图像编辑模型，具备更强的画质表现和更优的指令理解能力。即用型 REST 推理 API，性能卓越。