Longcat图像文本到图像现已登陆WaveSpeedAI

介绍 LongCat-Image：美团突破性双语文本转图像模型现已在 WaveSpeedAI 上线

在 AI 生成的图像中准确渲染文本一直是生成式 AI 中最顽固的障碍之一。虽然模型在生成逼真场景、人脸和物体方面变得越来越复杂，但文本渲染——尤其是中文等非拉丁文字——仍然异常困难。今天，我们很高兴地宣布，美团开发的突破性 60 亿参数双语文本转图像模型 LongCat-Image 现已在 WaveSpeedAI 上线，提供即时推理和零冷启动。

什么是 LongCat-Image？

LongCat-Image 是由中国最大的科技公司之一美团开发的开源基础模型。这个模型的与众不同之处不仅在于其能力——还在于其高效的交付方式。仅有 60 亿参数的 LongCat-Image 的性能表现持续优于参数量大它 2-4 倍的模型，包括 Qwen-Image-20B 和 HunyuanImage-3.0（80B 参数）等竞争对手。

该模型基于类似 FLUX 的混合多模态扩散变换器（MM-DiT）架构，但针对双语文本理解进行了优化。它使用 Qwen2.5-VL-7B 作为其文本和视觉语言编码器，采用了巧妙的混合方法处理文本：在语义上处理整体提示词，同时对引号内的文本切换到字符级标记器。这确保了逐字母准确渲染，而不是其他模型常见的混乱近似。

主要特性

业界领先的中文文本渲染

LongCat-Image 的 ChineseWord 得分达到 90.7，明显超过所有评估的开源模型。它覆盖全部 8,105 个标准汉字，在复杂笔画结构的渲染中具有卓越的准确性和稳定性——这是其他任何模型都未曾达到的成就。

卓越的英文文本准确性

双语能力同样扩展到英文文本渲染。无论您需要营销口号、产品标签还是社交媒体文案嵌入图像中，LongCat-Image 都能提供清晰、准确的文本，没有其他模型常见的拼写错误和扭曲。

显著的照片真实感

通过创新的数据策略和训练框架，该模型实现了与大得多的竞争对手相媲美的照片级真实感图像质量。根据 T2I-CoreBench 结果，LongCat-Image 在综合性能方面排名开源模型中的第二位，仅次于 32B 参数的 Flux2.dev。

令人印象深刻的基准性能

GenEval 得分：0.87（与最先进的模型相当）
DPG-Bench：86.8（与顶级闭源解决方案竞争力相当）
ChineseWord：90.7（开源最优）

资源高效的设计

紧凑的 60 亿参数架构保持了适度的 GPU 使用量，使其非常适合大容量生成工作流和成本敏感的生产管道。您可以获得企业级的结果，而无需企业级的基础设施要求。

真实应用场景

营销和广告

创建专业的营销材料，其中包含中文、英文或两种语言同时的嵌入式文本。生成活动海报、社交媒体卡片和广告横幅，在单个提示词中准确呈现排版——不再有随机笔画或扭曲的字形。

电商产品可视化

生成带有准确标签、描述和促销文本的产品图像。该模型精确的文本渲染对于需要像素级完美的优惠券、价签和产品标签特别有价值。

多语言活动资产

对于在亚洲和西方市场运营的企业，LongCat-Image 消除了为不同地区生成单独资产的需要。通过统一的工作流为全球活动创建具有本地化文本的一致视觉效果。

社交媒体内容创建

布局社交卡片、横幅和故事图形，带有双语文本叠加。该模型在处理混合语言内容的复杂渲染要求的同时保持视觉一致性。

媒体和本地化

生成跨语言和地区工作的营销视觉效果，无需重新拍摄或大量后期制作。通过配套的 LongCat-Image-Edit 模型用新文本更新现有营销材料，同时保持原始构图。

在 WaveSpeedAI 上开始使用

通过 WaveSpeedAI 访问 LongCat-Image 再简单不过了。我们的平台提供：

即时推理：无冷启动意味着您的生成立即开始。当您需要为客户演示或营销截止日期的结果时，每一秒都很关键。

REST API 访问：通过我们直观的 REST API 将 LongCat-Image 直接集成到您现有的工作流、应用程序和生产管道中。

经济实惠的定价：按使用付费，定价设计让各种规模的团队都能负担得起企业级的图像生成。

一致的性能：我们优化的基础设施确保无论需求激增如何都能保证可靠、快速的生成时间。

要开始使用 LongCat-Image 生成：

访问 wavespeed.ai/models/wavespeed-ai/longcat-image/text-to-image
输入您的提示词，任何要渲染的文本都用引号括起来
即时生成并下载您的图像

对于双语文本，只需在提示词中包含两种语言。该模型可以处理在同一图像中准确渲染不同文字的复杂性。

为什么选择 WaveSpeedAI 来使用 LongCat-Image？

虽然 LongCat-Image 作为开源模型可用，但本地运行它需要大量的技术设置和 GPU 资源。WaveSpeedAI 完全消除了这些障碍：

零配置：无需安装依赖项或管理基础设施即可立即开始生成
优化的性能：我们的平台已调整以实现最大吞吐量和最小延迟
可扩展的容量：从单次测试生成到生产批处理任务，应对各种规模
互补的模型：通过同一平台访问 LongCat-Image-Edit 和数百个其他模型

总结

LongCat-Image 代表了 AI 图像生成的重大进步，证明了智能模型设计可以超越蛮力参数扩展。其无与伦比的双语文本渲染能力，结合照片级真实感输出和高效的资源使用，使其成为在中英文市场上工作的创作者、营销人员和开发人员的必备工具。

准备好体验下一代文本感知的图像生成了吗？立即在 WaveSpeedAI 上尝试 LongCat-Image，发现当 AI 真正理解图像中的文本时会发生什么。

开始使用 LongCat-Image 生成 →