Benchmark Reproduzível: Qwen Image 2512 vs SDXL vs FLUX para Texto em Imagem

Olá a todos, sou a Dora. Recentemente, tenho realizado benchmarks de renderização de texto, comparando Qwen Image 2512, SDXL e FLUX entre si. Passei as últimas três semanas testando geração de texto em imagem porque continuava vendo afirmações de que “este modelo finalmente resolve a renderização de texto.” As afirmações pareciam altas. A prova parecia fraca.

Então construí um benchmark reproduzível usando Qwen Image 2512, SDXL e FLUX—três modelos que as pessoas continuam comparando. Queria ver o que realmente acontece quando você pede para renderizar pôsteres, menus e layouts mistos. Não exemplos selecionados. Não screenshots de marketing. Apenas testes consistentes em prompts idênticos.

Por que Benchmarks Reproduzíveis Importam

A maioria das comparações que vi mostram exemplos únicos. Um pôster bonito do Modelo A, um sinal quebrado do Modelo B. Isso diz que algo aconteceu uma vez—não o que acontece consistentemente.

Eu precisava entender trade-offs. Quando SDXL tem dificuldades? Onde FLUX se destaca? O que o Qwen Image 2512 realmente oferece quando você o desafia com texto longo ou layouts complexos?

De acordo com documentação do modelo do Hugging Face, Qwen Image 2512 melhora a precisão de renderização de texto e qualidade de layout, com mais de 10.000 rodadas de avaliações cegas mostrando-o como um modelo líder de código aberto. Enquanto isso, testes da comunidade descobriram que FLUX claramente vence em renderização de texto comparado a SDXL, gerando texto correto em cada imagem de teste enquanto SDXL tem dificuldades. Mas essas avaliações não responderam minha pergunta específica: o que acontece com layouts de pôsteres versus texto de menu versus gráficos em miniatura?

Configuração do Benchmark

Testei todos os três modelos usando o mesmo hardware—uma NVIDIA RTX 4090 com 24GB VRAM. Cada modelo foi executado com suas configurações recomendadas para evitar handicaps injustos.

Mesmo conjunto de prompts em todos os modelos

Vinte prompts no total, organizados em quatro categorias. Cada prompt especificava conteúdo de texto exato, requisitos de layout e estilo visual. Executei cada prompt três vezes por modelo para detectar inconsistências.

Não usei prompts negativos para FLUX porque FLUX usa flow matching em vez de classifier-free guidance, o que significa que não suporta condicionamento negativo. Para manter as comparações justas, pulei prompts negativos para todos os modelos.

Mesmas proporções e parâmetros

Todo teste usou resolução 1024×1024.

SDXL foi executado em 30 steps com escala CFG 7
FLUX Dev usou 20 steps com escala de orientação 5
Qwen Image 2512 foi executado em 28 steps com escala de orientação 5, que testes da comunidade sugerem equilibrar qualidade e aderência ao prompt

Os tempos de geração variaram significativamente. SDXL levou cerca de 13 segundos para quatro imagens, enquanto FLUX Dev precisou de 57 segundos—aproximadamente quatro vezes mais longo. Qwen Image 2512 ficou entre eles em cerca de 5 segundos por imagem com configurações otimizadas.

Conjunto de Prompts (Código Aberto)

Estou compartilhando o conjunto completo de prompts porque reproduzibilidade exige ver os testes reais. Esses não são prompts perfeitos—são cenários realistas que realmente encontro.

Para facilitar comparações em nível de prompt e tornar mais fácil reproduzir e estender, também estamos testando os mesmos conjuntos de prompts em diferentes ambientes de execução, incluindo WaveSpeed, que fornece uma interface consistente para executar vários modelos de imagem com parâmetros comparáveis.

Como com todos os resultados aqui, as saídas permanecem sensíveis à redação do prompt, contagem de steps e escala de orientação—portanto, os resultados devem ser interpretados como direcionais em vez de absolutos.

Prompts de pôster (5 exemplos)

“Pôster de evento com título em negrito ‘Summer Festival’ no topo, subtítulo ‘July 15-17’ abaixo, três pontos listando atividades e texto de rodapé ‘Register at summerfest.com’”
“Estilo de pôster de filme com grande texto ‘THE LAST HORIZON’ centralizado, texto menor ‘Coming Soon’ na parte inferior”
“Anúncio de workshop com cabeçalho ‘Learn Python in 5 Days’, detalhes de data e hora, nome do instrutor, informações de registro”
“Pôster de concerto com nome da banda em fonte decorativa, detalhes do local, preços de ingressos”
“Layout de capa de livro com nome do autor, título em fonte serifada, subtítulo, logo da editora”

Prompts de miniatura (5 exemplos)

“Miniatura do YouTube com grande texto ‘TOP 5 TIPS’ e pequeno badge dizendo ‘NEW’”
“Miniatura de produto mostrando texto ‘50% OFF’ em destaque com rótulo menor ‘Limited Time’”
“Miniatura de curso com título ‘Advanced AI’ e indicador de dificuldade ‘Expert Level’”
“Miniatura de receita com nome do prato e badge ‘Ready in 30 min’”
“Miniatura de notícia com manchete e tag ‘BREAKING‘“

“Quadro de menu de café com cinco itens, preços e cabeçalho ‘Daily Specials’”
“Placa de restaurante mostrando ‘Now Open’ com horário de funcionamento listado abaixo”
“Placa de janela de loja com ‘Grand Opening’ e informações de data”
“Menu de quadro negro de café com três seções e bordas decorativas”
“Sinalização de varejo com ‘Clearance Sale’ e descontos em percentual”

Prompts de conteúdo misto (5 exemplos)

“Infográfico com título, três etapas numeradas e caixa de resumo”
“Publicação em rede social com texto de citação sobreposto em fundo degradado”
“Slide de apresentação com pontos e texto de rodapé”
“Layout de revista com manchete, prévia de corpo de texto e números de página”
“Anúncio com nome do produto, lista de recursos e chamada para ação”

Rubrica de Avaliação

Classifiquei cada saída em quatro dimensões usando uma escala de 1–5. Não usei automação OCR porque queria detectar problemas de layout que puro reconhecimento de caracteres perde.

Legibilidade de texto (1–5)

Você consegue ler cada palavra sem apertar os olhos? Os caracteres estão formados corretamente? As letras se misturam ou mostram artefatos?

Pontuação 5: Cada caractere é nítido e legível. Sem erros de ortografia, sem letras mescladas, sem traços faltando.
Pontuação 3: A maioria do texto é legível, mas mostra problemas menores—desfoque leve, confusão ocasional de caracteres.
Pontuação 1: Texto é amplamente ilegível ou contém erros de ortografia importantes.

Precisão de layout (1–5)

O texto aparece onde o prompt especificou? As hierarquias são respeitadas—headers maiores que texto do corpo, espaçamento apropriado entre elementos?

Qwen Image 2512 me impressionou aqui. De acordo com documentação de teste, melhora a qualidade de layout e composição multimodal, o que reduz contagens de retry para designs complexos.

Fidelidade visual (1–5)

Além do texto legível, a imagem geral parece coerente? As fontes são apropriadas para o contexto? O texto se integra naturalmente com elementos de fundo?

Foi aqui que as diferenças se tornaram óbvias. Alguns modelos renderizaram texto perfeito em fundos incoerentes. Outros criaram belas imagens com texto quebrado.

Estética geral (1–5)

Você realmente usaria esta saída? Parece acabada ou precisa de pós-processamento significativo?

Resumo dos Resultados

Após 180 gerações totais (20 prompts × 3 modelos × 3 tentativas), padrões emergiram que me surpreenderam.

Onde Qwen Image 2512 vence

Layouts de pôster com 50+ caracteres. Quando pedi pôsteres de eventos com múltiplos blocos de texto, Qwen Image 2512 colocou elementos consistentemente de forma correta. O texto permaneceu nítido mesmo com strings mais longas.

O modelo enfatiza qualidade de renderização de texto com caracteres mais claros, espaçamento de linha estável e alinhamento previsível—especialmente valioso para visuais de marketing e drafts de design. Notei isso especialmente com conteúdo misto chinês-inglês, embora meus testes se focassem em inglês.

A velocidade foi notável. Cinco segundos por imagem significou que pude iterar rapidamente sem perder qualidade. Isso importa quando você está refinando um design por meio de múltiplas tentativas.

Onde SDXL vence

Estilos artísticos e iteração rápida. Quando prompts enfatizavam estilo sobre precisão de texto—“estética de pôster retrô” ou “aparência de placa vintage”—SDXL ofereceu interpretação artística mais consistente. A abordagem de arquitetura dupla de SDXL com modelos base e refiner oferece forte desempenho estético, especialmente para conteúdo estilizado. A vantagem do ecossistema importa também: mais LoRAs, mais opções de ControlNet, mais recursos da comunidade.

A velocidade de geração deu a SDXL uma vantagem para rascunhos ásperos. Treze segundos para quatro imagens é melhor que esperar um minuto quando você está apenas explorando conceitos.

Onde FLUX vence

Texto curto com prompts complexos. Para miniaturas e sinais simples, FLUX Dev raramente cometia erros de ortografia. Testes da comunidade mostram que FLUX se destaca em kerning, espaçamento e reprodução de estilo de fonte, produzindo texto nítido que corresponde aos padrões tipográficos profissionais.

O codificador T5 parece fazer diferença. FLUX usa tecnologia T5 dos modelos de linguagem do Google, que melhora a compreensão de prompts complexos e qualidade de renderização de texto.

Mas FLUX teve dificuldades com blocos de texto mais longos. Após cerca de 30 caracteres, a precisão caiu notavelmente. E testes independentes confirmaram que embora FLUX mostre melhorias em relação aos modelos anteriores, as saídas frequentemente ficam aquém dos exemplos impecáveis em materiais de marketing.

Recomendações por Caso de Uso

Se você está gerando pôsteres com múltiplos elementos de texto e precisa de layout confiável: Qwen Image 2512 tratou isso melhor do que esperava. A geração de 28 steps forneceu boa qualidade sem tempos de espera excessivos.

Se você está prototipando designs e o estilo importa mais que texto perfeito: SDXL oferece velocidade mais flexibilidade artística. Você provavelmente corrigirá o texto em pós-produção mesmo assim.

Se você está criando miniaturas ou sinalização curta e a precisão de texto é crítica: FLUX Dev ofereceu o texto de forma curta mais limpo. Apenas não peça para renderizar parágrafos.

Para workflows mistos, descobri que estava usando diferentes modelos para diferentes estágios. SDXL para explorar direções visuais rapidamente. Qwen Image 2512 quando a complexidade de layout aumentava. FLUX Dev quando o texto final precisava ser pixel-perfect para conteúdo mais curto. O que mais me surpreendeu não foi qual modelo venceu em geral—porque nenhum vencedor único existe. Foi perceber que “texto-em-imagem” não é um problema. São pelo menos três: precisão de caractere, precisão de layout e integração estética. Modelos diferentes resolvem diferentes peças.

Os prompts do benchmark estão disponíveis para qualquer um que queira verificar esses achados ou testar outros modelos. Tenho curiosidade se esses padrões se mantêm em diferentes configurações de hardware ou estilos de prompt.

Você testou renderização de texto recentemente? Qual modelo o surpreendeu mais (ou frustrou mais)? Sinta-se livre para compartilhar seus resultados e prompts nos comentários!