GLM-5 vs DeepSeek V3 vs GPT-5: Velocidade e Custo para Devs

Olá, sou a Dora. O que me fez pensar nisso foi algo menor: uma tarefa de resumo que deveria ter levado cinco minutos se arrastou por quinze porque a primeira resposta travou no início. Não foi culpa exclusiva do modelo, streaming de tokens, carga do servidor, tudo isso, mas me lembrou que “precisão” não é a única coisa que estraga um dia.

Então fiquei com a pergunta que não parava de me rondar: no mundo real, como o GLM-5, o DeepSeek e o GPT-5 se sentem na prática? Não em gráficos, mas em tempo de resposta, custo sem surpresas e confiabilidade quando uma tarefa tem três ou quatro partes em movimento. Esta é minha tentativa de registrar isso com calma, e com a ressalva de que sua stack, sua região e sua tolerância a casos extremos vão alterar o quadro.

Vou manter isso com os pés no chão: GLM-5 vs DeepSeek vs GPT-5, além do hype e das capturas de tela de benchmarks habituais.

O que comparar além das pontuações de benchmark

Benchmarks são uma verificação de sanidade, não um destino. As execuções que me interessam não são glamourosas:

Latência onde importa: tempo até o primeiro token (TTFT) e throughput constante. Um modelo que “pensa mais” não é problema; um modelo que fica ocioso antes mesmo de começar frequentemente é.
Custo compatível com o formato do trabalho: por milhão de tokens tudo bem, mas desperdício de janela de contexto, novas tentativas e chamadas de ferramentas podem dobrar o gasto real.
Modos de falha: como os modelos se comportam quando os prompts estão levemente errados, as ferramentas expiram ou as entradas são mais longas que o habitual.
Superfícies de controle: temperatura que realmente muda a variação, prompts de sistema que se sustentam, chamadas de função que não vacilam nas bordas do esquema.
Degradação sob carga: a terceira execução em um minuto, ou o centésimo trabalho em um lote.

Entre GLM-5, DeepSeek e GPT-5, procurei competência discreta: modelos que não me surpreendem da forma errada. Também anotei onde cada um cede, porque é mais fácil projetar em torno de desvios conhecidos do que em torno de promessas de marketing.

Velocidade de inferência (TTFT + throughput)

Me importo com dois momentos: quando o primeiro token aparece e com que rapidez o restante segue.

TTFT: isso me diz se um modelo começa a responder ou me deixa olhando para a tela. Em ferramentas interativas (rascunhos, chats de suporte), um TTFT rápido parece gentileza.
Throughput: uma vez iniciado, ele consegue manter um ritmo constante em saídas longas sem interrupções?

O que observei na prática (fevereiro de 2026, endpoints mistos EUA/UE):

GLM-5: TTFT consistentemente rápido em prompts curtos. Em contextos longos (acima de ~30–40k tokens), começa um pouco mais devagar, mas transmite de forma constante. Boa sensação de “sem drama” para rascunhos e edições de código. Se você quiser números brutos e dados de latência lado a lado, achei este comparativo de velocidade de inferência do GLM-5 útil para contexto.
DeepSeek (notavelmente as variantes R1/V3): TTFT surpreendentemente ágil, mesmo sob carga leve em lotes. Micro-pausas ocasionais no meio do stream em gerações muito longas, mas as recuperações são suaves.
GPT-5: Começa mais devagar do que o esperado em alguns endpoints, mas compensa com streaming muito estável. Quando chamadas de ferramentas estão em jogo, a sobrecarga de handoff é baixa, o que ajuda fluxos de múltiplas etapas.

Ressalva que continuo me repetindo: região e gateway importam tanto quanto o modelo bruto. Se você está roteando por um agregador, ative o streaming e reduza max_tokens em execuções exploratórias. Elimina o tempo morto sem alterar a qualidade.

Custo por milhão de tokens

Os preços de tabela são um ponto de partida, não a conta que você acaba pagando. Três alavancas mudaram meu custo real mais do que eu esperava:

Desperdício de contexto: enviar o mesmo preâmbulo de sistema e esquemas de ferramentas em cada chamada se acumula. Cache ou redução dos esquemas compensou rapidamente.
Política de novas tentativas: uma nova tentativa agressiva em limites de taxa pode silenciosamente dobrar os gastos durante janelas de pico.
Disciplina no comprimento da saída: definir max_tokens para um limite razoável (e deixar o modelo parar nas chamadas de função) fez mais do que qualquer código de desconto.

A partir deste mês:

O DeepSeek tem adotado preços agressivos, especialmente para variantes de raciocínio. É amigável para fluxos em lote, desde que você observe a variação ocasional de estilo.
O GLM-5 fica em um meio-termo pragmático. Não é o mais barato, mas é previsível, e a previsibilidade tem valor quando o financeiro pede previsões.
O preço do GPT-5 ainda está em movimento publicamente. Na prática, modelei orçamentos com os intervalos do GPT-4.1/4o como limite inferior e adicionei margem para o nível de raciocínio do GPT-5. Se você precisa de um teto firme hoje, este é o que deve testar sob pressão.

Se você está comparando de igual para igual, meça “custo efetivo por saída útil”, não tokens. Um modelo 1,2× mais caro que reduz revisões pela metade vence no meu livro.

Qualidade de raciocínio e codificação

Não rodei um ranking. Rodei o trabalho que realmente faço: escrita estruturada, pequenos utilitários de código e fluxos de agentes com múltiplas ferramentas. Dois ângulos importaram mais.

Precisão em tarefa única

Em tarefas focadas (por exemplo, “converta este JSON em uma interface tipada”, “resuma estas notas de reunião com itens de ação”), o GPT-5 pareceu o mais completo. Precisou de menos ajustes para seguir formatos específicos, e as chamadas de função permaneceram dentro do esquema com mais confiabilidade.

O DeepSeek se saiu bem nas etapas de raciocínio que podia detalhar. Notei uma leve tendência a elaborar demais, o que é bom para rascunhos, mas menos ideal para saídas rígidas, a menos que eu limitasse max_tokens e especificasse brevidade. O GLM-5 ficou em um meio-termo tranquilo: menos floreio, conformidade constante e edições de código sólidas quando o diff era pequeno. Em partidas a frio com prompts ambíguos, às vezes jogou mais seguro do que eu queria, mas um prompt de sistema mais preciso resolveu isso.

Confiabilidade em agentes de múltiplas etapas

Quando as ferramentas entram em cena — busca, scraping, leituras de banco de dados — a pergunta muda de “A resposta é boa?” para “O loop sobrevive?”

GPT-5: Forte no planejamento de cadeias curtas e na recuperação quando uma ferramenta expira. Ele pedia novamente os campos ausentes em vez de adivinhar. Pequena coisa, grande economia de sanidade.
DeepSeek: Cadeias compactas e eficientes. De vez em quando tomava um rumo errado confiante quando duas ferramentas se sobrepunham em capacidade. Adicionar regras explícitas de seleção de ferramentas no prompt de sistema ajudou.
GLM-5: Muito estável quando o esquema estava bem definido. Se uma ferramenta retornava formatos inesperados, ele optava pela cautela e pedia esclarecimento. Prefiro isso a alucinações silenciosas.

Isso não me economizou tempo no início — na verdade, configurar as proteções levou uma tarde extra — mas após algumas execuções, percebi que reduziu o esforço mental. Menos falhas misteriosas. Menos momentos de “por que ele fez isso?”

Melhor modelo por tipo de tarefa

Isso não é uma cerimônia de premiação. É um exercício de correspondência. Veja onde cada um se encaixou melhor na minha semana.

Aplicativos em tempo real → ?

Se há pessoas esperando do outro lado da tela, priorizo TTFT rápido e estilo previsível.

Chat leve, rascunhos, assistentes de suporte: GLM-5 ou DeepSeek. Ambos parecem ágeis. O DeepSeek tende a ser ligeiramente mais rápido no primeiro token; o GLM-5 tende a manter o tom consistente entre as sessões.
Assistentes com muitas ferramentas: GPT-5. O planejamento e a estabilidade do esquema reduzem travamentos em casos extremos. Se o orçamento for apertado, prototipe com DeepSeek e troque para GPT-5 nos endpoints que mais importam.

Processamento em lote → ?

Para grandes trabalhos offline (centenas a milhares de itens):

O DeepSeek vence em eficiência de custo se você tolera pequenas variações de estilo. Adicione esquemas de saída rígidos e verificações de diff.
O GLM-5 é um padrão constante quando você se preocupa com menos outliers e aceita pagar um pouco mais pela uniformidade.
O GPT-5 é exagero a menos que a tarefa realmente necessite de raciocínio mais profundo ou recuperação em múltiplos saltos por item. Quando isso acontece, a taxa de reexecução cai o suficiente para justificá-lo.

Pipelines multimodais → ?

Para fluxos de imagem + texto ou áudio + texto, a cola importa mais do que o brochure.

GPT-5: Handoffs mais limpos entre modalidades e ferramentas nos meus testes. Se seu pipeline alterna entre extração, raciocínio e geração, essa fluidez compensa.
DeepSeek: Rápido e competente. Para OCR + resumo ou legenda + tags, manteve a latência baixa.
GLM-5: Confiável em tarefas estruturadas de imagem para texto. Se consistência supera elegância (pense em análise de faturas ou limpeza de dados de produtos), eu o escolhia primeiro.

Uma nota de design: transmita resultados intermediários para seus logs. É a maneira mais fácil de detectar incompatibilidades de modalidade antes de publicar.

Como os preços do WaveSpeed se comparam entre os três

Usei o WaveSpeed como uma camada de sanidade de preços, não uma bala de prata, apenas uma forma mais tranquila de raciocinar sobre gastos.

O que se destacou não foi um desconto mágico. Foram os mecanismos:

Roteamento fixo: Fixe o GPT-5 para endpoints que precisam do seu planejamento, envie resumos diretos para o DeepSeek, mantenha o GLM-5 para edições estruturadas. Uma conta, menos surpresas.
Cache de contexto: Prompts de sistema e esquemas de ferramentas não eram reenviados a cada chamada. Nas minhas execuções, isso reduziu os tokens de entrada em um terço em média. Não é glamouroso, mas é o tipo de redução que se acumula.
Proteções na borda: Se um modelo se desviava do esquema, o WaveSpeed detectava cedo e tentava novamente com o mesmo provedor. Sem roleta de provedores no meio de um trabalho.

Em termos de preço, a comparação é simples:

Se você já gerencia dois ou mais provedores, o roteamento e o cache do WaveSpeed podem reduzir seu “custo efetivo por saída útil”, mesmo que os preços de tabela não mudem.
Se você usa apenas um modelo e seus prompts raramente mudam, talvez não veja muito benefício. Nesse caso, os preços diretos da API mais seu próprio cache são suficientes.

Não vejo o WaveSpeed como uma forma de obter tokens mais baratos. Vejo como uma forma de desperdiçar menos deles.

Se você lida com restrições semelhantes, vale a pena dar uma olhada. E se você está satisfeito com um provedor, também está bem — às vezes a stack mais simples é a melhor.