Precios de la API de WaveSpeed: Cómo Funcionan los Créditos + Una Calculadora de Costos Simple

Hola, ¿me recuerdas? Soy Dora.

No me propuse pensar en precios. Solo quería una tarde tranquila de pruebas. Pero a mitad de cablear un pequeño prototipo (enero de 2026), mis notas comenzaron a cambiar de “¿esto funciona?” a “¿cuánto costará esto si realmente se lanza?” Ese es generalmente el momento en que me detengo. El precio de la API de WaveSpeed no es llamativo. Es del tipo que se esconde en los detalles, tamaño de contexto, reintentos, tamaño de datos. Nada es dramático, pero se suma. Aquí te muestro cómo lo he estado calculando, con números reales donde puedo y estimaciones claras donde no puedo. Si trabajas como yo, enviando pequeños experimentos que podrían crecer, esto puede ayudarte a planificar sin adivinar.

Cómo se mide el precio

No pude encontrar un único número que capturara el precio de la API de WaveSpeed de manera limpia. Así que lo trato como tres categorías:

Llamada base: la tarifa para llegar a un extremo una vez. Piénsalo como el “cargo de entrada”.
Carga de trabajo variable: la parte que crece con lo que envías y solicitas, tokens, tamaño de archivo, nivel de modelo, herramientas utilizadas, longitud del contexto.
Extras: almacenamiento, salida de datos y cualquier cosa que persista o mueva datos.

Para planificar, uso una fórmula simple:

Costo estimado = (ejecuciones × base_por_llamada) + (volumen_entrada × tarifa_entrada) + (volumen_salida × tarifa_salida) + (datos_almacenados × tarifa_almacenamiento × meses) + (salida_GB × tarifa_salida)

Es aburrido, por eso funciona. Mantengo las tarifas en una pequeña hoja de cálculo y ajusto según cambian los documentos. Si también estás haciendo esto, marca como favorito las páginas oficiales de precios y límites: cambian a menudo, y pequeños cambios allí se propagan a todo lo demás.

Factores que multiplican el costo

Algunas cosas empujan silenciosamente los totales más altos. Ninguno de ellos es una “trampa” por sí solo. Juntos, son la razón por la que los presupuestos se desplazan.

Indicaciones largas y salidas generosas: Cada 1k token adicional se muestra en la factura. Establezco un máximo de tokens de salida a menos que haya una razón para no hacerlo.
Reintentos y alternativas: Excelentes para la confiabilidad, pero difíciles si se dejan completamente abiertos. Utilizo retroceso exponencial con un techo firme.
Archivos grandes: La transcripción, visión o análisis de PDF se vuelve costoso cuando lanzas activos grandes. Bajo la resolución o divido en fragmentos.
Cadenas de herramientas: Una acción del usuario puede abrirse en múltiples llamadas de API. Es fácil olvidar que cada paso de herramienta es otra ejecución facturable.
Concurrencia: El paralelismo es excelente para la latencia, pero multiplica los costos durante las pruebas de carga. Lo aumento tarde, no temprano.
Registro y capturas: Útil para depuración. Costoso si almacenas todo para siempre. Mantengo los registros estructurados delgados y roto agresivamente.

Si mides nada más, mide tokens, tamaños de archivo y recuentos de reintentos. Esos tres explican la mayoría de sorpresas para mí.

3 escenarios reales (10 / 50 / 100 ejecuciones)

Estos no son números oficiales. Son mis estimaciones de planificación de un prototipo de enero de 2026. Cambia por tus propias tarifas: la forma debe mantenerse igual.

Tasas de marcador de posición asumidas (solo para matemáticas):

Base por llamada: $0.002
Tokens de entrada: $0.50 por 1M de tokens ($0.0005 por 1k)
Tokens de salida: $1.00 por 1M de tokens ($0.001 por 1k)
Almacenamiento: $0.02 por GB-mes
Salida: $0.09 por GB

Escenario A: indicación corta → respuesta corta

Entrada promedio: 600 tokens: salida: 200 tokens: sin archivos.
Por ejecución: base $0.002 + entrada (0.6k × $0.0005 = $0.0003) + salida (0.2k × $0.001 = $0.0002) = $0.0025
10 ejecuciones ≈ $0.025: 50 ejecuciones ≈ $0.125: 100 ejecuciones ≈ $0.25

Cómo se sintió: básicamente gratis hasta que los reintentos comenzaron. Cuando permití 3 reintentos, los costos casi se duplicaron durante una hora inestable. Limité a 1 reintento y puse en cola el resto.

Escenario B: resumen de un PDF medio

Entrada promedio: 6,000 tokens de texto fragmentado: salida: 1,000 tokens.
Por ejecución: base $0.002 + entrada (6k × $0.0005 = $0.003) + salida (1k × $0.001 = $0.001) = $0.006
10 ejecuciones ≈ $0.06: 50 ejecuciones ≈ $0.30: 100 ejecuciones ≈ $0.60

Nota: el costo oculto aquí fue la extracción. Cuando envié PDFs completos en lugar de fragmentos de texto limpio, el paso de preparación agregó tiempo y a veces una segunda llamada. El texto primero fue más barato y predecible.

Escenario C: visión ligera + resumen + exportación

Imagen: promedio 1.5 MB: entrada 2,000 tokens: salida 500 tokens: almacenar resultado durante 1 mes: exportar 0.5 GB total en todas las ejecuciones.
Por ejecución (API): base $0.002 + entrada (2k × $0.0005 = $0.001) + salida (0.5k × $0.001 = $0.0005) = $0.0035
Almacenamiento: si cada resultado agrega ~200 KB de artefactos, 100 ejecuciones ≈ 20 MB = 0.02 GB × $0.02 ≈ $0.0004/mes (negligible)
Salida: 0.5 GB × $0.09 = $0.045 total en todo el lote
10 ejecuciones ≈ $0.035 + almacenamiento pequeño: 50 ejecuciones ≈ $0.175 + salida si exportas: 100 ejecuciones ≈ $0.35 + ~$0.045 salida

Lo que me sorprendió: la salida fue el único elemento de línea que sentí. No es enorme, pero notable cuando exporté medios para clientes.

En algún momento, dejé de querer estimar y solo quería que las cosas se mantuvieran predecibles.
Por eso construimos WaveSpeed — para ejecutar experimentos como estos sin estar constantemente vigilando recuentos de tokens, reintentos o líneas de salida sorpresa.

Si estás probando ideas que podrían escalar, pruébalo.

Tabla de calculadora de costos

Mantengo una pequeña hoja de cálculo. No es elegante, solo matemáticas honestas. Si quieres un bosquejo rápido, coloca tus números en este patrón.

Ejecuciones	Base/llamada ($)	Tokens entrada/ejecución	Tokens salida/ejecución	Tarifa entrada ($/1k)	Tarifa salida ($/1k)	Salida (GB)	Salida $/GB	Total estimado ($)
10	0.002	600	200	0.0005	0.001	0	0.09	(10×0.002) + (10×0.6×0.0005) + (10×0.2×0.001) + (0×0.09)
50	0.002	6000	1000	0.0005	0.001	0	0.09	(50×0.002) + (50×6×0.0005) + (50×1×0.001)
100	0.002	2000	500	0.0005	0.001	0.5	0.09	(100×0.002) + (100×2×0.0005) + (100×0.5×0.001) + (0.5×0.09)

Nota: Reemplaza las tarifas de marcador de posición con los números actuales de la página de precios de WaveSpeed. Mantengo versiones en la hoja, solo una columna de fecha, para recordar qué cambió y cuándo.

Cómo reducir el desperdicio

Lo que más me ayudó no fue magia, solo barandillas que se mantuvieron:

Establece máximo de tokens de salida. Las respuestas largas son agradables: las facturas predecibles son mejores.
Recorta indicaciones. Reutiliza indicaciones del sistema e IDs de referencia en lugar de pegar paredes de texto.
Almacena en caché los resultados intermedios. No re-incrustes ni resumas contenido sin cambios.
Agrupa donde es seguro. Diez llamadas pequeñas pueden ser más baratas que una grande, o lo contrario. Prueba ambas.
Ajusta el tamaño correcto de los archivos. Reduce la resolución de imágenes, extrae texto de PDFs antes de enviar.
Limita reintentos y tiempos de espera. La confiabilidad es buena: los bucles infinitos no.
Registra escasamente. Mantén hashes e IDs: suelta cargas útiles crudas a menos que realmente las necesites.

Consejos de facturación en equipo

He tenido problemas con los costos del equipo más de una vez. Algunos hábitos me salvaron:

Claves separadas por entorno y proyecto. Hace la atribución obvia.
Etiqueta solicitudes con IDs de usuario o función. El costo posterior por función es oro durante la planificación.
Panel compartido con instantáneas semanales. Nadie lee ruido diario.
Presupuestos blandos a nivel de proyecto. Cuando se alcanza el 80%, las funciones se ralentizan o cambian a una ruta más barata.
Una persona es dueña de las actualizaciones de precios. No es para proteger, solo para reducir la desviación.
Mantén un manual: qué acelerar primero cuando los costos aumentan (tokens de salida, concurrencia o herramientas opcionales).

Barandillas de presupuesto

Aquí está lo que puse en marcha antes de que cualquier cosa se enfrente a usuarios reales:

Estimador previo: una pequeña función que calcula el costo estimado por acción y lo agrega a los registros.
Límites por acción: si una única ejecución proyecta más de $X, se niega educadamente.
Límites diarios y mensuales con alertas. Las alertas van a un canal silencioso que alguien realmente monitorea.
Modo lento: una bandera que reduce a la mitad la concurrencia bajo presión presupuestaria.
Banderas de función para rutas pesadas: desactiva visión o funciones de contexto largo sin redistribuir.
Cadencia de revisión: 15 minutos cada dos viernes para actualizar tarifas desde la página de precios oficial. Honestamente, nada de esto es glamoroso. Pero el precio de la API de WaveSpeed se comporta cuando lo haces. Lo divertido es que una vez que las barandillas están en su lugar, la herramienta se desvanece en el fondo de nuevo, exactamente donde me gusta.

Todavía me sorprendo verificando los recuentos de tokens por costumbre, luego cierro la pestaña cuando los números se ven razonables. Viejos hábitos. Pequeños alivios. Lo aceptaré.