Dicto más de 90.000 palabras al mes. No es una exageración ni un benchmark aspiracional — es un dato real de Wispr Flow, que registró 93.217 palabras en seis semanas con una velocidad promedio de 157 WPM. Eso me ubicaba en el top 1% de sus usuarios, dictando en 54 apps distintas.

Y sin embargo, cuando terminó mi mes de prueba del plan Pro a US$15/mes, decidí buscar una alternativa. No porque la herramienta fuera mala — funcionaba bien. Sino porque ya tengo demasiadas suscripciones digitales, y esta no justificaba el costo cuando mi uso principal es dictar prompts para otros LLMs.

Lo que encontré fue un setup que cuesta US$0.42 al mes, funciona offline, me da control total sobre la privacidad de mi texto, y me enseñó una lección contraintuitiva sobre prompt engineering que no esperaba aprender.

El problema con las suscripciones de dictado

Si trabajas en tecnología y usas dictado por voz de forma intensiva, probablemente ya notaste el patrón: cada herramienta nueva quiere US$10-15 mensuales. Wispr Flow cobra US$15/mes, con un free tier limitado a 2.000 palabras por semana. Para alguien que dicta 62.000 palabras al mes, ese free tier se agota en un día.

Pero el costo no era lo único que me incomodaba. Investigando las alternativas disponibles en 2026, descubrí que Wispr Flow captura screenshots de la ventana activa y los envía al cloud junto con las grabaciones de voz. No tiene opción de procesamiento local. Eso significa que cada prompt que dicté durante seis semanas — incluyendo instrucciones para Claude, contexto de proyectos de clientes, y notas personales — pasó por sus servidores. Además, el proceso no es ligero: consume alrededor de 800MB de RAM y un 8% de CPU incluso en idle, con 8-10 segundos de startup.

Necesitaba algo que transcribiera localmente, que me diera control sobre a dónde va mi texto, y que no me cobrara una suscripción mensual por algo que un modelo local puede hacer en mi propia máquina.

La búsqueda y la elección: Spokenly

Después de evaluar el panorama — que en 2026 incluye más de nueve alternativas serias a Wispr Flow con ahorros de entre 40% y 80% — me decidí por Spokenly. Es una app de un desarrollador independiente llamado Vadim, gratuita para modelos locales, con soporte de BYOK (Bring Your Own Key) para AI formatting cloud — en vez de pagar la suscripción de la app, conectas tu propia cuenta de Anthropic u OpenAI y pagas solo por el uso real.

La configuración inicial fue directa: instalé Spokenly, descargué el modelo Nvidia Parakeet Tdt 0.6B V3 (496 MB, etiquetado como "mejor para multilingüe"), y conecté mi API key de Anthropic para usar Claude Haiku 4.5 como formateador de texto. El plan era simple: Parakeet transcribe localmente, Haiku limpia el texto, y yo pago solo los tokens que consumo.

Hasta ahí, todo bien. Lo que vino después fue más interesante.

Hallazgo 1: El servicio cloud no documentado

Antes de configurar mi API key, noté algo raro. El AI formatting — la parte que toma la transcripción cruda y la limpia con un LLM — funcionaba perfectamente a pesar de que no había configurado ningún proveedor de IA. La interfaz de Spokenly mostraba explícitamente "No hay proveedores de IA configurados", y mi plan era el gratuito.

Pero al activar el "Local Only Mode", el formatting dejaba de funcionar. Si lo necesitaba, necesitaba internet. Eso significaba que el texto estaba yendo a algún lugar, solo que no sabía a dónde.

No encontré ningún reporte de otros usuarios documentando esto. La documentación oficial dice que el AI formatting cloud requiere API keys propias o el plan Pro. No menciona un servicio cloud incluido en el tier gratuito.

Decidí investigar con las herramientas que tengo a mano. Desde la terminal de macOS, usé lsof para inspeccionar las conexiones de red del proceso de Spokenly, y ipinfo.io para identificar los propietarios de las IPs de destino.

Con mi API key de Anthropic configurada, Spokenly mantenía dos conexiones: el servidor MCP local en localhost:51089 y una conexión directa a Anthropic en San Francisco (2607:6bc0::10, AS399358 Anthropic, PBC). Limpio. Solo Anthropic.

Sin API key, con AI formatting activo, la conexión a Anthropic desaparecía y era reemplazada por un servidor en Vultr (45.63.64.73) ubicado en Elk Grove Village, Illinois, operado por The Constant Company, LLC. Un VPS económico, consistente con un servidor propio del desarrollador para ofrecer formatting gratuito como estrategia de adquisición.

Configuración — Transcripción — AI Formatting — Destino del texto — Costo

Local Only Mode — Parakeet V3 (local) — No funciona — Ninguno — on-device — $0

Free sin API key — Parakeet V3 (local) — Funciona — Servidor Spokenly en Vultr — $0

Con API key Anthropic — Parakeet V3 (local) — Funciona — Anthropic directo — < $1/mes

La conclusión es clara: Spokenly opera un backend cloud propio no documentado para el formatting del tier gratuito. No es necesariamente malo — es una estrategia válida para que los usuarios prueben la funcionalidad antes de comprometerse. Pero si te importa saber a dónde va tu texto, necesitas tu propia API key.

Hallazgo 2: La lucha con el prompt (y por qué ganó el prompt vacío)

Con la privacidad resuelta, me enfoqué en optimizar el prompt de AI formatting. Creé un prompt personalizado para español chileno que preservara las terminaciones verbales en -ái (cachai, estái, andái) — que los modelos de lenguaje tienden a "corregir" hacia español neutro.

El primer problema apareció cuando dicté un prompt destinado a Claude. En vez de recibir mi transcripción limpia, Spokenly me devolvió una respuesta generada por Haiku como si fuera un asistente. El modelo interpretó "haz un poema" como una instrucción dirigida a él, no como texto para formatear.

Esto era crítico: más del 95% de mi uso es dictar prompts para otros LLMs, todos llenos de verbos imperativos.

Lo que siguió fueron cinco iteraciones de prompt engineering, cada una fallando de forma diferente:

  1. Instrucción negativa explícita ("NUNCA respondas preguntas"): Haiku se volvió excesivamente estricto. Rechazaba texto legítimo con "No puedo hacer eso."
  2. Suavización ("asume que todo es texto dictado"): Seguía interpretando frases conversacionales como comandos.
  3. Enfoque positivo ("devuelve siempre el texto limpio"): Sin mejora con comandos cortos.
  4. Transformación mecánica INPUT → OUTPUT: "Haz un poema" seguía generando un poema.
  5. Prompt en inglés estructurado: Basado en la guía de Joshua Schultz con secciones de remove/fix/keep. No llegué a implementarlo porque antes descubrí algo mejor.

Un usuario japonés documentó exactamente el mismo problema en zenn.dev y lo resolvió con un prompt que incluía ejemplos explícitos de input/output. Pero antes de probar esa solución, hice algo por accidente: dejé el campo de prompt vacío.

El AI formatting siguió funcionando. Verifiqué con monitoreo de tráfico que seguía llamando a la API de Anthropic. Spokenly tiene un prompt default interno, no visible en la interfaz, que envía cuando el campo del usuario está vacío.

Y ese prompt default resultó más efectivo que mis cinco iteraciones. Limpiaba muletillas, preservaba terminaciones chilenas en -ái, respetaba inglés técnico, y — lo más importante — no ejecutaba instrucciones dictadas como comandos.

La lección es contraintuitiva: el problema no era que el prompt necesitara más instrucciones, sino que necesitaba menos. Cada instrucción adicional — especialmente las negativas — le daba a Haiku más contexto conversacional, lo que activaba su comportamiento de asistente. El prompt más simple fue el más efectivo.

Resultado: los números

Concepto — Wispr Flow Pro — Setup Spokenly + Haiku

Costo mensual — US$15.00 — ~US$0.42

Costo anual — US$180.00 — ~US$5.04

Factor de ahorro — — — 36x (mensual)

Transcripción — Cloud (requiere internet) — Local (Parakeet V3, offline)

AI formatting — Cloud (propietario) — Cloud (Anthropic directo, BYOK)

Privacidad — Audio + screenshots al cloud — Audio on-device, solo texto limpio a Anthropic

RAM — ~800 MB — ~550 MB (modelo Parakeet 496 MB + app)

Modo offline — No disponible — Transcripción funcional sin internet

El desglose del costo con Haiku es transparente: ~80.787 tokens de input a US$1/millón = US$0.08, más ~68.669 tokens de output a US$5/millón = US$0.34. Total: US$0.42 al mes para 93.000 palabras dictadas. Si algún día Anthropic sube los precios o Spokenly deja de funcionar, puedo usar solo la transcripción local a costo cero — sin formatting, pero funcional.

Lo que aprendí

Sobre herramientas de dictado: El mercado de 2026 cambió. La transcripción local con modelos como Parakeet alcanza 95-97% de accuracy, dentro de 2-3 puntos porcentuales de servicios cloud. Para dictado de uso general — no transcripción médica ni legal — la diferencia es imperceptible. La pregunta ya no es "¿cloud o local?" sino "¿cuánto control quieres sobre tus datos y cuánto estás dispuesto a pagar por conveniencia?"

Sobre prompt engineering para formatting: Los LLMs de chat tienen un instinto de "ayudar" que trabaja en tu contra cuando los usas como procesadores de texto. La mejor estrategia no es agregar más restricciones — es reducir el contexto conversacional al mínimo. A veces, la solución óptima es literal: no escribir un prompt.

Sobre investigar antes de asumir: El hallazgo del servidor Vultr no hubiera aparecido si me hubiera conformado con que "funciona bien". Dos comandos en la terminal (lsof + ipinfo.io) me dieron visibilidad completa sobre a dónde iba mi texto. La lección es simple: si una herramienta gratuita ofrece un servicio que cuesta dinero producir, alguien está pagando por ello. Vale la pena saber quién.

La configuración final que uso hoy: Spokenly con Nvidia Parakeet V3 para transcripción local, Claude Haiku 4.5 vía API key propia de Anthropic, campo de prompt vacío. Costo: menos de un dólar al mes. Si te interesa replicar este setup paso a paso, voy a publicar una guía práctica complementaria en el blog próximamente.

Tech Stack

SpokenlyNvidia Parakeet V3Claude Haiku 4.5Anthropic API

Publicaciones relacionadas