Nexo AI
Empezamos haciendo una sola cosa:
llamadas que parecen humanas.
Lo curioso es que, para que funcionaran de verdad, tuvimos que escribir nosotros mismos las dos capas que casi nadie escribe: la telefonía y el motor de voz. Esto es lo que aprendimos y por qué creemos que tiene sentido hacerlo sobre Google.
La mayoría de las llamadas en un call center no necesitan a un humano. Pero el modelo de negocio depende de que sí.
Eso explica varias cosas raras. Por qué los BPO crecen contratando, no automatizando. Por qué la gente rota cada seis meses. Por qué un banco grande paga decenas de millones de dólares al año para llamar a sus propios clientes y aun así apenas contacta a uno de cada diez.
Cuando un mercado tiene esos síntomas durante años sin que nadie los arregle, normalmente es porque la solución obvia no funciona todavía. Hace dos años no funcionaba. Ahora empieza a funcionar.
Hacemos llamadas. Eso es lo más simple que se puede decir. La parte interesante es cómo.
Levantamos el teléfono, hablamos con alguien en español latinoamericano, entendemos lo que dice, lo conectamos con su CRM o su core, y cerramos lo que haya que cerrar. Una cita, un cobro, una venta, una verificación. Sin que un operador humano toque la llamada.
- Llama y recibe llamadas para tareas que aburren a un humano: agendar, cobrar, vender, dar soporte, verificar identidad, encuestar.
- Suena como alguien de Colombia o de México, no como un robot. Eso importa más de lo que parece.
- Se enchufa al CRM y al core del cliente y deja todo escrito ahí. Nadie tiene que transcribir.
- No infringe la Ley 2300. Una persona se equivoca con la regulación; una máquina bien programada no.
Por qué dejamos de usar Twilio. Y luego también de usar Bland.
Empezamos como cualquiera. Twilio para la telefonía, Bland para el agente, una LLM API arriba. Funcionaba lo suficiente como para hacer demos. No lo suficiente como para que un cliente con cien mil llamadas al día nos tomara en serio.
Twilio + Bland + LLM API
Escribir cada capa
La parte que no es obvia: como bajamos a una sola factura, casi todo lo que crecemos depende del costo de cómputo. Por eso este pitch tiene sentido para Google. La nube ya no es un gasto, es el insumo.
Cuando hicimos los números, el mercado resultó más grande de lo que pensamos.
No estamos persiguiendo un TAM hipotético. Estamos sumando los presupuestos reales de los segmentos donde ya tenemos cliente o donde alguien del board ya hizo la primera llamada por nosotros.
Fuentes: Invest in Bogotá, Superfinanciera, CCCE, Secretaría de Salud Bogotá.
Cuando uno de nuestros inversionistas abrió su libreta de contactos, el pipeline cambió de forma.
Llevábamos un año vendiéndoles a campañas políticas, que es donde habíamos empezado. Eran clientes reales pero pequeños y episódicos. Lo que cambió todo no fue una mejora de producto. Fue una mesa de socios.
Ninguna de estas reuniones llegó por outbound frío. Eso, más que cualquier feature, es lo que hace este pipeline interesante.
Hay tres cifras que casi todo el mundo promete y que muy poca gente puede mostrar en producción.
Las pongo primero porque son las que nos toman años de obtener y las que vuelven posible el resto del negocio.
Lo que tenemos resuelto es la telefonía. Lo que aún nos limita es el cómputo. Por eso este pitch existe.
Empezamos por política porque era lo que conocíamos. Después descubrimos que el motor servía para más cosas.
Resulta que una llamada a un votante y una llamada a un cliente moroso se parecen más de lo que parece. Cambian las palabras y las reglas. La infraestructura es la misma.
- Cada vertical comparte el mismo motor. Lo que cambia son los prompts, las integraciones y las reglas. Cambiar de industria nos cuesta días, no meses.
- El pricing cambia bonito: cobranza paga por recuperado, retail por interacción, BPO por minuto, salud por cita. Mezclar verticales suaviza el riesgo.
- El acceso ejecutivo viene del board, no del SDR. Por eso podemos hablar con varias industrias al tiempo sin contratar diez vendedores.
- Cómputo que crezca con la campaña, no con la planeación. Eso es lo que ofrece Google sin que tengamos que reservar capacidad fija.
- Modelos de voz finos por país y por sector. Para eso necesitamos entrenar más, no menos.
- Una capa de datos donde guardar millones de transcripciones y poder hacerles preguntas. Ahí entra BigQuery.
La telefonía la dejamos donde está. Todo lo demás se mueve a GCP.
Esto no es un dibujo de arquitectura para impresionar. Es la lista concreta de servicios que vamos a consumir si el programa nos aprueba. La pongo así para que sea fácil de auditar.
Si tuviera que resumir en una frase qué le pediríamos a Google: poder entrenar e inferir modelos de voz en español a mil llamadas por segundo, sin tener que pensar en cuánto vamos a gastar este mes.
Si nos aprueban el AI Scale, así se gastarían los $200–250 mil dólares.
Lo dividimos en tres trimestres para no engañarnos. Cada fase tiene un hito que se puede verificar. Si no lo cumplimos, el siguiente bloque no se gasta.
Entrenar la voz que queremos
- Fine-tuning del modelo de voz para Colombia, México y Andinos en Vertex AI y TPUs.
- Mover la capa de orquestación a GKE con autoscaling.
- Montar BigQuery desde el día uno, con esquema de eventos de llamada bien pensado.
- Hito: un cliente nuevo en producción usando el modelo entrenado aquí.
Llevar el motor a clientes grandes
- Inferencia real para sostener las mil por segundo con clientes de cobranza, retail y salud al tiempo.
- Gemini en el motor de decisión, en vez de las reglas estáticas que tenemos hoy.
- Dashboards ejecutivos por cliente, donde quepan millones de llamadas sin verse lentos.
- Hito: 3 a 5 clientes enterprise activos y ARR multiplicado contra hoy.
Salirnos de Colombia sin romper nada
- Réplicas activas en regiones de México y Brasil, con los mismos modelos.
- Bajar el costo por minuto con committed use discounts sobre la huella estable.
- Empezar SOC2 Type I con apoyo de arquitectos del programa.
- Hito: plan multianual de consumo firmado con Google.
Por qué encajamos en AI Scale: la IA no es un feature del producto, es el producto. Y la mayor parte del consumo cae justo donde Google quiere que caiga: Vertex AI, Gemini, TPUs y BigQuery.
Dentro de 12 meses, esto es lo que esperamos poder mostrar.
No es un plan perfecto. Es el plan que creemos hoy. Si vamos más rápido en lo técnico que en lo comercial, o al revés, el plan se ajusta. Lo único que no se mueve es el foco.
- T1: al menos un cliente enterprise hablando con un modelo entrenado por nosotros en Vertex AI.
- T2: autoscaling en GKE aguantando picos de campaña sin subirse de un segundo de latencia.
- T3: Gemini reemplazando reglas estáticas en cobranza y retail.
- T4: SOC2 Type I iniciado y réplicas activas en mx y br.
- T1: primer contrato enterprise cerrado con alguno de los que ya están en pipeline (Crezcamos, Aval, Mercagán, Bodytech).
- T2: al menos una cuenta activa en cobranza, una en retail y una en salud, al tiempo.
- T3: el primer cliente en México, idealmente con un partner de Google ayudando.
- T4: ARR repetible y retención lo suficientemente clara como para levantar una serie A en buenos términos.
No queremos ser una startup que usa Google por unos meses y se va. Queremos ser una de esas referencias que ustedes ponen cuando alguien pregunta qué se puede hacer en voz desde LatAm sobre Google Cloud.
No estamos solos. Y eso explica buena parte del pipeline.
Las startups que cierran contratos enterprise tempranos casi nunca lo hacen por outbound. Lo hacen porque alguien con credibilidad les abre la primera puerta. Eso es lo que tenemos.
- Mercagán — sentados con la mesa de socios.
- Ziruss Pizza y Bodytech — conversaciones con los founders.
- Grupo Crezcamos — caso de cobranza casi a la medida.
- Grupo Aval — acercamiento con los dueños.
- IPS top de Bucaramanga — agendamiento y no-shows.
- Teleperformance Colombia — conversación con el gerente general.
- Campañas políticas grandes que ya han trabajado con nosotros y vuelven.
Ninguna de estas reuniones llegó por LinkedIn. Eso es lo que cambia la economía del primer año.
Una sola cosa: que nos dejen construir esto sobre Google.
Aprobación al AI Scale del Google for Startups Cloud Program, con $200.000–$250.000 USD en créditos para los próximos doce meses, destinados sobre todo a entrenar voz LatAm en Vertex AI, inferencia con Gemini, training en TPUs y analítica de campañas en BigQuery.
Lo más importante
Sostener entrenamiento e inferencia de voz LatAm a mil llamadas por segundo y analítica de millones de conversaciones, sin tener que reservar capacidad fija.
Lo segundo más importante
Acceso al Startup Success Manager y a arquitectos de GCP para diseñar el multi-región, el autoscaling y el camino hacia SOC2 Type I.
Lo que nos haría volver el favor
Casos de estudio juntos en cobranza, retail y BPO. Y acceso a partners regionales de Google Cloud, para llegar a los clientes enterprise un poco más rápido.
Si funciona, dentro de un par de años queremos ser la respuesta corta cuando alguien pregunte qué se puede hacer en voz desde LatAm corriendo sobre Google Cloud.