Latencia

Tiempo que tarda un sistema en responder. En atención telefónica con IA, es el silencio entre que el cliente termina de hablar y la IA empieza a responder.

La latencia es el tiempo que transcurre entre una entrada y la respuesta del sistema. En el contexto de la atención telefónica con IA, hablamos del silencio entre que el cliente termina de hablar y el agente IA empieza a responder.

Por qué es la métrica más subestimada

Una conversación humana fluida tiene respuestas en menos de 500 ms entre turnos. Por encima de eso, empieza a notarse pausa. Por encima de un segundo, el cliente piensa que la línea está cortada o que está hablando con un robot.

Una IA con voz hermosa pero latencia alta suena artificial igual. Un sistema mediocre con latencia baja se siente más natural que uno excelente que tarda en responder.

De qué depende la latencia

Cuatro fases en cadena, cada una suma:

  1. ASR — convertir la voz del cliente en texto. ~100-300 ms con modelos modernos.
  2. LLM — entender e generar la respuesta. ~300-1000 ms según modelo.
  3. TTS — convertir la respuesta en voz. ~100-400 ms.
  4. Red y telefonía — desde la centralita al cliente. ~50-200 ms.

Total objetivo: menos de 1 segundo. Lo mejor del mercado en 2026 está en torno a 600-800 ms en español.

Estrategias para reducirla

  • Streaming: empezar a generar la respuesta antes de tener la frase completa.
  • Modelos más pequeños y rápidos para tareas concretas.
  • Hosting cercano geográficamente al cliente (servidores en UE para España).
  • Frases de relleno (“a ver, déjame revisar…”) mientras se procesa la respuesta real.

Qué pedir al evaluar

  • Que enseñen llamadas reales (no demos preparadas) y prestes atención al silencio entre turnos.
  • Que confirmen el percentil 95 de latencia, no solo la media.
  • Que el sistema use streaming en TTS y LLM.

¿Quieres ver cómo aplica esto a tu negocio?

Pide una demo de Loqia y te lo enseñamos sobre tus llamadas reales.

Solicitar demo