Deepfakes de voz: Cómo detectar llamadas falsas generadas con IA

Ciberseguridad y detección de deepfakes de voz en llamadas corporativas

La Inteligencia Artificial Generativa (GenAI) ha democratizado la creación de audio y vídeo falsos hasta niveles sin precedentes. Hoy en día, generar un clip de voz clonado es tan sencillo como pulsar un par de botones, lo que plantea una amenaza crítica para la seguridad corporativa, especialmente en lo que respecta a fraudes financieros y secuestro de cuentas de ejecutivos.

ESET señala que el año pasado se compartieron millones de clips falsos en todo el mundo, una cifra que crece exponencialmente mientras las organizaciones tienden a subestimar esta amenaza.

¿Cómo se construye un ataque de audio deepfake?

Lanzar un ataque de clonación de voz es alarmantemente fácil. Según ESET, el proceso suele seguir estos pasos:

Selección de la víctima: El atacante elige a un CEO, CFO o proveedor con presencia pública.
Recolección de archivos: Se busca una muestra de audio en Internet (conferencias, redes sociales o entrevistas). Unos pocos segundos bastan para entrenar a la IA.
Identificación del objetivo: Se investiga en redes como LinkedIn a empleados de finanzas o soporte técnico que puedan recibir la orden.
Contacto inicial: Se puede enviar un correo previo para generar urgencia antes de la llamada.
Ejecución de la llamada: El atacante utiliza la voz clonada para solicitar transferencias urgentes o accesos, imitando incluso ritmos e inflexiones propias del orador auténtico.

“Este tipo de ataque es cada vez más barato y convincente. Algunas herramientas insertan ruido de fondo o tics verbales para que la voz suplantada resulte más creíble”, advierte Mario Micucci, Investigador de Seguridad de ESET.

Cómo detectar a un impostor

A pesar de la sofisticación de la GenAI, existen señales que pueden delatar una llamada falsa:

Ritmo antinatural: Pausas extrañas o cadencias que no coinciden con el habla humana.
Tono plano: Una ausencia de emoción o inflexiones naturales en la voz.
Respiración inusual: Frases excesivamente largas sin pausas para respirar o sonidos de respiración poco realistas.
Ruido de fondo ausente: Un silencio absoluto o un sonido ambiental demasiado uniforme.

Medidas de prevención corporativa

Es fundamental que las empresas implementen procesos de verificación robustos:

Verificación fuera de banda: Si recibís una solicitud telefónica inusual, confirmala a través de un canal secundario (como un mensaje corporativo interno).
Doble validación: Exigir que al menos dos personas autoricen transferencias financieras importantes.
Capacitación continua: Actualizar los programas de concientización para incluir ejemplos reales de deepfakes de voz.

Para seguir aprendiendo:

Protegé tu organización de los nuevos fraudes impulsados por IA con los recursos de ESET:

WeLiveSecurity: Informe detallado sobre cómo reconocer llamadas falsas con IA.
Nuevas Estafas: Conocé el panorama actual del ciberfraude corporativo y la IA.
Conexión Segura: Suscribite a nuestro podcast en Spotify.