Las voces de la IA son difíciles de detectar incluso cuando sabes que podrían ser un deepfake
HogarHogar > Noticias > Las voces de la IA son difíciles de detectar incluso cuando sabes que podrían ser un deepfake

Las voces de la IA son difíciles de detectar incluso cuando sabes que podrían ser un deepfake

Jul 23, 2023

En 2019, el director de una empresa británica cayó en una estafa. Recibió un mensaje de voz falso de su gerente pidiéndole que transfiriera 220.000 euros (240.000 dólares) a un proveedor. Un año después, el director de un banco de Hong Kong recibió una llamada de alguien que le resultaba familiar. Como tenían una relación comercial existente, el banquero transfirió 400.000 dólares antes de darse cuenta de que algo andaba mal. Estafas como estas que utilizan tecnología de clonación de voz con inteligencia artificial (IA) son cada vez más frecuentes, y la detección de voces falsas será más difícil a medida que la IA mejore rápidamente, incluso para personas capacitadas que utilicen herramientas especiales.

Un estudio reciente publicado en Plos One en el que participaron 529 participantes reveló que los humanos luchan por distinguir con precisión entre mensajes de voz reales y falsos. El estudio encontró que los participantes fallaron el 25% de las veces al intentar detectar voces deepfakes, e incluso el entrenamiento tuvo un impacto mínimo. La mitad de los participantes recibieron formación previa escuchando cinco ejemplos de voz sintetizada, pero su rendimiento fue sólo un 3% mejor que el del grupo no entrenado.

El estudio realizado por investigadores del University College de Londres (Reino Unido) también tuvo como objetivo comprender si el desafío era más fácil o más difícil dependiendo de las características de los distintos idiomas, por lo que realizaron las pruebas en inglés y mandarín. Los hallazgos indican que ambos grupos calificaron por igual la autenticidad de los mensajes. Consideraron atributos como la naturalidad y la falta de una voz con sonido robótico como factores importantes. "Tanto los participantes de habla inglesa como los de habla mandarín citaron con frecuencia pronunciaciones incorrectas y entonaciones atípicas en los clips de sonido como factores que influyen en su proceso de toma de decisiones", dijo Kimberly Mai, autora principal del estudio.

Los participantes mencionaron las mismas características, independientemente de la exactitud de la respuesta. Esto se debe a que el audio es subjetivo. A diferencia de la detección de deepfakes visuales, donde la autenticidad se puede juzgar mediante la observación de objetos y fondos, la naturaleza subjetiva del habla hace que las percepciones varíen más. "Al mirar una imagen potencialmente falsa de una persona, puedes contar el número de dedos o ver si su ropa y accesorios coinciden", dijo Mai.

Para comparar las capacidades humanas y tecnológicas, los investigadores también probaron dos sistemas de detección automatizados. El primer software utilizado se entrenó en una base de datos no relacionada y logró una precisión del 75%, similar a las respuestas humanas. El segundo detector, entrenado tanto en la versión de voz original como en la sintetizada, logró una precisión del 100% en la identificación de audio real y falso. Mai dice que los programas avanzados superan a los humanos debido a su capacidad para reconocer matices acústicos sutiles, algo que los humanos no pueden hacer.

Los sonidos complejos, como el habla humana, constan de varias frecuencias. La frecuencia se refiere al número de veces que se repite una onda sonora en un segundo. "Durante su fase de entrenamiento, los detectores automatizados analizan miles de muestras de voz y aprenden sobre peculiaridades en niveles de frecuencia específicos e irregularidades rítmicas que los humanos no pueden discernir", dijo Mai.

Los detectores automatizados han demostrado ser más eficaces que los humanos en esta tarea, aunque también tienen limitaciones. En primer lugar, no están disponibles para el uso diario. Además, su rendimiento disminuye cuando los niveles de audio fluctúan y en entornos ruidosos. Sin embargo, el principal desafío es mantenerse al día con los avances de la inteligencia artificial generativa, que produce contenidos cada vez más realistas y que se sintetizan mucho más rápidamente. En el pasado, entrenar un programa para crear deepfakes solía requerir horas de grabación, pero ahora se puede lograr en segundos.

Según Fernando Cucchietti, experto en el tema, los hallazgos del estudio tienen ciertas limitaciones. Las condiciones del experimento estaban estrictamente controladas y no eran representativas de los desafíos de la vida real que plantea esta tecnología. "No son realmente prácticos en situaciones en las que los deepfakes pueden causar problemas, como cuando conoces personalmente a la persona que está siendo imitada", dijo Cuchietti, jefe de análisis y visualización de datos del Centro de Supercomputación de Barcelona al Science Media Center de España. Sin embargo, Cucchietti señala que estos hallazgos se alinean con otros estudios en entornos controlados, y “... los resultados están menos influenciados por factores como sesgos o nociones preconcebidas, como se ve en estudios sobre desinformación”.

A nivel individual, las personas tienen dificultades para detectar de manera confiable las voces deepfakes. Sin embargo, las investigaciones sugieren que agregar las opiniones de múltiples personas y tomar decisiones basadas en el voto mayoritario mejora las capacidades de detección. "Si te encuentras con un mensaje de audio inusual que genera dudas, como si te piden que transfieras una gran suma de dinero, siempre es una buena idea hablar con otras personas y verificar de dónde viene", dijo Mai.

Mai propone mejorar los detectores automatizados mejorando su resistencia a las variaciones en el audio de prueba. Actualmente, su equipo está adaptando modelos exitosos de otros dominios, como texto e imágenes. "Dado que estos modelos utilizan una gran cantidad de datos para el entrenamiento, podemos esperar que mejoren en el reconocimiento de variaciones en los clips de sonido". Mai también cree que las instituciones deben actuar. "Deberían dar prioridad a la implementación de estrategias, como regulaciones y políticas, para mitigar los riesgos relacionados con las voces profundas".

Suscríbete a nuestro boletín semanal para recibir más cobertura de noticias en inglés de EL PAÍS Edición USA