La mayoría de las personas no distinguen entre una voz de IA y una humana

La inteligencia artificial (IA) se ha convertido en una parte común de la vida cotidiana para muchos. La vemos escrita en nuestras redes sociales, hablamos con ella utilizando grandes modelos lingüísticos y la oímos cada vez que la Alexa de Amazon se activa ante alguna petición. Sin embargo, a medida que la tecnología avanza, cada vez es más difícil saber qué es real y qué no lo es.
En un nuevo estudio, publicado en la revista 'PLoS One', los investigadores descubrieron que la mayoría de las personas ya no pueden distinguir entre las voces generadas por IA y las voces humanas de las que fueron clonadas.
Los participantes recibieron muestras de 80 voces diferentes, la mitad de las cuales eran de inteligencia artificial y la otra mitad, humana. A continuación, se les pidió que clasificaran lo que oían en función de su nivel de confianza o dominio. Dentro de la categoría de IA, había dos tipos diferentes: voces genéricas creadas desde cero y voces clonadas a partir de grabaciones humanas.
Mientras que la mayoría de los encuestados reconoció que la IA genérica era falsa, las versiones clonadas sintéticamente resultaron menos descifrables, ya que el 58% las confundió con las reales. En comparación, el 62% de las voces reales fueron identificadas correctamente como humanas, lo que supone una diferencia mínima entre la capacidad de los encuestados para distinguirlas.
"El aspecto más importante de la investigación es que las voces generadas por inteligencia artificial, en concreto los clones de voz, suenan tan humanas como las grabaciones de voces humanas reales", declaró a 'Euronews Next' Nadine Lavan, autora principal del estudio y profesora titular de psicología en la Universidad Queen Mary de Londres.
"Esto es especialmente sorprendente, ya que utilizamos herramientas disponibles en el mercado, con las que cualquiera puede crear voces que suenen realistas sin tener que pagar enormes cantidades de dinero, ni necesitar conocimientos particulares de programación o tecnología".
Preocupación por la voz
La tecnología de clonación de voz por IA funciona analizando y extrayendo características clave de los datos de voz. Debido a su capacidad para imitar con tanta precisión, se ha convertido en una herramienta muy popular entre los estafadores telefónicos, que a veces utilizan las publicaciones en redes sociales como recurso para imitar las voces de los seres queridos de la gente.
Las personas mayores son las más expuestas. Al menos dos tercios de los mayores de 75 años reciben intentos de estafa telefónica, según una investigación de la Universidad de Portsmouth. También se descubrió que casi el 60% de los intentos de estafa se realizan a través de llamadas de voz.
Aunque no todas estas llamadas se realizan con IA, estas son cada vez más frecuentes debido a la sofisticación y accesibilidad del software, con ejemplos populares como Hume AI y ElevenLabs.
La clonación por IA también es motivo de preocupación en el mundo del espectáculo, donde se han utilizado sin permiso las voces de varias celebridades. El año pasado, Scarlett Johansson denunció que OpenAI había utilizado una voz que sonaba "inquietantemente parecida" a la suya en la película 'Her' para su servicio ChatGPT.
También está el uso generalizado de falsificaciones de audio, que han imitado a políticos o periodistas en intentos de influir en la opinión pública y difundir información errónea. Dado que todos estos preocupantes usos indebidos siguen calando en la sociedad, la doctora Lavan cree que los desarrolladores de IA tienen la responsabilidad de implantar salvaguardias más sólidas.
"Desde nuestro punto de vista, como investigadores, siempre recomendamos a las empresas que crean la tecnología que hablen con especialistas en ética y responsables políticos para estudiar las cuestiones éticas y jurídicas que se plantean, por ejemplo, en torno a la propiedad de las voces, el consentimiento (y hasta dónde puede llegar éste en un panorama en constante cambio)", afirma.
Mejorar la accesibilidad
Como ocurre con todas las tecnologías, las voces generadas por la IA también pueden utilizarse para hacer el bien, y podrían resultar especialmente beneficiosas para las personas mudas o con dificultades para hablar.
"Este tipo de tecnología de asistencia se utiliza desde hace tiempo, y Stephen Hawking es uno de los ejemplos más emblemáticos. Lo nuevo, sin embargo, es la posibilidad de personalizar estas voces sintéticas de un modo que antes era imposible", explica Lavan. "Hoy, los usuarios pueden elegir entre recrear su voz original, si eso es lo que prefieren, o diseñar una voz completamente nueva que refleje su identidad y sus gustos personales".
También señaló que, si se utiliza de forma ética y responsable, esta tecnología podría mejorar la accesibilidad y la diversidad en la educación, la radiodifusión y la producción de audiolibros.
Por ejemplo, un estudio reciente descubrió que el aprendizaje de audio asistido por IA aumentaba la motivación y el compromiso con la lectura de los estudiantes, especialmente de aquellos con una neurodiversidad como el Trastorno por Déficit de Atención e Hiperactividad (TDA).
"Otro avance fascinante es la capacidad de clonar una voz en diferentes idiomas, lo que permite a las personas representarse a sí mismas más allá de las fronteras lingüísticas conservando su identidad vocal. Esto podría transformar la comunicación global, la accesibilidad y el intercambio cultural", añade Lavan.
A medida que el sonido de las voces artificiales esté cada vez más presente en nuestras vidas, los matices con los que las utilizamos y nos relacionamos con ellas seguirán desarrollándose. Lavan espera explorar este aspecto con nuevas investigaciones, centradas en cómo se perciben las voces generadas por IA.
"Me gustaría mucho profundizar en cómo el hecho de que alguien sepa si una voz está generada por IA o no cambia su forma de relacionarse con esa voz", afirma. "Del mismo modo, sería muy interesante ver cómo percibe la gente las voces generadas por IA que suenan bien y agradables, pero que claramente no son humanas. Por ejemplo, ¿sería más o menos probable que la gente siguiera las instrucciones de estas voces agradables pero no humanas? ¿Sería más o menos probable que la gente se enfadara con ellas cuando algo va mal?".
"Todas estas preguntas son muy interesantes desde el punto de vista de la investigación y pueden decirnos mucho sobre lo que importa en las interacciones humanas, o entre humanos y ordenadores", afirma.
Today