La plupart des gens ne peuvent pas faire la différence entre une voix humaine et une voix d'IA

L'intelligence artificielle (IA) fait désormais partie de la vie quotidienne de nombreuses personnes. Nous la voyons inscrite dans nos flux de médias sociaux, nous lui parlons à l'aide de grands modèles de langage et nous l'entendons chaque fois que l'Alexa d'Amazon s'éveille à une demande. Pourtant, à mesure que la technologie progresse rapidement, il devient de plus en plus difficile de distinguer ce qui est réel de ce qui ne l'est pas.
Dans une nouvelle étude, publiée dans la revue PLoS One, des chercheurs ont constaté que la plupart des gens ne peuvent plus faire la distinction entre les voix générées par l'IA et les voix humaines à partir desquelles elles ont été clonées.
Les participants ont reçu des échantillons de 80 voix différentes, dont la moitié était générée par l'IA et l'autre par des humains. Ils ont ensuite été invités à évaluer ce qu'ils entendaient en fonction des niveaux de confiance ou de domination.
Dans la catégorie de l'IA, il y avait deux types différents : les voix génériques créées de toutes pièces et les voix clonées à partir d'enregistrements d'humains en train de parler.
Si la plupart des personnes ont reconnu que l'IA générique était fausse, les versions clonées synthétiquement se sont révélées moins déchiffrables, 58 % d'entre elles ayant été prises pour des vraies. En comparaison, 62 % des voix réelles ont été correctement identifiées comme étant humaines, ce qui ne laisse qu'une légère marge de différence avec la capacité des personnes interrogées à faire la distinction entre les deux.
"L'aspect le plus important de cette étude est que les voix générées par l'IA, en particulier les clones vocaux, semblent aussi humaines que les enregistrements de vraies voix humaines", a déclaré à Euronews Next la Dre Nadine Lavan, auteur principal de l'étude et maître de conférences en psychologie à l'université Queen Mary de Londres.
"C'est d'autant plus frappant que nous avons utilisé des outils disponibles dans le commerce, qui permettent à n'importe qui de créer des voix réalistes sans avoir à débourser d'énormes sommes d'argent, et sans avoir besoin de compétences particulières en matière de programmation ou de technologie".
Inquiétudes concernant les voix
La technologie de clonage de voix par l'IA fonctionne en analysant et en extrayant les caractéristiques clés des données vocales. En raison de sa capacité à imiter avec une grande précision, elle est devenue un outil très prisé des escrocs qui utilisent parfois les réseaux sociaux pour imiter la voix de leurs proches.
Les personnes âgées sont les plus exposées : au moins deux tiers des personnes de plus de 75 ans font l'objet de tentatives d'escroquerie par téléphone, selon une étude menée par l'université de Portsmouth. Les chercheurs ont également constaté que près de 60 % des tentatives d'escroquerie sont effectuées par le biais d'appels vocaux.
Bien que tous ces appels ne soient pas effectués à l'aide de l'IA, celle-ci est de plus en plus répandue en raison de la sophistication et de l'accessibilité des logiciels, avec des exemples populaires tels que Hume AI et ElevenLabs.
Le clonage par l'IA est également devenu une source d'inquiétude dans l'industrie du divertissement, où plusieurs voix de célébrités ont été utilisées sans autorisation. L'année dernière, Scarlett Johansson a dénoncé l'utilisation par OpenAI d'une voix "étrangement similaire" (article en anglais) à la sienne dans le film "Her" pour son service ChatGPT.
Il y a aussi l'utilisation répandue de "deepfakes" audio, qui ont déjà imité des politiciens ou des journalistes dans le but d'influencer l'opinion publique et de diffuser des informations erronées (article en anglais).
Alors que tous ces abus troublants continuent de se répandre dans la société, la Dre Lavan estime que les développeurs d'IA ont la responsabilité de mettre en place des mesures de protection plus strictes.
"En tant que chercheurs, nous recommandons toujours aux entreprises qui créent la technologie de consulter des éthiciens et des décideurs politiques pour examiner les questions éthiques et juridiques liées, par exemple, à la propriété des voix, au consentement (et à la portée de celui-ci dans un paysage en constante évolution)", a-t-elle précisé.
Améliorer l'accessibilité
Comme toutes les technologies, les voix générées par l'IA peuvent également être utilisées à bon escient, et pourraient s'avérer particulièrement bénéfiques pour les personnes muettes ou qui ont du mal à s'exprimer.
"Ce type de technologie d'assistance est utilisé depuis un certain temps, Stephen Hawking en étant l'un des exemples les plus emblématiques. Ce qui est nouveau, cependant, c'est la possibilité de personnaliser ces voix synthétiques d'une manière qui était auparavant impossible", a déclaré Nadine Lavan.
"Aujourd'hui, les utilisateurs peuvent choisir de recréer leur voix originale, si c'est ce qu'ils préfèrent, ou de concevoir une voix entièrement nouvelle qui reflète leur identité et leurs goûts personnels".
Elle a également fait remarquer que, si elle est utilisée de manière éthique et responsable, la technologie pourrait améliorer l'accessibilité et la diversité dans l'éducation, la radiodiffusion et la production de livres audio.
Par exemple, une étude récente a montré que l'apprentissage audio assisté par l'IA stimulait la motivation et l'engagement des élèves dans la lecture, en particulier ceux qui souffrent d'une neurodiversité telle que le trouble déficitaire de l'attention avec hyperactivité (TDAH).
"Un autre développement fascinant est la capacité de cloner une voix dans différentes langues, ce qui permet aux gens de se représenter au-delà des frontières linguistiques tout en conservant leur identité vocale. Cela pourrait transformer la communication mondiale, l'accessibilité et les échanges culturels", a ajouté la Dre Lavan.
Alors que le son des voix artificielles devient de plus en plus présent dans nos vies, les nuances avec lesquelles nous les utilisons et nous engageons avec elles continueront à se développer. Lavan espère explorer cette question dans le cadre de nouvelles recherches, en se concentrant sur la manière dont les voix générées par l'IA sont perçues.
"J'aimerais vraiment étudier plus en profondeur comment le fait de savoir si une voix est générée par l'IA ou non modifie la façon dont la personne s'engage avec cette voix", a-t-elle déclaré.
"De même, il serait très intéressant de voir comment les gens perçoivent les voix générées par l'IA qui semblent agréables et plaisantes, mais qui ne sont manifestement pas humaines : par exemple, les gens seraient-ils plus ou moins enclins à suivre les instructions de ces voix d'IA agréables, mais non-humaines ? Seraient-ils plus ou moins enclins à se mettre en colère contre elles en cas de problème ?"
"Toutes ces questions sont très intéressantes du point de vue de la recherche et peuvent nous en apprendre beaucoup sur ce qui compte dans les interactions humaines (ou entre l'homme et l'ordinateur)", a-t-elle reconnu.
Today