« Pourquoi les gens qui s’occupent des voix d’IA agissent-ils comme si engager des acteurs de voix était une sorte de rituel obscur. »
Un podcast d’Embark Studios – les créateurs du prochain FPS The Finals – a laissé entendre que le jeu utiliserait des voix d’IA dans un avenir proche. L’explication a toutefois laissé certains acteurs vocaux perplexes, au mieux.
Carl Strandberg et Andreas Almström, concepteurs audio de The Finals, ont été interrogés : « Qui a fait les voix off ? Elles ont l’air vraiment authentiques » (spoilers : ce n’est pas une opinion que tout le monde partage). Ils ont répondu : « Nous utilisons l’IA à quelques exceptions près, donc toutes les voix des candidats, comme les aboiements et les voix off des commentateurs, sont des voix de synthèse vocale de l’IA. Les voix off diverses – grognements, bruits de douleur, saut d’objets – sont également réalisées en interne.
« La raison pour laquelle nous avons choisi cette voie est que la synthèse vocale est enfin extrêmement puissante. Elle nous permet d’aller assez loin en termes de qualité et d’être extrêmement réactifs aux nouvelles idées… si un concepteur de jeu a une nouvelle idée pour un mode de jeu, nous pouvons avoir une voix off qui la représente en quelques heures seulement, au lieu de plusieurs mois.
Cependant, cette explication ne correspond pas vraiment à l’expérience des acteurs vocaux qui travaillent réellement dans les jeux. L’un d’entre eux est Gianni Matragrano, que vous reconnaîtrez peut-être comme Gabriel dans Ultrakill, bien qu’il ait travaillé pour une grande variété de jeux, dont Genshin Impact, Gloomwood et Evil West.
Matragrano a écrit sur un Twitter: « Nous sommes constamment en train de produire des sessions de commande urgente, en l’espace d’un jour ou deux… Lorsque vous en avez besoin de plus, vous pouvez réserver une autre session. En fait, nous rendons les choses très faciles. Il poursuit en révélant qu’il avait des doutes en jouant à la bêta, mais qu’il attendait une confirmation : « J’avais des soupçons, mais je ne voulais rien dire au cas où j’aurais eu tort, ou peut-être qu’il ne s’agissait que d’un espace réservé. Mais aujourd’hui, avec une bêta ouverte de grande envergure et 150 000 joueurs simultanés, il est clair que c’est leur vision.
Je suppose donc que The Finals va utiliser des voix d’IA… ? pic.twitter.com/PIAbR43ZrT28 octobre 2023
La vidéo ci-dessus est un exemple posté par Matragrano lui-même, et… oui, ce n’est pas terrible. J’entends trop la vallée de l’étrange pour croire à cette technologie « extrêmement puissante » dont Strandberg et Almström se vantaient. Ils ont toutefois ajouté une mise en garde : « Si cela sonne un peu faux, cela se marie quand même assez bien avec la fantaisie des jeux virtuels, d’un point de vue esthétique ». À vous de voir si ces lignes vocales vous immergent.
Zane Schacht, un autre acteur vocal, a écrit : « Pourquoi les gens qui s’occupent des voix d’IA agissent-ils comme si engager des acteurs vocaux était une sorte de rituel obscur … J’ai réalisé des jeux entiers en une session de deux heures. Ce n’est pas profond ».
En attendant Pax Helgesenqui est à la fois concepteur sonore senior et acteur vocal lui-même, a commenté : « J’aimerais à nouveau encourager les développeurs à reconsidérer l’utilisation de la voix dans leurs jeux comme un simple « atout » dans le pipeline du développement agile. Il ajoute que, oui, l’IA peut jouer un rôle important dans le développement d’un jeu, mais « un acteur qui pourrait utiliser les outils de son métier et ses expériences pour collaborer et créer quelque chose de plus grand que ce que les développeurs ont imaginé ».
Je suis enclin à être d’accord sur ce point. Dans un sens, le jeu d’acteur et la conception sonore sont deux disciplines très différentes. C’est un peu comme la façon dont les « AI Artists » se font descendre sur la place publique lorsqu’ils partagent les résultats de leurs prompteurs, car ceux qui ont un meilleur œil peuvent voir le manque de composition et d’intention à un kilomètre de distance.
Vous pouvez demander à un algorithme de produire quelque chose, c’est vrai, mais l’art implique des dizaines de choix intentionnels qu’une machine ne peut pas, pour l’instant, reproduire. Le jeu d’acteur est similaire. Une partie de moi se demande si Strandberg et Almström n’en savent tout simplement pas assez sur l’AV pour comprendre à quel point leurs lignes générées par ElevenLabs sont dérangeantes pour les joueurs qui ne se soucient pas des délais de développement.
Ce qui est d’autant plus étrange, c’est qu’il existe déjà des utilisations intéressantes et réfléchies de cette technologie dans les jeux. Il y a peu, il a été révélé que le doublage polonais de Cyberpunk 2077 a utilisé l’IA pour fournir de nouvelles répliques pour le pack d’extension du jeu, Phantom Liberty, après la mort de l’acteur vocal d’un certain personnage. CD Projekt a fait preuve de diligence. Il a engagé un doubleur pour fournir les nouvelles répliques (à modifier avec Respeecher), il a obtenu le consentement des membres survivants de la famille du doubleur, et il a agi de la sorte pour préserver la performance originale, non basée sur l’IA.
En ce qui concerne The Finals, j’ai du mal à voir l’intention créatrice. Bien sûr, l’IA peut permettre d’accélérer les choses, même si elle n’est pas aussi lente que les développeurs le laissent entendre, mais le résultat est dépourvu de personnalité. Un jeu de tir multijoueur n’a pas besoin de fournir une narration profonde, bien sûr, mais vous écoutez ces aboiements pendant des heures. J’ai l’impression que cette façon de s’exprimer, guindée et maladroite, va vite devenir ennuyeuse.
J’ai contacté Embark Studios pour obtenir un commentaire et on m’a répondu par courriel que le studio utilise un mélange de « voix enregistrées et d’audio généré par des outils TTS (text to speech) dans nos jeux, en fonction du contexte », citant les conversations entre les personnages comme l’un des domaines où il est important d’avoir de vraies personnes qui parlent entre elles. « Les outils de synthèse vocale nous permettent d’avoir des voix sur mesure là où nous ne pourrions pas en avoir autrement, par exemple pour des raisons de rapidité de mise en œuvre.
« Dans les cas où nous utilisons les TTS en finale, ils sont toujours basés sur de vraies voix. Il convient de préciser que la plupart Les programmes d’IA vocale sont basés sur des voix réelles, de la même manière que l’art de l’IA est basé sur l’art réel – c’est ainsi que la technologie fonctionne. « Dans la bêta ouverte, elle est basée sur un mélange d’acteurs vocaux professionnels et de voix temporaires d’employés d’Embark. Faire des jeux sans acteurs n’est pas un but en soi pour Embark et la technologie TTS nous a permis de trouver de nouvelles façons de travailler ensemble.
Les studios Embark n’ont pas commenté la question « mois contre semaines », bien que l’implication semble se rapprocher de ce que l’interview mentionnée ci-dessus met en avant : TTS fait partie de la vision de The Finals. Le jeu utilisera probablement un mélange de voix et d’IA même une fois qu’il sera sorti de la version bêta, à moins que l’opinion publique ne fasse changer d’avis Embark Studios.
Aucune étiquette pour cette publication.