A diferencia de las voces sintéticas generadas a través de un ordenador, que se crean con tecnologías de conversión de texto a voz, la clonación de voces utiliza la voz real de una persona y, a partir de ello, genera una interpretación realista de la original.
La Inteligencia Artificial (IA) está proliferando en diversos campos y uno de ellos es la tecnología de clonación de voz, que cada vez cuenta con más herramientas para su uso y que, a su vez, está ocasionando una serie de preocupaciones entre los usuarios y profesionales ante a los posibles casos de uso indebido, como es la reciente polémica con la actriz Scarlett Johansson, que busca respuestas sobre si OpenAI utilizó su voz sin consentimiento para crear la voz de Sky en el ‘chatbot’ ChatGPT.
La clonación de voz mediante herramientas de IA consiste en, a través del uso de algoritmos y el aprendizaje automático, crear copias sintéticas de la voz de cualquier persona. En algunos casos estas herramientas permiten replicar el habla de una persona mediante muestras de audio de tan solo unos segundos, consiguiendo resultados realistas.
Así, a diferencia de las voces sintéticas generadas a través de un ordenador, que se crean con tecnologías de conversión de texto a voz, la clonación de voces utiliza la voz real de una persona y, a partir de ello, genera una interpretación realista de la original.
En este sentido, existen diversas herramientas impulsadas por IA que facilitan la clonación de la voz. Un ejemplo de esta tecnología es VALL-E de Microsoft que, mediante algunas grabaciones de audio de tan solo tres segundos, es capaz de imitar la voz del hablante preservando incluso las emociones y el entorno acústico del mensaje.
Lo mismo ocurre con la herramienta recientemente anunciada de Open AI, Voice Engine, un nuevo modelo de IA capaz de crear voces personalizadas y naturales con una única muestra de audio de 15 segundos.
Así, estas herramientas presentan múltiples ventajas y facilidades a la hora de utilizar la voz en distintos tipos de contexto, ya sea para la creación de asistentes de voz personalizados, para ayudar a personas con problemas del habla, para el desarrollo de videojuegos o, incluso, para entornos laborales, con aplicaciones al marketing o a la traducción de contenido.
Sin embargo, las tecnologías de clonación de voz también están levantando algunas preocupaciones entre los usuarios y los profesionales de la voz que, ante la posibilidad de un uso indebido de la IA, prevén posibles problemas como la suplantación de la voz y, por tanto, de la identidad.
POSIBLES USOS DE LA VOZ SIN CONSENTIMIENTO
Estas preocupaciones se materializan en casos como el de la actriz Scarlett Johansson, quien actualmente busca respuestas legales ante el uso de una voz muy similar a la suya por parte de Open AI en su ‘chatbot’ ChatGPT. En concreto, se trata de la voz conocida como Sky que, como consecuencia a esta situación, ha quedado en desuso temporalmente.
La compañía dirigida por Sam Altman propuso en un primer momento a la intérprete poner voz a ChatGPT, sin embargo, Johansson rechazó la oferta por “razones personales” y, en su lugar, OpenAI optó por trabajar con actores de doblaje profesionales, agencias de talentos, directores de casting y asesores de la industria.
De hecho, la compañía ha afirmado que la voz de Sky no es una imitación de la estadounidense, sino que “pertenece a una actriz profesional diferente, que usa su propia voz natural” y que, incluso, fue contratada antes de la oferta que propusieron a la intérprete.
Sin embargo, Johansson señala que OpenAI ha imitado su voz independientemente de que ella rechazase la oferta y, por tanto, busca esclarecer lo sucedido por la vía legal. “Cuando escuché la demostración lanzada me quedé estupefacta, furiosa e incrédula al ver que el Sr.Altman estaba utilizando una voz que sonaba tan inquietantemente similar a la mía”, manifestó en un comunicado.
Este caso refleja una de las posibles consecuencias del uso de estas tecnologías de clonación, que dan pie a situaciones confusas en las que se dificulta la forma de aseverar y proteger la identidad de los usuarios en Internet, en este caso, con el uso de la voz.
PROFESIONALES DE LA VOZ EN ALERTA
La irrupción de estas herramientas de IA capaces de clonar la voz, también pone en alerta a los profesionales del sector de la voz, que se ven afectados por las capacidades de esta tecnología ya que, en ocasiones, puede acabar sustituyendo su labor, por ejemplo, a la hora de realizar interpretaciones de.
Esta preocupación ya fue puesta en valor por grupos como el Sindicato de Actores de doblaje y Voice Talents de Madrid, quienes solicitaron que toda la comunicación oral con una IA “sea convenientemente identificada como tal”. De esta forma, la organización pretende que ningún usuario pueda ser llevado a engaño y piense que está escuchando a un ser humano cuando, en realidad, está escuchando una IA.
Asimismo, el sindicato advirtió sobre las consecuencias que este tipo de tecnología y su uso descontrolado pueden suponer para el sector de profesionales. Por ello, el pasado año manifestaron la necesidad de una legislación que incluya cuestiones como la obligatoriedad de que los desarrolladores de las herramientas de clonación con IA incluyan “una ecualización o un efecto de sonido” que conviertan el contenido en algo identificable con solo escucharlo.
Como punto intermedio entre el uso de la IA y el trabajo de los profesionales de voz, han surgido iniciativas como la de la compañía Speechless, que lanzó el pasado mes de abril una IA híbrida con la que permite a los desarrolladores de videojuegos utilizar sus herramientas de voz impulsadas por IA, pero basadas en una voz real ofrecida por un actor de doblaje. De esta forma, el profesional recibe una comisión cada vez que sus recursos de voz se utilizan en un videojuego.
SUPLANTACIÓN DE FAMOSOS
Continuando con el uso indebido de las herramientas de clonación de voz, ha habido otras ocasiones en las que directamente se ha usado esta tecnología de IA para suplantar la identidad de personalidades famosas, en concreto, para llevar a cabo actividades maliciosas como fomentar comportamientos de odio.
Uno de estos casos ocurrió el pasado año con la ‘startup’ tecnológica ElevenLab, que denunció un uso indebido de clonación de voz a través de su tecnología, tras la aparición de una serie de clips de audio aparentemente protagonizados por celebridades como Joe Rogan, Ben Sharpio y Emma Watson, con contenidos racistas y violentos.
Así lo constató una investigación realizada por Motherboard, en la que se detalló que los audios se publicaron inicialmente en la plataforma 4Chan. Tras ello, ElevenLab señaló que implementarían una serie de medidas para frenar este mal uso, como solicitar una muestra con texto para verificar los derechos de autor de la voz.
ESTAFAS Y ‘DEEPFAKES’
No obstante estas suplantaciones de voz son cada vez más frecuentes, sobre todo, en las redes sociales como Facebook e Instagram, que se han convertido en uno de los canales de difusión preferidos para los artífices de estas estafas, debido a que millones de personas las utilizan a diario y cualquier campaña maliciosa puede tener un gran alcance.
Según una encuesta realizada por las compañías desarrolladoras de las soluciones de ‘software’ Voicebot y Pindrop, esto es algo que preocupa a más del 57 por ciento de los usuarios, quienes aseguran sentirse intranquilos por su exposición ante esta tendencia creciente.
Con todo ello, en un momento de la sociedad en el que los usuarios lidian continuamente con ‘deepfakes’, información falsa y suplantaciones de voz, se han de tener en cuenta ciertas características a la hora de consumir contenido, como la consistencia de la voz, que en el caso de las voces clonadas pueden tener tonos inusuales o presentar patrones inconsistentes.
Igualmente, además de evaluar las fuentes, es recomendable examinar el contexto del contenido y desconfiar de aquellas publicaciones que compartan publicaciones poco creíbles, como recompensas monetarias altas.