Clonación de voz, inteligencia artificial y nuevos desafíos

Hace pocos días, a modo de experimento, la emisora de radio suiza Couleur 3 lanzó una programación de un día completo hecha exclusivamente con Inteligencia Artificial, con la excepción de los programas de noticias. La conducción de los programas, en francés, fueron hablados en gran parte y producidos con la ayuda de ChatGPT. A los presentadores habituales de la radio se les había clonado previamente la voz para alimentar y entrenar el sistema, simulando entrevistas con las voces clonadas de los expresidentes estadounidenses Barack Obama y Donald Trump.

Índice

Esto recién empieza Entendiendo el aprendizaje profundo Clonación de voz mal habida Una nueva preocupación de seguridad, la voz La industria musical vs las IA Siempre hay una primera vez Tecnología y modelos de negocio La punta del ovillo Un nuevo desafío

Esto recién empieza

El realismo de la síntesis de voz de las Inteligencias Artificiales (IA), incentiva su uso en tareas como por ejemplo el doblaje cinematográfico y el de los videojuegos, la producción de audiolibros y la creación de spots publicitarios. Funcionan perfectamente y dan resultados sorprendentes por su alta calidad, logrando transmitir con bastante acierto la emoción humana en el discurso.

Existen plataformas que permiten a los usuarios grabar su propia voz para crear una clonación personalizada. Pero el problema está cuando la voz que se pretende clonar no es la de uno y se persigue un interés dudoso, como crear falsas noticias o manipularlas (deepfakes), cometer delitos, y usar la imagen de otra persona para beneficiarse de ella o provocarle un daño.

Clonación de voz, inteligencia artificial y nuevos desafíos

Entendiendo el aprendizaje profundo

La clonación de voz con inteligencia artificial es una técnica en la que se utiliza un modelo de aprendizaje profundo, para aprender la voz de una persona a partir de una muestra de audio. El aprendizaje profundo hace referencia a algoritmos que están diseñado para procesar una gran cantidad de datos para encontrar patrones complejos en ellos. Pueden aprender automáticamente a partir de información en bruto, lo que los hace muy eficaces para el procesamiento de datos no estructurados, como imágenes, textos, o en este caso audios. La información la procesan de la misma manera que lo hace el cerebro humano. Para ello se utilizan redes neuronales.

Las redes neuronales tratan de emular el funcionamiento de nuestro cerebro. Una red neuronal se compone de una gran cantidad de unidades de procesamiento interconectadas, conocidas como neuronas (demasiado obvio), que trabajan juntas para procesar y transmitir información. Están organizadas en capas, donde cada capa tiene un conjunto específico de funciones. Cada neurona de una red neuronal realiza una operación matemática de la entrada o dato que recibe, y luego transmite el resultado a otras neuronas de la capa siguiente. La conexión entre las neuronas se realiza mediante pesos, que se ajustan durante el entrenamiento para mejorar el rendimiento. Los pesos son valores numéricos que se asignan a las conexiones entre las neuronas. Su valor determina la importancia de la entrada de cada neurona en la siguiente capa. Pueden ser valores positivos o negativos y pueden cambiar durante el entrenamiento. Podemos decir en general, que los pesos que tienen un valor cercano a cero tienen poca influencia, mientras que los pesos con valores grandes tienen una mayor importancia en la salida de la red neuronal.

Clonación de voz mal habida

Empiezan a ser habituales en todo el mundo noticias de delitos y de extorsiones financieras, utilizando como medio la clonación de la voz de una supuesta víctima. Aquí dos ejemplos:

Una abuela de 73 años en Canadá, recibió una llamada telefónica aparentemente desesperada de su nieto, quien afirmó estar encarcelado y sin acceso a su teléfono o billetera. El joven le pidió ayuda urgente para pagar su fianza y sin dudarlo, ella acudió rápidamente a dos sucursales de sus bancos para retirar el dinero necesario. En la primera sucursal, retiró el equivalente a 2.000 dólares, pero en la segunda, el gerente la detuvo antes de que pudiera retirar más dinero. Éste le informó que ya había atendido a otro cliente que había recibido una llamada similar y sospechó que la persona que llamó no era realmente su nieto.

Una madre fue víctima de una estafa por parte de una banda criminal que utilizó inteligencia artificial para falsificar la voz de su hija de 15 años y exigir un rescate de un millón de dólares. El hecho ocurrió en Estados Unidos. La mujer recibió la llamada de una voz que gritaba y pedía ayuda, asegurando que su hija estaba secuestrada y que necesitaba el rescate. Tras intentar planificar la manera de conseguir el dinero, la madre se dio cuenta de que su hija estaba sana y salva en un viaje de esquí. La banda criminal tenía información detallada de la vida de la madre y de su hija.

Una nueva preocupación de seguridad, la voz

En el pasado, la prevención principal en cuanto a la privacidad en línea se enfocaba principalmente en evitar compartir información personal como números de teléfono, direcciones de correo electrónico o información financiera en la red. Sin embargo, con el surgimiento de tecnologías de inteligencia artificial avanzadas que permiten la clonación de voz, el cuidado por la privacidad ahora también incluye la protección de la voz personal.

Esta tecnología se está convirtiendo en una preocupación cada vez mayor, ya que se pueden obtener muestras de audio de voces de personas sin su consentimiento. Por ejemplo, de videos publicados en YouTube, podcasts, TikTok, Instagram y otras redes sociales.

Esto significa que cualquier persona que haya compartido su voz en línea corre el riesgo de ser víctima de un clonador de voz. Los delincuentes pueden utilizar estas grabaciones para engañar a amigos y familiares, hacerse pasar por alguien más en línea, desacreditar a una persona ante la opinión pública o incluso para cometer fraudes financieros.

La industria musical vs las IA

Hace muy poco, la canción «Heart on My Sleeve» de Drake & The Weeknd, se convirtió en un éxito en las redes sociales con 15 millones de reproducciones en TikTok y más de 20 millones en Twitter, además de 625.000 reproducciones en Spotify y 275.000 visitas en YouTube. Sin embargo, esta canción era falsa y fue creada utilizando inteligencia artificial. La situación ha generado preocupación pero también una controversia legal en Universal Music Group (UMG), quienes han enviado cartas documento a los servicios que albergaban la canción, como TikTok, Apple Music, Deezer, Tidal, Spotify y YouTube. Aunque algunas versiones de la canción siguen disponibles en línea, miles de resultados han desaparecido. La situación plantea un nuevo desafío en cuanto a la propiedad intelectual y la gestión de contenido generado por inteligencia artificial.

Estos modelos de IA son entrenados usando de forma indiscriminada y sin permiso obras protegidas por derechos de autor. Además, su capacidad para crear música puede llegar a ser tan convincente como para que aparezcan artistas virtuales que ni siquiera existen y que han sido entrenados con música de todo tipo para luego generar éxitos a golpe de tecla. El uso de la IA podría eventualmente permitir a la industria crear música sin la necesidad de que los artistas la graben, lo que plantea interrogantes sobre el futuro de la música y el impacto en los artistas.

Drake y The Weeknd – El rap que fue generado por un *software* de IA sin la participación de los músicos canadienses.

Siempre hay una primera vez

El conflicto está en que la industria musical tradicional se está mostrando reacia a la tecnología de inteligencia artificial, intentado evitar que se utilice la música de sus artistas para entrenar modelos de IA sin autorización previa, pidiendo expresamente a los principales servicios de streaming de música que lo impidan.

Pero la artista canadiense Grimes, ha decidido abrazar el cambio tecnológico de una manera muy diferente, ofreciendo a través de un tuit dividir el 50% de las regalías con cualquier artista que utilice su voz en una canción generada por IA con éxito, y les ha propuesto cerrar acuerdos de reparto de regalías a través de “contratos inteligentes” basados en la blockchain. Se trata de acuerdos digitales autoejecutables cuando se cumplen determinadas condiciones, por ejemplo, acordar un porcentaje de los ingresos generados por la reproducción de su música en una determinada plataforma, siempre que alcance un cierto número de reproducciones o nivel de ingresos.

Los contratos inteligentes se utilizan para automatizar procesos y acuerdos sin requerir de la intervención humana, lo que puede hacer que sean más rápidos y eficientes. Al estar alojados en una red descentralizada, son resistentes a la manipulación y la censura.

Esta postura muy abierta a la tecnología podría significar un cambio en la forma en que los artistas y las compañías discográficas interactúan con la inteligencia artificial en el futuro.

Tecnología y modelos de negocio

La industria musical está siendo desafiada nuevamente por cambios tecnológicos que afectan su modelo de negocio. En los años 90 y principios de los 2000, el formato de música predominante era el CD físico. Sin embargo, los consumidores empezaron a demandar música en formato digital, la nueva tecnología. En este contexto, surgieron los archivos de audio en formato MP3, que permitían a los usuarios descargar música de forma fácil y rápida.

La industria musical no estaba preparada para ese cambio y se resistió a la transición hacia el formato digital. En lugar de adaptarse, intentó proteger su modelo de negocio tradicional basado en la venta de CD físicos. Para hacer frente a la piratería, las discográficas implementaron medidas tecnológicas de protección, como los sistemas DRM, que limitaban el acceso y la reproducción de los archivos. Además, también intentaron frenar la piratería mediante medidas legales, demandando a sitios web que ofrecían descargas ilegales de música.

Estas medidas no fueron efectivas y la copia ilegal de archivos MP3 continuó multiplicándose. Fue entonces cuando surgieron plataformas de streaming de música, como Spotify, que ofrecían un modelo basado en el acceso a la música en línea a cambio de una suscripción mensual. Este cambio permitió a la industria musical adaptarse a la era digital y recuperarse de la pérdida de ingresos por la piratería.

La punta del ovillo

En la actualidad, la inteligencia artificial y el aprendizaje automático están cambiando la forma en que se produce y se distribuye la música, y las discográficas y los artistas están tratando de encontrar formas de adaptarse a estos cambios. Al igual que en el caso de la piratería, la industria musical se enfrenta a desafíos en la protección de los derechos de autor y la remuneración justa de los artistas.

Sin embargo, a diferencia de la piratería, la inteligencia artificial y el aprendizaje automático también ofrecen nuevas oportunidades y posibilidades para la creatividad y la producción musical. Por ejemplo, la IA puede ayudar a los artistas a crear nuevas composiciones y a explorar nuevos sonidos y géneros musicales. Además, las plataformas de streaming ofrecen una mayor accesibilidad a la música y una mayor visibilidad para los artistas.

Tal vez la artista canadiense haya encontrado “la punta del ovillo” en lo que respecta al modelo de negocio de la música en estos tiempos de IA. El tiempo lo dirá.

Un nuevo desafío

La «aversión al riesgo», si bien es un término de la economía y las finanzas, es común en muchos aspectos de la vida. Las personas pueden sentir resistencia y hostilidad hacia las nuevas tecnologías, especialmente si perciben que amenazan su estabilidad o seguridad. También cuando descubren el mal uso que se le puede llegar a dar. La primera reacción, casi primitiva, es pedir su prohibición.

En lugar de prohibir estas tecnologías, es importante abordar las causas subyacentes de su uso y trabajar en soluciones que permitan utilizarlas de manera segura y responsable, implementando medidas de seguridad robustas que prevengan o reduzcan la posibilidad de una mala utilización, educando además sobre el uso responsable de las mismas.

En tiempos donde mandan las cuotas de mercado, es necesario desarrollar estándares y regulaciones que, sin impedir la innovación, puedan garantizar que se cumplan con las normas éticas y legales necesarias para tranquilidad de todos. La clonación de voz llegó como un nuevo desafío.