Todos podrán clonar su voz en el futuro.

Todos podrán clonar su voz en el futuro.

Clonar su voz usando inteligencia artificial es tedioso y simple: características de una tecnología que está casi madura y lista para salir a bolsa.

Todo lo que necesita hacer es hablar por un micrófono durante 30 minutos aproximadamente, leer un guión con el mayor cuidado posible (en mi caso: la voz en off de un documental de David Attenborough). Después de iniciar y detenerse decenas de veces para volver a grabar sus errores y murmullos, enviará los archivos de audio resultantes para su procesamiento, y en unas pocas horas se le informará que una copia de su voz está lista y esperando. Luego, puede escribir lo que quiera en un chatbox, y su clon de IA se lo dirá, con el audio realista resultante para engañar incluso a amigos y familiares, al menos por unos momentos. El hecho de que exista un servicio de este tipo puede ser una novedad para muchos, y no creo que hayamos comenzado a considerar por completo el impacto que tendrá el fácil acceso a esta tecnología.

El trabajo de síntesis de voz ha mejorado enormemente en los últimos años gracias a los avances en el aprendizaje automático. Anteriormente, las voces sintéticas más realistas se creaban grabando el audio de un actor de voz humano, cortando su discurso en sonidos componentes y volviéndolos a unir como letras en una nota de rescate para formar nuevas palabras. Ahora las redes neuronales se pueden entrenar con datos sin clasificar de su voz de destino para generar audio sin procesar de alguien hablando desde cero. Los resultados finales son más rápidos, más fáciles y más realistas de arrancar. La calidad definitivamente no es perfecta cuando se usa la máquina directamente (aunque los ajustes manuales pueden mejorar esto), pero solo mejorarán en un futuro cercano.

No existe una salsa especial para hacer estos clones, lo que significa que decenas de startups ya ofrecen servicios similares. Simplemente busque en Google “síntesis de voz de IA” o “deepfakes de voz de IA”, y verá cuán común es la tecnología, disponible en tiendas especializadas que solo se centran en la síntesis de voz, como Resemble.AI y Respeecher, y también integrada en empresas con mayor plataformas, como Veritone (donde la tecnología forma parte de su repertorio publicitario) y Descript (que la utiliza en el software que fabrica para editar podcasts).

Estos clones de voz simplemente han sido una novedad en el pasado, apareciendo como falsificaciones únicas como esta falsificación de Joe Rogan, pero están comenzando a usarse en proyectos serios. En julio, un documental sobre el chef Anthony Bourdain desató controversia cuando los creadores revelaron que habían usado inteligencia artificial para crear audio de las líneas “parlantes” de Bourdain que había escrito en una carta. (En particular, pocas personas notaron el deepfake hasta que los creadores revelaron su existencia). Y en agosto, la startup Sonantic anunció que había creado un clon de voz de IA del actor Val Kilmer, cuya propia voz se dañó en 2014 después de que se sometiera a una traqueotomía como parte de su tratamiento contra el cáncer de garganta. Estos ejemplos también enmarcan algunas de las dimensiones sociales y éticas de esta tecnología. El caso de uso de Bourdain fue criticado como explotador por muchos (particularmente porque su uso no fue revelado en la película), mientras que el trabajo de Kilmer ha sido generalmente elogiado y la tecnología fue elogiada por ofrecer lo que otras soluciones no podían. .

Es probable que las aplicaciones de celebridades de clonación de voz sean las más destacadas en los próximos años, y las empresas esperan que las celebridades quieran aumentar sus ingresos con un esfuerzo mínimo mediante la clonación y el alquiler de sus voces. Una empresa, Veritone, lanzó un servicio de este tipo a principios de este año, y dijo que permitiría a personas influyentes, atletas y actores licenciar su voz de IA para cosas como respaldos e identificaciones de radio, sin tener que ir a un estudio. “Estamos muy entusiasmados con lo que eso significa para muchas industrias diferentes porque la parte más difícil de la voz de alguien y poder usarla y expandir es el tiempo del individuo”, dijo Sean King, vicepresidente ejecutivo de Veritone Uno. , dijo. los Vergecast. “Una persona se convierte en el factor limitante de lo que estamos haciendo”.

Estas aplicaciones aún no están muy extendidas (o si lo están, no se habla mucho de ellas), pero parece una forma obvia para que las celebridades ganen dinero. Bruce Willis, por ejemplo, ya ha obtenido la licencia de su imagen para que se utilice como un deepfake visual en anuncios de teléfonos móviles en Rusia. El trato le permite ganar dinero sin tener que salir de casa, mientras que la firma de publicidad asegura un actor infinitamente maleable (y, en particular, un mas joven versión de Willis, directamente de su Morir duro dias). Este tipo de clones visuales y de audio podrían acelerar las escalas de la economía para el trabajo de las celebridades, permitiéndoles capitalizar su fama, siempre que estén felices de alquilar una burla de sí mismos.

Aquí y ahora, la tecnología de síntesis de voz ya se está incorporando a herramientas como el software de edición de podcasts del mismo nombre creado por la firma estadounidense Descript. La función “Overdub” de la compañía permite a un podcaster crear un clon de IA de su voz para que los productores puedan realizar cambios rápidos en su audio, complementando la edición basada en transcripciones del programa. Como dijo Andrew Mason, CEO de Descript El Vergecast: “No solo puede eliminar palabras en Descript y hacer que elimine el audio, puede escribir palabras y generará audio en su voz”.

El software de edición de podcasts Descript utiliza clones de voz de IA para editar el habla como una transcripción.
Descripción de la imagen

Cuando probé la función Overdub de Descript, ciertamente fue bastante fácil de usar, aunque como se mencionó anteriormente, registrar los datos de entrenamiento fue un poco complicado. (Fue mucho más fácil para mi colega y habitual Borde Ashley Carman, presentadora de podcasts, que tenía mucho audio pregrabado listo para que lo enviara la IA). Los clones de voz hechos por Overdub no son perfectos, ciertamente. Tienen un extraño trino en su tono y carecen de la capacidad de cargar realmente las líneas con emoción y énfasis, pero también son inconfundibles. usted. La primera vez que usé mi clon de voz fue un momento realmente extraño. No tenía idea de que esta cosa profundamente personal, mi voz, podría ser copiada por la tecnología tan rápida y fácilmente. Se sintió como un encuentro con el futuro, pero también resultó extrañamente familiar. Después de todo, la vida ya está llena de espejos digitales, avatares y feeds de redes sociales que se supone que representan a “usted” de varias maneras, así que ¿por qué no agregar un autómata parlante a la mezcla?

Sin embargo, el impacto inicial de escuchar una voz clonada de ti mismo no significa que las voces humanas sean redundantes. Lejos de ahí. Ciertamente, puede mejorar la calidad de los deepfakes de voz con un poco de edición manual, pero en su forma automatizada, aún no pueden ofrecer el rango de inflexión y entonación que obtiene de los profesionales. Como dijo la locutora y narradora Andia Winslow El VergecastSi bien las voces de IA pueden ser útiles para el trabajo de voz de memoria (para sistemas de mensajería interna, anuncios públicos automatizados y similares), no pueden competir con los humanos en muchos casos de uso. “Para cosas grandes, cosas que necesitan aliento y vida, no va a ser así porque, en parte, a estas marcas les gusta trabajar con las celebridades que contratan, por ejemplo”, dijo Winslow.

Pero, ¿qué significa esta tecnología para el público en general? ¿Para aquellos de nosotros que no somos lo suficientemente famosos como para beneficiarnos de la tecnología y no estamos profesionalmente amenazados por su desarrollo? Bueno, las aplicaciones potenciales son variadas. No es difícil imaginar un videojuego donde la pantalla de creación de personajes incluye una opción para crear un clon de voz, por lo que parece que el jugador está hablando todo el diálogo del juego. O podría haber una aplicación para padres que les permita copiar su voz para que puedan leer cuentos a sus hijos antes de acostarse, incluso cuando no están cerca. Estas aplicaciones podrían realizarse con la tecnología actual, aunque la calidad media de los clones rápidos dificultaría su venta.

También existen peligros potenciales. Los estafadores ya han utilizado clones de voz para engañar a las empresas para que transfieran dinero a sus cuentas, y ciertamente hay otros usos maliciosos que acechan más allá del horizonte. Imagine, por ejemplo, un estudiante de secundaria grabando subrepticiamente a un compañero de clase para crear un clon de voz de él, y luego falsificando el audio de esa persona hablando mal de un maestro para meterlo en problemas. Si los usos de deepfakes visuales son algo por lo que pasar, donde las preocupaciones sobre la desinformación política han demostrado estar en gran parte fuera de lugar, pero la tecnología ha hecho un gran daño al crear pornografía no consensuada, son este tipo de incidentes los que plantean las mayores amenazas.

Sin embargo, una cosa es segura: en el futuro, cualquiera podrá crear un clon de voz de IA de sí mismo si lo desea. Pero el guión que seguirá este coro de voces digitales aún no se ha escrito.

Esta nota es parte de la red de Wepolis y fué publicada por California Corresponsal el 2021-09-14 13:20:52 en:

Link a la nota original

Palabras clave:
#Todos #podrán #clonar #voz #futuro

About the author

Pretium lorem primis senectus habitasse lectus donec ultricies tortor adipiscing fusce morbi volutpat pellentesque consectetur risus molestie curae malesuada. Dignissim lacus convallis massa mauris enim mattis magnis senectus montes mollis phasellus.