Voz Clonada: El Avance de la Tecnología de Síntesis Vocal

La síntesis de voz ha recorrido un largo camino desde el juguete Speak & Spell de 1978, que en su momento impresionaba a la gente con su capacidad de leer palabras en voz alta utilizando una voz electrónica. Ahora, utilizando modelos de inteligencia artificial de aprendizaje profundo, el software puede crear voces que no solo suenan realistas, sino que también pueden imitar convincentemente voces existentes utilizando pequeñas muestras de audio.

En esa línea, OpenAI anunció esta semana Voice Engine, un modelo de inteligencia artificial de texto a voz para crear voces sintéticas basadas en un segmento de audio grabado de 15 segundos. La compañía proporcionó muestras de audio del Voice Engine en acción en su sitio web. Una vez que una voz es clonada, un usuario puede ingresar texto en el Voice Engine y obtener un resultado de voz generado por inteligencia artificial.

Sin embargo, OpenAI no está listo para lanzar ampliamente su tecnología. Inicialmente, la compañía tenía planeado lanzar un programa piloto para que los desarrolladores se inscribieran en la API del Voice Engine a principios de este mes. Pero después de considerarlo más detenidamente sobre las implicaciones éticas, la compañía decidió reducir sus ambiciones por el momento. «De acuerdo con nuestro enfoque en la seguridad de la inteligencia artificial y nuestros compromisos voluntarios, hemos elegido mostrar pero no lanzar ampliamente esta tecnología en este momento», escribe la empresa.

La tecnología de clonación de voz en general no es particularmente nueva: ha habido varios modelos de síntesis de voz de inteligencia artificial desde 2022, y la tecnología está activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. La idea de que OpenAI se acerque a permitir que cualquiera use su marca particular de tecnología vocal es notable. Y de alguna manera, la reticencia de la compañía a lanzarla completamente podría ser la historia más grande. OpenAI dice que los beneficios de su tecnología de voz incluyen proporcionar asistencia de lectura a través de voces naturales, habilitar el alcance global para creadores al traducir contenido mientras se preservan los acentos nativos, apoyar a individuos no verbales con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después de condiciones que afectan al habla.

Sin embargo, también significa que cualquier persona con 15 segundos de la voz grabada de alguien podría clonarla de manera efectiva, y eso tiene implicaciones obvias para un posible mal uso. Aunque OpenAI nunca lanza ampliamente su Voice Engine, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas donde alguien imita la voz de un ser querido y llamadas robocalls de campañas políticas con voces clonadas de políticos como Joe Biden. Además, los investigadores y periodistas han demostrado que la tecnología de clonación de voces se puede utilizar para ingresar a cuentas bancarias que utilizan autenticación de voz (como Voice ID de Chase). OpenAI reconoce que la tecnología podría causar problemas si se lanza ampliamente, por lo que está tratando de trabajar en torno a esos problemas con un conjunto de reglas. Ha estado probando la tecnología con un grupo selecto de empresas asociadas desde el año pasado. Por ejemplo, la compañía de síntesis de video HeyGen ha estado utilizando el modelo para traducir la voz de un orador a otros idiomas manteniendo el mismo sonido vocal.

Artículos que te pueden gustar

Deja una respuesta Cancelar la respuesta