VOZ HUMANA 'CLONADA' POR INTELIGÊNCIA ARTIFICIAL: COMO A OpenAI JÁ TESTA FERRAMENTA QUE CRIA ÁUDIOS ULTRARREALISTAS

  OpenAI lança modelo de IA que 'clona' voz humana


Voz humana 'clonada' por IA: como a OpenAI já testa ferramenta que cria áudios ultrarrealistas

O Voice Engine é capaz de criar vozes realistas a partir de amostra de 15 segundos; empresa realiza testes do sistemas nas indústrias de educação e saúde, inclusive com um aplicativo brasileiro

Por 

Juliana Causin

 — São Paulo

29/03/2024 16h50  Atualizado há 2 dias

Recriar vozes humanas com realismo a partir da inteligência artificial é a próxima fronteira a ser explorada pela OpenAI, empresa por trás do ChatGPT. A companhia apresentou nesta sexta-feira os resultados preliminares do Voice Engine, um novo modelo de IA que é capaz de "clonar" vozes a partir de comandos de textos e uma amostra de 15 segundos do áudio original.


A OpenAI já disponibiliza o modelo para um grupo restrito de empresas, apesar de não ter indicado quando e se haverá o lançamento do sistema para o público geral. Desde o ano passado, negócios na área de educação, saúde e criação de conteúdo têm usado o Voice Engine em produtos e pesquisas.

O sistema é capaz de reproduzir falas com IA em diferentes idiomas. Na publicação em que dá detalhes da ferramenta, a OpenAI apresenta exemplos de 'clones' criados em inglês, espanhol, mandarim, alemão, francês, japonês e português. A diferença entre o modelo de IA e a voz original é pouco perceptível nas amostras divulgadas.

Em comunicado, empresa reconhece que gerar áudios realistas com IA "acarreta sérios riscos", incluindo uso no contexto eleitoral ou em fraudes. A OpenAI alega, no entanto, que tem se engajado com autoridades, governos e empresas para encontrar soluções para possíveis problemas gerados pelo modelo.

Apesar dos efeitos sociais e políticos arriscados, a OpenAI já trabalha com possíveis usos práticos do Voice Engine - um deles, em parceria com uma empresa brasileira, a Livox. Veja, abaixo, como a ferramenta já tem sido aplicada e por quais organizações:

1. Vozes de IA para interagir com estudantes

Um dos testes da OpenAI com o Voice Engine tem sido feito com a Age of Learning, uma companhia americana que cria tecnologia voltada para educação. O modelo de voz é usado para gerar conteúdos educacionais para crianças, a partir de textos pré-definidos.

Criança com o 'ReadingIQ', um dos produtos educacionais da Age of Learning; empresa usa novo modelo da OpenAI — Foto: Divulgação/Age of Learning
Criança com o 'ReadingIQ', um dos produtos educacionais da Age of Learning; empresa usa novo modelo da OpenAI — Foto: Divulgação/Age of Learning

A empresa de educação também tem aliado o Voice Engine ao GPT-4, o "cérebro" por trás do ChatGPT. Com os dois sistemas, foi criado uma ferramenta que reponde de forma personalizada, em tempo real, as dúvidas de estudantes. A Age of Learning, com isso, pode "criar mais conteúdo para um público mais amplo", defende a OpenAI.

Nos exemplos de vozes por IA para educação, são apresentadas amostras em espanhol e inglês de conteúdo de diferentes disciplinas, como matemática e biologia.

2. Conteúdo audiovisual com voz sintética

Outra indústria em que a OpenAI estuda entrar com os "clones" de voz é a do audiovisual. A companhia vem testando a ferramenta com a HeyGen, uma plataforma de narrativas visuais que usa IA. Um dos serviços do negócio é criar avatares personalizados para empresas, usados em conteúdos publicitários, marketing e vendas.

Banco de avatares ultrarrealistas da HeyGen, que tem testado o Voice Engine — Foto: Reprodução/HeyGen
Banco de avatares ultrarrealistas da HeyGen, que tem testado o Voice Engine — Foto: Reprodução/HeyGen

O Voice Engine é aplicado pela HeyGen na tradução de vídeos. Com isso, um único locutor ou apresentador pode ter a voz reproduzida em diferentes idiomas. "Quando usado para tradução, o Voice Engine preserva o sotaque nativo do falante original", diz a OpenAI.

No exemplo apresentado, uma única voz feminina, em inglês, é recriada para alemão, mandarim, espanhol, francês e japonês.

3. Treinamento de pessoas com IA "que fala"

A Dimagi, uma empresa de softwares voltada para o terceiro setor, é outra empresa que tem participado dos testes de uso do modelo de voz. A companhia, de acordo com a OpenAI, tem criado ferramentas para auxiliar agentes de saúde a prestarem serviços comunitários, como aconselhamento a mães que amamentam.

Sistema CommCare, da Dimagi, foi usada durante epidemia de ebola, em países da África — Foto: Divulgação/Dimagi
Sistema CommCare, da Dimagi, foi usada durante epidemia de ebola, em países da África — Foto: Divulgação/Dimagi

O novo sistema, com o GPT-4, fornece apoio interativo aos trabalhadores de diversas partes do mundo, incluindo de locais remotos. A OpenAI destaca que o modelo é capaz de interagir em idiomas como o suaíli e o sheng, do Quênia.

4. Auxiliar pacientes e pessoas não-verbais

Auxiliar pacientes que têm a capacidade de comunicação comprometida ou que estão em reabilitação é outra aplicação possível do modelo. Esse uso tem sido testado pela OpenAI com o aplicativo brasileiro Livox e com um instituto da Brown University, nos Estados Unidos.

Exemplo de tela no Livox, um dos parceiros da OpenAI — Foto: Reprodução/Livox
Exemplo de tela no Livox, um dos parceiros da OpenAI — Foto: Reprodução/Livox

O Livox usa o Voice Engine para alimentar dispositivos de Comunicação Aumentativa e Alternativa (AAC), usados por pessoas com deficiência de fala. "Os usuários podem escolher a fala que melhor os representa e, para os multilíngues, é possível manter uma única voz em cada idioma", indica a companhia.

No Norman Prince Neurosciences Institute, da Brown Univertitisy, a tecnologia tem sido estudada para aplicação em contextos de saúde. Um exemplo da OpenAI foi o uso do sistema para restaurar a voz de um jovem paciente que havia perdido a fala fluente por causa de um tumor cerebral vascular.


Fonte:https://oglobo.globo.com/economia/tecnologia/noticia/2024/03/29/openai-apresenta-modelo-de-ia-que-clona-voz-humana-em-diferentes-linguas.ghtml

Comentários