Tecnologia se destaca de ferramentas semelhantes pela precisão, mas acende alerta sobre questões éticas e de segurança
Que a Inteligência Artificial tem se tornado cada vez mais presente no nosso dia a dia, você provavelmente já sabe. O que você talvez ainda não saiba é que esse é apenas o começo. Uma tecnologia lançada pela Microsoft promete replicar uma das características que mais nos distingue dos outros: a voz.
A ferramenta, batizada de VALL-E, pode reproduzir qualquer voz depois de ouvir apenas três segundos de áudio. O sistema é descrito pela Microsoft como um “modelo de linguagem de codec neural”, e é baseado em uma tecnologia da Meta capaz de comprimir áudio sem perda de qualidade.
Os desenvolvedores treinaram o VALL-E com o Libri-light, uma biblioteca de áudio da Meta que possui cerca de 60 mil horas de falas em inglês, de sete mil pessoas. Com isso, o robô é capaz de replicar até mesmo palavras que nunca ouviu.
Outras tecnologias semelhantes já foram lançadas pela própria Microsoft, dentro do Skype, e pela Amazon, com a assistente virtual Alexa. O VALL-E, no entanto, promete se destacar por conseguir combinar emoção e tom de voz, o que as outras ferramentas não são capazes de fazer.
O desenvolvimento de tecnologias capazes de reproduzir vozes de maneira tão fiel pode ser um marco para a indústria da dublagem, por exemplo. Por outro lado, acende também um alerta sobre questões éticas e de segurança, já que essas ferramentas podem dar origem a uma série de novos golpes. Não por acaso, a Microsoft não divulgou o código-fonte do recurso e não disponibilizou o VALL-E para o público. Pelo menos, não por enquanto.