A IA do Google aprende a reproduzir a fala humana


0
A IA do Google aprende a reproduzir a fala humana
A IA do Google aprende a reproduzir a fala humana

Todos nós sabemos muito bem que o gigante da tecnologia Google está trabalhando duro para sintetizar vozes que soam cada vez mais como seres humanos. A ideia é tornar as interações naturais com o assistente pessoal, com os palestrantes do Google Home e até com o intérprete.

A IA do Google aprende a reproduzir a fala humana

A gigante da tecnologia Google está trabalhando duro para sintetizar vozes que soam cada vez mais como seres humanos. A ideia é tornar as interações naturais com o assistente pessoal, com os palestrantes do Google Home e até com o intérprete.

Desta vez, a empresa, é claro, o gigante da tecnologia Google lançou um novo avanço nessa direção usando redes neurais. Você consegue reconhecer a diferença entre a voz humana e a voz sintetizada?

A gigante da tecnologia Google criou um sistema chamado Tacotron 2, para síntese de fala diretamente do texto. Ele tem vários recursos interessantes como corrigir sua escrita: você pode digitar “thisss isrealy awhsome” e então você pode simplesmente ouvir a frase correta “this is really awesome”.

Além disso, o sistema pronuncia as palavras de acordo com o significado. Por exemplo, “deserto” pode ser “deserto” ou “deserto” – a rede neural detecta isso e dá a ênfase correta.

Ele também pausa quando detecta vírgulas; muda de entonação ao fazer uma pergunta; pronuncia corretamente termos mais complexos como “Otorrinolaringologia” ou “Talib Kweli”; e é bom em trava-línguas também.

O mais crucial, no entanto, é que o Tacotron 2 se aproxima da voz humana. Nisso link, você pode encontrar os exemplos de voz, e aposto que você não consegue identificar qual frase foi falada por um humano e qual foi produzida pela IA (Inteligência Artificial) do gigante de tecnologia Google.

O feedback está no final do post. Consegui identificar corretamente as vozes geradas por computador; algumas diferenças no ritmo da fala nos permitem detectar isso – são perceptíveis, mas muito sutis.

Essa nova técnica da gigante de tecnologia Google reúne dois projetos anteriores de geração de fala: WaveNet e o Tacotron original.

A WaveNet é uma rede neural que aprende a simular nossa voz. Começa com áudios gravados por humanos, tenta replicá-los e melhora a cada iteração, até criar uma voz sintética próxima da real. Ele faz uma simulação usando 16.000 amostras para cada segundo.

Por sua vez, o Tacotron original serviu para emular recursos de alto nível, como entonação e prosódia. Juntos, esses dois sistemas “produzem uma fala que soa natural e se aproxima da fidelidade de áudio da fala humana real”, escrevem os pesquisadores. O estudo está disponível aqui.

Então, o que você pensa sobre isso? Simplesmente compartilhe suas opiniões e pensamentos na seção de comentários abaixo.


Like it? Share with your friends!

0

What's Your Reaction?

hate hate
0
hate
confused confused
0
confused
fail fail
0
fail
fun fun
0
fun
geeky geeky
0
geeky
love love
0
love
lol lol
0
lol
omg omg
0
omg
win win
0
win

0 Comments

Your email address will not be published. Required fields are marked *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format