Por que Google, Microsoft e Amazon amam o som de sua voz

Por Jing Cao e Dina Bass.

O Echo, da Amazon, prometeu concretamente um assistente pessoal com inteligência artificial em cada casa. Quem tem um desses aparelhos ativados por voz (conhecidos informalmente como Alexa, nome de sua interlocutora com voz feminina) tende ao proselitismo com os charmes “dela” e elogia o fato de que Alexa seja capaz de solicitar um Uber, pedir pizza ou corrigir o dever de matemática de um adolescente. A companhia afirma que mais de 5.000 pessoas por dia expressam seu amor por Alexa.

Por outro lado, quem venera Alexa também sabe que a menos que você fale com ela muito claramente… e… devagar, é provável que ela diga: Desculpe, não sei a resposta para essa pergunta. “Eu amo. Eu odeio, eu amo”, escreveu um cliente no site da Amazon, apesar de ter dado cinco estrelas a Alexa. “Você aprenderá rapidamente a falar com ela para que ela lhe entenda, não é diferente da frustração de conversar com uma criança pequena.”

A tecnologia de reconhecimento de voz avançou muito nos últimos anos. Mas ainda não está boa o bastante para popularizar o uso cotidiano e dar início a uma nova era da interação entre seres humanos e máquinas que nos permita conversar com todos os nossos aparelhos — carros, lavadoras de roupa, televisores. Apesar dos avanços do reconhecimento de voz, a maioria das pessoas continua arrastando o dedo e dando toques e cliques. E é provável que isso não mude em breve.

O que impede o progresso? Em parte, a inteligência artificial que é a base dessa tecnologia ainda precisa melhorar. Também há um sério déficit de dados — especificamente, áudio de vozes humanas em diversos idiomas, sotaques e dialetos em situações barulhentas que muitas vezes fazem com que o código fracasse.

Por isso a Amazon, a Apple, a Microsoft e a chinesa Baidu embarcaram em uma busca mundial por terabytes de discurso humano. A Microsoft montou apartamentos cenográficos em cidades de todo o planeta para gravar voluntários conversando em um ambiente familiar. A cada hora, a Amazon insere perguntas feitas a Alexa em um enorme depósito digital. A Baidu coleta ativamente cada dialeto da China. Depois, as empresas utilizam todos esses dados para ensinar a seus computadores como analisar gramaticalmente, compreender e responder a ordens e perguntas.

O desafio é encontrar um modo de captar conversas naturais do mundo real. Nem mesmo 95 por cento de exatidão é o bastante, diz Adam Coates, diretor do laboratório de inteligência artificial da Baidu em Sunnyvale, Califórnia. “Nosso objetivo é reduzir a taxa de erro a 1 por cento”, disse ele. “É aí que você poderá realmente ter certeza de que o aparelho compreende o que você diz, e isso será revolucionário.”

Quando você pede que seu telefone procure algo, toque uma música ou informe como chegar a determinado lugar, é provável que uma empresa esteja gravando isso. Apple, Google, Microsoft e Amazon enfatizam que tornam anônimos os dados dos usuários para proteger a privacidade do cliente. Quando você pergunta a Alexa como está o clima ou qual foi o resultado de um jogo, o aparelho usa as perguntas para aperfeiçoar a compreensão da linguagem natural (embora “ela” não escute suas conversas a menos que você diga o nome dela). “Por seu design, Alexa fica mais inteligente à medida que você usa”, afirma Nikko Strom, cientista-chefe sênior do programa.

Entre em contato conosco e assine nosso serviço Bloomberg Professional.

Agende uma demo.