“Alexa, como vai ser o clima hoje.”
Foram necessárias décadas para que os cientistas entendessem a fala humana natural ao ponto de usá-la no aprendizado de máquina. As interfaces ativadas por voz, como a Alexa, o sistema de processamento de linguagem natural da Amazon, estarem suficientemente habilitadas para serem aceitas com sucesso pelos consumidores.
Alexa é quem fala com os usuários dos produtos Eco da Amazon, incluindo o Echo, Dot e Tap, além do Amazon Fire TV e outros produtos de terceiros. Mesmo desde 2012, quando a patente foi arquivada para o que acabaria por se tornar o sistema de inteligência artificial da Amazon, Alexa, houve um enorme crescimento nas capacidades e o crédito para esse crescimento foi para o aprendizado de máquinas.
Para algo que fazemos todos os dias sem pensar, a conversa entre máquinas e humanos é complexa. Então, como a Amazon e outros no espaço como Google, Apple e Microsoft quebraram o código?
[amazon_link asins=’B01ETRGEIG’ template=’ProductAd’ store=’suprimatec0d-20′ marketplace=’BR’ link_id=’125a3ba3-c8d6-11e8-a131-0bd26b898a60′]Os ABCs da Alexa
Mais de 30 milhões de alto-falantes inteligentes foram vendidos globalmente no ano passado, e este número deve crescer para quase 60 milhões este ano. Embora a Amazon continue sendo a líder do setor em alto-falantes inteligentes que vendem cerca de 20 milhões de dispositivos no ano passado, outros (especialmente o Google) também estão crescendo e começando a recuperar o atraso. Há nuances para cada um deles, mas vamos ver “sob o capô” de um Echo para ver como o Alexa funciona.
Embora haja alguma capacidade contida no cilindro do Echo, como alto-falantes, um microfone e um pequeno computador que pode despertar o sistema e piscar suas luzes para que você saiba que ele está ativado, suas capacidades reais ocorrem quando ele envia o que você disse Alexa para a nuvem para ser interpretada pelo Serviço de Voz Alexa ou Alexa Voice Services (AVS).
Então, quando você pergunta a Alexa: “Como vai ficar o clima hoje”, o dispositivo registra sua voz. Em seguida, a gravação é enviada pela Internet para o Alexa Voice Services da Amazon, que analisa a gravação em comandos que ela entende. Em seguida, o sistema envia a saída relevante de volta ao seu dispositivo.
Quando você pergunta sobre o tempo, um arquivo de áudio é enviado de volta e a Alexa informa a previsão do tempo tudo sem que você tenha alguma ideia de que houve qualquer troca entre os sistemas. O que isso significa é que, se você perder a conexão com a internet, a Alexa não funciona.
As habilidades que o Echo tem fora da caixa são impressionantes para a maioria de nós, mas a Amazon permite e incentiva os desenvolvedores aprovados, acesso gratuito ao Alexa Voice Services para que eles possam criar novas habilidades para Alexa aumentar o conjunto de utilidades do sistema, assim como a Apple fez com a app store.
Como resultado dessa abertura, a lista de qualificações que a Alexa (atualmente com mais de 30.000) pode ajudar continua a crescer rapidamente. Os usuários podem, é claro, comprar produtos da Amazon, mas também podem pedir pizza na Domino’s, pegar carona na Uber ou Lyft, controlar suas luminárias, fazer um pagamento com a habilidade Capital One, comprar vinhos para o jantar e muito mais.
Constantemente aprendendo com dados humanos
O aprendizado de dados e de máquina é a base do poder da Alexa, e ela só está ficando mais forte à medida que sua popularidade e a quantidade de dados que ela coleta aumentam. Toda vez que ela comete um erro ao interpretar sua solicitação, esses dados são usados para tornar o sistema mais inteligente na próxima vez.
O aprendizado de máquina é o motivo da rápida melhoria nas capacidades da interface de usuário ativada por voz. Por exemplo, o discurso do Google conseguiu melhorar tremendamente sua taxa de erros em um ano; agora reconhece 19 das 20 palavras que ouve. Compreender a fala humana natural é um problema gigantesco, e agora temos o poder da computação à nossa disposição para torná-la melhor quanto mais a usamos.
Os desafios da geração e processamento da linguagem natural
Como um subconjunto da inteligência artificial, a geração de linguagem natural (NLG) é a capacidade de obter respostas sonoras escritas e verbais com base em dados inseridos em um sistema de computador. A linguagem humana é bastante complexa, mas as capacidades atuais de geração de linguagem natural estão se tornando muito sofisticadas. Pense no NLG como um escritor que transforma dados em linguagem que pode ser comunicada.
O processamento de linguagem natural (NLP) é o leitor que usa a linguagem criada pelo NLG e a consome. Avanços nesta tecnologia permitiram um crescimento dramático em assistentes pessoais inteligentes como o Alexa.
Inteligência Artificial baseada em voz é tão atraente porque mantém a promessa de apoiar de uma forma que é natural para nós seres humanos; sem passar ou digitar necessário. É também por isso que é um desafio técnico para construir. Basta pensar em quão não-linear é a sua conversa típica.
Quando as pessoas falam, elas se interrompem, mudam de assunto ou se repetem, usam a linguagem corporal para adicionar significado e usar uma grande variedade de palavras que têm vários significados dependendo do contexto. É como um pai tentando entender o vernáculo dos adolescentes, mas muito, muito mais complicado.
Para contribuir com o aprendizado de máquina, a Amazon tem um exército de especialistas, além de um grupo de computadores na tarefa de tornar a Alexa e a Alexa Voice Services ainda melhores. Seu objetivo é tornar a linguagem falada uma interface de usuário que seja tão natural quanto conversar com outro ser humano.
Eu não posso esperar para ver o que estará na loja no futuro.
Texto: Bernard Marr autor de best-sellers e orador principal em negócios, tecnologia e big data. Seu novo livro é Data Strategy (Estratégia de Dados). Para ler seus posts futuros, simplesmente junte-se à sua rede aqui. Publicado originalmente na Forbes
[amazon_link asins=’074947985X,0273750119,0470685956,1119231388,1118965833,1292017430,074948246X,1634622170′ template=’ProductCarousel’ store=’suprimatec017-20′ marketplace=’US’ link_id=’3eb7eb1a-c8d5-11e8-9660-53aa019e46f1′]