[CULTURA DIGITAL] Voz, a próxima fronteira da disrupção tecnológica?

Voce está em :Home-Cultura Digital-[CULTURA DIGITAL] Voz, a próxima fronteira da disrupção tecnológica?

[CULTURA DIGITAL] Voz, a próxima fronteira da disrupção tecnológica?

O som se torna a próxima etapa de um processo que está amalgamando nossa existência com as ferramentas online: a palavra.

Relegado a uma posição obscura no começo da revolução tech, o som se torna a próxima etapa de um processo que está amalgamando nossa existência com as ferramentas online: a palavra.


[08.10.2021]


Por Alexandre Adoglio, CMO na Sonica e empreendedor digital.
Escreve quinzenalmente sobre
Cultura Digital para o SC Inova  

No princípio era o Verbo, e o Verbo estava com Deus, e o Verbo era Deus. Ele estava no princípio com Deus. Todas as coisas foram feitas por ele, e sem ele nada do que foi feito se fez. João 1:1-3

Com esta abertura no primeiro capítulo do Evangelho de João, extraído do livro mais lido de todos os tempos, temos a narração do evangelista retomando o tema da criação do mundo, também mencionado no início do livro de Gênesis 1.3: “Disse Deus: “Haja luz”, e houve luz.”

Milênios depois, a tecnologia digital criada pela humanidade como sendo a próxima etapa da nossa evolução volta seus olhos para uma das maiores virtudes do nosso aparato biológico: a voz. Tendo sido relegado a uma posição obscura no começo da revolução tech, que priorizou o sentido da visão como usabilidade ao usuário, o som proferido por nosso aparelho vocal se torna a próxima etapa de um processo que está amalgamando nossa existência com as ferramentas online: a palavra.

Steve Jobs, ao apresentar o iPhone em 2007, favoreceu o uso de dedos nas telas sensíveis ao toque como a melhor forma de se conectar aos smartphones e tudo mais que estava por vir. Mas com a ascensão do lar como centro de controle da economia conectada, até mesmo tocar em uma tela pode ficar desatualizado em favor de consumidores que usam suas vozes. De acordo com uma pesquisa sobre Economia Conectada no mundo, 26% dos consumidores possuem um dispositivo com um assistente controlado por voz e 30% criaram listas de compras usando dispositivos ativados por voz. 

VOICE CONTROL, BEGINNING

Embora pareça que o reconhecimento e o controle de voz sejam uma tecnologia nova, ela está em desenvolvimento desde meados do século XX. Somente nos últimos cinco a oito anos a tecnologia de reconhecimento de voz ganhou apelo de massa. No entanto, nem é preciso dizer que o reconhecimento de voz percorreu um longo caminho antes de chegar aonde está hoje.

O caminho para o reconhecimento de voz começou com um sistema chamado Audrey, criado pela Bell Laboratories em 1952, que era bastante rudimentar e capaz de entender apenas números falados por pessoas específicas. Uma década depois, veio a máquina Shoebox da IBM, que conseguia entender 16 palavras faladas apenas em inglês por um palestrante designado. Essas limitações provaram ser problemáticas para o pleno desenvolvimento desta tecnologia e só aumentaram os céticos que se opunham ao reconhecimento de voz como um novo padrão para a indústria.

A partir da década de 1950 ocorreram novas abordagens para o reconhecimento de voz que pouco fizeram para o avanço do software. No entanto, no início dos anos 1980, surgiu o Modelo Oculto de Markov (HMM), uma nova abordagem estatística que alterou drasticamente o desenvolvimento de um software de reconhecimento de voz que fosse viável. Por meio do HMM, o reconhecimento de voz passou do uso de modelos para a compreensão de palavras para um método estatístico que mede a probabilidade de sons desconhecidos serem palavras. Isso permitiu que o número de palavras compreensíveis passasse de algumas centenas para alguns milhares, tornando possível um número ilimitado de palavras para o futuro.

Em 1990, vimos o lançamento do primeiro produto de reconhecimento de voz para o consumidor: Dragon Dictate, com preço de US$ 9.000 (US$ 20.000 atuais). Depois disso, seu sucessor Dragon Naturally Speaking, lançado em 1997, foi o primeiro programa de reconhecimento de voz comercial que conseguia entender a fala natural de até 100 palavras por minuto. Em 1997 vimos o lançamento do VAL da BellSouth, o primeiro “portal de voz”. VAL era um sistema interativo que podia responder a perguntas por telefone, estabelecendo as bases para a mesma tecnologia que alimenta os menus ativados por voz que você ouve hoje ao ligar para seu banco ou ISP.

Mas depois de mais de 40 anos de avanço na tecnologia de reconhecimento de voz, os desenvolvimentos no campo estagnaram até o final dos anos 2000. Na época, os programas de reconhecimento de voz atingiram um teto de cerca de 80% de precisão no reconhecimento de palavras faladas. Mas foi só no final de 2010 que a tecnologia chegou às mãos do público, quando inovação em hardware e software estavam em um lugar que fazia sentido para as empresas disponibilizarem a tecnologia de voz para o mercado de massa. 

Com o número de usuários de smartphones crescendo, foi com o lançamento do primeiro iPhone da Apple em 2008 que o Google começou ver sentindo em desenvolver um aplicativo de busca por voz, utilizando dados para aprimorar sua tecnologia de gravação a partir dos bilhões de consultas de pesquisa que recebia, a fim de prever melhor o que você provavelmente estava dizendo.

Os smartphones provaram ser o campo de prova ideal para a nova onda de tecnologia de reconhecimento de voz. A voz é simplesmente um método de entrada mais fácil e eficiente em dispositivos com telas e teclados tão pequenos, o que incentivou o desenvolvimento da tecnologia mãos livres.

Ainda mais significativo, os princípios de design que o Google estabeleceu com a pesquisa por voz em 2008 continuam a definir a tecnologia de reconhecimento de voz até hoje: o poder de processamento necessário para o reconhecimento de voz pode ser descarregado para os data centers em nuvem, permitindo a escalabilidade de alto volume de dados com uma análise capaz de armazenar padrões de fala humana e combinar palavras com precisão.

A abordagem do Google foi então aperfeiçoada pela Apple em 2011 com o lançamento do Siri, uma tecnologia de assistente pessoal baseada em IA que também depende da computação em nuvem para prever o que você está dizendo. Em muitos aspectos, o Siri é um excelente exemplo de como a Apple fez o que faz de melhor: pegando a tecnologia existente e aplicando um bom perfume nela. A interface fácil de usar da Siri combinada com sua “personalidade” brilhante e o marketing especializado da Apple para o iPhone ajudaram a tornar o programa quase onipresente.

A PRÓXIMA GERAÇÃO 

O comércio de voz movimentará cerca de US$ 19 bi até 2023, sendo sua sala de estar e TV o campo de batalha para as techs provarem seu valor neste mercado. A Amazon colocou Alexa no centro de sua estratégia de negócios, não apenas como uma ramificação de portfólio mas como uma tecnologia que pode facilitar as compras na Amazon. Por exemplo, uma solicitação geral de produtos provavelmente seria padronizada para Amazon Basics, mas especificando uma determinada marca você conseguiria um pedido do mercado Amazon.

E as marcas diretas ao consumidor (B2C) que criam acessibilidade ou aplicativos para vender por meio do Alexa utilizam o Amazon Pay como meio de pagamento integrado. Tudo claramente baseado naquilo que o pequeno dispositivo escuta na sua casa, mesmo com as incontáveis “previsões equivocadas” que a IA faz baseada em nossas palavras.

Com o alto crescimento dos dispositivos móveis, o reconhecimento de voz passa a ser indispensável em nossa rotina. Em breve, aplicativos de assistente pessoal com inteligência artificial estarão disponíveis em todos os laptops, tablets e telefones celulares, e serão capazes de manter uma conversa convincente. Em vez de digitar uma solicitação de pesquisa, os proprietários de smartphones agora podem simplesmente dizer “Siri, onde posso conseguir uma boa pizza por perto?”. 

E, em vez de veicular um anúncio por meio de um canal como o Google Ads (AdWords), assistentes pessoais de aparência humana como Alexa e Cortana logo poderão integrar o discurso de vendas em uma conversa natural. Solução já desenvolvida por empresas como a Loud Voice Services, que com sua tecnologia “Conversation Chamber” integrou IBM Watson, Alexa da Amazon e Google Cloud para vencer um desafio de criar o “The Chanceller”  para o Reclame Aqui, um software de inteligência artificial e voz que cancela contratos em nosso nome.

A solução para assistente de voz também está embarcando em soluções existentes, provando seu valor na experiência do usuário. A startup 12 minutos possui um time que sintetiza diversos livros em um microbook que pode ser lido em menos de 12 minutos. A equipe lê cada um dos best-sellers, analisa os conceitos e ideias mais importantes, seleciona as melhores partes e cria novas obras sintetizadas e otimizadas. Já o Banco Neon disponibiliza seus serviços via assistente de voz – Siri por enquanto – integrado com a biometria digital para autenticação de dois fatores. E a James Delivery, de Balneário Camboriú, ficou conhecida como a primeira startup do mundo a conectar o comando de voz ao sistema de pedidos dos seus clientes.

CONFIRA MAIS ARTIGOS SOBRE CULTURA DIGITAL

E além do entretenimento ou do uso pessoal, também houve muitos desenvolvimentos empolgantes em torno de como o reconhecimento de voz é usado nos negócios e no comércio. A tecnologia de reconhecimento de voz com tecnologia de IA agora pode ser usada para transcrever chamadas telefônicas e até mesmo prever o resultado de uma conversa com base no tom e nas palavras usadas. Uma das próximas fases nas pesquisas é sintetizar a compreensão do tráfego de voz que acontece em todo nosso sistema límbico, do córtex frontal, hipocampo e hipotálamo até a absorção de conteúdo composta pelo trio núcleo accumbens, amígdala e tálamo.

E para treinarmos sua próxima experiência de usuário seguem links com uma seleção de comandos de voz para o Google Assistente, Siri e Alexa.


LEIA TAMBÉM
: