Ler os lábios não é uma tarefa simples. Os profissionais que se dedicam a isso garantem resultados que vão de 20% até 60%, e muitos fatores interferem para uma leitura adequada.
Mas isso pode acabar em um futuro não muito distante, quando os sistemas baseados em inteligência artificial realizarem essa tarefa de forma automatizada, onde o deep learing terá papel determinante por administrar uma grande quantidade de dados e aprender progressivamente.
93,4% de precisão, mas sob algumas condições
Um grupo de pesquisadores do departamento de inteligência artificial da Universidade de Oxford mostraram os primeiros testes de um sistema que é capaz de ler os lábios com os primeiros resultados alentadores.
É um programa baseado em deep learning que conta com financiamento por parte da Alphabet (Google), e é conhecido como LipNet.
O sistema supera os profissionais, obtendo 93,4% de precisão nos testes (os humanos acertaram em 52,3% dos casos). Os testes contam com determinados padrões para a máquina obter melhores resultados.
O sistema coletou um conjunto de dados conhecidos como GRID, que contém milhares de vídeos curtos com frases sem sentido, que contam com o mesmo padrão: comando, cor, preposição, letra, número de 1 a 10 e um advérbio.
Dentro desse padrão, as palavras são limitadas, e por isso os pesquisadores afirmam que os resultados dos testes são exagerados, e não correspondem à realidade.
O trabalho é em cima de um determinado vocabulário e gramática, e é isso o que faz o sistema crescer e detectar falhas com maior facilidade, para assim alimentar a base de dados com mais informações.
O LipNet não é pensado para tarefas de vigilância ou espionagem, já que para obter uma leitura clara o sistema precisa ver a língua da pessoa, além de uma boa iluminação para destacar os lábios.
As primeiras aplicações para o sistema estão pensadas na ajuda de pessoas com discapacidade auditiva, e até a inclusão em óculos inteligentes para ajudar na transcrição das palavras em ambientes com muito ruído, assim como funções de ditado silencioso para assistentes pessoais digitais.
Vídeo da demonstração do LipNet a seguir.
Via LipNet