Mostre-me suas mãos!

5 de janeiro de 2022

Pesquisadores desenvolveram um algoritmo adaptativo que classifica gestos manuais com maior precisão e com complexidade computacional reduzida.

Grandes avanços foram feitos na interação humano-computador nos últimos anos, com interfaces mais naturais sendo desenvolvidas em torno do controle de voz e gestos. Mas essas tecnologias ainda são usadas com moderação e tipicamente para interações bastante simplistas com máquinas. Teclado e mouse ainda são reis quando o trabalho real precisa ser feito, deixando esses dispositivos no mundo da ficção científica.

No caso do controle de gestos, existem duas opções primárias para capturar essas entradas. No primeiro caso, uma luva instrumentada pode ser usada. Embora isso forneça informações altamente precisas sobre gestos, esses sistemas tendem a ser caros e usar um dispositivo instrumentado pode ser antinatural e complicado. A outra opção envolve o uso de câmeras para capturar gestos à distância. Este método não requer instrumentação no próprio corpo e, por isso, é muito mais confortável. No entanto, ele também é menos preciso e requer recursos computacionais substanciais.

Uma equipe de pesquisadores da Universidade Sun Yat-Sen se esforçou para melhorar os métodos de reconhecimento de gestos baseados em câmeras, para aproximá-los da construção do tipo de interface que poderia ser usada para interações complexas com computadores. Sua contribuição para o reconhecimento de gestos envolve o uso de algumas otimizações que podem tanto melhorar a precisão do reconhecimento quanto reduzir a complexidade computacional.

Medidas para classificação do tipo de mão (Q. Zhang et al.)

Para lidar com taxas de reconhecimento ruins, a equipe evitou a estratégia de tamanho único tomada pela maioria dos algoritmos de reconhecimento de gestos. Reconhecendo que as pessoas têm diferentes tamanhos de mãos, elas levam em conta a largura da palma da mão do usuário, o comprimento da palma da mão e o comprimento dos dedos. A mão é categorizada em um dos três tipos diferentes, de modo que o reconhecimento de gestos possa ser conduzido. O algoritmo de reconhecimento de gestos usado terá sido treinado apenas em amostras de dados para esse tipo específico de mão. Essa abordagem melhora a precisão de reconhecimento sem qualquer utilização adicional de recursos.

Outra inovação do grupo foi construir um passo de pré-reconhecimento. Este recurso usa um algoritmo relativamente simples para primeiro selecionar um subconjunto de possíveis gestos correspondentes a partir do conjunto completo de todos os gestos conhecidos, olhando para a área da mão. Uma vez que essa métrica não é sensível à maioria das transformações, ela pode lidar com a rotação, translação e dimensionamento que tropeçam em muitas outras técnicas. Após o pré-reconhecimento, o gesto final pode então ser determinado usando um algoritmo mais complexo. Porém, reduzindo as opções, este algoritmo pode ser mais preciso e exigindo menos recursos computacionais.

A equipe testou essa configuração com um grupo de quarenta participantes com diferentes tipos de mão. Usando um algoritmo treinado em nove gestos diferentes, eles foram capazes de alcançar uma precisão média de classificação de 94%. A taxa de reconhecimento ainda excedeu 93% mesmo quando as imagens foram giradas, trasladada ou dimensionadas. Estes são resultados bastante impressionantes e, considerando que o algoritmo foi projetado com dispositivos com recursos limitados, podemos estar vendo algumas dessas técnicas inseridas em dispositivos que usaremos nas nossas vidas diárias.

Fonte: hackster.io