BFM Business
Services

Reconnaissance vocale: comment Google compense son manque de données

Le Google Home

Le Google Home - YouTube (Google)

Le géant de la tech' rencontre encore aujourd'hui des difficultés pour que ses technologies de reconnaissance vocale fonctionnent sur tout le monde à la perfection.

Demander à Google l'état du trafic, le temps qu'il fait, ou si un restaurant est ouvert est une chose. Et Google Assistant y répondra très probablement avec la plus grande efficacité. Mais émettre une requête auprès de Google quand on dispose d'une façon de parler qui sort de la norme, en est une autre. Et c'est bien là le problème.

De fait, Google Assistant a beau se doter de l'une des technologies de reconnaissance vocal les plus performantes et abouties au monde, il peine à répondre aux personnes qui connaissent des difficultés au niveau de leur élocution. Conscient de l'enjeu, le géant technologique a donc décidé de mettre en orbite un projet répondant au nom d'« Euphoria » avec une ambition : celle de pallier cet enjeu et rendre sa technologie accessible au plus grand nombre.

Le problème, c'est que les technologies d'intelligence artificielle requièrent non seulement de grandes masses de données, mais incorporent lesdites données à partir d'enregistrements de voix qui correspondent à la majorité des individus. Résultat : les personnes ayant de forts accents ou celles qui rencontrent des difficultés à s'exprimer ne peuvent pas utiliser l'assistant vocal de Google. Encore moins ceux des autres géants de la tech' comme Alexa et bien sûr Siri.

Mission difficile

Aussi, Google, comme d'autres, a eu une idée : celle de lancer différents programmes de recherche dédiés à l'accessibilité de la reconnaissance vocale. C'est là qu'« Euphoria » entre en jeu.

En principe, ce projet devrait être présenté en septembre prochain à l'occasion d'une conférence de rentrée. Quelques pistes visant à optimiser la reconnaissance vocale de Google seront présentées. Mais il ne s'agit visiblement que d'un début puisque les spécialistes de l'IA sont encore aujourd'hui confrontés à un manque criant de données. Or, plus le système de reconnaissance vocale de Google (ou ceux des ses concurrents) disposera d'exemples variés, plus il sera performant.

Pour l'heure, il existe encore très (trop) peu de bases d'enregistrements d'individus à l'élocution difficile. Et les variations dans la manière de parler d'une personne à l'autre demeurent très importantes. La tâche est donc d'autant plus délicate pour les chercheurs compte tenu du volume de données à traiter. Pour contourner ce manque, les spécialistes de Google s'emploient aujourd'hui, d'une part, à entrainer des réseaux neuronaux sur des milliers heures d'enregistrement de paroles avec une élocution classique, d'autre part, à ajuster leur modèle d'IA avec les enregistrements de personnes à l'élocution peu commune.

Un bon début

Si les premiers résultats sont encourageants, ils n'en sont pas moins encore limités. Des tests ont, en effet, été effectués avec des personnes atteintes de sclérose latérale amyotrophique (SLA) dans le cadre du projet « Euphoria ». Les chercheurs ont ainsi pu tester deux architectures de réseaux de neurones différentes. Dans les deux cas, ils obtiennent des taux d'erreurs dans la transcription des paroles nettement plus bas avec cette méthode d'ajustement que sans. Tant et si bien que leur méthode double presque les performances du système de reconnaissance vocale.

Mais les chercheurs de Google le savent. Ces tests ont été effectués sur un vocabulaire limité et les déployer à un langage plus général nécessitera d'autres ressources. Aussi, il apparaît clairement que le projet « Euphoria » n'en est qu'à ses prémices. Mais l'initiative est lancée, le mouvement de démocratisation de la reconnaissance vocale auprès de personnes à l'élocution atypique également. Et c'est évidemment ce genre de recherches qui fait que, demain, la maison connectée sera accessible au plus grand nombre.