Cette technologie apparaît au cours du 20e siècle, avec des résultats promettant dès 1952. Un appareil électronique fut mis en place et possédait la capacité de reconnaître 10 chiffres au total. Il s’agissait bien d’un exploit à l’époque.

Aujourd’hui, la reconnaissance vocale, ou plutôt la reconnaissance automatique de la parole, a énormément évolué, et les algorithmes ont vigoureusement progressé. De nombreuses entreprises l’utilisent quotidiennement, que ce soit sur ordinateur ou sur un appareil mobile. Et ce n’est que le début.

Qu’est-ce que la reconnaissance vocale ?

Elle est caractérisée par des procédés informatiques spécialisés dans la voix humaine. Ces techniques traduisent le langage parlé en texte via une machine. De cette façon, un ordinateur ou un smartphone comprend aisément les paroles prononcées par un individu, les retranscrit et les numérise en décomposant les sons et syllabes. Ce procédé est réalisable grâce au machine learning, et plus précisément au deep learning, concept créé pour apprendre des images, des sons ou encore des actions, puis les reconnaître. Après l’étape de compréhension, l’appareil accomplit la mission demandée. La technologie simplifie alors toute recherche sur son appareil. Le mécanisme est le même pour la reconnaissance image.

Aujourd’hui, le concept vocal est souvent interprété comme un assistant ou collaborateur vocal, exclusif et individuel (ex : Siri chez Apple, Google Assistant, Alexa chez Amazon). Également, il existe des lecteurs et/ou téléviseurs multimédias intégrant la commande vocale (exemple de l’Apple TV).

Plusieurs systèmes existent :

  • Le mono locuteur: La voix de l’utilisateur doit être enregistrée avant utilisation pour être reconnue.
  • Le multi locuteur: Ici, toute voix peut être utilisée, et dans n’importe quelle langue. Toutefois, une connexion Internet est requise.

Deux méthodes d’exploitation dominent :

  • La grammaire de règles: L’expression ou la phrase articulée est considérée comme un unique ensemble, tel un tout et un seul.
  • La grammaire statique: Ce sont les mots clefs qui sont ici étudiés et importants. La phrase énoncée se base alors sur les mots principaux reconnus par la technologie.

Encore une petite marge d’erreur…

Quelques erreurs ou quiproquos peuvent être toutefois perçus, jusqu’à un taux de 10 %. On pense, par exemple, à des mots très ressemblants ou des sons similaires (ex : mot ou maux).

Aussi, la technologie reconnaît difficilement la voix d’une personne précise, elle n’associe pas encore la voix à l’identité d’un individu dit. Ainsi, la personnalisation est à approfondir.

Finalement, on ne conçoit pas réellement à quel niveau la vie privée d’un utilisateur est respectée, et quelle est la destination finale des nouvelles données enregistrées par la machine.

 

Ainsi, la reconnaissance automatique de la parole et son marché sont en pleine expansion. Malgré quelques aspects à revoir, la technologie s’inscrit dans une belle lignée prometteuse et séduit. Il s’agit d’un enjeu considérable, notamment en marketing. Par ailleurs, les stratégies SEO et leurs mots clefs sont amenés à évoluer car les demandes à l’oral diffèrent.

Une question se pose encore : la reconnaissance vocale viendra-t-elle métamorphoser nos vies en long en large et en travers ? Affaire à suivre…