
En coulisse
Ma petite histoire de la télécommunication
par Thomas Meyer
La reconnaissance vocale est une vieille histoire. Pourtant, on évoque actuellement l'ère des assistants intelligents qui écoutent nos moindres désirs. Pourquoi la reconnaissance vocale devrait-elle révolutionner nos vies maintenant ? Un regard en arrière permet de mieux comprendre.
Que dirait Thomas Edison si je le désignais comme l'un des fondateurs de la reconnaissance vocale ? Je pense qu'il s'empresserait de reprendre cette affirmation et de la commercialiser. En plus d'être un inventeur de génie, Edison était aussi un homme d'affaires sans scrupules qui aimait instrumentaliser les autres à ses fins. Néanmoins, le phonographe d'Edison peut être considéré comme l'un des appareils précurseurs de la reconnaissance vocale. Il permettait d'enregistrer et de reproduire mécaniquement le son, l'une des conditions de base de la reconnaissance vocale
.
Mais assez de leçons d'histoire. Vous êtes ici parce que vous voulez en savoir plus sur la reconnaissance vocale. Le langage nous permet de nous distinguer clairement des animaux. Certains animaux communiquent certes avec des sons, mais nous, les humains, disposons du système complexe de la parole.
Ce qui suit est une vue d'ensemble de la façon dont la reconnaissance vocale peut fonctionner. Je me concentrerai sur les plus importants et j'omettrai délibérément des éléments
.
Le phonème, ou son, est la plus petite unité sonore obtenue par segmentation. Il peut s'agir par exemple d'un "a". Le phonème, en revanche, est la plus petite unité du système phonologique d'une langue qui permet de distinguer les significations. Alors que le phonon n'est qu'un son, le phonème a déjà une signification linguistique. Les phonèmes sont les éléments constitutifs d'une langue.
Un exemple ? Chez nous, en allemand (et aussi en suisse allemand), le "r" se prononce de différentes manières. Un Thurgovien produit le phonème à l'arrière, un Bernois à l'avant. Mais la signification du "r" reste la même. La vidéo suivante explique tout cela.
En tant qu'êtres humains, nous donnons un sens à la parole lorsque nous l'entendons grâce aux phonèmes. Mais la reconnaissance vocale ne peut percevoir que les phonèmes de manière acoustique. Pour comprendre les phonèmes, la reconnaissance vocale a besoin d'un dictionnaire phonétique. Cela va donc plus loin que la simple écoute. Mais restons-en à l'écoute. Il s'agit d'un processus complexe qui pose différents problèmes :
A cela s'ajoute la syntaxe et la sémantique avec lesquelles notre cerveau décode les mots lors de l'écoute. L'écoute est donc un processus très complexe. Nous avons l'impression que l'écoute et la compréhension sont simples. Mais ce n'est pas aussi simple que cela.
J'aborde ici quatre types de reconnaissance vocale :
Ceux-ci se basent les uns sur les autres. Je les aborde brièvement dans les paragraphes suivants. Mais cela devrait suffire pour avoir un petit aperçu du fonctionnement de la reconnaissance vocale.
"Veuillez prononcer votre numéro d'assurance après le bip." Bip. "Sept, cinq, trois, neuf ..." Qui n'a pas connu cela ? Le robot du centre d'appels veut que nous lui donnions les informations nécessaires avant de pouvoir parler à un humain. C'est un exemple de recherche simple basée sur des modèles.
.
Dans le cas d'une recherche simple basée sur un modèle, le nombre de choix est fortement limité. La reconnaissance vocale n'a donc pas besoin de faire une analyse syntaxique ni de comprendre le sens de la phrase. Il ne s'agit pas de reconnaissance vocale au sens strict du terme. Le système doit être capable de faire la différence entre un nombre limité de modèles de sons pour fonctionner.
Le vocabulaire utilisé dans la recherche simple basée sur les formes est très limité. Les premiers systèmes de reconnaissance vocale étaient souvent limités à ce type. Ils étaient conçus pour un domaine spécifique (dans l'exemple ci-dessus, un centre d'appels) et fonctionnaient relativement bien dans leur domaine limité. La reconnaissance vocale moderne est capable de comprendre des milliers et des milliers de mots. Comment cela fonctionne-t-il ?
Une possibilité serait de demander à quelqu'un de s'asseoir avec un dictionnaire et de lire chaque mot plusieurs fois. Cela permettrait de constituer une base de données à laquelle la reconnaissance vocale pourrait accéder. Cela vous semble compliqué ? C'est le cas, et en plus c'est extrêmement inefficace.
Pourquoi un système devrait-il mémoriser tous les mots d'un dictionnaire si ces mots sont tous composés des mêmes phones ou phonèmes ? Le logiciel pourrait tout simplement apprendre les phonèmes et composer les mots à partir de ceux-ci.
La reconnaissance vocale basée sur ce système fonctionne de la manière suivante : La reconnaissance écoute un énoncé via un microphone. Dans un premier temps, celle-ci est numérisée à l'aide d'un convertisseur A/N. Les données sont ensuite converties en un spectrogramme et finalement divisées en trames acoustiques qui se chevauchent. Celles-ci durent soit 1/25 soit 1/50 de seconde. Elles sont analysées et les composantes de la parole sont recherchées. L'ensemble de l'énoncé peut ainsi être divisé en mots et les éléments clés de ceux-ci peuvent être comparés à un dictionnaire phonétique. Cela permet de déterminer ce qui a probablement été dit. Le mot d'ordre de la reconnaissance vocale est que personne d'autre que le locuteur ne peut savoir ce qu'il a voulu dire exactement.
En théorie, il est donc possible de comprendre chaque énoncé en filtrant les phonèmes individuels. Au lieu d'apprendre x milliers de mots, la reconnaissance vocale ne doit connaître qu'une quarantaine de phonèmes (en français). Bien entendu, un dictionnaire phonétique est toujours nécessaire pour identifier les mots individuels.
La plupart des reconnaissances vocales de ce système s'améliorent avec le temps grâce aux commentaires des utilisateurs. Les premières versions du logiciel Dragon Naturally Speaking sont un exemple de ce type de reconnaissance vocale. Celui-ci permet de transcrire automatiquement des textes.
La reconnaissance de la parole est encore plus complexe que l'identification des phonèmes et leur comparaison avec les données stockées. Pourquoi ? Si vous l'avez déjà oublié, faites défiler la page et lisez les quatre points sous le titre "Écouter et analyser la parole".
La langue variable, la prononciation, les homophones et les malentendus sont la cause de nombreuses erreurs dans les systèmes de reconnaissance vocale basés uniquement sur la reconnaissance des formes et des propriétés. Les modèles de langage peuvent aider à résoudre ce problème.
La parole n'est pas simplement une série de sons alignés au hasard. Les mots prononcés se réfèrent à ceux qui les précèdent ou les suivent. La langue dépend du contexte. Par exemple, un pronom personnel est suivi d'un verbe, comme "je suis" ou "tu as" ou "nous voulons". Et les adjectifs précèdent les noms.
Si la reconnaissance vocale essaie maintenant de comprendre le langage parlé et reconnaît jusqu'à présent la phrase d'exemple "Tu as une voiture *******.", la reconnaissance peut supposer que le mot manquant est un adjectif. Si au moins un phonème du mot est reconnu, la reconnaissance vocale dispose d'un indice supplémentaire.
Plus ou moins toutes les technologies modernes de reconnaissance vocale utilisent, au moins en partie, des modèles linguistiques et une analyse statistique. Ils intègrent des probabilités quant aux phonèmes qui suivent d'autres phonèmes ou quant aux mots qui suivent d'autres mots. Un "modèle de Markov caché" est créé sur la base de ces données.
Les modèles de Markov cachés sont utilisés dans la reconnaissance vocale depuis les années 1970. Ils fonctionnent de manière très fiable. Mais notre cerveau n'utilise pas de modèles de Markov cachés pour la reconnaissance vocale. Nous utilisons des couches denses de cellules cérébrales qui traitent les informations reçues par la cochlée
.
Dans les années 80, les scientifiques ont donc développé des modèles informatiques qui imitent la façon dont notre cerveau reconnaît les formes. Cependant, en raison de l'efficacité des modèles de Markov cachés, cette approche est restée marginale pendant longtemps. Mais ces dernières années, les scientifiques ont commencé à combiner les réseaux neuronaux artificiels avec le modèle de Markov caché. Cela permet d'augmenter encore la probabilité d'une meilleure compréhension de la reconnaissance vocale.
Les modèles de Markov cachés et les réseaux neuronaux artificiels sont aujourd'hui utilisés sous le terme de "deep learning". J'écrirai d'ailleurs un article à ce sujet prochainement. Je vais donc m'en tenir pour l'instant aux Basics absolus.
Les assistants numériques comme Siri, Cortana, etc. font aujourd'hui plus que comprendre la parole. Grâce au Natural Language Processing, ils comprennent également la signification de ce qui est dit. Ainsi, ce qui est dit a des conséquences réelles. Par exemple, si je demande la météo, je reçois effectivement des informations à ce sujet. Mais cela va encore plus loin, comme le montre la vidéo ci-dessous.
Cela signifie-t-il qu'à l'avenir, nous ne parlerons plus qu'aux ordinateurs au lieu de leur donner des ordres via un clavier ? Comme vous l'avez lu plus haut, les modèles de Markov cachés sont la norme en matière de reconnaissance vocale depuis les années 1970. Les logiciels de dictée relativement fiables existent depuis les années 1990. Pourtant, je vois personnellement peu de gens parler avec leur ordinateur ou leur smartphone.
Qu'est-ce qui explique cela ? Ce n'est pas par inadvertance que nous, les humains, avons imaginé plusieurs façons de communiquer. Le langage oral est direct et sans détour. En revanche, si nous voulons exprimer des pensées plus profondes, l'écriture s'impose. Mais ce n'est pas la seule raison pour laquelle l'écriture est un processus plus intime que la parole. Lorsque nous écrivons, nos pensées sont d'abord réservées à nous-mêmes. Lorsque nous parlons, tout le monde peut nous entendre.
Même si la reconnaissance vocale est aujourd'hui presque aussi fiable que les humains (un taux d'erreur de mots de 5 pour cent), nous continuerons à communiquer par écrit, du moins en partie, avec des ordinateurs. Tout simplement parce que parler et écrire sont deux choses complètement différentes et qu'elles s'offrent plus ou moins selon les situations.
La technologie et la société me fascinent. Combiner les deux et les regarder sous différents angles est ma passion.