Passer au contenu

Au chevet du signal pour ne plus en perdre un mot

En répartissant le traitement de la parole sur tous les équipements par lesquels elle transite, du portable au central téléphonique, les moteurs de reconnaissance peuvent enfin gagner en pertinence et en vitesse.

Sous couvert d’anonymat, un spécialiste de la reconnaissance de la parole l’admet sans sourciller : “En 10 ans, la technologie a très peu évolué”. Non pas qu’aucun progrès n’ait été réalisé, mais les méthodes restent les mêmes. Il s’agit peu ou prou de comparer le signal numérisé de la parole à une base de modèles de mots. Le tout en temps réel. Dès lors, point d’innovation mais plutôt des améliorations en matière de taux de succès. Les moteurs de reconnaissance vocale permettent dorénavant de comprendre plus de 90 % des mots prononcés, pour peu qu’ils le soient dans de bonnes conditions, c’est-à-dire sans trop de bruit parasitant le signal.Cependant, pour augmenter la vitesse de reconnaissance de la parole, de nouvelles voies sont tracées. En témoignent les travaux de l’ETSI (European Telecommunications Standards Institute) depuis deux ans pour développer des standards favorisant une architecture distribuée de la reconnaissance vocale (DSR). Le groupe de travail Aurora, présidé par David Pearce, de Motorola, réfléchit à répartir le travail sur tous les équipements par lesquels transite la voix. Ainsi, les moteurs de reconnaissance, tels que ceux des Français Telisma, Théorom, du Néerlandais Philips ou de l’Américain IBM, ne supporteraient plus seuls la charge de traitement de la parole. “Dans une architecture distribuée, le front-end de reconnaissance est placé dans le terminal connecté “via” un réseau de données à un back-end, le serveur de reconnaissance vocale”, explique David Pearce.

Traiter le signal en amont

Les premières normes DSR devraient voir le jour d’ici à la fin de l’année. Prenant les devants, Telisma vient de concrétiser en produit une architecture DSR. Le principe : remonter en amont dans la chaîne de traitement de la voix. Par exemple, lors de l’interrogation via un téléphone d’un portail vocal, l’appel est réceptionné et traité par un central téléphonique. En son sein, des cartes spécifiques ont pour rôle de se raccorder au réseau téléphonique et d’assurer le traitement de l’appel entrant : détection de la parole, détection des touches, réduction du bruit et de l’écho, etc. Ce n’est pas à ce niveau que se fait la reconnaissance de la parole. “En la matière, les algorithmes que nous utilisons déterminent essentiellement le début et la fin des mots, pas plus”, affirme Éric Boniface, chez NMS Communications, constructeur de systèmes et plateformes de services voix, vidéo et données sur réseaux mobiles et fixes. Au final, le moteur de reconnaissance de la parole assure la totalité de la charge de sa fonction. Première étape de son traitement, l’extraction des caractéristiques du signal vocal, c’est-à-dire la numérisation et la réduction du flux de données en temps réel. S’ensuit la détection bruit-parole afin de clarifier le signal et d’en éliminer le bruit de fond. “Un algorithme agit comme un inter- rupteur au-delà d’un certain seuil d’énergie, exprimé en décibels. La particularité de cet algorithme est qu’il permet de s’adapter automatiquement au niveau de bruit en détectant les silences de parole, et ainsi de fixer le seuil déclenchant le rejet bruit”, explique Xavier Baudouin, de Telisma. Dans la dernière étape, le c?”ur du moteur de reconnaissance vocal fait son travail de comparaison des mots à une base de modèles.Sur ces trois phases, deux vont être désormais traitées directement par le processeur DSP de la carte téléphonique : l’extraction des caractéristiques sur signal et la détection bruit-parole. “Tout ce qui concerne le traitement en temps réel est transféré sur la carte téléphonique”, précise Éric Boniface. L’avantage : ces cartes sont destinées au traitement de la voix en temps réel. Elles ne font qu’assurer des tâches pour lesquelles elles sont programmées, en les exécutant plus rapidement que ne le ferait le moteur de reconnaissance vocale. Telisma affirme sur la foi de ces premiers tests que la consommation de charge de calcul du processeur sur la machine hébergeant le moteur de reconnaissance et la carte téléphonique est réduite de 80 %.Pour l’heure la solution de Telisma n’est compatible qu’avec les principaux modèles de cartes de la société NMS Communications. Mais des discussions sont en cours pour garantir la compatibilité avec les produits d’Intel Dialogic, l’autre leader du marché des cartes téléphoniques. “Ce qui est intéressant avec la voie de l’architecture distribuée, c’est de faire basculer la problématique de la reconnaissance dans le domaine du service. Essayons de rendre un service plutôt que de simplement vendre une technologie”, proclame Éric Boniface. Devant les lenteurs des innovations techniques, les acteurs de la reconnaissance vocale misent sur le modèle distribué pour donner un second souffle au secteur.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Christophe Dupont