Comment l'ordinateur des barbouzes identifie les voix

Le 27 octobre dernier, la chaîne de télévision Al Jazeera diffusait un nouveau message attribué à Oussama Ben Laden, dans lequel le chef d’Al-Qaeda menaçait la France. Dès le lendemain, le ministère français des Affaires étrangères considérait l’authenticité du message “ comme acquise, au vu des premières vérifications ” (http://tinyurl.com/36pf3lm). Mais quelles vérifications ? Pour en savoir davantage, le photographe Hubert Raguet et moi-même nous rendons au fort de Rosny-Sous-Bois (93), siège de l’Institut de recherche criminelle de la gendarmerie nationale (IRCGN). Nous avons rendez-vous avec des spécialistes du département Signal image parole (SIP), une unité de la division criminalistique “ ingénierie et numérique ”. Le lieutenant de Miras, ancien ingénieur en télécoms, nous fait visiter son unité en commençant par le service d’analyse des images. S’y entassent ordinateurs, écrans haute définition, magnétoscopes et lecteurs de toutes sortes. C’est là que sont analysées les images provenant d’appareils photo, téléphones portables, caméscopes et caméras de surveillance, pour tenter d’identifier des personnes ou de reconstituer le déroulement d’événements. On y trouve aussi des appareils de mesure au laser qui permettent de modéliser la topographie d’une scène de crime. Nous passons ensuite à l’unité d’expertise Parole-Acoustique, où nous rencontrons la gendarme Vasseur, titulaire d’une maîtrise en mathématiques : les experts de l’IRCGN semblent tous bénéficier d’une solide formation scientifique. Elle nous fait entrer dans une pièce exiguë, dans laquelle trois PC à grand écran sont alignés sur une longue table : le laboratoire. A droite, une armoire de plus de deux mètres de haut abrite une collection de lecteurs pour à peu près tous les supports existants : minicassettes, minidisques, cassettes numériques DAT, cassettes vidéo. Les gendarmes doivent pouvoir tout lire et numériser, y compris des supports analogiques un peu désuets mais toujours en fonction dans certains milieux. Nous tombons même sur un vieux modèle de répondeur téléphonique à micro-cassettes.

Nettoyer pour mieux décoder

L’unité d’expertise Parole-Acoustique a plusieurs attributions. Le plus souvent, elle est chargée par un juge, dans le cadre d’une enquête ou d’un procès d’assises, de donner son avis sur l’identité d’un suspect dont la voix a été enregistrée lors d’une écoute, d’un appel de revendications ou de demande de rançon ou d’une surveillance rapprochée, ou récupérée sur des bandes retrouvées, des cassettes de vidéosurveillance ou une messagerie vocale. Mais il peut aussi s’agir de “ nettoyer ” un enregistrement parasité ou trafiqué, afin de le rendre intelligible par la cour ou par un traducteur assermenté.De fait, le travail des gendarmes commence systématiquement par un travail d’acquisition, de nettoyage et de mise en forme du signal. Il faut numériser les enregistrements analogiques ou transférer les fichiers audio sur le PC, supprimer les parasites et le bruit de fond, puis isoler les parties les plus intéressantes du signal ; ils doivent disposer d’au moins 40 secondes de parole numérisée pour procéder à une tentative d’identification.

Des logiciels souvent connus du grand public

Pour toutes ces tâches, ils utilisent une large panoplie de logiciels de traitement et d’analyse des signaux audio. Parmi ces outils, on trouve Audition d’Adobe, Samplitude de Magix et Sound Forge Audio Studio de Sony, trois logiciels professionnels vendus plusieurs centaines d’euros. Mais aussi des gratuits comme Audacity et Goldwave, que les lecteurs de Micro Hebdo connaissent bien. Autres logiciels libres, nettement plus confidentiels : le suédois WaveSurfer et le hollandais PRAAT, spécialisés dans l’analyse de signaux audio. A l’aide de ces outils, les enquêteurs nettoient le signal et procèdent à son analyse spectrale. Il s’agit de déterminer quels en sont les formants, c’est-à-dire les fréquences caractéristiques de la voix étudiée (lire l’encadré Les caractéristiques physiques d’une voix, page 39).La comparaison est d’autant plus fiable que l’origine des enregistrements comparés est la même (téléphone portable, classique ou IP, bande de vidéosurveillance, microphone). Mais dans tous les cas, il ne s’agit là que d’une première étape : même un expert ne peut authentifier une voix de façon certaine à l’œil nu et à l’oreille. “ L’approche acoustique traditionnelle ne procure pas de certitude ”, selon les termes de la gendarme Vasseur. Surtout lorsque le locuteur s’exprime… dans une langue étrangère inconnue des enquêteurs !

Quand un seul outil fait toute la différence

Heureusement, ceux-ci ont leur arme secrète : un logiciel spécialisé ? et il n’est pas disponible dans les boutiques ? qui a pour nom BatVox. Edité par la société franco-espagnole Agnitio, dont le siège se trouve à Madrid, ce logiciel fait aujourd’hui référence dans les services de police, de renseignement et de sécurité du monde entier. Son originalité : ce n’est pas un simple éditeur audio mais un outil d’analyse biométrique, capable d’isoler, grâce à des formules mathématiques complexes, certaines caractéristiques physiques du locuteur comme la forme du larynx, du pharynx, du palais, du nez ou même du crâne, ou encore la fréquence de vibration des cordes vocales. De ce fait, il est à la fois moins dépendant que les autres de la qualité des enregistrements comparés et, surtout, insensible au langage employé. Il est notamment capable, selon Caroline Rey, porte-parole d’Agnitio, de différencier des voix indiscernables à l’oreille comme celles de deux jumeaux et d’identifier un individu s’exprimant dans une langue différente de celle de l’enregistrement initial.On le voit, cet outil irremplaçable est l’arme principale des enquêteurs. Contrairement à une empreinte digitale ou à l’ADN, la signature acoustique d’une voix ne peut être considérée comme unique. D’ailleurs les gendarmes ne prétendent jamais acquérir par cette analyse une certitude absolue ; dans le rapport que le lieutenant de Miras et son supérieur, le capitaine Berscheid, livrent au juge, ils se contentent d’affirmer que l’identification est “ très probable ”, “ probable ”, “ improbable ” ou “ très improbable ”, ou encore qu’ils “ ne peuvent pas se prononcer ”, si la voix a été habilement maquillée.Toutefois, les données fournies par le logiciel BatVox permettent d’augmenter considérablement le degré de certitude de l’authentification vocale. Ainsi, sur l’illustration ci-dessus, la mention “ LR : 9.775E9 ” ? “ LR ” pour Liability Ratio, ou taux de confiance ? signifie que le taux d’erreurs estimé est d’environ 1 sur 10 milliards ! Commentaire de Caroline Rey : “ Dans ce cas-là, c’est bien lui le suspect, ça ne fait aucun doute ”.Les gendarmes de la Guardia Civil espagnole en sont d’ailleurs convaincus : désormais, lorsqu’un suspect est interpellé dans une affaire de terrorisme ou de grand banditisme, ils relèvent systématiquement ses empreintes digitales, son ADN, mais aussi son empreinte vocale.

Les caractéristiques physiques d’une voix

Le son est une variation périodique de la pression de l’air qui fait vibrer nos tympans. Chaque son, et chaque voix en particulier, peut être défini par trois caractéristiques principales : son intensité ou volume, sa fréquence fondamentale ? plus ou moins grave ou aiguë ? et son timbre.

Des trois, c’est cette dernière qui permet d’identifier formellement l’individu (personne, instrument de musique, moteur de voiture…) qui l’a émis. C’est aussi celui qui a la structure la plus complexe. Pour identifier le timbre d’une voix, il faut en analyser le spectre sonore. On commence par en isoler la fréquence fondamentale pour chaque voyelle prononcée, mesurée en hertz (Hz). Il faut ensuite en déterminer les fréquences secondaires, ou formants. En effet, il a été démontré que tout timbre complexe peut être décomposé en un certain nombre de fréquences additionnelles qui se superposent à la fondamentale. Les logiciels d’analyse du son numérique sont capables d’effectuer très vite cette décomposition.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Christophe Blanc