Passer au contenu

Les réseaux de Kohonen classifient automatiquement les données

Les réseaux de Kohonen classifient et cartographient les données en imitant le comportement des systèmes neuronaux. Ils sont utiles pour de vastes bases de données.

T rès utilisés dans le data mining, les réseaux de Kohonen (ou SOM, pour Self-Organizing Map) s’inspirent des réseaux neuronaux. Leur principe est des plus simples. À partir d’un corpus d’informations, les réseaux de Kohonen classifient les données et génèrent une carte où elles sont regroupées par zones, en fonction de leurs similarités.
Pour élaborer cette technique, formalisée en 1984, le chercheur finlandais Teuvo Kohonen a pris pour modèle le fonctionnement du cortex cérébral. Chaque région de celui-ci, spécialisée dans une fonction donnée (auditive, visuelle ou sensorielle), est constituée de millions de neurones connectés entre eux. De plus, d’autres neurones, répondant à des stimuli proches, sont situés à proximité dans le cortex. En calquant le fonctionnement des réseaux sur celui des neurones, Kohonen a créé un système dans lequel les cartes établies auto-organisent les données fournies.

L’algorithme classe les données par couleur, automatiquement

Autrement dit, ce n’est pas l’utilisateur, mais l’algorithme de Kohonen qui choisit automatiquement les critères qui président à l’organisation de ces données. Dans la terminologie de Teuvo Kohonen, chaque région correspond à une classe, c’est-à-dire à un ensemble de données répondant aux mêmes caractéristiques. À proximité, se situent d’autres classes aux contenus proches. Le tout est organisé sous forme de grappes.
Les travaux de Marie Cottrell et Patrice Gaubert, de l’université de Paris-I (Panthéon-Sorbonne), sur l’analyse des chômeurs récurrents, illustrent bien le fonctionnement des cartes de Kohonen. Après avoir introduit la liste d’une vingtaine de milliers de chômeurs, chacun défini par onze caractéristiques quantitatives : âge, formation, expérience professionnelle, durée du chômage, nombre d’inscriptions à l’ANPE, etc. , les universitaires ont défini un nombre de classes, en l’occurrence cent, qui seront regroupées en quatre superclasses. Par défaut, chaque critère a le même poids qualitatif, même s’il est possible de spécifier des pondérations. Ensuite, les opérateurs décident de la topologie de la carte. Il s’agit, la plupart du temps, de grilles en deux dimensions, faciles à interpréter. Mais ce peut être aussi bien un cylindre, une ficelle, une grille à maillage hexagonal.
Une fois ces paramètres – forme de la carte et nombre de classes – définis, le logiciel, développé sur la base de l’algorithme de Kohonen, associera automatiquement un profil type à chaque classe.
Celui-ci est produit par l’algorithme, comme pour la classification automatique de données. Ainsi, par exemple, tous les demandeurs d’emploi de 40 à 45 ans, ayant subi deux années de chômage consécutives et cumulant quinze ans d’activité professionnelle, seront regroupés dans une même classe.

Un simple Pentium suffit à développer les applications

Bien sûr, rares sont les chômeurs répondant à toutes les caractéristiques d’un profil type. Intervient alors la notion de proximité (ou voisinage) : chaque classe se subdivise en plusieurs sous-classes. La sous-classe 1a regroupera, par exemple, les chômeurs les plus proches du profil type ; la sous-classe 1b rassemblera des demandeurs d’emploi de même profil, mais ces derniers seront assez semblables à ceux de la classe 1a, et ainsi de suite. Sur la carte finale, chaque classe appara”t avec une couleur différente. En cliquant sur une zone de la carte, l’utilisateur peut faire émerger les sous-classes qui la composent.
L’aspect intuitif des cartes de Kohonen est un argument en faveur de cette technique. Mais ce n’est pas son seul avantage. Les logiciels basés sur l’algorithme de Kohonen n’exigent pas de coûteuses stations de travail pour fonctionner. Un Pentium de base a suffi à l’équipe de Marie Cottrell et Patrice Gaubert pour développer ses applications. Mais ce type de technique est encore peu utilisé en dehors du milieu universitaire, surtout dans l’Hexagone. Nés il y a seize ans, les réseaux de Kohonen offrent encore de vastes possibilités, en particulier dans le traitement du langage.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


La rédaction