Ordonner les informations
Pour décrypter le génome, le premier défi informatique qu’il a fallu relever “ne tient pas tant à un problème de puissance de calcul qu’à l’organisation et à la gestion des bases de données”, comme l’explique François Rechenmann, bio-informaticien et directeur de recherche à l’Inria Rhône-Alpes (Institut de recherche en informatique et en automatisme). En effet, les biologistes utilisent en permanence de gigantesques bases de données accessibles sur Internet, qui regroupent des millions de séquences d’ADN. Pour faire avancer les recherches, ils doivent comparer chaque nouvelle séquence avec celles déjà découvertes par leurs confrères. Or, il faut “plusieurs jours pour rapatrier les données sur notre serveur, et elles sont actualisées tous les jours”, précise François Rechenmann. L’exercice est fastidieux. De plus, ces bases de données sont parfois mal structurées. Il n’est pas rare que la même séquence y figure plusieurs fois. La tâche est d’autant plus compliquée que les résultats s’accompagnent aujourd’hui d’interprétations, d’annotations et de commentaires des plus divers. Comment structurer toutes ces connaissances ?“Voilà un défi pour les informaticiens”, résume François Rechenmann.
Assembler les fragments
Après avoir décrypté des fragments d’ADN, les chercheurs abordent l’opération suivante, très délicate : l’assemblage des séquences proprement dit. En effet, le séquençage de la molécule d’ADN est extrêmement complexe. Ce sont des millions de fragments, composés de briques élémentaires, qu’il faut remettre bout à bout. Essayer toutes les permutations possibles est aujourd’hui hors de question : l’opération serait beaucoup trop longue ! Pour pouvoir les mettre dans le bon ordre, les ordinateurs comparent donc les débuts et les fins des différentes séquences. Mais les informations que contiennent les fragments utilisés sont simplifiées pour faciliter les calculs informatiques. D’où le danger des approximations hâtives, sources d’erreurs. Les algorithmes doivent donc en tenir compte pour repérer les incohérences. La méthode utilisée, dite de programmation dynamique, aligne les séquences et, en passant de brique en brique, observe la validité des assemblages.
Identifier les séquences utiles
Dernier défi, et pas des moindres : il reste à identifier les séquences les plus intéressantes à l’intérieur de la molécule d’ADN. En effet, 95 % des briques élémentaires ne servent à rien, du moins en apparence. Du coup, il faut repérer celles qui jouent un rôle actif. Ce qui est loin d’être évident car ces briques actives sont réparties de façon aléatoire à l’intérieur de la séquence. “Pour les identifier, il n’y a pas de méthode informatique fiable à 100 %. Les algorithmes dont nous disposons à l’heure actuelle aboutissent au résultat attendu une fois sur deux”, explique François Rechenmann. Pourtant, les méthodes s’affinent. L’une d’elles, utilisée couramment, permet de trier les briques en fonction de calculs statistiques. En tenant compte du fait, par exemple, que dans les séquences utiles, les briques ne sont pas agencées de la même manière que dans celles qui ne le sont pas. L’avantage de cette méthode est qu’elle fonctionne par apprentissage. Plus le nombre de séquences étudiées est important, plus l’algorithme est performant. Mais il reste du chemin à faire.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.