Passer au contenu

Sans informatique, pas de génome !

La semaine dernière, en annonçant la fin du séquençage du génome humain, les chercheurs ont parlé de défi biologique. Ce défi en cache un autre, informatique, tout aussi impressionnant.

L’ADN humain a été enfin décrypté ; c’est un travail titanesque qui vient d’être achevé. Les milliards d’éléments qui constituent cette molécule particulière ont tous été identifiés. Et ce, en grande partie, grâce à l’informatique.Le premier défi qu’il a fallu relever, “n’est pas tant la puissance de calcul, pas si importante que ça finalement, que l’accès et la gestion des bases de données”, avance François Rechenmann, bio-informaticien et directeur de recherche à l’Inria Rhône-Alpes. Les biologistes utilisent en permanence de gigantesques bases de données, disponibles sur Internet, qui regroupent les millions de séquences de l’ADN. Ils comparent chaque nouvelle séquence avec celles déjà découvertes. “Il faut plusieurs jours pour rapatrier les données sur le serveur et comme elles sont actualisées tous les jours…”, précise François Rechenmann. L’exercice est d’autant plus fastidieux que ces bases de données ont besoin d’être mieux structurées : il n’est pas rare qu’une même séquence y figure plusieurs fois. De plus, les résultats s’accompagnent désormais d’interprétations, de commentaires et d’annotations. Comment structurer des connaissances qui ne sont ni des lettres, ni des chiffres ? “Voilà un défi pour les informaticiens”, commente le directeur de recherche.Le deuxième défi auquel se confrontent les chercheurs, c’est l’assemblage des fragments d’ADN qu’ils ont réussi à décrypter. Le séquençage de la molécule d’ADN n’a pas eu lieu d’un seul tenant; ce sont donc des millions de fragments, composés de briques élémentaires, qu’il faut remettre bout à bout. Essayer toutes les permutations est évidemment hors de question ! Pour pouvoir les recoller dans le bon ordre, les ordinateurs comparent les débuts et fins de chaque fragment. Autre difficulté, les fragments identifiés sont des brouillons qui contiennent des erreurs. Les algorithmes doivent en tenir compte et éviter les “copier-coller” bêtes et méchants. La méthode utilisée, dite de programmation dynamique, aligne les fragments et, en passant de brique en brique, observe la façon dont ils se rejoignent ou s’éloignent.Dernier défi, et pas le moindre, il reste à identifier les séquences intéressantes à l’intérieur de la molécule d’ADN. En effet, 95% des briques élémentaires ne servent à rien, au moins en apparence. Du coup, il faut identifier celles qui ont un rôle réel, une tâche délicate car ces briques actives sont réparties aléatoirement à l’intérieur de la séquence. “Pour cela, il n’y a pas de méthode informatique fiable à 100%. On n’a, pour l’instant, que des algorithmes qui marchent une fois sur deux”, explique François Rechenmann. Une des méthodes classiques utilise les modèles de Markov. Elle trie les briques en fonction de calculs statistiques. Par exemple, dans les séquences codantes, les briques ne sont pas arrangées de la même manière que dans une séquence non-codante. L’avantage de cette méthode : elle fonctionne par apprentissage. Plus le nombre de séquences étudiées est important, plus l’algorithme est performant.Mais quelle que soit leur validité, les résultats produits par les logiciels ne constituent que des hypothèses qui doivent être vérifiées par des expérimentations. Et c’est là le vrai problème, éthique cette fois-ci. Impossible de tenter des expérimentations sur des êtres humains ; qui prendrait le risque de modifier le patrimoine génétique d’un individu ? C’est à se demander pourquoi l’on a préféré décrypter l’ADN de l’homme plutôt que celui de la souris. Car nous n’hésitons pas une seconde à tout lui faire subir…

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


David Groison