Calcul intensif en écologie et biologie évolutive : deux exemples
d'utilisation pour étudier la spéciation et l'extinction des espèces
Sylvain Billiard, Laboratoire de Génétique et Evolutin des Populations
Végétales, Université Lille 1
Trois caractéristiques majeures des disciplines de l'écologie et de la biologie évolutives nécessitent de lourds moyens de calculs. Tout d'abord les systèmes dynamique décrivant les processus en oeuvre sont souvent complexes et font intervenir de nombreux paramètres et variables en interaction. L'exploration des effets de ces paramètres et variables nécessite donc de nombreux calculs. Ensuite, les processus écologiques et évolutifs sont par essence stochastiques ce qui nécessite d'estimer des densités de probabilité et donc de réaliser un grand nombre de répétition indépendantes des mêmes calculs. Enfin, les observations écologiques et génétiques issues des populations naturelles actuelles sont issus d'une histoire, histoire que l'on cherche à connaître, ce que l'on ne peut faire qu'indirectement. Par conséquent, l'analyse des données et l'inférence historique nécessitent d'évaluer la probabilité (ou la vraisemblance) de tous les passés possibles (en réalité une infinité). A nouveau le calcul intensif est utilisé pour explorer et évaluer l'espace des scénarios historiques possibles. J'illustrerai l'utilisation du cluster de Lille 1 pour réaliser du calcul intensif dans deux cas concrets, et répondre à deux questions : 1/ Comment se passe la spéciation, c'est-à-dire l'histoire de l'apparition de deux nouvelles espèces à partir d'une espèce ancestrale ? 2/ Pourquoi certaines espèces ont-elles plus de chance de s'éteindre que d'autres ?
Recherche d'associations haplotypiques dans le cadre de la maladie d'Alzheimer
Benjamin Grenier-Boley, Institut Pasteur de Lille
La maladie d'Alzheimer est une maladie neurodégénérative multifactorielle impliquant des facteurs de risque environnementaux et génétiques, ces derniers étant responsables à hauteur de 60 à 80%. Dès 1993, un déterminant génétique majeur fut découvert : le gène APOE responsable dont certains allèles augmentent le risque de dévlopper la maladie de 3 à 5. Il a fallu attendre ensuite 2009-2010 et les progrès technologiques pour connaître l'essor des "Genome Wide Association Studies" ou GWAS ainsi que leur méta-analyse pour découvrir 4 nouveaux gènes impliqués : CR1, CLU, PICALM et BIN1. Mais il reste encore des gènes impliqués non identifiés. Ces études GWA reposent sur les différences de mutations ponctuelles du génome (ou SNP pour "Single Nucleotide Polyphormism") entre une population de cas atteints de la maladie et une population témoin. L'approche que nous avons avons souhaitée développer concerne une recherche d'associations haplotypiques, méthode qui a réussi à trouver de nouvelles régions d'intérêt pour une autre pathologie. Cette étude se base non plus sur l'étude d'un SNP à la fois comme dans les GWAs mais sur l'étude d'une combinaison de plusieurs SNPs à la fois, ou haplotypes, et ceci sur le génome entier. Le nombre de combinaisons a tester est tel que l'utilisation d'une grille de calcul est obligatoire pour réaliser cette expérience.
Rechercher les partenaires protéiques en combinant la modélisation
moléculaire à l'évolution
Alessandra Carbone - Université Pierre et Marie Curie
The Help Cure Muscular Dystrophy (HCMD) project investigates protein-protein interactions for more than 2,200 human proteins whose structures are known, with particular focus on those proteins that play a role in neuromuscular diseases. It screens each protein, predicts functional sites involved in binding to other proteins or ligand targets, and determines whether two proteins are potential interacting partners in the cell. The project will determine information on the structure of macromolecular complexes which is important not only for identifying functionally important partners, but also for determining how such interactions will be perturbed by natural or engineered site mutations in either of the interacting partners, or as the result of exogenous molecules, and, notably, pharmacophores. A database of such information would be of significant medical interest since, while it now becomes feasible to design a small molecule to inhibit or enhance the binding of a given macromolecule to a given partner, it is much more difficult to know how the same small molecule could directly or indirectly influence other existing interactions. HCMD is currently running its Phase 2 in World Community Grid (launch in may 2009). Phase 1 ended in June 2007 and the computation lasted about a year. I shall present some of the results coming from the analysis of the first phase of the project.
RENABI GRISBI - Mutualiser les Ressources de la Bioinformatique
Christophe Blanchet, Institut de Biologie et Chimie
des Protéines, Lyon
RENABI GRISBI est une initiative conjointe entre plusieurs plateformes bioinformatiques du réseau national RENABI : PRABI Lyon, RENABI-GO Rennes et Roscoff, RENABI-SO Bordeaux et Toulouse, RENABI-NE Strasbourg et Lille, APLIBIO Jouy-en-Josas. La vocation de GRISBI est de permettre la réalisation d'expériences traitant de systèmes biologiques de grande taille dans des domaines comme l'analyse de données NGS, ou par exemple l'analyse de séquences et de structures à grande échelle. Les sites initiaux de GRISBI travaillent à partager et à relier leurs ressources propres, dédiées à la Bioinformatique, à l’aide des techniques d'informatique distribuée : le stockage et les ressources de calcul proprement dit, mais également les bases de données biologiques et les logiciels bioinformatiques. La présentation fera la synthèse des besoins bioinformatiques relevant d'une infrastructure distribuée, présentera les moyens mis en oeuvre au sein de RENABI GRISBI pour les satisfaire, et présentera les fonctionnalités disponibles sur l'infrastructure.
GPU, multicoeur et le projet BIOMANYCORES
Jean-Stéphane Varré (LIFL) et Jean-Frédéric Berthelot (INRIA Lille Nord Europe)
Les processeurs graphiques (GPU) sont des composants présents dans tout ordinateur de bureau permettant le calcul de l'image affichée à l'écran. Mais saviez-vous que les GPU modernes recèlent une puissance de calcul à même de décupler la vitesse de vos algorithmes et de réduire drastiquement vos temps de calcul ? Il est même probable que vous en disposiez sans le savoir. Nous verrons que dans certaines circonstances, ces architectures multi-cœurs offrent une alternative intéressante aux grilles de calcul. Biomanycores est un projet pour diffuser des applications libres en bio-informatique tirant parti des GPU. Son objectif est de faire le lien entre la recherche en calcul haute-performance et le quotidien des biologistes et des bio-informaticiens. Biomanycores est intégré dans les populaires frameworks de bio-informatique, rendant aisée l'utilisation des programmes GPU: http://biomanycores.org
Grilles et calcul intensif à Lille
Cyrille Bonamy, Patrick Billa et Yvon Tinel, CRI Université Lille 1
Des supercalculateurs à architecture parallèle sont installés au Centre de Ressources Informatiques de l'Université Lille 1. Ils sont destinés aux chercheurs de la Région Nord-Pas-de-Calais, de toutes disciplines, confrontés à des problèmes de calcul intensif et donc demandeurs de puissance de calcul et de grandes capacités de mémoire. La puissance globale des machines installées est d'environ 6TeraFlops (6 mille milliards d'instructions flottantes par seconde).
Depuis le 28 février 2011, une partie des ressources est devenue un site de la grille de production pluridisciplinaire européenne EGI. Il s’agit pour Lille 1 et la région d’un nouveau moyen d’accès aux ressources de calcul et de stockage mutualisées au sein d’EGI.