LES BANQUES DE SEQUENCES BIOLOGIQUES

Ce TP n'est pas une course, prenez le temps de répondre aux questions et de regarder les informations disponibles. Pensez à chercher par vous même, vous avez accès aux docs et aides en ligne.

Un glossaire français des termes de biologie moléculaire se trouve à l'adresse suivante : http://www.infobiogen.fr/glossaire/glossaire.php

On parlera dans ce TP de banques de données au lieu de bases de données. Nous parlons de banques car les données enregistrées ne sont pas sous forme de tables comme on l'entend en informatique mais sous la forme de fichiers texte.




Historique

La séquence est l'élément central autour duquel les banques de données se sont constituées. Les séquences biologiques, dès qu'elles ont pu être établies, ont très tôt fait l'objet d'une compilation dans les banques de données. La première compilation de protéines apparaît en 1965 (par Margaret Dayhoff) : c'est l'Atlas of Protein Sequences (il contient alors 50 entrées). D'abord imprimé (jusqu'en 1978), il fut ensuite proposé sous forme électronique. Puis ces compilations furent diffusées sous la forme d'archives électroniques (bandes puis cd-rom). Et finalement, Internet est devenue le support idéal pour partager ces connaissances.

Au début des années 1980, avec la découverte de la technique du séquençage des acides nucléiques, les premières grandes banques généralistes de séquences voient le jour. La collecte et la gestion des données ont nécessité une organisation plus conséquente. Ainsi, plusieurs organismes ont pris en charge la production de telles bases de données. En Europe, financée par l'EMBO (European Moleculary Biology Organisation), une équipe s'est constituée pour développer une banque de séquences nucléiques (EMBL data library) et en assurer la diffusion (Hamm et Cameron, 1986). Cette équipe travaille au sein du Laboratoire Européen de Biologie Moléculaire qui est longtemps resté à Heidelberg et qui se trouve actuellement près de Cambridge au sein de l'EBI (European Bioinformatics Institute). Du coté américain, soutenue par le NIH (National Institute of Health) une banque nucléique nommée GenBank a été créée à Los Alamos (Bilofsky et al., 1986). Cette base de données était distribuée par la société IntelliGenetics et est difusée maintenant par le NCBI (National Center for Biotechnology Information). La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la DDBJ (Dna Data Bank) du Japon pour donner naissance finalement en 1990 à un format unique dans la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques.

Pour vous donner une idée de la croissance des banques de données vous pouvez aller voir à l'URL suivante : http://www3.ebi.ac.uk/Services/DBStats/ l'évolution du nombre d'entrées d'EMBL (banque de donnée de séquences nucléiques, version européenne).

Les banques consultées au cours du TP

Nous consulterons principalement EMBL et UniProt via l'interface proposée par l'EBI. Tout ces outils sont dus au consortium européen... EMBL est une banque de données de séquences nucléiques et UniProt est une banque de données de séquences peptidiques.

Nous interrogerons aussi InterPro. La banque InterPro est une banque de motifs, domaines et familles de protéines. Un domaine/motif est grosso modo une séquence particulière d'ADN correspondant à une fonction. InterPro nous permet d'obtenir pour un gène donné, les motifs/domaines détectés dessus et donc ses fonctions potentielles.

PubMed est la banque des références bibliographiques concernant la médecine, la biologie et des domaines de recherche connexes. La plupart des articles sont indexés manuellement à l'aide du dictionnaire MeSH (Medical Subject Headings).

Les trois banques de données généralistes (EMBL, GenBank et DDBJ) se partagent quotidiennement leurs données.

Définitions :

Note : Vous trouverez une description complète du format des entrées des banques à partir de leur page web.

Les fichiers

Nous allons manipuler des fichiers pour mieux comprendre les formats sous lesquels vous pouvez les enregistrer.

Création de fichiers texte.

Deux éditeurs de texte différents n'utilisent pas toujours les même formats de fichier. Ainsi, il n'est pas toujours possible de lire le fichier créé par l'un dans l'autre éditeur.

Ouvrez le logiciel Bloc-notes et tapez quelques mots dedans.

Dans l'explorateur de Windows, la liste des fichiers présents dans votre répertoire, avec leur taille, est consultable. Comparez la taille des deux fichiers qui contiennent le même texte.

Les deux fichiers sont enregistrés dans des formats différents (avec un codage différent). Ainsi le fichier en .doc (enregistré avec WordPad) n'est pas lisible sans le logiciel approprié mais permet par contre une mise en page évoluée. Le fichier .txt (enregistré avec le Bloc-notes) contient juste l'information nécessaire : les lettres et les retours à la ligne. Celui-ci est plus facilement échangeable et plus compatible. L'emploi de l'un ou l'autre est liée à l'utilisation du fichier créé.

Importation de fichiers à partir d'Internet

La page d'accueil de SRS propose des requêtes simples sur les banques les plus couramment interrogées.

Faites une recherche quelconque en tapant un nom de gène, un mot-clé ou autre. Vous obtenez une liste d'entrées. Sélectionnez une entrée (cochez une case) puis cliquer sur le bouton "Save" qui se trouve dans le bandeau gris, à gauche de la page web. Un formulaire qui propose des options de sauvegarde s'ouvre.

Maintenant, nous allons retourner au formulaire de sauvegarde de SRS pour mettre la valeur "File (Text)" à l'option "Output To:". Il est alors demandé le nom du fichier à enregistrer. Laissez le nom par défaut en vérifiant que vous êtes bien dans votre répertoire.

Le formulaire de sauvegarde permet aussi de changer le format des données enregistrées. "*Complete entries*" permet de sauvegarder les entrées entières. L'option "FastaSeq" permet de sauvegarder uniquement la séquence et ce au format FASTA qui est le plus couramment utilisé par les programmes de bioinformatique.

A partir de l'explorateur,

L'extension du nom des fichiers (.txt ou .html, etc) est juste un moyen mnémotechnique pour savoir à quoi correspond le fichier ainsi qu'avec quel logiciel il a été créé. Windows, quand vous cliquez sur un fichier, essaye de l'ouvrir avec le logiciel approprié. Pour cela il se base sur l'extension du fichier.

SRS

Pour interroger les banques nous allons passer dans un premier temps par une interface dédiée : SRS (Sequence Retrieval System).

Requêtes simples

Cette page vous présente une entrée, ici le génome complet de Chlamydia muridarum, une bactérie. Voici les informations contenues dans cette page :

Si vous cliquez sur "gene", vous obtiendrez la liste des gènes connus. Si vous cliquez sur "CDS" la liste des partie codantes des gènes proteiques : quel est le premier gène (respectivement le premier CDS) de la liste, quel est le rôle associé ?

Un des gènes de cette séquence est le gène motA

N'hésitez pas à cliquer sur les différents liens qui s'offrent à vous.

Revenez en arrière : recherche des entrées contenant le mot clé motA, puis sélection de la première. Nous allons maintenant lui appliquer des "filtres".

La séquence récupérée ne correspond pas à la séquence du gène motA chez un organisme donné. Par exemple un autre entrée (AE005174) correspond au génome complet de Escherichia Coli (bactérie responsable de la gastro-entérite). Le gène motA est présent chez E.coli mais le génome complet ne vous permet pas d'obtenir directement la séquence nucléique correspondante. Pour cela nous allons passer aux recherches "élaborées"

Requêtes élaborées

Pour faire des recherches élaborées il faut commencer par choisir la banque de données d'intérêt grâce à l'onglet library page. Sur la page correspondante se trouve les banques interrogeables via SRS. Attention d'un site miroir à un autre cette liste peut varier (nous utilisons ici le site de l'ebi). Sélectionnez une banque de séquences nucléiques. Passez à la création de votre requête en sélectionnant Query Form. Les listes proposent les champs sur lesquels appliquer la recherche. On peut écrire des expressions booléennes avec le et (symbole &), le ou (symbole |) et la négation (symbole !). Le caractère * représente une suite de caractère quelconques. On peut aussi forcer une phrase exacte avec les guillemets. Le bandeau de gauche nous propose de combiner plusieurs lignes avec des opérateurs booléens.

Liens

A partir de la page présentant la protéine MotA de Bacillus subtilis, cliquez sur le lien "link" qui permet d'accéder aux entrées d'autres banques de données liées à votre protéine MotA de bacillus subtilis.

Remarque : on parlera du gène motA et de la protéine MotA correspondante.

Un opéron est une séquence d'ADN qui sera transcrite en un seul brin d'ARN messager. Par la suite ce brin d'ARN sera traduit en protéine et permettra ainsi la synthèse (la production) de deux protéines : MotA et MotB. L'organisation des gènes en groupes (en opérons) est spécifique aux Procaryotes (Pour être tout à fait exact, on retrouve cette organisation chez quelques Eucaryotes comme les levures).

On peut aussi effectuer des liens entre les banques à partir d'une liste de résultats. Ou directement à partir de la page de présentation d'une séquence. Prenez par exemple la page présentant la protéine MotA de Bacillus subtilis et regardez au paragraphe "Database cross-references".

Vues

Une vue est un format d'affichage des résultats. Il existe de nombreuses vues prédéfinies dans SRS. Certaines sont communes à plusieurs banques, beaucoup sont spécifiques d'une banque.

Il est possible de créer sa propre vue. Elle reste valable toute la durée de votre connexion à SRS. La création d'une vue permet de choisir les champs qui seront affichés pour une liste de résultats obtenue pour une ou plusieurs banques choisies. Une vue peut contenir un lien vers une autre banque. Le lien sera propagé lors de l'affichage des résultats. L'onglet "Views" donne accès à l'écran de création d'une vue. Nous verrons au cours des exercices comment créer une vue et l'utiliser.

Nous allons rechercher la fonction "flagellar motor" dans la banque InterPro, puis les protéines de Bacillus subtilis connues pour avoir cette fonction et, pour finir, les gènes codant pour ces protéines.

La banque InterPro est une banque de motifs, domaines et familles de protéines. Elle apparaît dans la catéogie "Protein function databases" de la page qui donne la liste des banques interrogeables.

Recherchez dans le champ "full_name" la valeur flagella motor Vous obtenez entrées InterPro. En consultant les entrées, trouvez à quoi sert la fonction "flagellar motor".

Nous allons rechercher les protéines qui font partie de ces familles. Pour cela, il suffit de cliquer sur le bouton "Link" qui se trouve dans le bandeau de gauche. Choisissez la banque de protéines, UniProt. Combien de protéines sont trouvées ? Pour voir plus d'informations sur les protéines trouvées, demandez d'afficher la liste des résultats à l'aide de la vue "UniProtView" (menu déroulant "View results using" dans le bandeau de gauche), en cliquant sur le bouton "Apply Display Options". Est-ce que ces protéines proviennent uniquement de Bacillus subtilis ?

Nous allons limiter la liste de protéines trouvées à celles issues de Bacillus subtilis en construisant manuellement une requête. Il faut ouvrir la page qui contient l'historique des requêtes effectuées depuis votre connexion au serveur (onglet "Results"). Saisissez la requête QX & [UNIPROT-Organism:subtilis] (X étant le numéro de la requête qui a trouvé les protéines). Puis cliquez sur 'Expression'. Combien de protéines de bacillus subtilise portant une fonction "flagella motor" sont trouvées ?

Nous allons maintenant afficher les gènes qui codent les protéines trouvées. Pour cela, nous allons construire une vue.

Suivre les étapes suivantes pour créer une vue qui affiche les résultats d'une requête qui porte sur la banque "UniProt" et qui fait un lien vers la banque "EMBL" :

La vue est maintenant accessible via le menu déroulant lié au bouton "View" qui apparaît dans le bandeau de gauche dans différents écrans de SRS. Pour utiliser cette vue sur les protéines de Bacillus subtilis trouvées précédemment, suivre la procédure suivante :

Maintenant, vous visualisez chaque protéine avec toutes les entrées de la banque EMBL qui codent pour elle. Il peut avoir plusieurs entrées EMBL qui correspondent à une seule protéine. Ce n'est pas dû à la duplication de gènes, mais à la redondance dans les banques de données. Un même gène peut être présent dans différentes entrées.

Exercices

Le poids des molécules s'exprime en Dalton, il est défini comme le douzième de la masse d'un atome de carbone 12. Un Dalton est donc l'équivalent du nombre d'Avogadro (6.022*10^23). 20000 Dalton correspondent approximativement à 1.2*10-18 grammes.

Entrez

Le NCBI propose une autre interface, nommée Entrez. A partir du portail vous pouvez sélectionner une banque (nucléique, protéique ou autre) puis effectuer des recherches. Le NCBI étant américain, les banques interrogées par cette interface sont principalement américaine. Voici les principales banques disponibles 

Sur la page d'accueil de Entrez, il est maintenant possible d'interroger toutes les banques en même temps. Pour commencer, nous allons travailler uniquement sur la banque de données bibliographiques, PubMed puisque Entrez est l'interface la plus adaptée pour interroger cette banque. Il suffit de cliquer sur le nom de la banque pour accéder à la page d'interrogation de cette banque.

Le fil conducteur des requêtes effectuées sur cette banque est la recherche d'articles concernant la maladie de la vache folle.

Saisie simple d'une phrase

Pour interroger Entrez, il suffit de saisir les termes recherchés dans la zone de texte située dans le bandeau gris, en haut de la page. La banque interrogée apparaît dans le menu déroulant situé juste devant la zone de texte.

Recherchez tous les articles parlant de la maladie de la vache folle en tapant, successivement, les phrases indiquées ci-dessous dans la zone de saisie. Pour chacune des phrases, notez le nombre d'entrées trouvées et regardez comment Entrez interprète votre requête à l'aide de l'onglet "Details". Les onglets sont écrits en bleu, sous la zone de saisie.

Saisie d'une requête complexe avec nom de champ et opérateur booléen.

Nous venons de voir que lorsque des termes sont saisis sans autre précision, Entrez essaie d'interpréter notre requête. Cette interprétation mène parfois à des réponses totalement hors sujet par rapport à ce que nous voulions. Il est possible de construire des requêtes plus fines dans lesquelles nous précisons le nom du champ interrogé. Ceci est fait en écrivant le nom de champ entre crochets [], derrière la valeur recherchée dans ce champ. Mais, cela implique de connaître le nom des champs interrogeables pour une banque. Ceci sont disponibles à l'URL suivante : Filtres. Voici un exemple d'interrogation :

mad cow disease [title] recherche tous les articles possédant l'expression "mad cow disease" dans leur titre.

Si vous ne connaissez pas le nom des champs interrogeables, vous pouvez construire votre requête pas à pas à partir de l'onglet "Preview/Index" ou lire l'aide.

De plus, il est possible de construire une requête combinant plusieurs critères à l'aide d'opérateurs booléens. Cela permet, entre autre, d'interroger plusieurs champs en même temps. Les opérateurs doivent être écrits en majuscules (AND, OR, NOT).

Il est également possible de fixer un intervalle de parution pour les articles à l'aide de l'onglet "Limits".

Recherche de terme MeSH

Dans le bandeau bleu situé à gauche de la page, se trouvent plusieurs liens dont un vers le "MeSH Database". Ce lien donne accès à un formulaire qui permet d'interroger spécifiquement la table des termes MeSH.

Recherchez le terme MeSH correspondant à la maladie de la vache folle en tapant encephalopathy dans la zone de saisie. Vous obtenez une liste de termes contenant le mot encephalopathy ou un synonyme.

Cliquez le terme MeSH qui correspond à la maladie de la vache folle pour accéder à une description détaillée de ce terme.

Vous accédez alors à tous les sous-titres (Subheadings) liés au terme consulté. Il est possible de limiter la recherche à un ou plusieurs de ces sous-titres pour ne considérer que les articles qui traitent d'un aspect particulier du terme. D'autres possibilité sont offertes :

Liens entre entrées.

Entrez établit des liens entre les entrées des différentes banques interrogeables via son interface. Il calcule également des liens entre entrées d'une une même banque, (notion de voisinage). Pour PubMed, il s'agit de rapprocher entre eux les articles qui partagent des termes MeSH. Pour les banques de séquences, les séquences avec un fort taux de similarité sont considérées comme voisines.

L'accès aux liens se fait pour chaque entrée à l'aide des liens situés à leur droite ("Link"). Il est également possible de propager un lien pour un ensemble d'entrées via le menu déroulant à côté du bouton 'Display' (ex : "Genome Links"). Le même menu sert à la fois pour changer de format et accéder aux liens.

Retournez à la liste des publications qui possèdent le terme MeSH "Encephalopathy, Bovine Spongiform", effectuez maintenant un lien vers la banque OMIM. Cette banque contient des informations détaillées sur les gènes humains et les maladies génétiques. Elle est une source précieuse d'informations car elle est alimentée à la main et contient de nombreux liens vers des articles et autres sites web.

Utilisation du formulaire de recherche de citations

Il peut arriver que l'on possède la référence complète d'un article et que l'on souhaite lire cet article. Maintenant, plusieurs revues propose de consulter leurs articles en lignes. Parfois, cette consultation est gratuite, d'autres fois, elle est soumise à un abonnement. Il existe un formulaire dédié à la recherche d'articles d'après une référence, il est accessible via le lien "Single Citation Matcher" qui se trouve dans le bandeau de gauche. (A partir de la page présentant les articles liés à la maladie de la vache folle, ou a partir de pubmed).

Voici la référence de l'article publié pour marquer la fin du séquençage de la bactérie Bacillus subtilis :

The complete genome sequence of the gram-positive bacterium Bacillus subtilis.
Kunst F, Ogasawara N, Moszer I, Albertini AM, Alloni G, Azevedo V, Bertero MG, Bessieres P, Bolotin A, Borchert S, Borriss R, Boursier L, Brans A, Braun M, Brignell SC, Bron S, Brouillet S, Bruschi CV, Caldwell B, Capuano V, Carter NM, Choi SK, Codani JJ, Connerton IF, Danchin A, et al.
Nature. 1997 Nov 20;390(6657):249-56.

Pour rechercher une référence, normalement, il suffit de donner le nom du journal, le volume, le numéro et la première page.

Trouvez l'article correspondant à la référence donnée. En consultant l'entrée de cet article, vus pouvez voir qu'un lien est proposé vers l'article complet en ligne (bouton "Nature"). En cliquant sur le bouton correspondant, vous pouvez consulter l'article au format HTML ou PDF. Le format PDF contient toutes les figures dont la représentation graphique du génome complet avec tous les gènes connus. Attention l'ouverture d'un tel fichier sur vos ordinateurs peut prendre quelque temps...

Les autres banques.

Nous allons maintenant faire quelques exercices sur d'autres banques consultables via Entrez.


Last modified: Tue Feb 28 19:35:46 CET 2006