Interrogation de banques via SRS

Vous allez manipuler SRS, une interface d'interrogation de banques de données développée par LION bioscience AG. Cette interface est proposée sur divers sites web. Vous irez sur la version disponible sur le site de l'EBI. Vous allez explorer la manière d'interroger efficacement une banque de données de séquences en progressant dans la difficulté.
Pour compléter cet exercice, vous pouvez faire celui qui concerne Entrez

Lecture d'une entrée de séquence nucléique

SRS propose d'effectuer une recherche rapide (onglet QuickSearch) contre les banques sur sa page d'accueil. Il suffit de choisir la banque interrogée dans le menu déroulant, puis de saisir les mots à rechercher dans la zone de saisie.

Recherchez (onglet "quick search") l'entrée de la banque Nucleotide qui correspond à ce critère de recherche : Tetraplodon mnioides & petD.

J'utilise l'opérateur booléen ET (représenté par & dans SRS) pour préciser que j'associe deux critères de recherche Tetraplodon mnioides qui est un nom d'organisme et petD qui est un nom de gène.
Vous obtenez alors la liste des entrées correspondant aux critères saisis. Consultez l'entrée correspondant au numéro d'accession AY914175 pour répondre aux questions suivantes. Par défaut, l'entrée s'affiche sous une présentation HTML (avec des couleurs et autres). Pour avoir l'entrée sous son affichage texte originel, cliquez sur le lien "Text Entry" qui se trouve sous les onglets. Cet affichage est pratique pour se repérer dans la séquence.

Est-ce que la séquence de l'entrée provient du génome nucléaire ou du génome d'un organelle ?
Quelles sont les positions de début et de fin du gène petD ?
Sur quel brin est ce gène ?
Est-ce que ce gène est entier dans la séquence de la banque ?
Si ce n'est pas le cas, quelle est la partie manquante (le début -codon d'initiation- ou la fin -codon de terminaison- du gène) ?

Comme petD est sur le brin complémentaire (appelé aussi brin -), sa séquence est le complémentaire inversé de la séquence donnée dans la banque.

Quelle est la séquence de petD (trouver la à la main) ?
Vous pouvez vérifier votre réponse en cliquant sur le lien CDS.
Revenez sur la liste des résultats, que représentent les autres entrées ?

Changement du format d'affichage

Le changement du format d'affichage peut se faire, sur les résultats de la requete précédement soumise, via le bouton gauche Apply Display Options et ses options associées. Pour sauvegarder les résultats d'une entrée au format FASTA ou autre, il faut utiliser le bouton Save. Ce bouton mène à une page de configuration de la sauvegarde.
Sauvegarder l'entrée en cours au format *complete entries*, c'est-à-dire au format texte de la banque de données. L'entrée brute apparaît alors à l'écran. Vous pouvez utilisez cet affichage pour faire des copier-coller dans d'autres programmes ou dans le Bloc-notes pour enregistrer dans un fichier.

Interrogation ciblée

La page de recherche rapide proposée par SRS ne permet pas de construire des requêtes sophistiquées. Pour cela, il faut utiliser les formulaires de recherche (onglet Query form). Il faut commencer par choisir la ou les banques interrogées. Pour cela, cliquez sur l'onglet Library Page qui se trouve vers le haut de la page. Vous obtenez alors la liste des banques accessibles via SRS. Les banques interrogées sont sélectionnées en cliquant sur les cases à cocher.
Ensuite, on accède aux formulaires d'interrogation, en cliquant sur les boutons (Standard Query Form ou Extended Query Form). Ces boutons se situent dans le bandeau gris, sur la gauche de la page. Nous allons travailler avec le formulaire standard.

Recherchez l'expression homo spaiens, qui contient volontairement un faute de frappe, dans la banque EMBL.
Combien d'entrées qui contiennent la faute de frappe sont trouvées ?

Les menus déroulants situés devant les zones de saisie permettent de préciser sur quel champ porte la requête.

Recherchez maintenant "homo spaiens" dans le champ "Organism name".
Est-ce qu'il existe des entrées avec une faute de frappe dans le champ "Organism name" ?

Lors de la soumission des séquences aux banques nucléiques, une liste d'organismes est proposée ce qui permet d'éviter les erreurs de frappe dans le champ "Organism name", ce qui est important pour retrouver les données. Il est difficile de contrôler de façon automatique l'orthographe dans le reste de l'entrée.

Faites une recherche de la séquence du gène MAKORIN1, Chez le poisson Seriola quinqueradiata.
Est-ce que vous observez le même phénomène chez SRS et chez Entrez? (comparez le nombre d'entrées dans le résultat pour SRS et Entrez)

Utilisation d'opérateurs booléens

Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide d'opérateurs booléens :

La représentation des opérateurs dans SRS est la suivante :

De plus, il est possible d'enchaîner plusieurs critères combinés avec différents opérateurs. Pour que la requête saisie soit bien celle que l'on veut formuler, il faut ajouter des parenthèses. Cela permet au système d'interrogation d'effectuer les combinaisons dans le bon ordre. L'utilisation des parenthèses est identique chez SRS et Entrez.
Nous allons maintenant faire une recherche avec trois fonctions enzymatiques. Pour cela, nous allons faire les requêtes sur la banque protéique UniProtKB.

Est-ce qu'il existe un champ qui correspond aux numéros EC dans SRS ?
Saisissez la requête suivante : 5.3.1.24 & 4.1.1.48 | 5.3.1.16
Combien d'entrées sont trouvées ?
Saisissez successivement les deux requêtes suivantes :

  • (5.3.1.24 & 4.1.1.48) | 5.3.1.16
  • 5.3.1.24 & (4.1.1.48 | 5.3.1.16)

Combien d'entrées sont trouvées pour chaque requête ?
Laquelle de ces deux requêtes correspond à la requête sans parenthèse (saisie précédemment) ?
Quelles sont les protéines qui répondent aux critères de chaque requête (traduisez les requêtes exprimées en une phrase compréhensible de tous).

Historique des requêtes

L'historique est accessible à l'aide de l'onglet Results. Pour afficher de nouveau les résultats d'une requête, il faut cocher la requête voulue. Puis, cliquez sur le bouton Rerun Query.

Relancez la requête qui donne la séquence génomique et l'ARNm du gène MAKORIN1, chez le poisson Seriola quinqueradiata.

Liens entre banques

Il est possible d'effectuer des liens entre banques à l'aide de SRS. Pour cela, il suffit de cliquer sur le bouton "Link", puis de choisir la ou les banques vers lesquelles on veut faire le lien, et enfin lancer la recherche d'entrées associées en cliquant sur le bouton "Search".

Sur la requête précédemment relancée (MAKORIN1, banque nucléique), faites un lien vers la banque protéique UniProt.
Combien de protéines correspondant à MAKORIN1 sont trouvées ?
Est-ce que la redondance observée sur le site de Entrez est présente dans UniProt ?

La banque UniProt essaie de limiter la redondance de données. C'est pourquoi une seule entrée est trouvée par SRS.

Fin des hostilités, année 2009-2010