Contrôle de TP - IUP-GenPro (année 2009-2010)

Les documents de cours et TDs sont autorisés ainsi que les documents du web. Les différentes parties sont indépendantes les unes des autres. Il est conseillé de lire chaque partie (rapide survol) avant de la commencer.

Partie 1: questions diverses

A) Requêtes sur Entrez

Rechercher sur Entrez les entrées correspondant au mot clef acetylgalactosaminyltransferase limitées à l'organisme Homo sapiens.

(Q1) Combien d'entrées nucléiques et protéiques obtenez-vous ?

Je souhaite réaliser cette requête sur Entrez:

"acetylgalactosaminyltransferase" AND Homo sapiens NOT (Homo sapiens [organism])

(Q2) Expliquez cette requête et son résultat (Vous pouvez éventuellement réaliser des requêtes supplémentaires pour justifier ce dernier).

B) Blast et Alignments

>TGME49_022720  | Toxoplasma gondii ME49 | glycogen synthase, putative | protein  | length=1350
MLLPDVPCTGRLAALTGISGGPLGPNKLSFSPFPSPDASVSHARVVCTLIFHPQSVKEFI
FLAGDSGGFREGRKLPGSAADESLQEQQSRPPHFDLPLLERVRLIDGFESIQKMPMLEQD
VQDAVLGSPDDGTNGKFDLKSIHQHYAERRKLRHTEPCLRRGRVVLVDVRNPDGSSLTQA
HRVYEQWPEALSDFDASLPALAAASACMHALSADVPSERKSRSRLLREAGVSAFAHPDEG
DTVTGECPEAEGGDKVVAFVRFDDHRIRQQIEQFSAAGLSTCLGHASREKSQPPTVGRTQ
NRLTASRDRSRELHAREASSVQSESSRRKGEVAGEEYPAVSSSSVGVDFERSGHSLVLVV
TNLSDRTLHDKSVSLQALRPAFRQQRIKHWHFLLQMCDLRSCNCEANLATFLACHETLQH
PGLPNASLRSGGAHGKAGHPCNASARTSILPDVISIEELLSEPFLLPAMPPYSSVIRGFT
LLPLTPPSQAPPAPVSLACSPSLYTSLFCCSLLRLQGLLRRLIHQSPGGSLAGVAQSRKS
LARGNMILHILSQVAGDTLFAKAGEKASVAELDLFAEFLDELGFALNYREHCLGEKQRQE
EGPHAEEESRPSASLSLFSICSDSKIFERHEELACSFMARLKRLVAGKTLQAPPSSHSDP
VPPGDSSPIALANEVLEKNALGAICFVTPELGRWSTVGGLGVMVDELSTTLATELGQEVW
VVSPYYDRNRKGEQDYLARDGIHHAFNVTVNVGGESITLGVHTGSVVSGVKLFFLHCASV
FPCIYPDVYGLEQIRFIVTFAKAALEIFCHLGTIPPLIITNDWPTCLIPAYAKQRFFGSV
FDCTTFYHIIHNLDSSYEGRIYLNKREDVYWLHGLPTDLLVDPHWHNFVINPSRCVLLQC
DGWGTVSPSYRDELMNEGGKGNASPLAPLLRRHHHPFATPNGIPIKLRLERLKKLGFRNH
WEAKAALQRHYFNFEKGDESIPLLAFIGRITQQKGVHLIVELAENLIRRYNGRVQILVGG
MANWNDGYAARCANQMMDLRARFPHSFWADPGEFFCNGALVNLGADFGLMPSLFEPGGIV
QHEFFIAGTPVVAFRTGGLKDTVREGSVTPGLGGGKISVESARQNNGFTFDAYTAGDFLF
AIERALRVFSDRAKYEQLRANARASVVSCEESARAWLGEFARLRKKIPVNEKRVQEIFER
LPDWSEAEWRLRRGTAPAFSSFLPSFSSESPVKPPAGTVVASLPRGPIPTSPFPPATLLG
LLQFCEDREMHMHAADRAVQLGGRAGTFDDWRVRRPLSWDNALQAFVLSLALRPGRYLYK
LVVDGEWVCVSDAPQETDSLGNTNNFLQVP
	

(Q3) Existe t-il des séquences similaires dans la banque nr en excluant le toxoplasme ? A quelle fonction correspondent-elles ? Comment qualifiriez vous la ressemblance trouvée ?
(Q4) Existe t-il une séquence de Swiss-Prot parmi les hits ? Donnez le numéro d'accession de la premiere trouvée ?

Obtenez la séquence de numéro d'accession ABW83991.1 au format Fasta et réalisez un alignement contre la séquence originale

(Q5) Quel logiciel choisissez-vous ? Justifiez très clairement.
(Q6) La similarité observée est-elle en accord avec celle trouvé à la question (Q3) ?
(Q7) Expliquez les différences.

Partie 2: dotplots et annotation de protéines

Voici la séquence d'une protéine que l'on souhaite étudier:

>gi|17865659|sp|Q01149.2|CO1A2_MOUSE RecName: Full=Collagen alpha-2(I) chain; AltName: Full=Alpha-2 type I collaxgen; Flags: Precursor
MLSFVDTRTLLLLAVTSCLATCQYLQSGSVRKGPTGDRGPRGQRGPAGPRGRDGVDGPMGPPGPPGSPGP
PGSPAPPGLTGNFAAQYSDKGVSSGPGPMGLMGPRGPPGAVGAPGPQGFQGPAGEPGEPGQTGPAGPRGP
AGSPGKAGEDGHPGKPGRPGERGVVGPQGARGFPGTPGLPGFKGVKGHSGMDGLKGQPGAQGVKGEPGAP
GENGTPGQAGARGLPGERGRVGAPGPAGARGSDGSVGPVGPAGPIGSAGPPGFPGAPGPKGELGPVGNPG
PAGPAGPRGEVGLPGLSGPVGPPGNPGTNGLTGAKGATGLPGVAGAPGLPGPRGIPGPAGAAGATGARGL
VGEPGPAGSKGESGNKGEPGSVGAQGPPGPSGEEGKRGSPGEAGSAGPAGPPGLRGSPGSRGLPGADGRA
GVMGPPGNRGSTGPAGIRGPNGDAGRPGEPGLMGPRGLPGSPGNVGPSGKEGPVGLPGIDGRPGPIGPAG
PRGEAGNIGFPGPKGPSGDPGKPGERGHPGLAGARGAPGPDGNNGAQGPPGPQGVQGGKGEQGPAGPPGF
QGLPGPSGTTGEVGKPGERGLPGEFGLPGPAGPRGERGTPGESGAAGPSGPIGSRGPSGAPGPDGNKGEA
GAVGAPGSAGASGPGGLPGERGAAGIPGGKGEKGETGLRGDTGNTGRDGARGIPGAVGAPGPAGASGDRG
EAGAAGPSGPAGPRGSPGERGEVGPAGPNGFAGPAGAAGQPGAKGEKGTKGPKGENGIVGPTGSVGAAGP
SGPNGPPGPVGSRGDGGPPGMTGFPGAAGRTGPPGPSGIAGPPGPPGAAGKEGIRGPRGDQGPVGRTGET
GASGPPGFVGEKGPSGEPGTAGAPGTAGPQGLLGAPGILGLPGSRGERGLPGIAGALGEPGPLGISGPPG
ARGPPGAVGSPGVNGAPGEAGRDGNPGSDGPPGRDGQPGHKGERGYPGSIGPTGAAGAPGPHGSVGPAGK
HGNRGEPGPAGSVGPVGAVGPRGPSGPQGIRGDKGEPGDKGHRGLPGLKGYSGLQGLPGLAGLHGDQGAP
GPVGPAGPRGPAGPSGPVGKDGRSGQPGPVGPAGVRGSQGSQGPAGPPGPPGPPGPPGVSGGGYDFGFEG
DFYRADQPRSQPSLRPKDYEVDATLKSLNNQIETLLTPEGSRKNPARTCRDLRLSHPEWNSDYYWIDPNQ
GCTMDAIKVYCDFSTGETCIQAQPVNTPAKNSYSRAQANKHVWLGETINGGSQFEYNVEGVSSKEMATQL
AFMRLLANRASQNITYHCKNSIAYLDEETGSLNKAVLLQGSNDVELVAEGNSRFTYSVLVDGCSKKTNEW
GKTIIEYKTNKPSRLPFLDIAPLDIGGADQEFRVEVGPVCFK
      

Tracez le dotplot de cette séquence contre elle même avec les 3 logiciels utilisés lors des TPs (dottup, dotmatcher et dotpath). Vous veillerez en particulier à choisir un taille de k-mot adaptée pour dottup.

(Q1) Pourquoi réaliser un dotplot de la séquence sur elle même ?
(Q2) Dessinez schématiquement le dotplot obtenu avec chacun des 3 logiciels (en précisant les paramètres choisis si vous ne prenez pas ceux par défaut), puis analysez et expliquez les résultats des trois programmes (justifiez les changement de paramètres).
(Q3) Qu'observez vous de caractéristique sur cette séquence ? Quelle est l'explication visible sur la séquence ? Quelles sont les parties "épargnées" par ce phénomène (localiser approximativement les positions grâce au dotplot)

Utilisez désormais InterproScan pour comprendre l'origine de ce phénomène

(Q4) Quelle ID d'Interpro correspond à la partie étudiée ? Vers quel(s) ID(s) secondaire(s) donne t'il accès ?
(Q5) Y a t-il d'autres ID intégrés dans Interpro ? Lesquels et à quoi correspondent-ils ?
(Q6) Dans Interpro, quelle est l'explication fournie (par PFAM) pour la partie répétée ?

Nous allons enfin compléter cette étude, en utilisant SignalP pour prédire des peptides signaux éventuels, et enfin TargetP.

(Q7) Y a t-il un peptide signal sur cette pre-proteine ? Si oui, quelle est la position de son meilleur score de coupure (vous la validerez sur les modèles NN et HMM) ?
(Q8) Quelles conclusions peut on tirer de Target-P (prédiction et confiance de prédiction)?

Partie 3: recherche de gènes

Voici un fragment de séquence issue d'un métagénome

>gi|130377211|gb|AACY023316700.1| Marine metagenome ctg_1101668124051, whole genome shotgun sequence
TCGGCCCTCCTCAATGCCGATCTCACGATCGCTCAGCAGGTGATCCAGAACGACGACGAGATTGATATCC
GTACCTCGGCCGTGGAAGAGCGCTGCTTCGAGATCATCGCCAACGACGCCCCGACCGGTCGCGACCTACG
CATTGCCATCGGCGCCCTGCGCATTGCCGCGAGCCTTGAGCGCATGGGCGATCTCGCCCGACACGTGGCC
AAGCAGGCGCGCCTGCGCTACCCGAACACCGCCGTCCCTGAGGATCTCGCCCCGACATTCGCCCACATGG
GCCGACTCGCCGAAGGCATCATCAACAAGACCGCGGCCGTGATCACCAGCCAGGACGTCACCCTCGCGAC
CGATATCGCCGAGGAGGACTCAGAGATGGATCGCGTGCATCGCGAACTCTTCACCATCGTGCTCTCCGCC
GACTGGAAGCACGGGGTCGAGGCCGCTATCGACGTCACCCTTCTCTCTCGCTATTACGAGCGCTATGCGG
ATCACGCTGTCAGCGTCACCAAGCGCGTGGTCAATGTCGTGACCGGCGAGCCCTACGCCGGCGTCATGCT
GGACTGACCTCCCTCCTGCATTTGGGCTCAATCGCCCTACCGCCCGACATTTCCTTGCCCCATTGGCCCA
CGTGCGCCCCATGCGCCACACTTAAGGCGTGACGCCCGGCACCTTCCCCCTCGCTCACGCGAATGGCCAC
ACGGCCAACCCGCGTCGGGTCGCGTTGCTCTCGATTCACACCAGCCCCCTCGATCAGCCAGGCACCGGCG
ACGCCGGGGGCATGAACGTCTACGTCGTCGAGACCGCCAAGCGTCTAGCCTTGGCAGGAACTGAAGTGGA
GATCTTCACCCGCGCCACCAGCAGTGATCACGCGAGTGTTGTCGAGCTCGCCCCCGGTGTGAAGGTGCGT
CACCTGACAGCCGGCCCATTCGAAGGCTTACGCAAGGAAGACCTCCCCGGTCAGCTGTGCGCGGTCACCG
CCGGCCTGTTGCGCGTTGAGGCTTCGCATCCCGAGGGCTGGTTCGATCTCATCCACTCGCACTACTGGCT
CTCCGGCCAGGTCGGCTGGCTCGCGTCCGAGCGCTGGAATGTTCCGCTCGTGCACACCATGCACACCATG
GCAAAGGTGAAGAACCTCGAGCTTGCCGACGGCGATACACCCGAACCGCAGTTGCGCGTCATCGGTGAAG
AACAGGTTGTCGCGGCAAGCACACGACTAATCGCCAACACCTCGATCGAGGCCCGACAGCTCATCGATCT
CTACGGAGCGAATCCGAGTCACGTCGACACCGTTCACCCCGGCGTCGATCTTGACCTCTTCACCCCTGGC
GACAAGGGATCAGCGCGTGCCCGACTCATGGAACGCGCCGCTGAAGACAACCTGACTTCGCTCGCAAATT
TCGGCTCTGCGGCGAACCAGCTCGTCGGCAAGCGAATCCTGCTCTTCGTAGGGCGCATTCAGCCGCTCAA
GGCCCCCGACATCCTCGTGCGTGCAGCAGCACGCATGGTCGCCGACGACCCGTCACTTCGCGATGAACTC
CTCGTCGTGATCTGCGGTGGCCCATCGGGTAACGGTCTCGAGCATCCGACCAGCCTGATCGAGCTCGCCC
ATGACCTCGGCATCG	  
      

(Q1) Rappelez rapidement ce qu'est un métagénome.
(Q2) Expliquez en particulier pourquoi nous n'avons (pour le moment) aucune idée de l'espèce, ni du type d'organisme séquencé.

On souhaite annoter cette séquence, en particulier savoir si un ou plusieurs gènes sont potentiellement présents (même de manière incomplète). On ne vous demande pas dans cet exercice de localiser "précisément" les bornes de début/fin de chaque gène mais simplement de pouvoir dire "approximativement" (à 10 acides aminés près ou 30 nucléotides) leur positions et leur sens. Nous en profiterons également pour connaître la classe de cette organisme (et avoir une idée approximative de sa taxonomie):

Nous allons dans un premier temps utiliser "blastx" contre la banque NR avec les paramètres par défaut.

(Q3) Que réalise "blastx" ?
(Q4) Que vous apprend cette première recherche en terme de gène(s) présent(s) ? Quelle est la protéine (a priori) encodée par ce gène ?
(Q5) Quelle est le sens et les positions approximatives de début et de fin du gène sur notre fragment?
(Q6) Manque t-il (a priori) le début ou la fin du gène ? Quel peut en être la raison ici ?

On peut également grâce à ce résultat identifier les espèces qui donnent les meilleurs hits.

(Q7) Sur quels organismes obtient-on les hits de meilleure E-valeur ? Donnez les noms des trois premiers, ainsi que leur taxonomie ? Ces 3 hits sont-ils "cohérents" entre eux ?

Nous avons pour le moment découvert qu'au moins un gène est présent. Nous allons désormais utiliser ORF-Finder.

(Q8) Que réalise "ORFFinder" ? Combien d'ORF sont trouvés ? Combiens semblent pertinents ?
(Q9) En particulier, que vous apprend la recherche sur le deuxième ORF ("deuxième" en terme de taille) ? Quelle est la protéine encodée ? Quelle est la position approximative du gène sur notre fragment ? Est-il chevauchant avec le premier ?
(Q10) Sur cet ORF, manque t-il le début ou la fin du gène ? Quelle pourrait en être la raison ici ?
(Q11) Comment pouvez vous justifier votre réponse à la question précédente ? Quel(s) logiciel(s) peut vous aider en ce sens ? Quelle réponse obtenez vous alors ?
(Q12) Pourquoi le résultat obtenu à la (Q9) n'apparaissait pas lors de la première recherche faite avec "blastx" lors des questions (Q3,Q4,Q5,Q6) ?

Fin des hostilités, année 2009-2010