Rechercher sur Entrez les entrées correspondant au mot clef acetylgalactosaminyltransferase limitées à l'organisme Homo sapiens.
(Q1) Combien d'entrées nucléiques et protéiques obtenez-vous ?
Je souhaite réaliser cette requête sur Entrez:
"acetylgalactosaminyltransferase" AND Homo sapiens NOT (Homo sapiens [organism])
(Q2) Expliquez cette requête et son résultat (Vous pouvez éventuellement réaliser des requêtes supplémentaires pour justifier ce dernier).
>TGME49_022720 | Toxoplasma gondii ME49 | glycogen synthase, putative | protein | length=1350 MLLPDVPCTGRLAALTGISGGPLGPNKLSFSPFPSPDASVSHARVVCTLIFHPQSVKEFI FLAGDSGGFREGRKLPGSAADESLQEQQSRPPHFDLPLLERVRLIDGFESIQKMPMLEQD VQDAVLGSPDDGTNGKFDLKSIHQHYAERRKLRHTEPCLRRGRVVLVDVRNPDGSSLTQA HRVYEQWPEALSDFDASLPALAAASACMHALSADVPSERKSRSRLLREAGVSAFAHPDEG DTVTGECPEAEGGDKVVAFVRFDDHRIRQQIEQFSAAGLSTCLGHASREKSQPPTVGRTQ NRLTASRDRSRELHAREASSVQSESSRRKGEVAGEEYPAVSSSSVGVDFERSGHSLVLVV TNLSDRTLHDKSVSLQALRPAFRQQRIKHWHFLLQMCDLRSCNCEANLATFLACHETLQH PGLPNASLRSGGAHGKAGHPCNASARTSILPDVISIEELLSEPFLLPAMPPYSSVIRGFT LLPLTPPSQAPPAPVSLACSPSLYTSLFCCSLLRLQGLLRRLIHQSPGGSLAGVAQSRKS LARGNMILHILSQVAGDTLFAKAGEKASVAELDLFAEFLDELGFALNYREHCLGEKQRQE EGPHAEEESRPSASLSLFSICSDSKIFERHEELACSFMARLKRLVAGKTLQAPPSSHSDP VPPGDSSPIALANEVLEKNALGAICFVTPELGRWSTVGGLGVMVDELSTTLATELGQEVW VVSPYYDRNRKGEQDYLARDGIHHAFNVTVNVGGESITLGVHTGSVVSGVKLFFLHCASV FPCIYPDVYGLEQIRFIVTFAKAALEIFCHLGTIPPLIITNDWPTCLIPAYAKQRFFGSV FDCTTFYHIIHNLDSSYEGRIYLNKREDVYWLHGLPTDLLVDPHWHNFVINPSRCVLLQC DGWGTVSPSYRDELMNEGGKGNASPLAPLLRRHHHPFATPNGIPIKLRLERLKKLGFRNH WEAKAALQRHYFNFEKGDESIPLLAFIGRITQQKGVHLIVELAENLIRRYNGRVQILVGG MANWNDGYAARCANQMMDLRARFPHSFWADPGEFFCNGALVNLGADFGLMPSLFEPGGIV QHEFFIAGTPVVAFRTGGLKDTVREGSVTPGLGGGKISVESARQNNGFTFDAYTAGDFLF AIERALRVFSDRAKYEQLRANARASVVSCEESARAWLGEFARLRKKIPVNEKRVQEIFER LPDWSEAEWRLRRGTAPAFSSFLPSFSSESPVKPPAGTVVASLPRGPIPTSPFPPATLLG LLQFCEDREMHMHAADRAVQLGGRAGTFDDWRVRRPLSWDNALQAFVLSLALRPGRYLYK LVVDGEWVCVSDAPQETDSLGNTNNFLQVP
(Q3) Existe t-il des séquences similaires dans la banque nr en excluant le toxoplasme ? A quelle fonction correspondent-elles ? Comment qualifiriez vous la ressemblance trouvée ?
(Q4) Existe t-il une séquence de Swiss-Prot parmi les hits ? Donnez le numéro d'accession de la premiere trouvée ?
Obtenez la séquence de numéro d'accession ABW83991.1 au format Fasta et réalisez un alignement contre la séquence originale
(Q5) Quel logiciel choisissez-vous ? Justifiez très clairement.
(Q6) La similarité observée est-elle en accord avec celle trouvé à la question (Q3) ?
(Q7) Expliquez les différences.
Voici la séquence d'une protéine que l'on souhaite étudier:
>gi|17865659|sp|Q01149.2|CO1A2_MOUSE RecName: Full=Collagen alpha-2(I) chain; AltName: Full=Alpha-2 type I collaxgen; Flags: Precursor
MLSFVDTRTLLLLAVTSCLATCQYLQSGSVRKGPTGDRGPRGQRGPAGPRGRDGVDGPMGPPGPPGSPGP
PGSPAPPGLTGNFAAQYSDKGVSSGPGPMGLMGPRGPPGAVGAPGPQGFQGPAGEPGEPGQTGPAGPRGP
AGSPGKAGEDGHPGKPGRPGERGVVGPQGARGFPGTPGLPGFKGVKGHSGMDGLKGQPGAQGVKGEPGAP
GENGTPGQAGARGLPGERGRVGAPGPAGARGSDGSVGPVGPAGPIGSAGPPGFPGAPGPKGELGPVGNPG
PAGPAGPRGEVGLPGLSGPVGPPGNPGTNGLTGAKGATGLPGVAGAPGLPGPRGIPGPAGAAGATGARGL
VGEPGPAGSKGESGNKGEPGSVGAQGPPGPSGEEGKRGSPGEAGSAGPAGPPGLRGSPGSRGLPGADGRA
GVMGPPGNRGSTGPAGIRGPNGDAGRPGEPGLMGPRGLPGSPGNVGPSGKEGPVGLPGIDGRPGPIGPAG
PRGEAGNIGFPGPKGPSGDPGKPGERGHPGLAGARGAPGPDGNNGAQGPPGPQGVQGGKGEQGPAGPPGF
QGLPGPSGTTGEVGKPGERGLPGEFGLPGPAGPRGERGTPGESGAAGPSGPIGSRGPSGAPGPDGNKGEA
GAVGAPGSAGASGPGGLPGERGAAGIPGGKGEKGETGLRGDTGNTGRDGARGIPGAVGAPGPAGASGDRG
EAGAAGPSGPAGPRGSPGERGEVGPAGPNGFAGPAGAAGQPGAKGEKGTKGPKGENGIVGPTGSVGAAGP
SGPNGPPGPVGSRGDGGPPGMTGFPGAAGRTGPPGPSGIAGPPGPPGAAGKEGIRGPRGDQGPVGRTGET
GASGPPGFVGEKGPSGEPGTAGAPGTAGPQGLLGAPGILGLPGSRGERGLPGIAGALGEPGPLGISGPPG
ARGPPGAVGSPGVNGAPGEAGRDGNPGSDGPPGRDGQPGHKGERGYPGSIGPTGAAGAPGPHGSVGPAGK
HGNRGEPGPAGSVGPVGAVGPRGPSGPQGIRGDKGEPGDKGHRGLPGLKGYSGLQGLPGLAGLHGDQGAP
GPVGPAGPRGPAGPSGPVGKDGRSGQPGPVGPAGVRGSQGSQGPAGPPGPPGPPGPPGVSGGGYDFGFEG
DFYRADQPRSQPSLRPKDYEVDATLKSLNNQIETLLTPEGSRKNPARTCRDLRLSHPEWNSDYYWIDPNQ
GCTMDAIKVYCDFSTGETCIQAQPVNTPAKNSYSRAQANKHVWLGETINGGSQFEYNVEGVSSKEMATQL
AFMRLLANRASQNITYHCKNSIAYLDEETGSLNKAVLLQGSNDVELVAEGNSRFTYSVLVDGCSKKTNEW
GKTIIEYKTNKPSRLPFLDIAPLDIGGADQEFRVEVGPVCFK
Tracez le dotplot de cette séquence contre elle même avec les 3 logiciels utilisés lors des TPs (dottup, dotmatcher et dotpath). Vous veillerez en particulier à choisir un taille de k-mot adaptée pour dottup.
(Q1) Pourquoi réaliser un dotplot de la séquence sur elle même ?
(Q2) Dessinez schématiquement le dotplot obtenu avec chacun des 3 logiciels (en précisant les paramètres choisis si vous ne prenez pas ceux par défaut), puis analysez et expliquez les résultats des trois programmes (justifiez les changement de paramètres).
(Q3) Qu'observez vous de caractéristique sur cette séquence ? Quelle est l'explication visible sur la séquence ? Quelles sont les parties "épargnées" par ce phénomène (localiser approximativement les positions grâce au dotplot)
Utilisez désormais InterproScan pour comprendre l'origine de ce phénomène
(Q4) Quelle ID d'Interpro correspond à la partie étudiée ? Vers quel(s) ID(s) secondaire(s) donne t'il accès ?
(Q5) Y a t-il d'autres ID intégrés dans Interpro ? Lesquels et à quoi correspondent-ils ?
(Q6) Dans Interpro, quelle est l'explication fournie (par PFAM) pour la partie répétée ?
Nous allons enfin compléter cette étude, en utilisant SignalP pour prédire des peptides signaux éventuels, et enfin TargetP.
(Q7) Y a t-il un peptide signal sur cette pre-proteine ? Si oui, quelle est la position de son meilleur score de coupure (vous la validerez sur les modèles NN et HMM) ?
(Q8) Quelles conclusions peut on tirer de Target-P (prédiction et confiance de prédiction)?
Voici un fragment de séquence issue d'un métagénome
>gi|130377211|gb|AACY023316700.1| Marine metagenome ctg_1101668124051, whole genome shotgun sequence
TCGGCCCTCCTCAATGCCGATCTCACGATCGCTCAGCAGGTGATCCAGAACGACGACGAGATTGATATCC
GTACCTCGGCCGTGGAAGAGCGCTGCTTCGAGATCATCGCCAACGACGCCCCGACCGGTCGCGACCTACG
CATTGCCATCGGCGCCCTGCGCATTGCCGCGAGCCTTGAGCGCATGGGCGATCTCGCCCGACACGTGGCC
AAGCAGGCGCGCCTGCGCTACCCGAACACCGCCGTCCCTGAGGATCTCGCCCCGACATTCGCCCACATGG
GCCGACTCGCCGAAGGCATCATCAACAAGACCGCGGCCGTGATCACCAGCCAGGACGTCACCCTCGCGAC
CGATATCGCCGAGGAGGACTCAGAGATGGATCGCGTGCATCGCGAACTCTTCACCATCGTGCTCTCCGCC
GACTGGAAGCACGGGGTCGAGGCCGCTATCGACGTCACCCTTCTCTCTCGCTATTACGAGCGCTATGCGG
ATCACGCTGTCAGCGTCACCAAGCGCGTGGTCAATGTCGTGACCGGCGAGCCCTACGCCGGCGTCATGCT
GGACTGACCTCCCTCCTGCATTTGGGCTCAATCGCCCTACCGCCCGACATTTCCTTGCCCCATTGGCCCA
CGTGCGCCCCATGCGCCACACTTAAGGCGTGACGCCCGGCACCTTCCCCCTCGCTCACGCGAATGGCCAC
ACGGCCAACCCGCGTCGGGTCGCGTTGCTCTCGATTCACACCAGCCCCCTCGATCAGCCAGGCACCGGCG
ACGCCGGGGGCATGAACGTCTACGTCGTCGAGACCGCCAAGCGTCTAGCCTTGGCAGGAACTGAAGTGGA
GATCTTCACCCGCGCCACCAGCAGTGATCACGCGAGTGTTGTCGAGCTCGCCCCCGGTGTGAAGGTGCGT
CACCTGACAGCCGGCCCATTCGAAGGCTTACGCAAGGAAGACCTCCCCGGTCAGCTGTGCGCGGTCACCG
CCGGCCTGTTGCGCGTTGAGGCTTCGCATCCCGAGGGCTGGTTCGATCTCATCCACTCGCACTACTGGCT
CTCCGGCCAGGTCGGCTGGCTCGCGTCCGAGCGCTGGAATGTTCCGCTCGTGCACACCATGCACACCATG
GCAAAGGTGAAGAACCTCGAGCTTGCCGACGGCGATACACCCGAACCGCAGTTGCGCGTCATCGGTGAAG
AACAGGTTGTCGCGGCAAGCACACGACTAATCGCCAACACCTCGATCGAGGCCCGACAGCTCATCGATCT
CTACGGAGCGAATCCGAGTCACGTCGACACCGTTCACCCCGGCGTCGATCTTGACCTCTTCACCCCTGGC
GACAAGGGATCAGCGCGTGCCCGACTCATGGAACGCGCCGCTGAAGACAACCTGACTTCGCTCGCAAATT
TCGGCTCTGCGGCGAACCAGCTCGTCGGCAAGCGAATCCTGCTCTTCGTAGGGCGCATTCAGCCGCTCAA
GGCCCCCGACATCCTCGTGCGTGCAGCAGCACGCATGGTCGCCGACGACCCGTCACTTCGCGATGAACTC
CTCGTCGTGATCTGCGGTGGCCCATCGGGTAACGGTCTCGAGCATCCGACCAGCCTGATCGAGCTCGCCC
ATGACCTCGGCATCG
(Q1) Rappelez rapidement ce qu'est un métagénome.
(Q2) Expliquez en particulier pourquoi nous n'avons (pour le moment) aucune idée de l'espèce, ni du type d'organisme séquencé.
On souhaite annoter cette séquence, en particulier savoir si un ou plusieurs gènes sont potentiellement présents (même de manière incomplète). On ne vous demande pas dans cet exercice de localiser "précisément" les bornes de début/fin de chaque gène mais simplement de pouvoir dire "approximativement" (à 10 acides aminés près ou 30 nucléotides) leur positions et leur sens. Nous en profiterons également pour connaître la classe de cette organisme (et avoir une idée approximative de sa taxonomie):
Nous allons dans un premier temps utiliser "blastx" contre la banque NR avec les paramètres par défaut.
(Q3) Que réalise "blastx" ?
(Q4) Que vous apprend cette première recherche en terme de gène(s) présent(s) ? Quelle est la protéine (a priori) encodée par ce gène ?
(Q5) Quelle est le sens et les positions approximatives de début et de fin du gène sur notre fragment?
(Q6) Manque t-il (a priori) le début ou la fin du gène ? Quel peut en être la raison ici ?
On peut également grâce à ce résultat identifier les espèces qui donnent les meilleurs hits.
(Q7) Sur quels organismes obtient-on les hits de meilleure E-valeur ? Donnez les noms des trois premiers, ainsi que leur taxonomie ? Ces 3 hits sont-ils "cohérents" entre eux ?
Nous avons pour le moment découvert qu'au moins un gène est présent. Nous allons désormais utiliser ORF-Finder.
(Q8)
Que réalise "ORFFinder" ? Combien d'ORF sont trouvés ? Combiens semblent pertinents ?
(Q9) En particulier, que vous apprend la recherche sur le deuxième ORF ("deuxième" en terme de taille) ? Quelle est la protéine encodée ? Quelle est la position approximative du gène sur notre fragment ? Est-il chevauchant avec le premier ?
(Q10) Sur cet ORF, manque t-il le début ou la fin du gène ? Quelle pourrait en être la raison ici ?
(Q11) Comment pouvez vous justifier votre réponse à la question précédente ? Quel(s) logiciel(s) peut vous aider en ce sens ? Quelle réponse obtenez vous alors ?
(Q12) Pourquoi le résultat obtenu à la (Q9) n'apparaissait pas lors de la première recherche faite avec "blastx" lors des questions (Q3,Q4,Q5,Q6) ?