Voici la séquence d'une protéine que l'on veut étudier:
>sequence
AFPHCGARFNWPNTPPFHAVPQRFSTNLAVPFSLVQRFPAKKPVLMYPLM
FRQRTGVPWGGGGGGGGGGGGGGKWQSLPSAIVMCILRPEDILFPELAWQ
AQVFPDIENMYTGGEGUBGYGGANHCVPWRSQILMHHVAEWSHPHDEIAM
Tracez le dotplot de cette séquence contre elle même avec les 3 logiciels utilisés lors des TPs (dottup, dotmatcher et dotpath).
1- Pourquoi réaliser un dotplot de la séquence sur elle même ?
2- Dessinez schématiquement le dotplot obtenu avec chacun des 3 logiciels, puis analysez et expliquez les résultats.
Les maladies à prions sont des maladies caractérisées par une dégénérescence du système nerveux central. Elles concernent aussi bien l'homme (maladie de Creutzfeldt-Jakob) ou l'animal (Encéphalopathie Spongiforme Bovine ou maladie de la Vache Folle, tremblante du mouton ) et sont transmissibles au sein d'une même espèce et souvent entre espèces différentes.
Voici les séquences nucléiques et protéiques du prion chez l'homme et le boeuf.
Voici les séquences:
1- Réalisez un alignement local avec matcher sur les séquences protéiques. Quel est le score obtenu ? Donnez les pourcentages d'idendité et de similarité. A quoi correspondent ces deux pourcentages ? Ces séquences sont-elles similaires ?
2- Mêmes questions avec les séquences nucléiques.
3- Quel logiciel doit-on utiliser pour obtenir la significativité des scores ?
4- Utilisez ce logiciel avec les séquences protéiques, avec window size=150, scoring matrix= dna ou blosum62 (à vous de choisir) et en mettant les séquences sans l'entête fasta. Quel est le score du meilleur alignement obtenu ? Combien de fois un score meilleur est-il attendu ? Est-ce significatif ?
5- Si on lance plusieurs fois ce logiciel (ne pas le faire) avec les mêmes séquences et les mêmes paramètres, les résultats diffèrent légèrement, pourquoi ?
Voici les résultats obtenus avec les séquences nucléiques.
s-w bits E(200) 621 266.3 1.7e-71
6- Comparer les alignements protéiques et nucléiques. Quel est le plus significatif ? Pourquoi ?
7- Les séquences protéiques humaine et bovine sont-elles similaires ? Que peut-on en conclure sur le risque de transmission ?
Dans cette partie, nous allons essayer de trouver la structure d'un gène, c'est-a-dire la position des exons. La manière la plus efficace est de comparer la séquence génomique à l'ARNm mature qui lui correspond.
1- Recherchez au sein du NCBI, les séquences de nuclétotides (c'est à dire les gènes et ARNm) codant l'actine cardiaque (cardiac actin) chez Xenopus laevis. Donnez la requète et la banque que vous utilisez. Combien de résultats obtenez vous ?
Une seule entrée (X04669) correspond à un gène c'est celle-là qui sera utilisée pour l'ADN. Vous prendrez l'entrée X03469 pour l'ARNm.
2- Construisez l'alignement vous permettant d'observer la structure du gène. Quel logiciel utilisez-vous (matcher ou stretcher) ? Pourquoi ? Combien d'exons comporte votre gène ?
Dans cette partie nous allons étudier les sites de fixation du facteur de transcription, AP-2. Voici les séquences.
1- Réalisez un alignement multiple de ces séquences avec ClustalW. Expliquez le but de cette opération.
2- Réaliser le Weblogo (taille de l'image 36*15). Grâce à ce dernier, proposez une expression régulière pour ce site de fixation. Vous trouverez ici la syntaxe des expression régulières de PROSITE (le "X" est remplacé par "N" dans le cas des séquences nucléiques).
3- En observant le Weblogo et l'alignement multiple, que pensez-vous de l'alignement construit ? Comment aurait-on pu améliorer l'alignement ?
Dans cette partie, nous allons analyser un fragment d'ADN génomique humain dont voici la séquence. Dans un premier temps, nous allons rechercher la présence de gènes potentiels sur ce fragment. Dans un second temps, nous étudierons ce(s) gène(s) prédit(s).
1- Utilisez geneMark sur la séquence donnée. Choisissez la version pour les eucaryotes.
N'oubliez pas de préciser l'espèce (Species) et de cochez l'option "Translate predicted genes into protein" pour obtenir la séquence protéique correspondante.
Combien de gènes sont prédits ? Combien de gènes complets sont-ils prédits? On ne considère que le(s) gène(s) complet(s) pour la suite. Combien le gène prédit comporte-t-il
d'exons ? Sur quel brin est-il situé ?
2- Recherchez au sein du NCBI les protéines similaires à la protéine prédite. Quel type de BLAST utilisez-vous ? Combien de hits sont obtenus ? Que vous apprend cette recherche ?
3- Avec InterPro, recherchez les domaines conservés au sein de la protéine prédite ? Existe-t-il des domaines conservés ? Si oui à quoi correspondent-ils ? Comment expliquer la présence de ce domaine au sein de notre séquence humaine ?