Exercice 1 Distance entre 2 séquences
Utiliser et tester le programme BABA
Quelques rappels sur les séquences là.
Essayer de comprendre les principes de la programmation dynamique. Cliquez sur Reduction Data 3 et essayer de comprendre là.
Autres liens: http://drp.id.au/align/2d/AlignDemo.shtml ou http://www.dina.dk/~sestoft/bsa/bsapplet.html :
Exercice 2 Comparaison de 2 séquences par DOTPLOT (nuage de point) |
cggcgccgcgagcttctcctctcctcacgaccgaggcagagcagtcattatggcgaaccttggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctgcaagaa Attention: la séquence doit etre au format BRUT!: >SWISSPROT:P04156 HUMAN MAJOR PRION PROTEIN PRECURSOR (PRP) MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQPHGGGWGQPHG GGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGAVVGGLGGYMLGSAMSRPIIH FGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVV EQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG |
.
Exercice 3 Recherche dans les banques par similitude de séquence |
|
Exercice 4 Alignement multiple de séquences |
|
Objectif: situer le gène du prion dans le génome humain
Exercice 5 Identification du gène du prion dans le génome humain |
|
Objectif: obtenir la séquence du gène du prion en scrutant l'annotation des banques de données publiques internationales
Exercice 6: Recherche de la séquence des prions |
|
La page d'accueil propose d'interroger en même temps toutes les banques accessibles via Entrez. En cliquant sur le nom d'une banque, on accède alors à l'interface d'interrogation classique qui comprend une zone de saisie des critères de recherche et, juste en dessous, des liens vers des fonctionnalités du système d'interrogation. Le lien "History" affiche toutes les requêtes effectuées depuis le début de votre session sur la banque, c'est-à-dire depuis votre connection à cette banque. Il est possible d'accéder à la liste des entrées qui réponde à une requêtes en cliquant sur le lien du nombre d'entrées trouvées.
Exercice 8 Recherche Simple |
|
Exercice 9 Recherche moins simple |
|
Exercice 10 |
|
Er si vous avez terminé faites les tutoriaux.de Entrez, PubMed et NCBI.
Le stockage informatique des données fait appel à des technologies variées (de "pas top" à "méga complexe" en passant par "trivial"):
Le transfert des données se fait sous forme de:
De part leurs volumes et mises à jour quotidiennes, la plupart des banques sont maintenues et accessibles en une localisation internationale.
Banques publiques disponibles par FTP: quelques grands centres nationaux maintiennent des mirroirs (MAJ nocturnes).
Requêtes et interrogations par interfaces Internet (de + en + conviviales).
Les objets biologiques sont
Pour identifier ces objets, les différentes bases de données leurs assignent des Numéros d'Accession uniques au sein de leur collections respectives. Pour pointer sans ambiguité sur un tel objet, on utilise la notation:
Banque:NuméroAccession
Exemple du gène du PRION.
Symboles du gène & ses synonymes: | Exemples d'objets se rapportant au gène du PRION: |
|
Trois serveurs bioinformatiques dédiés aux banques de données biologiques:
L'alignement de deux séquences similaires permet d'observer leur degré d'apparentée (homologues) ainsi que de définir les régions conservées au cours de l'évolution (divergence d'une séquence ancestrale commune ou, plus rarement, convergence de deux séquences indépendantes). On sépare habituellement les homologies entre protéines en deux groupes:
Un alignement devra mettre en évidence les:
Pour en savoir plus, voir le tutoriel d'Infobiogen sur les similarités de séquences..
.
Les matrices de substitution | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Exemple des matrices PAM (Point Accepted Mutation) Ces matrices ont été crées par Magaret Dayhoff et al. et sont basées sur l'établissement empirique du taux des substitutions d'acides aminés observées dans 71 familles de protéines très semblables (environ 1300 séquences). Dans ces matrices, une valeur faible de remplacement (par exemple le remplacement d'un tryptophane par une cystéine) signifie que ce remplacement est facile est donc correspondra à une région de faible homologie. Au contraire, une valeur forte correspond à un point d'ancrage donc à une région de forte homologie. Les calculs initiaux ont conduit à la création de la matrice PAM1. Cette matrice donne les scores de similiarité obtenus si on avait 1 mutation pour une séquence de 100 acides aminés. Ceci correspond à un très faible taux de changement et les séquences doivent être presque identiques pour pouvoir utiliser cette matrice de scores. Pour effectuer des recherches dans les banques de données ou aligner des séquences plus éloignées, il faut mieux utiliser une matrice de similarité qui permette de prendre en compte des mutations moins évidentes. Ces matrices sont obtenues en multipliant la matrice PAM1 par elle même. Ainsi la matrice PAM250 autorise 250 mutations pour une séquence de 100 acides aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à environ 20% d'identité.
Dayhoff, MO, Schwartz, RM, Orcutt, BC (1978) A model of evolutionary change in proteins, matrixes for detecting distant relationships. In Dayhoff, MO (ed.), Atlas of protein sequence and structure, Vol 5, pp. 345-358. National Biomedical Research Foundation, Washington, DC.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Quelle matrice utiliser?
Il existe donc différentes matrices de scores destinées à aider le biologiste dans ces analyses. L'efficacité de ces matrices dépend du type d'expériences et des résultats utilisés pour l'alignement, et bien que de nombreuses études comparatives aient été menées, il n'y a pas de matrice idéale mais il ressort de ces études que les matrices plutôt basées sur les comparaisons de séquences (Gonnet, BLOSSUM) ou sur les structures 3D donnent le plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff. Les matrices BLOSUM élevées et les matrices PAM faibles permettent de comparer des séquences relativement proches et courtes tandis que pour comparer des séquences plus divergentes et plus longues, il vaut mieux utiliser des BLOSUM plus faibles (ou des PAM plus élevées).
Pour tous les logiciels qui utilisent l'alignement de séquences, la matrice BLOSUM62 est souvent un judicieux premier choix! |
Trois serveurs bioinformatiques dédiés aux banques de données biologiques: