M1S1 Science et Santé
Cours BioInformatique
TP Séquences N° 3 et 4

Vous devez sauver vos réponses dans un fichier texte que vous publierez sur le site du cours (cf. exercice 7).

Envoyez moi un mail à zucker at free.fr votre nom et votre groupe afin que je vous cree un compte. 
Mettez dans le sujet du mail M1S1 sinon je ne lis pas...

La Comparaison de 2 séquences 

Exercice 0
Distance entre 2 séquences 

Essayer le programme BABA

Quelques rappels sur les séquences .

Exercice 1
Comparaison de 2 séquences par DOTPLOT (nuage de point)
  1. Ouvrir l'application DOTLET (programme JAVA) 
    • Cliquez sur input 
    • Copiez-collez la séquence de la protéine PRNP traduite du cDNA exprimental issu du patient atteint de CJD (indiquez son nom:CJD dans la boite name)

    • Attention: la séquence doit etre au format BRUT!

      cggcgccgcgagcttctcctctcctcacgaccgaggcagagcagtcattatggcgaacct
      tggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctgcaagaa
      gcgcccgaagcctggaggatggaacactgggggcagccgatacccggggcagggcagccc
      gttcttgttttgttatataaaaaaattgtaaatgtttaatatctgactgaaattaaacga
      gcgaagatgagcacc

    • Cliquez sur OK 
    • Dans les 5 boites à droite du boutton input, sélectionnez dans l'ordre (pour comparer la PRNP anormale à elle meme): 
      • CJD (axe horizontal) 
      • CJD (axe vertical) 
      • BLOSUM62 (matrice de substitution) 
      • 1 (largeur fenetre filtration) 
      • 1:1 (zoom) 
      • puis cliquez sur compute 
    • Réduire le bruit en choississant une fenetre filtre de 9 au lieu de 1 et cliquez compute à nouveau 
    • Encore réduire le bruit en modifiant le dégradé de gris au dessus et au dessous de l'histogramme à droite 
    • Cliquez dans la fenetre principale sur les diagonales répétées, et à l'aide des touches droite et gauche observez les répétitions internes au prion dans la fenetre des séquences tout en bas 
  2. Grace au bouton input, copiez collez la séquence suivante (protéine prion normale, SWISSPROT:P04156) et donnez lui le nom normal

  3. Attention: la séquence doit etre au format BRUT!:
    >SWISSPROT:P04156 HUMAN MAJOR PRION PROTEIN PRECURSOR (PRP)
    MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQPHGGGWGQPHG
    GGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGAVVGGLGGYMLGSAMSRPIIH
    FGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVV
    EQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG
    • Recalculez le dotplot du prion CJD contre le prion normal en appuyant sur compute
    • Que constatez vous? Quelle mutation est apparue dans le cas de CJD?

Etant donné les differents parametres de modélisation de l'évolution, tels la matrice de substitution et les pénalités d'INDEL, la programmation dynamique (par exemple l'algorithme de Needleman & Wunsch) permet de calculer automatiquement l'alignement global optimal entre deux séquences.

Exercice 2
Alignement global de 2 séquences
  1. Sur Infobiogen, trouvez l'outil d'alignement global de protéines ALIGNp
    • Copiez collez puis alignez les deux séquences protéiques de prion normale et mutée CJD
    • Vérifiez la mutation importante apparue dans le cas de CJD?
  2. Trouvez avec SRS ou Entrez la séquence de la protéine de prion du boeuf (Bos taurus)
  3. Alignez avec ALIGNp le prion normal humain et le prion normal bovin
    • Comparez. Ces protéines vous paraissent elles proches?


2 - Recherche dans les banques par similarité de séquence ('data mining II')    Sommaire

Objectif: Trouver dans une banque de séquences celles qui ressemblent le plus à ma séquence (sonde)

Un alignement global optimal entre une séquence sonde et chaque séquence des banques de données prendrait des semaines a compléter (10 784 693 017 nucléotides dans 9 715 647 fiches de séquences dans GENBANK/EMBL au 02/12/2000). Les logiciels de recherche de similarité de séquence tels que BLAST ou FASTA utilisent des approches heuristiques pour accelérer le calcul.

Exercice 3
Recherche dans les banques par similitude de séquence
  1. Sur le serveur du NCBI, trouvez l'outil BLAST 2.1 (option basic blast)
    • Choisissez le programme blastp contre la banque SWISSPROT
    • Copiez collez la squence du prion humain anormal (CJD) puis executez la recherche
    • Quelles famille(s) de protéines trouvez vous?
    • Quelle est l'étendue des pourcentages d'identités rapportés par BLAST?
  2. Répétez la recherche contre la banque nr (non-redondante)
    • Difference entre nr et SWISSPROT?
  3. Faites un BLAST contre SWISSPROT de la traduction du polypetide court codé par le brin complémentaire de l'ADNc
    • Conclusion sur cette phase ouverte en sens indirect?
Jeudi 14-18h: Alignements Multiples & Domaines Conservés
1 - Alignements multiples de séquences  Sommaire

Objectif: Aligner ensemble une famille de séquences pour faire resortir les régions conservées

En appliquant les memes principes que pour l'alignement 2 à 2, on peut aligner entre elles un grand nombre de séquences. Le plus souvent les programmes d'alignement multiple procedent progressivement en effectuant des alignements 2 à 2 successifs.

Exercice 4
Alignement multiple de séquences
  1. Dans les résultats du BLAST du prion contre SWISSPROT, sélectionnez 10 protéines prions, allant des plus proches aux plus éloignées 
    • Obtenez chaque séquence au format FASTA (dans la fiche ENTREZ d'une séquence, changez le format en haut à gauche de Default à FASTA puis cliquez sur Display
    • Ajoutez au fur et à mesure chaque séquence dans un fichier texte (par exemple dans Notepad
    • Sauvez votre liste de séquence au format FASTA 
  2. Sur le serveur du PBIL, trouvez l'outil CLUSTALW 
  3. Copiez-collez les 10 séquences au format FASTA du fichier texte 
    • Alignez les 10 séquences 
    • Repérez les régions conservées/divergentes
    • Comment trouver une explication fonctionelle/structurale aux régions conservées?
    • Sauvegardez cet alignement sur votre disque. Imprimez le si possible.


2 - Recherche de domaines conservés ('data mining III')  Sommaire

Objectif: Comparer une protéine à une banque de signatures fonctionnelles

Grace à des alignements de protéines d'une même famille, des signatures spécifiques à ces familles peuvent être génerées. Celles-ci peuvent être reprérsentées sous la forme de motifs consensus ou de profiles matriciels, ou encore par des modèles statistiques plus performants (Modèles de Markov Cachés).
Note importante sur les prédictions...
Ces outils font des prédictions, et en tant que tels sont faillibles! 

Ces outils sont généralement entrainés sur un jeu d'apprentissage de séquences connues, puis testés sur un deuxieme jeu de calibrage de séquences aux caractéristiques également connues. Ceci permet de mesurer les différents taux suivants:

VP = vrais positifs, VN = vrais négatifs
FP = faux positifs, FN = faux négatifs

A partir de ces taux, on peut en déduire les caractéristiques de prédiction suivantes:

sensibilité = VP / (VP+FN)

spécificité = VP / (VP+FP)

L'optimisation de l'un de ces deux parametres entraine généralement la diminution de l'autre. En bioinformatique, on aura tendance à règler les logiciels de prédiction pour une sensibilté maximale (afin de minimiser les faux positifs), même si ceci a souvent pour conséquence de faire surprédire les logiciels (diminution de la spécificité).

Rappel de cours sur la comparaison de 2 séquences 

L'alignement de deux séquences similaires permet d'observer leur degré d'apparentée (homologues) ainsi que de définir les régions conservées au cours de l'évolution (divergence d'une séquence ancestrale commune ou, plus rarement, convergence de deux séquences indépendantes). On sépare habituellement les homologies entre protéines en deux groupes:

Lorsque l'on compare des séquences d'acides nucléiques, on utilise essentiellement l'identité entre les bases pour guider l'alignement. Pour comparer plus profondement les protéines, on exploite les similitudes de proprietés physico-chimiques entre acides aminés différents: cette information est modlisée en bioinformatique dans les matrices de substitutions.

Un alignement devra mettre en évidence les:

Pour en savoir plus, voir le tutoriel d'Infobiogen sur les similarités de séquences..

.

Les matrices de substitution
Exemple des matrices PAM (Point Accepted Mutation)
Ces matrices ont été crées par Magaret Dayhoff et al. et sont basées sur l'établissement empirique du taux des substitutions d'acides aminés observées dans 71 familles de protéines très semblables (environ 1300 séquences).

Dans ces matrices, une valeur faible de remplacement (par exemple le remplacement d'un tryptophane par une cystéine) signifie que ce remplacement est facile est donc correspondra à une région de faible homologie. Au contraire, une valeur forte correspond à un point d'ancrage donc à une région de forte homologie. Les calculs initiaux ont conduit à la création de la matrice PAM1. Cette matrice donne les scores de similiarité obtenus si on avait 1 mutation pour une séquence de 100 acides aminés. Ceci correspond à un très faible taux de changement et les séquences doivent être presque identiques pour pouvoir utiliser cette matrice de scores. 

Pour effectuer des recherches dans les banques de données ou aligner des séquences plus éloignées, il faut mieux utiliser une matrice de similarité qui permette de prendre en compte des mutations moins évidentes. Ces matrices sont obtenues en multipliant la matrice PAM1 par elle même. Ainsi la matrice PAM250 autorise 250 mutations pour une séquence de 100 acides aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à environ 20% d'identité. 

Matrice PAM250
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
2
                                     
R
-2
6
                                   
N
0
0
2
                                 
D
0
-1
2
4
                               
C
-2
-4
-4
-5
4
                             
Q
0
1
1
2
-5
4
                           
E
0
-1
1
3
-5
2
4
                         
G
1
-3
0
1
-3
-1
0
5
                       
H
-1
2
2
1
-3
3
1
-2
6
                     
I
-1
-2
-2
-2
-2
-2
-2
-3
-2
5
                   
L
-2
-3
-3
-4
-6
-2
-3
-4
-2
2
6
                 
K
-1
3
1
0
-5
1
0
-2
0
-2
-3
5
               
M
-1
0
-2
-3
-5
-1
-2
-3
-2
2
4
0
6
             
F
-4
-4
-4
-6
-4
-5
-5
-5
-2
1
2
-5
0
9
           
P
1
0
-1
-1
-3
0
-1
-1
0
-2
-3
-1
-2
-5
6
         
S
1
0
1
0
0
-1
0
1
-1
-1
-3
0
-2
-3
1
3
       
T
1
-1
0
0
-2
-1
0
0
-1
0
-2
0
-1
-2
0
1
3
     
W
-6
2
-4
-7
-8
-5
-7
-7
-3
-5
-2
-3
-4
0
-6
-2
-5
17
   
Y
-3
-4
-2
-4
0
-4
-4
-5
0
-1
-1
-4
-2
7
-5
-3
-3
0
10
 
V
0
-2
-2
-2
-2
-2
-2
-1
-2
4
2
-2
2
-1
-1
-1
0
-6
2
4
Dayhoff, MO, Schwartz, RM, Orcutt, BC (1978) A model of evolutionary change in proteins, matrixes for detecting distant relationships. In Dayhoff, MO (ed.), Atlas of protein sequence and structure, Vol 5, pp. 345-358. National Biomedical Research Foundation, Washington, DC.
Quelle matrice utiliser?

Il existe donc différentes matrices de scores destinées à aider le biologiste dans ces analyses. L'efficacité de ces matrices dépend du type d'expériences et des résultats utilisés pour l'alignement, et bien que de nombreuses études comparatives aient été menées, il n'y a pas de matrice idéale mais il ressort de ces études que les matrices plutôt basées sur les comparaisons de séquences (Gonnet, BLOSSUM) ou sur les structures 3D donnent le plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff. 

Les matrices BLOSUM élevées et les matrices PAM faibles permettent de comparer des séquences relativement proches et courtes tandis que pour comparer des séquences plus divergentes et plus longues, il vaut mieux utiliser des BLOSUM plus faibles (ou des PAM plus élevées).

Moins divergentes
(proches)
< < < < < <        > > > > > >  Plus divergentes
(éloignées)
BLOSUM80
PAM1
BLOSUM62
PAM120
BLOSUM45
PAM250

Pour tous les logiciels qui utilisent l'alignement de séquences, la matrice BLOSUM62 est souvent un judicieux premier choix!

  • Serveurs publics sur Internet
  • Trois serveurs bioinformatiques dédiés aux banques de données biologiques: