Master IBM 2011
Cours BioInformatique
TP Séquences et BD
La Comparaison de 2 séquences
Exercice 1
Distance entre 2 séquences
Utiliser et tester le programme BABA
Quelques rappels sur les séquences là.
Essayer de comprendre les principes de la programmation dynamique. Cliquez sur Reduction Data 3 et essayer de comprendre là.
Autres liens: http://drp.id.au/align/2d/AlignDemo.shtml ou http://www.dina.dk/~sestoft/bsa/bsapplet.html :
Exercice 2
Comparaison de 2 séquences par DOTPLOT (nuage de point) |
- Ouvrir
l'application DOTLET
(programme JAVA)
- Cliquez
sur input
- Copiez-collez
la séquence de la protéine PRNP traduite du cDNA exprimental
issu du patient atteint de CJD (indiquez son nom:CJD dans
la boite name)
Attention:
la séquence doit etre au format BRUT!
cggcgccgcgagcttctcctctcctcacgaccgaggcagagcagtcattatggcgaaccttggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctgcaagaa
gcgcccgaagcctggaggatggaacactgggggcagccgatacccggggcagggcagcccgttcttgttttgttatataaaaaaattgtaaatgtttaatatctgactgaaattaaacga
gcgaagatgagcacc
- Cliquez
sur OK
- Dans
les 5 boites à droite du boutton input, sélectionnez dans
l'ordre (pour comparer la PRNP anormale à elle meme):
- CJD
(axe horizontal)
- CJD
(axe vertical)
- BLOSUM62
(matrice de substitution)
- 1
(largeur fenetre filtration)
- 1:1
(zoom)
- puis
cliquez sur compute
- Réduire
le bruit en choississant une fenetre filtre de 9 au lieu de
1 et cliquez compute à nouveau
- Encore
réduire
le bruit en modifiant le dégradé de gris au dessus et
au dessous de l'histogramme à droite
- Cliquez
dans la fenetre principale sur les diagonales répétées,
et à l'aide des touches droite et gauche observez les répétitions
internes au prion dans la fenetre des séquences tout en bas
- Grace
au bouton input, copiez collez la séquence suivante (protéine
prion
normale, SWISSPROT:P04156) et donnez lui le nom normal
Attention:
la séquence doit etre au format BRUT!:
>SWISSPROT:P04156 HUMAN MAJOR PRION PROTEIN PRECURSOR (PRP)
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQPHGGGWGQPHG
GGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGAVVGGLGGYMLGSAMSRPIIH
FGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVV
EQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG
- Recalculez
le dotplot du prion CJD contre le prion normal en appuyant
sur compute
- Que
constatez vous? Quelle mutation est apparue dans le cas de CJD?
|
.
Exercice 3
Recherche
dans les banques par similitude de séquence |
- Sur
le serveur du NCBI, trouvez l'outil BLAST (option basic
blast)
- Choisissez
le programme blastp contre la banque SWISSPROT
- Copiez
collez la squence du prion humain anormal (CJD) puis executez
la recherche
- Quelles
famille(s)
de protéines trouvez vous?
- Quelle
est l'étendue des pourcentages d'identités rapportés
par BLAST?
- Répétez
la recherche contre la banque nr (non-redondante)
- Difference
entre nr et SWISSPROT?
|
Exercice 4
Alignement
multiple de séquences |
- Dans
les résultats du BLAST du prion contre SWISSPROT, sélectionnez
10
protéines prions, allant des plus proches aux
plus éloignées
- Obtenez
chaque séquence au format FASTA (dans la fiche ENTREZ d'une
séquence, changez le format en haut à gauche de Default
à FASTA puis cliquez sur Display)
- Ajoutez
au fur et à mesure chaque séquence dans un fichier texte
(par exemple dans Notepad)
- Sauvez
votre liste de séquence au format FASTA
- Sur
le serveur du PBIL, trouvez l'outil CLUSTALW
- Copiez-collez
les 10 séquences au format FASTA du fichier texte
- Alignez
les 10 séquences
- Repérez
les régions conservées/divergentes
- Comment
trouver une explication fonctionelle/structurale aux régions
conservées?
- Sauvegardez
cet alignement sur votre disque. Imprimez le si possible.
|
Génome humain
Objectif: situer le gène du prion dans le génome humain
Exercice 5 Identification du gène du prion dans le génome humain |
- Rendez-vous sur le site du serveur d'EnsEMBL
- Sélectionnez notre espèce: "human"
- Faites une recherche par mot clef en utilisant le terme "prion"
- Suivez le lien vers la famille des "MAJOR PRION PROTEIN PRECURSOR"
- Combien de gènes de cette famille sont codés dans notre génome ?
- Exporter ce gene au format html.
- Suivez le lien de l'exemplaire du gène sur le chromosome 20 (pointez la petite flèche rouge sur le chromosome 20, puis cliquez sur "Jump to ContigView")
- Faites un zoom avant pour noter combien d'exons composent ce gène
- Faites un zoom arrière pour voir quels sont les deux gènes de parts et d'autres
- Notez dans quelle bande du chr20 se situe ce gène (indiqué dans le cadre supérieur "Chromosome 20", par ex. "q11")
- Retournez à la page d'accueil d'ensEMBL en cliquant sur le logo EnsEMBL en haut de la page puis en cliquant à nouveau sur human
- Cliquez sur le chr20; Quelle est la densité en gènes dans la région du gène PRNP (graphe à gauche)?
- Comment évoluent les densités en gènes au centromère? Et aux télomères?
- Expliquez les différentes fonctionalites de cette base.
|
Les banques de séquences de gènes: GENBANK & SWISSPROT
Objectif: obtenir la séquence du gène du prion en scrutant l'annotation des banques de données publiques internationales
Exercice 6: Recherche de la séquence des prions |
- Sur le serveur de l'EBI, cliquez sur la rubrique Products & Services
- Trouvez l'outil d'interrogation SRS (Sequence Retrieval System)
- Cherchez dans la banque EMBL, le mot clef prion
- Combien de séquences (enregistrements différents) trouvez vous?
- Ce resultat est il stocke ou recalcule ?
- Etudiez brièvement le contenu d'une fiche de séquence EMBL en cliquant sur son numéro d'accession.
- Cherchez les prions mais cette fois seulement chez l'homme (human ou homo sapiens)
- Pourquoi obtenez-vous plus d'une fiche alors qu'il n'y a qu'un seul gène PRNP chez l'homme?
- Cherchez maintenant toujours grace à SRS mais cette fois dans la banque SWISSPROT les séquences protéiques de prions chez l'homme
- Combien de séquences distinctes trouvez-vous?
- Qu'apprend-on sur les prions en lisant la fiche SWISSPROT P04156 ?
- Répétez la recherche 5 ci-dessus avec ENTREZ au NCBI
- Combien de séquences de protéines distinctes trouvez-vous au NCBI?
- Comment expliquer la différence avec le recherche dans SWISSPROT avec SRS?
- Comment faire des requêtes complexes avec ENTREZ (opérateurs logiques, contraintes de champs)?
- Lequel des deux outils SRS ou ENTREZ est le plus convivial?
Lequel est le plus précis selon vous ?
|
Retour vers l'interrogation de banques de données via Entrez.
Nous allons utliser maintenant Entrez qui est l'interface d'interrogation développée au NCBI. Elle a l'avantage de pouvoir faire des requêtes simples, mais aussi des requêtes complexes quand on sait l'utiliser.
La page d'accueil propose d'interroger en même temps toutes les banques accessibles via Entrez. En cliquant sur le nom d'une banque, on accède alors à l'interface d'interrogation classique qui comprend une zone de saisie des critères de recherche et, juste en dessous, des liens vers des fonctionnalités du système d'interrogation. Le lien "History" affiche toutes les requêtes effectuées depuis le début de votre session sur la banque, c'est-à-dire depuis votre connection à cette banque. Il est possible d'accéder à la liste des entrées qui réponde à une requêtes en cliquant sur le lien du nombre d'entrées trouvées.
Recherche simple.
Exercice 8 Recherche Simple |
- Pour commencer, nous allons interroger la banque appelée "Nucleotide".
- Sur la première page de cette banque, il est indiqué d'où proviennent ses données.
- Quelles sont les banques qui composent la banque "Nucleotide" ?
- Recherchez toutes les séquences humaines contenues dans cette banque. Combien d'entrées sont trouvées ?
- Les entrées obtenues sont présentées sous la forme d'une liste. La ligne de description de l'entrée est indiquée.
- Que contiennent les entrées présentes sur la première page ?
- En cliquant sur le lien d'une entrée, on obtient l'entrée entière au format GenBank. Est-ce que ces entrées ont une annotation détaillée (par exemple, le nom et la position d'exons, ...) ?
- Vous pouvez constater qu'il s'agit d'entrées issues du séquencage du génome humain ("whole genome shotgun sequence") et qu'elles ne comportent aucune annotation particulière dans la partie "Feature". C'est l'inconvéniant des banques généralistes qui contiennent tout type de données. Est-ce que vous trouvez des entrées en saisissant l'expression "homo spaiens" qui contient une erreur de frappe ?
- Malheuresement, quelques entrées contiennent une erreur de frappe sur l'expression "homo sapiens". Vous constaterez que l'erreur n'apparaît pas dans la ligne OS qui est spécifique au nom d'organisme. Il est tout-de-même vérifié que l'organisme indiqué existe bien. Par contre, les commentaires librement saisis par les laboratoires qui soumettent les séquences ne peuvent pas être vérifiés. Il s'y glisse donc des erreurs de ce type.
|
Recherches moins simple (en cas de grève mardi à faire chez soi...)
Exercice 9 Recherche moins simple |
- Combien d’ADNc complets d'épinard existe-t-il dans les banques ?
- Combien ont été rentrés depuis le début de l’année ?
- Trier celles qui sont plus grandes que 1 000 bases.
- Prenez une de ces séquences, et faite la traduction pour vérifier que vous trouver la même protéine que celle donnée dans la banque. Est-ce la seule possible ?
- Calculer son poids moléculaire.
- Carte de restriction, chercher des enzymes qui délimitent la région codante.
- Chercher des amorces pour faire une PCR.
- Extraire la région codante, et générer la table d’usage des codons.
- Chercher des motifs sur la protéine, la structure secondaire, etc.
|
Exercice 10 |
- On s’intéresse à l’apoptose chez l’homme, et en particulier aux gènes responsables de l’induction de l’apoptose.
- Chercher des renseignements généraux sur le sujet. Recherche biblio, sites web
- Comment procéderiez-vous pour trouver les séquences et les localisation de ces gènes ?
- Comment faire pour chercher leur séquence promotrice ?
|
Er si vous avez terminé faites les tutoriaux.de Entrez, PubMed et NCBI.
Rappel Cours: Une sélection de banques de données biologiques (voir une liste plus complète!):
Banques de Données Moléculaires
- Séquences primaires (archives exhaustives)
- EMBL = GENBANK = DDBJ (toutes séquences nucléiques expérimentales)
- TREMBL (traduction automatique de EMBL en séquences protéiques)
- dbEST (EST - Expressed Sequence Tags - marqueurs d'expression)
- Séquences intégrées (non redondantes, dérivées des archives primaires)
- ensEMBL (génome humain annoté EBI/Sanger) même site à l'EBI
- Human Genome Browser (génome humain annoté NCBI)
- LocusLink (index des gènes humains)
- SWISSPROT (séquences protéiques annotées manuellement par des biologistes)
- EPD (Eukaryotic Promoter Database)
- UNIGENE (clusters d'EST, basés sur dbEST)
- Structures 3D des protéines
- PDB (Protein Data Bank, coordonnées 3D atomes de cristallographie)
Banques de Connaissances
- Bibliographiques
- PubMed (medline, tous les abstracts d'articles en biologie)
- OMIM (Online Mendelian Inheritance in Man, maladies génétiques de l'Homme)
- Tutoriaux au NCBI & à InfoBiogen (cours online, ici exemples de bioinfo)
- Relationnelles & fonctionnelles (classification structures, taxonomie etc.)
- Taxonomy (phylogénie des espèces)
- Gene Ontology Consortium (Classification des fonctions moléculaires & cellulaires)
- CATH (Class, Architecture, Topology and Homologous superfamily)
- SCOP (Structural Classification of Proteins)
- KEGG (Kyoto Encyclopedia of Genes and Genomes, voies et interactions)
- Organisme-centriques
- GDB (Genome Data Base, chez l'Homme)
- MGI (Mouse Genome Informatics, chez la souris)
- Flybase (chez la drosophile)
- Autres au NCBI et à l' EBI (voir le 'Genome M.O.T.' en mode graphe)
- Cliniques
- Orphanet (Base de données sur les maladies rares et sur les médicaments orphelins)
- GENDIAG (syndromes génétiques et les anomalies du développement chez l'homme)
Technologies: stockage/accès aux données
Le stockage informatique des données fait appel à des technologies variées (de "pas top" à "méga complexe" en passant par "trivial"):
- fichiers plats!
- bases de données relationnelles générales (Oracle, MySQL, Postgres etc.)
- bases de données objets spécifiques (AceDB)
Le transfert des données se fait sous forme de:
- données brutes (non annotées)
- fichiers plats
- fichiers XML (MAGE-ML)
- serveurs CORBA
De part leurs volumes et mises à jour quotidiennes, la plupart des banques sont maintenues et accessibles en une localisation internationale.
Banques publiques disponibles par FTP: quelques grands centres nationaux maintiennent des mirroirs (MAJ nocturnes).
Requêtes et interrogations par interfaces Internet (de + en + conviviales).
Requètes et numéros d'accession
Les objets biologiques sont
- redondants
- dispersés
- nomenclatures diverses et variées (synonymes)
Pour identifier ces objets, les différentes bases de données leurs assignent des Numéros d'Accession uniques au sein de leur collections respectives. Pour pointer sans ambiguité sur un tel objet, on utilise la notation:
Banque:NuméroAccession
Exemple du gène du PRION.
Symboles du gène & ses synonymes: |
Exemples d'objets se rapportant au gène du PRION: |
- PRNP
- PRIP
- CJD
- PrP
- PrP27-30
- PrP33-35C
- ASCR
|
|
Serveurs publics sur Internet
Trois serveurs bioinformatiques dédiés aux banques de données biologiques:
- InfoBiogen Centre de Ressources Bioinformatiques National (Paris)
- EBI European Bioinformatics Institute (EMBL, Cambridge, GB)
- NCBI National Center for Biotechnology Information (NIH, Bethesda, USA)
Rappel de cours sur la comparaison de 2 séquences
L'alignement de deux séquences similaires permet d'observer leur degré d'apparentée (homologues) ainsi que de définir les régions conservées au cours de l'évolution (divergence d'une séquence ancestrale commune ou, plus rarement, convergence de deux séquences indépendantes). On sépare habituellement les homologies entre protéines en deux groupes:
- Orthologues: protéines de fonctions identiques (souvent entre organismes distincts) descendantes d'une protéine ancestrale commune
- Paralogues: protéines de fonctions distinctes mais descendantes d'une protéine ancestrale commune
Lorsque l'on compare des séquences d'acides nucléiques, on utilise essentiellement l'identité entre les bases pour guider l'alignement. Pour comparer plus profondement les protéines, on exploite les similitudes de proprietés physico-chimiques entre acides aminés différents: cette information est modlisée en bioinformatique dans les matrices de substitutions.
Un alignement devra mettre en évidence les:
- identités entre les 2 séquences
- substitutions conservatives (acides aminés interchangeables)
- substitutions non-conservatives (acides aminés non interchangeables)
- insertions ou délétions survenues dans l'une ou l'autre des séquences (les INDELS)
Pour en savoir plus, voir le tutoriel d'Infobiogen sur les similarités de séquences..
.
Les matrices de substitution |
Exemple des matrices PAM (Point Accepted Mutation)
Ces matrices ont été crées par Magaret Dayhoff et al. et sont basées sur l'établissement empirique du taux des substitutions d'acides aminés observées dans 71 familles de protéines très semblables (environ 1300 séquences).
Dans ces matrices, une valeur faible de remplacement (par exemple le remplacement d'un tryptophane par une cystéine) signifie que ce remplacement est facile est donc correspondra à une région de faible homologie. Au contraire, une valeur forte correspond à un point d'ancrage donc à une région de forte homologie. Les calculs initiaux ont conduit à la création de la matrice PAM1. Cette matrice donne les scores de similiarité obtenus si on avait 1 mutation pour une séquence de 100 acides aminés. Ceci correspond à un très faible taux de changement et les séquences doivent être presque identiques pour pouvoir utiliser cette matrice de scores.
Pour effectuer des recherches dans les banques de données ou aligner des séquences plus éloignées, il faut mieux utiliser une matrice de similarité qui permette de prendre en compte des mutations moins évidentes. Ces matrices sont obtenues en multipliant la matrice PAM1 par elle même. Ainsi la matrice PAM250 autorise 250 mutations pour une séquence de 100 acides aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à environ 20% d'identité.
Matrice PAM250 |
|
A
|
R
|
N
|
D
|
C
|
Q
|
E
|
G
|
H
|
I
|
L
|
K
|
M
|
F
|
P
|
S
|
T
|
W
|
Y
|
V
|
A
|
2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
R
|
-2
|
6
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N
|
0
|
0
|
2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
D
|
0
|
-1
|
2
|
4
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
C
|
-2
|
-4
|
-4
|
-5
|
4
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Q
|
0
|
1
|
1
|
2
|
-5
|
4
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E
|
0
|
-1
|
1
|
3
|
-5
|
2
|
4
|
|
|
|
|
|
|
|
|
|
|
|
|
|
G
|
1
|
-3
|
0
|
1
|
-3
|
-1
|
0
|
5
|
|
|
|
|
|
|
|
|
|
|
|
|
H
|
-1
|
2
|
2
|
1
|
-3
|
3
|
1
|
-2
|
6
|
|
|
|
|
|
|
|
|
|
|
|
I
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
-2
|
5
|
|
|
|
|
|
|
|
|
|
|
L
|
-2
|
-3
|
-3
|
-4
|
-6
|
-2
|
-3
|
-4
|
-2
|
2
|
6
|
|
|
|
|
|
|
|
|
|
K
|
-1
|
3
|
1
|
0
|
-5
|
1
|
0
|
-2
|
0
|
-2
|
-3
|
5
|
|
|
|
|
|
|
|
|
M
|
-1
|
0
|
-2
|
-3
|
-5
|
-1
|
-2
|
-3
|
-2
|
2
|
4
|
0
|
6
|
|
|
|
|
|
|
|
F
|
-4
|
-4
|
-4
|
-6
|
-4
|
-5
|
-5
|
-5
|
-2
|
1
|
2
|
-5
|
0
|
9
|
|
|
|
|
|
|
P
|
1
|
0
|
-1
|
-1
|
-3
|
0
|
-1
|
-1
|
0
|
-2
|
-3
|
-1
|
-2
|
-5
|
6
|
|
|
|
|
|
S
|
1
|
0
|
1
|
0
|
0
|
-1
|
0
|
1
|
-1
|
-1
|
-3
|
0
|
-2
|
-3
|
1
|
3
|
|
|
|
|
T
|
1
|
-1
|
0
|
0
|
-2
|
-1
|
0
|
0
|
-1
|
0
|
-2
|
0
|
-1
|
-2
|
0
|
1
|
3
|
|
|
|
W
|
-6
|
2
|
-4
|
-7
|
-8
|
-5
|
-7
|
-7
|
-3
|
-5
|
-2
|
-3
|
-4
|
0
|
-6
|
-2
|
-5
|
17
|
|
|
Y
|
-3
|
-4
|
-2
|
-4
|
0
|
-4
|
-4
|
-5
|
0
|
-1
|
-1
|
-4
|
-2
|
7
|
-5
|
-3
|
-3
|
0
|
10
|
|
V
|
0
|
-2
|
-2
|
-2
|
-2
|
-2
|
-2
|
-1
|
-2
|
4
|
2
|
-2
|
2
|
-1
|
-1
|
-1
|
0
|
-6
|
2
|
4
|
Dayhoff, MO, Schwartz, RM, Orcutt, BC (1978) A model of evolutionary change in proteins, matrixes for detecting distant relationships. In Dayhoff, MO (ed.), Atlas of protein sequence and structure, Vol 5, pp. 345-358. National Biomedical Research Foundation, Washington, DC.
|
Quelle matrice utiliser?
Il existe donc différentes matrices de scores destinées à aider le biologiste dans ces analyses. L'efficacité de ces matrices dépend du type d'expériences et des résultats utilisés pour l'alignement, et bien que de nombreuses études comparatives aient été menées, il n'y a pas de matrice idéale mais il ressort de ces études que les matrices plutôt basées sur les comparaisons de séquences (Gonnet, BLOSSUM) ou sur les structures 3D donnent le plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff.
Les matrices BLOSUM élevées et les matrices PAM faibles permettent de comparer des séquences relativement proches et courtes tandis que pour comparer des séquences plus divergentes et plus longues, il vaut mieux utiliser des BLOSUM plus faibles (ou des PAM plus élevées).
Moins divergentes
(proches) |
< < < < < < > > > > > > |
Plus divergentes
(éloignées) |
BLOSUM80
PAM1 |
BLOSUM62
PAM120 |
BLOSUM45
PAM250 |
Pour tous les logiciels qui utilisent l'alignement de séquences, la matrice BLOSUM62 est souvent un judicieux premier choix!
|
Serveurs publics sur Internet
Trois serveurs bioinformatiques dédiés aux banques de données biologiques:
- InfoBiogen Centre de Ressources Bioinformatiques National (Paris)
- EBI European Bioinformatics Institute (EMBL, Cambridge, GB)
- NCBI National Center for Biotechnology Information (NIH, Bethesda, USA)