III. ANALYSE INFORMATISEE DE SEQUENCES

III.1 Les banques de données de Séquences/Sructures 

    III.1.1. Historique

            Au début de la biologie moderne, les séquences de protéines étaient déposées dans un grand livre édité par M. Dayhoff. Cet atlas des séquences a été remis à jour périodiquement jusqu'en 1978. Les premières banques informatisées de données de séquences biologiques ont été développées à Lyon par C. Gautier dans les années 1980. Depuis, plusieurs initiatives européenne [EMBL], américaine [GenBank] ou japonaise [DDBJ] ont émergé de manière concurrentes et parallèles pour collecter l'ensemble des séquences génomiques [Structure des AN]. Depuis 1998, ces trois organisations ont passé des accords d'échanges mutuels de données, ce qui a pour résultat que tout nouvelle séquence incluse dans une banque est automatiquement intégrée dans les 3 autres. Ce qui fait que les 3 banques ayant un souci d'exhaustivité ont un contenu quantitatif et qualitatif assez comparable et qui a tendance a convergé. Enfin, depuis 1986, il faut souligner l'initiative d'A. Bairoch de créer une banque de séquences de protéines [SWISSPROT] qui soit non redondante et de haute qualité car riche en annotation fonctionnelle et structurale et intégrant les informations des autres banques de données. Cette banque est utile pour établir des statistiques.

            III.1.2. Contenu-éVolution

    Les banques généralistes ont comme inconvénients leur forte hétérogénéité (la rançon de l'exhaustivité), un taux d'erreur relativement important (d'autant plus que ces erreurs ont tendance à se propager du fait de l'annotation automatique par similarité de séquences) et une taille importante (quelques giga octets). Du fait de la croissance exponentielle des banques de données (doublement tous les 18 mois environ) qui rend le temps de calcul de comparaison non négligeable, des banques de données spécialisées se sont progressivement développées. Il existe une base de données [DBCAT] qui répertorie environ 500 banques de données. 

Figure 13 Croissance de la banque GenBank

    III.1.2.1 Ces banques peuvent être spécialisées

Les banques spécialisées peuvent être regroupées par:

  1. organisme Bacillus Subtilis [NRSub], C. Elegans [AceDB], Drosophile [FlyBase]. 
  2. dédiées à la structure
    • Protein Data Bank [RCSB]
    • Structural Classification of Proteins [SCOP]
    • Fold classification based on Structure-Structure alignment of Proteins [FSSP]       
  3. par thème biologique:

 III.1.2.2 Génomes complets

    Une liste des génomes bactériens complets est maintenue sur le serveur Infobiogen. La liste des génomes complets (environ 80 en mars 2002, 57 bactéries, 13 archébactéries et 10 eucaryotes) est disponible sur le serveur Genomes On Line Database [GOLD]. Au total, ce sont près de 450 programmes de séquençage de génomes complets (270 procaryotes et 170 eucaryotes) qui sont en cours. Un des enjeux est l'annotation automatique de ces génomes complets. Un consortium [Ensembl] entre EMBL-EBI et l'Institut Sanger a pour but l'annotation des génomes de l'Homme, Souris et de la Drosophile.

      Répartition du nombre de gènes et chromosome dans quelques organismes "modèles"

Organisme

Nb. chrom 

Nombre gènes  Taille Mb
Homo sapiens  23    30-45.000     3000
Mus musculus  21    30-45.000     3000
Arabidopsis thaliana  5     ~20000     120
D. melanogaster  4     ~ 14.000     165
C. elegans  6     ~ 14.000     100
Saccharomyces cerevisiae  16     6000     13
Escherichia coli  1    4000     4,6
Chromosome

Gènes identifiés  

Chromosome

Gènes  identifiés

1 897 14 287
2 554 15 240
3 481 16 319
4 317 17 521
5 398 18 144
6 501 19 577
7 405 20 257
8 279 21 114
9 340 22 238
10 298 X 371
11 537 Y 21
12 477    
13 156         
Total 8729

      Répartition du nombre de gènes humains identifiés par chromosome

	  III.1.2.3 Statistiques sur SWISSPROT 40.0 [En savoir plus]

        Le nombre d'espèces représentées est de 7188. Près de la moitié des entrées ne représentent que 20 espèces différentes.

    Rang 

    Nombre     Espèce
       1 7961     Human
       2 4859     Baker's yeast (Saccharomyces cerevisiae)
       3 4816     Mouse
       4 4741     Escherichia coli
       5 3091     Rat
       6 2260     Bacillus subtilis
       7 2184     Caenorhabditis elegans
       8 1782     Fission yeast (Schizosaccharomyces pombe)
       9 1769     Haemophilus influenzae
       10 1514     Drosophila melanogaster

30 à 50% des nouvelles séquences sont homologues à des séquences déjà identifiées.

Séquences Espèces
1x 3396
2x 1086
3x 589
4x 366
5x 267
6x 251
7x 169
8x 137
9x 125
10x 61
11-20x 308
21-50x 231
51-100x 78
>100x 124

La séquence la plus courte comprend 3 aa GRWM_HUMAN (P24272) et la plus longue 6669 NEBU_HUMAN (P20929)

Ordre décroissant de fréquence dans SWISSPROT des 20 acides aminés [formule chimique].

Leu, Ala, Ser, Gly, Val, Glu, Lys, Ile, Thr, Asp, Arg, Pro, Asn, Phe, Gln, Tyr, Met, His, Cys, Trp

Nom Code % Nom Code % Nom Code % Nom Code %

Graphique

Ala

(A)

7.61

Gln

(Q)

3.93

Leu

(L)

9.53

Ser

(S)

7.08

stat_swissprot_aa.gif (8606 octets)

Arg 

(R)

5.19

Glu

(E)

6.47

Lys

(K)

5.97

Thr

(T)

5.58

Asn

(N)

4.36

Gly

(G)

6.85

Met

(M)

2.37

Trp

(W)

1.21

Asp

(D)

5.25

His

(H)

2.24

Phe

(F)

4.10

Tyr

(Y)

3.16

Cys

(C)

1.63

Ile

(I)

5.85

Pro

(P)

4.89

Val

(V)

6.61

Ce tableau de fréquence montre que certains acides aminés sont les plus abondants (Leu, Ala) servent surtout à effectuer du remplissage dans les protéines. Typiquement l'alanine est un acide aminé dont le degré de conservation est faible et qui est largement utilisé dans le cadre de mutagenèse dirigée afin d'abolir une fonction sans détruire la structure de la protéine. En revanche, certains acides aminés sont rares (His, acide aminé ayant un pKa de 6,6 voisin de la neutralité et dont les fonctions peuvent varier en fonction du pH; Cys impliquée dans les ponts disulfures; Trp souvent impliqué dans les interactions protéine-protéine). Cette notion de remplissage ou de fonction est à rapprocher de la mutabilité (matrice de substitution d'acides aminés qui sera abordée plus loin dans le cours).

    III.1.2.4. Statistiques de la banque "Protein Data Bank"

    La banque PDB a été créée en 1976 au Brookhaven Laboratory afin de déposer les coordonnées atomiques des macromolécules biologiques. Jusqu'en 1985, la seule méthode expérimentale permettant de déterminer la structure tridimensionnelle des macromolécules biologiques était la biocristallographie. Ainsi, les scientifiques se sont longtemps demandé si la PDB ne présentait pas un fort biais par la présence de protéines ayant "accepté" de cristalliser. Aujourd'hui, les structures 3D sont également accessibles à la Résonance Magnétique Nucléaire, et la preuve est apportée que les structures déterminées par les 2 techniques sont en général proches.

Type de molécule
  Protéines, Peptides, et Virus Complexes Protéines/Acides nucléiques  Acides nucléiques Sucre Total
Tech.

Exp.

 Diffraction aux X-rayons 13338 638 605 14 14595
RMN 2193 83 426 4 2706
Modèles 324 25 29 - 378
TOTAL 15855 746 1060 18 17679

Aallfolds_101701.jpg (22724 octets)Bnewfolds_101701.jpg (23933 octets)

Figure 14 A: Croissance de la PDB. B. Croissance des nouveaux repliements [En savoir plus]

En résumé, au niveau des ordres de grandeur, le nombre de séquences nucléiques est de 16 508 091 (EMBL 03/2002), le nombre de séquences protéiques annotées est de 106 734, le nombre de structures 3D de macromolécules voisin de 17 679

    III.1.2.5. Formats

    La plupart des banques de données stockent leurs informations dans des fichiers dits "à plats" (en format texte). Le format d'écriture de ces fichiers varient selon les banques de données et selon les objectifs d'utilisation de la banque. Par exemple, le format Pearson/Fasta est le format le plus utilisé pour stocker une (des) séquence(s) en vue de leur analyse par des outils informatiques. Il est relativement économe en terme de capacité disque et/ou mémoire mais il est dépourvu d'annotation fonctionnelle. Au contraire, le format EMBL (qui est aussi celui de SWISSPROT) est beaucoup plus riche en information mais inadapté à l'analyse directe de séquences.

Format Pearson/Fasta

Il s'agit d'un format qui est reconnu par tous les logiciels d'analyse de séquences.

>PROTEINE1 COMMENTAIRE PROTEINE1
VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKA
SEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLH
SRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQGERFT
>PROTEINE2 COMMENTAIRE PROTEINE2
GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASEDLKKHG
TVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKHPGNFGA
DAQGAMTKALELFRNDIAAKYKELGFQG

Format EMBL/SWISSPROT [En savoir plus]

    Dans une entrée SWISSPROT, chaque fichier de séquence obéit à un format propre à base d'étiquette (2 lettres) qui renseigne la nature du champ d'information qui débute à la colonne N°6. La première étiquette est ID (IDentifiant). Elle indique le champ nom de la protéine. Un nom SWISSPROT est constitué d'un préfixe souvent évocateur du rôle ou de la fonction (ici MYG pour myoglobine), d'un séparateur le "_" (caractère underscore ou blanc souligné) et du nom ou de son abréviation (ici HUMAN) de l'espèce (en anglais).  Attention, ce nom est susceptible de changer au cours des différentes versions de la banque. En effet, il se peut que la fonction ne soit pas connue avec précision à une date donnée et que celle ci soit étudiée et finalement connue dans une version suivante. Le champ AC (numéro d'ACcès) est affecté de manière définitive à une séquence et n'est pas susceptible de changer. En conséquence, une interrogation par mot clé ne doit pas se limiter au seul champ ID. Les 3 champs DT (DaTe) renseignent successivement les différentes dates concernant l'entrée (création, modification de séquence ou d'annotation). Le champ DE (DEscripteur) renseigne sur la nature de la protéine. Le champ GN (Nom de Gene), Le champ OS contient le nom (latin et anglais) de l'espèce et de l'organisme (Organism Specie). Le champ OG (ici absent) désigne l'organelle. Le champ OC correspond à la classification de l'organisme de la séquence. Le champ OX correspond à la taxonomie de l'organisme. Les différents champs RN (RP, RX, RT, RA, RL) concernent les références bibliographiques de séquences. Le champ CC est pour des commentaires (copyright ou annotations). La ligne DR fournit des liens croisés sur les autres banques de données. Le champ KW (KeyWord ou mot clé). Le champ FT (Feature Table) est pour les informations et les annotations concernant la séquence. Si les informations sont non vérifiées expérimentalement, le mot "potential" ou "conflict" est ajouté. Enfin, le dernier champ est SQ pour SéQuence. Le terminateur d'entrée est //

ID   MYG_HUMAN      STANDARD;      PRT;   153 AA.
AC   P02144;
DT   21-JUL-1986 (Rel. 01, Created)
DT   21-JUL-1986 (Rel. 01, Last sequence update)
DT   01-MAR-2002 (Rel. 41, Last annotation update)
DE   Myoglobin.
GN   MB.
OS   Homo sapiens (Human).
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
OC   Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
OX   NCBI_TaxID=9606;
RN   [1]
RP   SEQUENCE.
RX   MEDLINE=71291923; PubMed=5285572;
RA   Romero-Herrera A.E., Lehmann H.;
RT   "Primary structure of human myoglobin.";
RL   Nature New Biol. 232:149-152(1971).
RN   [2]
RP   REVISIONS TO 19-22 AND 83.
RA   Romero-Herrera A.E., Lehmann H.;
RT   "The myoglobin of primates. I. Hylobates agilis (gibbon).";
RL   Biochim. Biophys. Acta 251:482-488(1971).
RN   [3]
..../...
CC   -!- FUNCTION: SERVES AS A RESERVE SUPPLY OF OXYGEN AND FACILITATES
CC       THE MOVEMENT OF OXYGEN WITHIN MUSCLES.
CC   -!- SIMILARITY: BELONGS TO THE GLOBIN FAMILY.
CC   --------------------------------------------------------------------------
CC   This SWISS-PROT entry is copyright. It is produced through a collaboration
CC   between  the Swiss Institute of Bioinformatics  and the  EMBL outstation -
CC   the European Bioinformatics Institute.  There are no  restrictions on  its
CC   use  by  non-profit  institutions as long  as its content  is  in  no  way
CC   modified and this statement is not removed.  Usage  by  and for commercial
CC   entities requires a license agreement (See http://www.isb-sib.ch/announce/
CC   or send an email to license@isb-sib.ch).
CC   --------------------------------------------------------------------------
DR   EMBL; M14603; AAA59595.1; -.
DR   EMBL; M10090; AAA59595.1; JOINED.
DR   EMBL; M14602; AAA59595.1; JOINED.
DR   EMBL; X00371; CAA25109.1; -.
DR   EMBL; X00372; CAA25109.1; JOINED.
DR   EMBL; X00373; CAA25109.1; JOINED.
DR   EMBL; AL049747; CAB41872.1; -.
DR   EMBL; AL022334; CAA18457.1; -.
DR   PIR; A02464; MYHU.
DR   PDB; 2MM1; 15-JAN-93.
DR   HSC-2DPAGE; P02144; HUMAN.
DR   MIM; 160000; -.
DR   InterPro; IPR000971; Globin.
DR   InterPro; IPR002335; Myoglobin.
DR   Pfam; PF00042; globin; 1.
DR   PRINTS; PR00613; MYOGLOBIN.
DR   PROSITE; PS01033; GLOBIN; 1.
KW   Heme; Oxygen transport; Transport; Muscle; Polymorphism;
KW   3D-structure.
FT   INIT_MET      0      0
FT   METAL        64     64       IRON (HEME DISTAL LIGAND).
FT   METAL        93     93       IRON (HEME PROXIMAL LIGAND).
FT   VARIANT      54     54       E -> K.
FT                                /FTId=VAR_003180.
FT   VARIANT     133    133       K -> N.
FT                                /FTId=VAR_003181.
FT   VARIANT     139    139       R -> Q.
FT                                /FTId=VAR_003182.
FT   VARIANT     139    139       R -> W.
FT                                /FTId=VAR_003183.
FT   CONFLICT    128    128       Q -> E (IN REF. 4).
FT   HELIX         4     17
FT   TURN         18     19
FT   HELIX        21     35
FT   HELIX        37     41
FT   TURN         42     42
FT   TURN         45     48
FT   HELIX        52     57
FT   HELIX        59     76
FT   TURN         77     80
FT   HELIX        83     95
FT   TURN         96     96
FT   TURN        101    101
FT   HELIX       102    118
FT   HELIX       120    122
FT   HELIX       125    148
FT   TURN        149    150
SQ   SEQUENCE   153 AA;  17053 MW;  5F84A2C481B8F0D5 CRC64;
     GLSDGEWQLV LNVWGKVEAD IPGHGQEVLI RLFKGHPETL EKFDKFKHLK SEDEMKASED
     LKKHGATVLT ALGGILKKKG HHEAEIKPLA QSHATKHKIP VKYLEFISEC IIQVLQSKHP
     GDFGADAQGA MNKALELFRK DMASNYKELG FQG
//

               III.1.3. INterrogation

    Il existe 3 systèmes principaux disponibles sur INTERNET utilisés pour l'interrogation des banques de données ACNUC, Entrez, et SRS.

Le premier système est [ACNUC] développé à l'Université Claude Bernard de Lyon par M. Gouy et C. Gautier. Il offre une puissance d'interrogation inégalée notamment par l'établissement de listes successives de résultats intermédiaires permettant d'affiner progressivement la recherche. Cependant, il nécessite un bon apprentissage du système de requête à base de mots clés pour pouvoir être utilisé efficacement.

Le système [Entrez] développé au National Center for Biotechnology Information [NCBI] qui est aussi le système utilisé pour interroger la base bibliographique Medline. 

Le dernier système d'interrogation de Lion Biosciences est Sequence Retrievial System [SRS] implanté sur de nombreux serveurs bioinformatiques qui permet l'interrogation simultanée d'un ensemble de banques de données. Il permet également de formater en HTML les résultats à l'aide d'un langage spécifique ICARUS et s'interface facilement avec des programmes d'exploitation. A titre d'exemple, une requête SRS permet de constituer une liste de "hits" qui peut être envoyée directement au webiciel [NPS@] (Network Protein Sequence Analysis).

Choix de(s) banque(s)

Requête Affichage
srs1.gif (15353 octets) srs2.gif (33837 octets)

srs3.gif (38625 octets)

Figure 15 Exemple d'interrogation SRS sur INFOBIOGEN utilisant la banque SWISSPROT

La tendance actuelle est de faire migrer les banques de données vers des Systèmes de Gestion de Bases de Données relationnelles [SGBD] comme par exemple [SYBASE] ou [ORACLE] interrogeables grâce des langages de requêtes standard comme [MySQL] (Standard Query Language).