III.1 Les banques de données de Séquences/Sructures
III.1.1. Historique
Au début de la biologie moderne, les séquences de protéines étaient déposées dans un grand livre édité par M. Dayhoff. Cet atlas des séquences a été remis à jour périodiquement jusqu'en 1978. Les premières banques informatisées de données de séquences biologiques ont été développées à Lyon par C. Gautier dans les années 1980. Depuis, plusieurs initiatives européenne [EMBL], américaine [GenBank] ou japonaise [DDBJ] ont émergé de manière concurrentes et parallèles pour collecter l'ensemble des séquences génomiques [Structure des AN]. Depuis 1998, ces trois organisations ont passé des accords d'échanges mutuels de données, ce qui a pour résultat que tout nouvelle séquence incluse dans une banque est automatiquement intégrée dans les 3 autres. Ce qui fait que les 3 banques ayant un souci d'exhaustivité ont un contenu quantitatif et qualitatif assez comparable et qui a tendance a convergé. Enfin, depuis 1986, il faut souligner l'initiative d'A. Bairoch de créer une banque de séquences de protéines [SWISSPROT] qui soit non redondante et de haute qualité car riche en annotation fonctionnelle et structurale et intégrant les informations des autres banques de données. Cette banque est utile pour établir des statistiques.
III.1.2. Contenu-éVolution
Les banques généralistes ont comme inconvénients leur forte hétérogénéité (la rançon de l'exhaustivité), un taux d'erreur relativement important (d'autant plus que ces erreurs ont tendance à se propager du fait de l'annotation automatique par similarité de séquences) et une taille importante (quelques giga octets). Du fait de la croissance exponentielle des banques de données (doublement tous les 18 mois environ) qui rend le temps de calcul de comparaison non négligeable, des banques de données spécialisées se sont progressivement développées. Il existe une base de données [DBCAT] qui répertorie environ 500 banques de données.
Figure 13 Croissance de la banque GenBank
III.1.2.1 Ces banques peuvent être spécialisées
Les banques spécialisées peuvent être regroupées par:
- [IMGT] Banque d'IG de récepteur de cellules T et de Complexe Majeur d'Histocompatibilité (CMH)
- [HIV] Sequence Database à Los Alamos
- [GPCRDB] Récepteurs couplés aux protéines G
- [HCVDB] Base de données de séquences du virus de l'hépatite C
- [OMIM] Online Mendelian Inheritance in Man
- [HGMD] Human Gene Mutation Database
- [KEGG] Kyoto Encyclopedia of Genes and Genomes
- [ENZYME] Nomenclature des enzymes
- [EMP] Enzymes and Metabolic Pathways database
Une liste des génomes bactériens complets est maintenue sur le serveur Infobiogen. La liste des génomes complets (environ 80 en mars 2002, 57 bactéries, 13 archébactéries et 10 eucaryotes) est disponible sur le serveur Genomes On Line Database [GOLD]. Au total, ce sont près de 450 programmes de séquençage de génomes complets (270 procaryotes et 170 eucaryotes) qui sont en cours. Un des enjeux est l'annotation automatique de ces génomes complets. Un consortium [Ensembl] entre EMBL-EBI et l'Institut Sanger a pour but l'annotation des génomes de l'Homme, Souris et de la Drosophile.
Répartition du nombre de gènes et chromosome dans quelques organismes "modèles"
Organisme Nb. chrom
Nombre gènes Taille Mb Homo sapiens 23 30-45.000 3000 Mus musculus 21 30-45.000 3000 Arabidopsis thaliana 5 ~20000 120 D. melanogaster 4 ~ 14.000 165 C. elegans 6 ~ 14.000 100 Saccharomyces cerevisiae 16 6000 13 Escherichia coli 1 4000 4,6
| Chromosome |
Gènes identifiés |
Chromosome |
Gènes identifiés |
| 1 | 897 | 14 | 287 |
| 2 | 554 | 15 | 240 |
| 3 | 481 | 16 | 319 |
| 4 | 317 | 17 | 521 |
| 5 | 398 | 18 | 144 |
| 6 | 501 | 19 | 577 |
| 7 | 405 | 20 | 257 |
| 8 | 279 | 21 | 114 |
| 9 | 340 | 22 | 238 |
| 10 | 298 | X | 371 |
| 11 | 537 | Y | 21 |
| 12 | 477 | ||
| 13 | 156 | ||
| Total | 8729 | ||
Répartition du nombre de gènes humains identifiés par chromosome
III.1.2.3 Statistiques sur SWISSPROT 40.0 [En savoir plus]
Le nombre d'espèces représentées est de 7188. Près de la moitié des entrées ne représentent que 20 espèces différentes.
|
Rang |
Nombre | Espèce |
| 1 | 7961 | Human |
| 2 | 4859 | Baker's yeast (Saccharomyces cerevisiae) |
| 3 | 4816 | Mouse |
| 4 | 4741 | Escherichia coli |
| 5 | 3091 | Rat |
| 6 | 2260 | Bacillus subtilis |
| 7 | 2184 | Caenorhabditis elegans |
| 8 | 1782 | Fission yeast (Schizosaccharomyces pombe) |
| 9 | 1769 | Haemophilus influenzae |
| 10 | 1514 | Drosophila melanogaster |
30 à 50% des nouvelles séquences sont homologues à des séquences déjà identifiées.
| Séquences | Espèces |
| 1x | 3396 |
| 2x | 1086 |
| 3x | 589 |
| 4x | 366 |
| 5x | 267 |
| 6x | 251 |
| 7x | 169 |
| 8x | 137 |
| 9x | 125 |
| 10x | 61 |
| 11-20x | 308 |
| 21-50x | 231 |
| 51-100x | 78 |
| >100x | 124 |
La séquence la plus courte comprend 3 aa GRWM_HUMAN (P24272) et la plus longue 6669 NEBU_HUMAN (P20929)
Ordre décroissant de fréquence dans SWISSPROT des 20 acides aminés [formule chimique].
Leu, Ala, Ser, Gly, Val, Glu, Lys, Ile, Thr, Asp, Arg, Pro, Asn, Phe, Gln, Tyr, Met, His, Cys, Trp
Ce tableau de fréquence montre que certains acides aminés sont les plus abondants (Leu, Ala) servent surtout à effectuer du remplissage dans les protéines. Typiquement l'alanine est un acide aminé dont le degré de conservation est faible et qui est largement utilisé dans le cadre de mutagenèse dirigée afin d'abolir une fonction sans détruire la structure de la protéine. En revanche, certains acides aminés sont rares (His, acide aminé ayant un pKa de 6,6 voisin de la neutralité et dont les fonctions peuvent varier en fonction du pH; Cys impliquée dans les ponts disulfures; Trp souvent impliqué dans les interactions protéine-protéine). Cette notion de remplissage ou de fonction est à rapprocher de la mutabilité (matrice de substitution d'acides aminés qui sera abordée plus loin dans le cours).
III.1.2.4. Statistiques de la banque "Protein Data Bank"
La banque PDB a été créée en 1976 au Brookhaven Laboratory afin de déposer les coordonnées atomiques des macromolécules biologiques. Jusqu'en 1985, la seule méthode expérimentale permettant de déterminer la structure tridimensionnelle des macromolécules biologiques était la biocristallographie. Ainsi, les scientifiques se sont longtemps demandé si la PDB ne présentait pas un fort biais par la présence de protéines ayant "accepté" de cristalliser. Aujourd'hui, les structures 3D sont également accessibles à la Résonance Magnétique Nucléaire, et la preuve est apportée que les structures déterminées par les 2 techniques sont en général proches.
| Type de molécule | ||||||
|---|---|---|---|---|---|---|
| Protéines, Peptides, et Virus | Complexes Protéines/Acides nucléiques | Acides nucléiques | Sucre | Total | ||
| Tech.
Exp. |
Diffraction aux X-rayons | 13338 | 638 | 605 | 14 | 14595 |
| RMN | 2193 | 83 | 426 | 4 | 2706 | |
| Modèles | 324 | 25 | 29 | - | 378 | |
| TOTAL | 15855 | 746 | 1060 | 18 | 17679 | |
Figure 14 A: Croissance de la PDB. B. Croissance des nouveaux repliements [En savoir plus]
En résumé, au niveau des ordres de grandeur, le nombre de séquences nucléiques est de 16 508 091 (EMBL 03/2002), le nombre de séquences protéiques annotées est de 106 734, le nombre de structures 3D de macromolécules voisin de 17 679.
La plupart des banques de données stockent leurs informations dans des fichiers dits "à plats" (en format texte). Le format d'écriture de ces fichiers varient selon les banques de données et selon les objectifs d'utilisation de la banque. Par exemple, le format Pearson/Fasta est le format le plus utilisé pour stocker une (des) séquence(s) en vue de leur analyse par des outils informatiques. Il est relativement économe en terme de capacité disque et/ou mémoire mais il est dépourvu d'annotation fonctionnelle. Au contraire, le format EMBL (qui est aussi celui de SWISSPROT) est beaucoup plus riche en information mais inadapté à l'analyse directe de séquences.
Il s'agit d'un format qui est reconnu par tous les logiciels d'analyse de séquences.
>PROTEINE1 COMMENTAIRE PROTEINE1 VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKA SEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLH SRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQGERFT >PROTEINE2 COMMENTAIRE PROTEINE2 GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASEDLKKHG TVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKHPGNFGA DAQGAMTKALELFRNDIAAKYKELGFQG
Format EMBL/SWISSPROT [En savoir plus]
Dans une entrée SWISSPROT, chaque fichier de séquence obéit à un format propre à base d'étiquette (2 lettres) qui renseigne la nature du champ d'information qui débute à la colonne N°6. La première étiquette est ID (IDentifiant). Elle indique le champ nom de la protéine. Un nom SWISSPROT est constitué d'un préfixe souvent évocateur du rôle ou de la fonction (ici MYG pour myoglobine), d'un séparateur le "_" (caractère underscore ou blanc souligné) et du nom ou de son abréviation (ici HUMAN) de l'espèce (en anglais). Attention, ce nom est susceptible de changer au cours des différentes versions de la banque. En effet, il se peut que la fonction ne soit pas connue avec précision à une date donnée et que celle ci soit étudiée et finalement connue dans une version suivante. Le champ AC (numéro d'ACcès) est affecté de manière définitive à une séquence et n'est pas susceptible de changer. En conséquence, une interrogation par mot clé ne doit pas se limiter au seul champ ID. Les 3 champs DT (DaTe) renseignent successivement les différentes dates concernant l'entrée (création, modification de séquence ou d'annotation). Le champ DE (DEscripteur) renseigne sur la nature de la protéine. Le champ GN (Nom de Gene), Le champ OS contient le nom (latin et anglais) de l'espèce et de l'organisme (Organism Specie). Le champ OG (ici absent) désigne l'organelle. Le champ OC correspond à la classification de l'organisme de la séquence. Le champ OX correspond à la taxonomie de l'organisme. Les différents champs RN (RP, RX, RT, RA, RL) concernent les références bibliographiques de séquences. Le champ CC est pour des commentaires (copyright ou annotations). La ligne DR fournit des liens croisés sur les autres banques de données. Le champ KW (KeyWord ou mot clé). Le champ FT (Feature Table) est pour les informations et les annotations concernant la séquence. Si les informations sont non vérifiées expérimentalement, le mot "potential" ou "conflict" est ajouté. Enfin, le dernier champ est SQ pour SéQuence. Le terminateur d'entrée est //
ID MYG_HUMAN STANDARD; PRT; 153 AA. AC P02144; DT 21-JUL-1986 (Rel. 01, Created) DT 21-JUL-1986 (Rel. 01, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Myoglobin. GN MB. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE. RX MEDLINE=71291923; PubMed=5285572; RA Romero-Herrera A.E., Lehmann H.; RT "Primary structure of human myoglobin."; RL Nature New Biol. 232:149-152(1971). RN [2] RP REVISIONS TO 19-22 AND 83. RA Romero-Herrera A.E., Lehmann H.; RT "The myoglobin of primates. I. Hylobates agilis (gibbon)."; RL Biochim. Biophys. Acta 251:482-488(1971). RN [3] ..../... CC -!- FUNCTION: SERVES AS A RESERVE SUPPLY OF OXYGEN AND FACILITATES CC THE MOVEMENT OF OXYGEN WITHIN MUSCLES. CC -!- SIMILARITY: BELONGS TO THE GLOBIN FAMILY. CC -------------------------------------------------------------------------- CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See http://www.isb-sib.ch/announce/ CC or send an email to license@isb-sib.ch). CC -------------------------------------------------------------------------- DR EMBL; M14603; AAA59595.1; -. DR EMBL; M10090; AAA59595.1; JOINED. DR EMBL; M14602; AAA59595.1; JOINED. DR EMBL; X00371; CAA25109.1; -. DR EMBL; X00372; CAA25109.1; JOINED. DR EMBL; X00373; CAA25109.1; JOINED. DR EMBL; AL049747; CAB41872.1; -. DR EMBL; AL022334; CAA18457.1; -. DR PIR; A02464; MYHU. DR PDB; 2MM1; 15-JAN-93. DR HSC-2DPAGE; P02144; HUMAN. DR MIM; 160000; -. DR InterPro; IPR000971; Globin. DR InterPro; IPR002335; Myoglobin. DR Pfam; PF00042; globin; 1. DR PRINTS; PR00613; MYOGLOBIN. DR PROSITE; PS01033; GLOBIN; 1. KW Heme; Oxygen transport; Transport; Muscle; Polymorphism; KW 3D-structure. FT INIT_MET 0 0 FT METAL 64 64 IRON (HEME DISTAL LIGAND). FT METAL 93 93 IRON (HEME PROXIMAL LIGAND). FT VARIANT 54 54 E -> K. FT /FTId=VAR_003180. FT VARIANT 133 133 K -> N. FT /FTId=VAR_003181. FT VARIANT 139 139 R -> Q. FT /FTId=VAR_003182. FT VARIANT 139 139 R -> W. FT /FTId=VAR_003183. FT CONFLICT 128 128 Q -> E (IN REF. 4). FT HELIX 4 17 FT TURN 18 19 FT HELIX 21 35 FT HELIX 37 41 FT TURN 42 42 FT TURN 45 48 FT HELIX 52 57 FT HELIX 59 76 FT TURN 77 80 FT HELIX 83 95 FT TURN 96 96 FT TURN 101 101 FT HELIX 102 118 FT HELIX 120 122 FT HELIX 125 148 FT TURN 149 150 SQ SEQUENCE 153 AA; 17053 MW; 5F84A2C481B8F0D5 CRC64; GLSDGEWQLV LNVWGKVEAD IPGHGQEVLI RLFKGHPETL EKFDKFKHLK SEDEMKASED LKKHGATVLT ALGGILKKKG HHEAEIKPLA QSHATKHKIP VKYLEFISEC IIQVLQSKHP GDFGADAQGA MNKALELFRK DMASNYKELG FQG //
Il existe 3 systèmes principaux disponibles sur INTERNET utilisés pour l'interrogation des banques de données ACNUC, Entrez, et SRS.
Le premier système est [ACNUC] développé à l'Université Claude Bernard de Lyon par M. Gouy et C. Gautier. Il offre une puissance d'interrogation inégalée notamment par l'établissement de listes successives de résultats intermédiaires permettant d'affiner progressivement la recherche. Cependant, il nécessite un bon apprentissage du système de requête à base de mots clés pour pouvoir être utilisé efficacement.
Le système [Entrez] développé au National Center for Biotechnology Information [NCBI] qui est aussi le système utilisé pour interroger la base bibliographique Medline.
Le dernier système d'interrogation de Lion Biosciences est Sequence Retrievial System [SRS] implanté sur de nombreux serveurs bioinformatiques qui permet l'interrogation simultanée d'un ensemble de banques de données. Il permet également de formater en HTML les résultats à l'aide d'un langage spécifique ICARUS et s'interface facilement avec des programmes d'exploitation. A titre d'exemple, une requête SRS permet de constituer une liste de "hits" qui peut être envoyée directement au webiciel [NPS@] (Network Protein Sequence Analysis).
Figure 15 Exemple d'interrogation SRS sur INFOBIOGEN utilisant la banque SWISSPROT
La tendance actuelle est de faire migrer les banques de données vers des Systèmes de Gestion de Bases de Données relationnelles [SGBD] comme par exemple [SYBASE] ou [ORACLE] interrogeables grâce des langages de requêtes standard comme [MySQL] (Standard Query Language).