UniProt

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Baza de date UniProt Taxonomy
site-ul web
Siglă
URL www.uniprot.org/
Tipul site-ului Bază de date
Limbă Engleză
Comercial Nu
Proprietar Consorțiul UniProt
Creat de EMBL-EBI , Marea Britanie; SIB , Elveția; PIR , SUA.
Lansa Decembrie 2003
Starea curenta Activ

UniProt ( Uni versal Pro tein) este cea mai mare bază de date bioinformatică pentru secvențele de proteine ale tuturor organismelor vii și ale virușilor. Multe informații provin din proiecte de secvențiere a genomului.

Consorțiul UniProt

Consorțiul UniProt (Consorțiul UniProt) cuprinde Institutul European de Bioinformatică (EBI), Institutul Elvețian de Bioinformatică (SIB) și Resurse de Informații Proteice (PIR). EBI, situat la Wellcome Trust Genome Campus din Hinxton , Marea Britanie , găzduiește o bază de date și un centru de servicii bioinformatică. SIB, cu sediul la Geneva , Elveția , administrează serverele ExPASy (Expert Protein Analysis System), care sunt o resursă centrală pentru instrumentele și bazele de date de proteomică . PIR, găzduit de Fundația Națională de Cercetare Biomedică (NBRF) la Centrul Medical al Universității Georgetown din Washington , DC, SUA, este moștenitorul celei mai vechi baze de date de secvențe de proteine , Atlasul de secvență și structură al proteinei Margaret Dayhoff , publicat pentru prima dată în 1965 . [1] În 2002 , EBI, SIB și PIR și-au unit forțele, sub numele de Consorzio UniProt [2] .

Originile bazelor de date UniProt

Fiecare membru al consorțiului este puternic implicat în gestionarea bazelor de date și adnotări de proteine. Până de curând, EBI și SIB au produs împreună baza de date Swiss-Prot și TrEMBL, în timp ce PIR a produs baza de date cu secvențe de proteine (Protein Sequence, PIR-PSD). [3] [4] [5] Aceste baze de date au coexistat cu diferite priorități de acoperire și adnotare a secvențelor de proteine .

Swiss-Prot a fost creat în 1986 de Amos Bairoch în timpul doctoratului și dezvoltat de Institutul Elvețian de Bioinformatică și Institutul European de Bioinformatică . [6] [7] Swiss-Prot își propune să furnizeze secvențe de proteine ​​fiabile asociate cu un nivel ridicat de adnotări (cum ar fi descrierea funcției unei proteine, structura domeniului său, modificări post-translative , variante etc.) , un nivel minim de redundanță și un nivel ridicat de integrare cu alte baze de date. Recunoscând că datele de secvență erau produse cu o rată care depășea capacitatea Swiss-Prot de a le manipula, TrEMBL (Translated EMBL Nucleotide Sequence Data Library) a fost creat pentru a oferi adnotări automate pentru proteinele care nu sunt încă prezente în Swiss-Prot. Între timp, PIR a întreținut PIR-PSD și bazele de date conexe, inclusiv iProClass, o bază de date cu secvențe și familii de proteine.

Membrii consorțiului și-au reunit resursele și expertiza suprapuse și au lansat UniProt în decembrie 2003. [8]

Organizarea bazelor de date UniProt

UniProt oferă patru baze de date principale:

UniProtKB

Baza de cunoștințe UniProt ( UniProtKB ) este o bază de date proteică specializată în două secțiuni. UniProtKB / Swiss-Prot (care conține intrări revizuite, adnotate manual) și UniProtKB / TrEMBL (care conține intrări ne-revizuite, adnotate automat). [9] În versiunea 2010_09 din 10 august 2010, UniProtKB / Swiss-Prot conținea 519.348 intrări, iar UniProtKB / TrEMBL conținea 11.636.205 intrări. [10] [11]

UniProtKB / Swiss-Prot

UniProtKB / Swiss-Prot este o bază de date cu secvențe de proteine ​​non-redundante, adnotate manual, de înaltă calitate. Acesta combină informații extrase din literatura științifică și analiza de calcul evaluată de biocurator . Scopul UniProtKB / Swiss-Prot este de a furniza toate informațiile cunoscute referitoare la o anumită proteină. Adnotările sunt revizuite periodic pentru a ține pasul cu cunoștințele științifice actuale. Adnotările de intrare manuală includ analize detaliate ale secvențelor de proteine ​​și literatura științifică. [12]

Secvențele din aceeași genă și specie sunt îmbinate în aceeași intrare a bazei de date. Diferențele dintre secvențe sunt identificate și cauza lor documentată (de exemplu, splicing alternativ , variație naturală , locații de inițiere incorecte, limite incorecte ale exonului , schimbări de cadre , conflicte neidentificate). O serie de instrumente de analiză a secvenței sunt utilizate în adnotările de intrare UniProtKB / Swiss-Prot. Prognozele computerizate sunt evaluate manual și rezultatele relevante sunt selectate pentru includere în intrare. Aceste predicții includ modificări post-translaționale , domenii transmembrana și topologie , peptidă de semnalizare , identificare domeniu și clasificare a familiei de proteine . [12] [13]

Publicațiile pe această temă sunt identificate prin baze de date de cercetare, cum ar fi Pubmed . Se citește textul complet al fiecărui document, iar informațiile sunt extrase și inserate în intrare. Adnotările din literatura științifică includ (dar nu se limitează la): [12] [13] [14]

Intrările adnotate sunt supuse controlului calității înainte de includere în UniProtKB / Swiss-Prot. Când sunt disponibile date noi, intrările sunt actualizate.

UniProtKB / TrEMBL

UniParc

UniRef

UniMes

Notă

  1. ^ Dayhoff, Margaret O., Atlas of protein protein and structure , Silver Spring, Md, National Biomedical Research Foundation, 1965, ISBN.
  2. ^ 2002 lansare: NHGRI Funds Global Protein Database , pe genome.gov . Adus la 5 mai 2019 (Arhivat din original la 13 aprilie 2019) .
  3. ^ O'Donovan C, Martin MJ, Gattiker A, Gasteiger E, Bairoch A, Apweiler R, Resursă de cunoaștere a proteinelor de înaltă calitate: SWISS-PROT și TrEMBL , pe scurt. Bioinformatică , vol. 3, nr. 3, septembrie 2002, pp. 275–84, PMID 12230036 .
  4. ^ Wu CH, Yeh LS, Huang H și colab. , The Resource Information Resource , în Nucleic Acids Res. , Vol. 31, n. 1, ianuarie 2003, pp. 345-7, PMC 165487 , PMID 12520019 .
  5. ^ Boeckmann B, Bairoch A, Apweiler R și colab. , Baza de cunoștințe proteice SWISS-PROT și suplimentul său TrEMBL în 2003 , în Nucleic Acids Res. , Vol. 31, n. 1, ianuarie 2003, pp. 365–70, PMC 165542 , PMID 12520024 .
  6. ^ Bairoch Amos, [http://bioinformatics.oupjournals.org/cgi/reprint/16/1/48 Serendipity in bioinformatics, the tribulations of a bioinformatician elvețian prin momente incitante!] , In Bioinformatics , vol. 16, n. 1, 2000, pp. 48–64, DOI : 10.1093 / bioinformatics / 16.1.48 , PMID 10812477 .
  7. ^ Séverine Altairac, " Naissance d'une banque de données: Interview du prof. Amos Bairoch ". Protéines à la Une , august 2006. ISSN 1660-9824.
  8. ^ Dezvoltări în curs și viitoare la Resurse Universale de Proteine , în Nucleic Acids Research , vol. 39, Ediția bazei de date, ianuarie 2011, pp. D214–9, DOI : 10.1093 / nar / gkq1020 , PMC 3013648 , PMID 21051339 .
  9. ^ The Universal Protein Resource (UniProt) în 2010 , în Nucleic Acids Res. , Vol. 38, Ediția bazei de date, ianuarie 2010, pp. D142-8, DOI : 10.1093 / nar / gkp846 , PMC 2808944 , PMID 19843607 .
  10. ^ Statistici de lansare UniProtKB / SwissProt
  11. ^ Statistici de lansare UniProtKB / TrEMBL , pe ebi.ac.uk. Accesat la 5 mai 2019 (Arhivat din original la 25 aprilie 2019) .
  12. ^ a b c Adnotări UniProtKB
  13. ^ a b Apweiler R, Bairoch A, Wu CH și colab. , UniProt: baza de cunoaștere a proteinelor universale , în Nucleic Acids Res. , Vol. 32, Ediția bazei de date, ianuarie 2004, pp. D115-9, DOI : 10.1093 / nar / gkh131 , PMC 308865 , PMID 14681372 .
  14. ^ Apweiler R, Bairoch A, Wu CH, Protein sequence bases de date , în Curr Opin Chem Biol , vol. 8, nr. 1, februarie 2004, pp. 76–80, DOI : 10.1016 / j.cbpa.2003.12.004 , PMID 15036160 .

linkuri externe

  • UniProt , pe uniprot.org .
  • neXtProt , la beta.nextprot.org . Arhivat din original la 11 mai 2011. Adus pe 5 august 2019 .
  • EBI , pe ebi.ac.uk.
  • SIB , pe isb-sib.ch .
  • PIR , pe pir.georgetown.edu . Adus la 14 mai 2011 (arhivat din original la 12 martie 2014) .