Format varianta apel
Variant Call Format (VCF) este un format de fișier text separat de tab-uri utilizat în bioinformatică pentru a colecta variante genomice și se află în prezent la versiunea 4.3. Formatul permite descrierea în format tabelar a celor mai frecvente variante genomice ale unui genom, împreună cu posibilitatea de a insera adnotări și metadate [1] .
A fost dezvoltat din proiectul 1000 Genome și a fost adoptat de mai multe proiecte, inclusiv UK10K, dbSNP și NHLBI Exome Project [2] .
De asemenea, au fost dezvoltate mai multe instrumente și biblioteci software pentru a putea manipula formatul [3] .
Formatul
Formatul include un antet, ale cărui linii sunt identificate prin simboluri ##
și un corp care listează toate variantele. În interiorul corpului, informațiile referitoare la fiecare variantă sunt organizate în conformitate cu 9 coloane obligatorii.
## fileformat = VCFv4.3 ## fileDate = 20090805 ## source = myImputationProgramV3.1 ## reference = file: ///seq/references/1000GenomesPilot-NCBI36.fasta ## contig = <ID = 20, length = 62435964, assembly = B36, md5 = f126cdf8a6e0c7f379d618ff66beb2da, species = "Homo sapiens", taxonomy = x> ## phaseing = parțial ## INFO = <ID = NS, Number = 1, Type = Integer, Description = "Număr de eșantioane cu date"> ## INFO = <ID = DP, număr = 1, tip = întreg, descriere = "adâncime totală"> ## INFO = <ID = AF, Number = A, Type = Float, Description = "Allele Frequency"> ## INFO = <ID = AA, Number = 1, Type = String, Description = "Ancestral Allele"> ## INFO = <ID = DB, Number = 0, Type = Flag, Description = "membru dbSNP, build 129"> ## INFO = <ID = H2, Number = 0, Type = Flag, Description = "Membership HapMap2"> ## FILTER = <ID = q10, Descriere = "Calitate sub 10"> ## FILTER = <ID = s50, Description = "Mai puțin de 50% din eșantioane au date"> ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype"> ## FORMAT = <ID = GQ, Număr = 1, Tip = Întreg, Descriere = "Calitatea genotipului"> ## FORMAT = <ID = DP, Număr = 1, Tip = Întreg, Descriere = "Adâncime citire"> ## FORMAT = <ID = HQ, Number = 2, Type = Integer, Description = "Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:.,. 20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58.50 0 | 1: 3: 5: 65.3 0/0: 41: 3 20 1110696 rs6040355 AG, T 67 PASS NS = 2; DP = 10; AF = 0,333,0,667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2: 0 : 18.2 2/2: 35: 4 20 1230237. T. 47 PASS NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56.60 0 | 0: 48: 4: 51.51 0/0: 61: 2 20 1234567 microsat1 GTC G, GTCT 50 PASS NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3
Cele 9 coloane obligatorii sunt identificate prin simbolul #
.
-
CHROM
- cromozom pe care este prezentă varianta (de exemplu,chr1
sau1
) -
POS
- poziția pe care a fost efectuată varianta de apel (bazată pe 1). -
ID
- identificarea variantei (de exemplu, rs din dbSNP). Dacă este absent, simbolul este citit.
-
REF
- alela de referință prezentă în locația specificată. -
ALT
- alelă sau listă de alele alternative. -
QUAL
- scor de calitate al citirii alelei alternative -
FILTER
- rezultat sau filtre cu care a fost selectată varianta. -
INFO
- listă de adnotări referitoare la varianta definită de o pereche<chiave>=[,valore]
. -
FORMAT
- listă de adnotări referitoare la relația fiecărei variante cu fiecare eșantion, prin urmare referitoare la genotip .
Mai mult, există un număr de coloane egal cu numărul de eșantioane, în care este raportată valoarea adnotărilor prezente în coloana FORMAT
. Formatul VCF acceptă atât apelarea variantelor cu eșantion unic, cât și cu eșantion multiplu.
Notă
- ^ Danecek et. al., 2014 .
- ^ Petr Danecek, Adam Auton și Goncalo Abecasis, The variant call format și VCFtools , în Bioinformatics , vol. 27, n. 15, 1 august 2011, pp. 2156-2158, DOI :10.1093 / bioinformatics / btr330 . Adus la 31 iulie 2018 .
- ^ (EN) VCFtools , pe vcftools.github.io. Adus la 25 iulie 2018 .
linkuri externe
- ( EN ) Petr Danecek, Poster care explică formatul VCF ( PDF ), la http://vcftools.sourceforge.net/ , 2014.