Format varianta apel

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Variant Call Format (VCF) este un format de fișier text separat de tab-uri utilizat în bioinformatică pentru a colecta variante genomice și se află în prezent la versiunea 4.3. Formatul permite descrierea în format tabelar a celor mai frecvente variante genomice ale unui genom, împreună cu posibilitatea de a insera adnotări și metadate [1] .

A fost dezvoltat din proiectul 1000 Genome și a fost adoptat de mai multe proiecte, inclusiv UK10K, dbSNP și NHLBI Exome Project [2] .

De asemenea, au fost dezvoltate mai multe instrumente și biblioteci software pentru a putea manipula formatul [3] .

Formatul

Formatul include un antet, ale cărui linii sunt identificate prin simboluri ## și un corp care listează toate variantele. În interiorul corpului, informațiile referitoare la fiecare variantă sunt organizate în conformitate cu 9 coloane obligatorii.

 ## fileformat = VCFv4.3
## fileDate = 20090805
## source = myImputationProgramV3.1
## reference = file: ///seq/references/1000GenomesPilot-NCBI36.fasta
## contig = <ID = 20, length = 62435964, assembly = B36, md5 = f126cdf8a6e0c7f379d618ff66beb2da, species = "Homo sapiens", taxonomy = x>
## phaseing = parțial
## INFO = <ID = NS, Number = 1, Type = Integer, Description = "Număr de eșantioane cu date">
## INFO = <ID = DP, număr = 1, tip = întreg, descriere = "adâncime totală">
## INFO = <ID = AF, Number = A, Type = Float, Description = "Allele Frequency">
## INFO = <ID = AA, Number = 1, Type = String, Description = "Ancestral Allele">
## INFO = <ID = DB, Number = 0, Type = Flag, Description = "membru dbSNP, build 129">
## INFO = <ID = H2, Number = 0, Type = Flag, Description = "Membership HapMap2">
## FILTER = <ID = q10, Descriere = "Calitate sub 10">
## FILTER = <ID = s50, Description = "Mai puțin de 50% din eșantioane au date">
## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype">
## FORMAT = <ID = GQ, Număr = 1, Tip = Întreg, Descriere = "Calitatea genotipului">
## FORMAT = <ID = DP, Număr = 1, Tip = Întreg, Descriere = "Adâncime citire">
## FORMAT = <ID = HQ, Number = 2, Type = Integer, Description = "Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:.,.
20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58.50 0 | 1: 3: 5: 65.3 0/0: 41: 3
20 1110696 rs6040355 AG, T 67 PASS NS = 2; DP = 10; AF = 0,333,0,667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2: 0 : 18.2 2/2: 35: 4
20 1230237. T. 47 PASS NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56.60 0 | 0: 48: 4: 51.51 0/0: 61: 2
20 1234567 microsat1 GTC G, GTCT 50 PASS NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3

Cele 9 coloane obligatorii sunt identificate prin simbolul # .

  1. CHROM - cromozom pe care este prezentă varianta (de exemplu, chr1 sau 1 )
  2. POS - poziția pe care a fost efectuată varianta de apel (bazată pe 1).
  3. ID - identificarea variantei (de exemplu, rs din dbSNP). Dacă este absent, simbolul este citit .
  4. REF - alela de referință prezentă în locația specificată.
  5. ALT - alelă sau listă de alele alternative.
  6. QUAL - scor de calitate al citirii alelei alternative
  7. FILTER - rezultat sau filtre cu care a fost selectată varianta.
  8. INFO - listă de adnotări referitoare la varianta definită de o pereche <chiave>=[,valore] .
  9. FORMAT - listă de adnotări referitoare la relația fiecărei variante cu fiecare eșantion, prin urmare referitoare la genotip .

Mai mult, există un număr de coloane egal cu numărul de eșantioane, în care este raportată valoarea adnotărilor prezente în coloana FORMAT . Formatul VCF acceptă atât apelarea variantelor cu eșantion unic, cât și cu eșantion multiplu.

Notă

  1. ^ Danecek et. al., 2014 .
  2. ^ Petr Danecek, Adam Auton și Goncalo Abecasis, The variant call format și VCFtools , în Bioinformatics , vol. 27, n. 15, 1 august 2011, pp. 2156-2158, DOI :10.1093 / bioinformatics / btr330 . Adus la 31 iulie 2018 .
  3. ^ (EN) VCFtools , pe vcftools.github.io. Adus la 25 iulie 2018 .

linkuri externe