Inferația bayesiană în filogenie

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Inferența bayesiană în filogenie este una dintre cele mai avansate metode utilizate pentru construirea arborilor filogenetici . Se bazează pe teorema lui Bayes și permite efectuarea unei analize a posteriori a datelor deținute de cercetător și rezolvarea unor probleme tipice de reconstrucție filogenetică.

Inferența bayesiană folosește o funcție de probabilitate pentru a crea o cantitate numită „probabilitatea posterioară a copacilor” utilizând un model de evoluție. Acest model se bazează pe probabilități a priori și produce cel mai probabil arbore filogenetic. Abordarea bayesiană a devenit populară grație integrării algoritmilor lanțului Markov Monte Carlo (MCMC).

Principiile de bază ale inferenței bayesiene în filogenie

Inferența bayesiană este o metodă probabilistică enunțată pentru prima dată de reverendul Thomas Bayes în secolul al XVIII-lea. Utilizarea sa în filogenie a fost sugerată de Joseph Felsenstein în 1968, dar abia în jurul anului 1990 a devenit cu adevărat aplicabilă filogeniei.

Teorema lui Bayes vă permite să calculați rapid un arbore filogenetic chiar și cu un set de date destul de mare. Acesta examinează posibili arbori filogenetici pe baza probabilității lor posterioare P (H | D), adică probabilitatea ca un copac să fie cel corect, având în vedere „datele” și „ipotezele apriorice” disponibile. În special, luând în considerare H ipoteza și D datele, calculează produsul probabilității de observare a datelor, dată fiind o ipoteză P (D | H), înmulțită cu probabilitatea posterioară a ipotezei P (H), întregul divizat prin probabilitatea posterioară a datelor P (D). În filogenie datele corespund unui set de caractere, iar ipotezele corespund unor posibili arbori filogenetici.

 P (copaci | date) = P (date | copaci)    P (copaci) / P (date)

P (date | copaci) este probabilitatea datelor, având în vedere arborele. Acest lucru necesită calculul probabilității, dar spre deosebire de metoda maximă probabilitate, în abordarea bayesiană se adaugă incertitudinea parametrilor, cum ar fi lungimea ramurilor.

P (copacii) este probabilitatea de a avea copacul adevărat printre toți copacii posibili, înainte de a analiza datele. P (date) este suma tuturor ipotezelor, adică suma tuturor copacilor posibili, înmulțită cu probabilitatea lor anterioară

Lanțul Markov Monte Carlo

Principala problemă a filogeniei bayesiene este calcularea probabilității datelor P (date). Pentru a depăși acest lucru, este utilizată o metodă numită MCMC ( Monte Carlo Markov Chain ). Această metodă exploatează un algoritm care, printr-o procedură de lanț prin care o stare a arborelui este variată la fiecare generație, permite explorarea diferiților copaci până când întregul spațiu de probabilitate de a găsi un copac a fost suficient eșantionat. Arborii explorați sunt respinși sau acceptați pe baza datelor de pornire și a modelului: dacă se găsește un copac cu o valoare de probabilitate mai mică decât precedentul, acesta poate fi respins sau acceptat dacă diferența de probabilitate dintre cei doi copaci este foarte subtilă. În general, timpul total petrecut în eșantionarea în vecinătatea unui punct este direct proporțional cu adevărata sa probabilitate posterioară. După câteva generații (chiar și câteva milioane) se ajunge la o situație de convergență și frecvența fiecărui tip de copac dintre aceia la fel de probabil reprezintă probabilitatea posterioară ca acel tip dat de copac să fie cel mai bun. Ceea ce rezultă dintr-o analiză filogenetică bayesiană este un set de copaci cu probabilitățile lor asociate. La sfârșitul analizei, este prezentat un arbore consens, a cărui topologie reflectă cea a copacilor din set.

Diferențe cu probabilitatea maximă și parsimonia maximă

Metodele de reconstrucție a arborilor filogenetici care se bazează pe caractere discrete sunt criteriul maximului parsimoniului , maximului probabilității ( metoda maximului probabilității ) și metodelor bayesiene. Sunt metode care derivă din tehnici cladistice, formalizate de Willi Hennig în „Filogenetic sistematic” în 1966.

Metoda Maximal Parsimony găsește unul sau mai mulți arbori optimi pe baza unei matrice de caractere discrete și nu necesită un model evolutiv. Această metodă se bazează pe ideea lui William de Ockham că cea mai bună ipoteză pentru a explica un proces este cea mai simplă: arborele filogenetic este reconstruit cu cele mai puține modificări posibile de-a lungul secvențelor. Parsimonia maximă încearcă să aleagă între ipoteze filogenetice alternative pentru a minimiza omoplazia: dacă există omoplazie, vor apărea topologii incorecte. În plus, sunt utilizate doar site-urile informaționale: sunt cele care descriu topologia arborelui. Un sit este informativ atunci când există cel puțin 2 nucleotide diferite la un sit, fiecare dintre acestea fiind reprezentată în cel puțin două dintre secvențele de studiu.

Metoda Probabilității maxime se bazează pe probabilitatea unui set de observații cu privire la un model care ar trebui să descrie procesul din care au fost generate datele. Modelul evolutiv prezintă mecanismul prin care secvențele se schimbă în timp. Spre deosebire de Maximum Thrifty, Maximum Likelihood estimează cu exactitate lungimile sucursalei și fiecare site are o probabilitate (toate site-urile sunt utilizate, nu doar cele informative) și puteți alege ce model se potrivește cel mai bine datelor. Parsimonia nu este consecventă (prin consistență ne referim la capacitatea unei metode de a converge la valoarea reală, crescând numărul de date), Probabilitatea maximă este în schimb consecventă în anumite condiții, de fapt, rezultatul depinde de modelul de evoluție utilizat, dacă modelul este greșit, coerența se pierde. Cu Probabilitatea maximă, se selectează valori dintr-un interval care maximizează probabilitatea de a obține acele date, în timp ce abordarea bayesiană integrează toate valorile posibile, ponderate de probabilitatea anterioară. În general, în parsimonia maximă și în probabilitatea maximă unui singur arbore este posibil să se atribuie un scor, independent de ceilalți arbori obținuți din analiză, în schimb o probabilitate bayesiană posterioară nu poate fi atribuită arborelui fără a fi luată în considerare toți copacii posibili.

Programe utilizate

Nume Descriere Metodă Autori
Platforma de flux de lucru Armadillo Platforma dedicată analizei filogeniei și bioinformaticii Inferență filogenetică prin distanță, maximă probabilitate, parsimonie maximă și metode bayesiene E. Lord, M. Leclercq, A. Boc, AB Diallo și V. Makarenkov
Bali-Phy Inferența bayesiană de aliniere și filogenie Inferența bayesiană, alinierea și căutarea arborelui MA Suchard, BD Redelings
BATWING Analiza bayesiană a arborilor cu generare de noduri interne Inferință bayesiană, istorie demografică, scindări de populație IJ Wilson, D. Weale, D. Balding
Filogenii Bayes Inferența bayesiană a copacilor utilizând metode MCMC Inferație bayesiană, modele multiple, model de amestec M. Pagel, A. Meade
PhyloBayes MCMC pentru reconstrucție filogenetică Metode non-parametrice pentru modelarea variației nucleotidelor sau aminoacizilor între situri N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer
Fiară Analiza evolutivă bayesiană Arborele de eșantionare Inferație bayesiană, ceas molecular relaxat, istorie demografică AJ Drummond, A. Rambaut, MA Suchard
Genial (plugin MrBayes) Instrumente pentru cercetarea genomilor și proteomilor Selectarea modelului filogenetic, analiza Bayesiană și estimarea arborelui filogenetic prin maximă probabilitate, identificarea siturilor sub selecție pozitivă și analiza locației punctului de întrerupere a recombinării I. Milne, D. Lindner
Domnule Bayes Inferația bayesiană în filogenie Inferația Bayesiană și utilizarea MCMC J. Huelsenbeck, B. Larget, P. van der Mark, F. Ronquist, D. Simon, M. Teslenko

Bibliografie

  • Caramelli C. "Antropologie moleculară. Manual de bază" firenze University press pp. 42-44 (2009)
  • Lemey, Philippe; Salemi, Marco și Vandamme, Anne-Mieke. „Manualul filogenetic: o abordare practică a analizei filogenetice și testarea ipotezei”. Cambridge University Press. (2009)

Elemente conexe

linkuri externe

Biologie Portalul de biologie : accesați intrările Wikipedia care se ocupă de biologie