Ivana Keršek Wright - Fisherov model. Diplomski rad

Similar documents
TEORIJA SKUPOVA Zadaci

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Sveučilište u Zagrebu Fakultet prometnih znanosti Diplomski studij. Umjetna inteligencija - Genetski algoritmi 47895/47816 UMINTELI HG/

Neprekidan slučajan vektor

Slika 1. Slika 2. Da ne bismo stalno izbacivali elemente iz skupa, mi ćemo napraviti još jedan niz markirano, gde će

BROWNOV MOST I KOLMOGOROV-SMIRNOVLJEVA STATISTIKA

Geometrijski smisao rješenja sustava od tri linearne jednadžbe s tri nepoznanice

Šime Šuljić. Funkcije. Zadavanje funkcije i područje definicije. š2004š 1

Red veze za benzen. Slika 1.

Projektovanje paralelnih algoritama II

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

Razni načini zadavanja vjerojatnosti

Mathcad sa algoritmima

Uvod u relacione baze podataka

Metode izračunavanja determinanti matrica n-tog reda

Nilpotentni operatori i matrice

Karakteri konačnih Abelovih grupa

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

Računanje vrijednosti DNK dokaza

Fajl koji je korišćen može se naći na

KVADRATNE INTERPOLACIJSKE METODE ZA JEDNODIMENZIONALNU BEZUVJETNU LOKALNU OPTIMIZACIJU 1

χ 2 -test i Kolmogorov-Smirnovljev test

pretraživanje teksta Knuth-Morris-Pratt algoritam

Mirela Nogolica Norme Završni rad

Metode praćenja planova

NIZOVI I REDOVI FUNKCIJA

Fraktalno Brownovo gibanje

Ksenija Doroslovački KOMBINATORIKA INTERPRETIRANA FUNKCIJAMA I NJIHOVIM OSOBINAMA MASTER RAD. NOVI SAD jun 2008

Quasi-Newtonove metode

Hornerov algoritam i primjene

Formule za udaljenost točke do pravca u ravnini, u smislu lp - udaljenosti math.e Vol 28.

Simetrične matrice, kvadratne forme i matrične norme

O aksiomu izbora, cipelama i čarapama

LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

Sveučilište J.J. Strossmayera u Osijeku Odjel za matematiku. Velibor Gojić. Blok dizajni. Diplomski rad. Osijek, 2014.

Prsten cijelih brojeva

Sveučilište Josipa Jurja Strossmayera u Osijeku Odjel za matematiku

Ariana Trstenjak Kvadratne forme

Fibonaccijev brojevni sustav

Teorem o reziduumima i primjene. Završni rad

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku DIOFANTSKE JEDNADŽBE

Termodinamika. FIZIKA PSS-GRAD 29. studenog Copyright 2015 John Wiley & Sons, Inc. All rights reserved.

Iskazna logika 1. Matematička logika u računarstvu. oktobar 2012

KRITERIJI KOMPLEKSNOSTI ZA K-MEANS ALGORITAM

Funkcijske jednadºbe

Metrički prostori i Riman-Stiltjesov integral

Položaj nultočaka polinoma

Osobine metode rezolucije: zaustavlja se, pouzdanost i kompletnost. Iskazna logika 4

Ivan Soldo. Sažetak. U članku se analiziraju različiti načini množenja matrica. Svaki od njih ilustriran je primjerom.

Vektori u ravnini i prostoru. Rudolf Scitovski, Ivan Vazler. 10. svibnja Uvod 1

Matrice traga nula math.e Vol. 26. math.e. Hrvatski matematički elektronički časopis. Matrice traga nula. komutator linearna algebra. Sažetak.

FIZIKALNA KOZMOLOGIJA VII. VRLO RANI SVEMIR & INFLACIJA

Matrične dekompozicije i primjene

PARALELNI ALGORITMI ZA PROBLEM GRUPIRANJA PODATAKA

ITERATIVNA OPTIMIZACIJA MODELA I PRETRAŽIVANJE PROTEOMA

POOPĆENJE KLASIČNIH TEOREMA ZATVARANJA PONCELETOVOG TIPA

Matematika (PITUP) Prof.dr.sc. Blaženka Divjak. Matematika (PITUP) FOI, Varaždin

Tina Drašinac. Cramerovo pravilo. Završni rad

ATOMSKA APSORP SORPCIJSKA TROSKOP

Nelder Meadova metoda: lokalna metoda direktne bezuvjetne optimizacije

Metoda parcijalnih najmanjih kvadrata: Regresijski model

AKSIOME TEORIJE SKUPOVA

Banach Tarskijev paradoks

Uvod u analizu (M3-02) 05., 07. i 12. XI dr Nenad Teofanov. principle) ili Dirihleov princip (engl. Dirichlet box principle).

HRVATSKA MATEMATIČKA OLIMPIJADA

AKSIOM IZBORA I EKVIVALENCIJE

Linearno programiranje i primjene

Neke klase maksimalnih hiperklonova

Maja Antolović Algoritmi u teoriji brojeva

Optimizacija Niza Čerenkovljevih teleskopa (CTA) pomoću Monte Carlo simulacija

Harmonijski brojevi. Uvod

ANALIZA VARIJANCE PONOVLJENIH MJERENJA

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku

STACIONARNOST GARCH PROCESA I PRIMJENE

Pitagorine trojke. Uvod

1 Konveksni skupovi i konveksne funkcije

Procjena funkcije gustoće

BREEDING AND GENETIC PROPERTIES OF THE MAIZE VARIETY UZBEKSKA BELA

Umjetna inteligencija

Sveučilište J.J.Strossmayera u Osijeku Odjel za matematiku. Sveučilišni preddiplomski studij matematike

STATISTICAL ANALYSIS OF WET AND DRY SPELLS IN CROATIA BY THE BINARY DARMA (1,1) MODEL

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Sveučilišni nastavnički studij matematike i informatike. Sortiranje u linearnom vremenu

Impuls sile i količina gibanja

GENERALIZIRANI LINEARNI MODELI. PROPENSITY SCORE MATCHING.

BAZE PODATAKA Predavanje 03

Mersenneovi i savršeni brojevi

Diferencijska evolucija

Uvod u numericku matematiku

Turingovi strojevi Opis Turingovog stroja Odluµcivost logike prvog reda. Lipanj Odluµcivost i izraµcunljivost

PRIRODOSLOVNO MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK. Marina Zrno KOMUTATIVNI PRSTENI. Diplomski rad. Voditelj rada: prof.dr.sc.

Kvaternioni i kvaternionsko rješenje kvadratne jednadžbe

Konformno preslikavanje i Möbiusova transformacija. Završni rad

Konstrukcija i analiza algoritama

ODREĐIVANJE DINAMIČKOG ODZIVA MEHANIČKOG SUSTAVA METODOM RUNGE-KUTTA

PORAVNANJE VIŠE NIZOVA. Neven Grubelić PRIRODOSLOVNO MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK. Diplomski rad

Vedska matematika. Marija Miloloža

Nekoliko kombinatornih dokaza

BROJEVNE KONGRUENCIJE

ANALYSIS OF THE RELIABILITY OF THE "ALTERNATOR- ALTERNATOR BELT" SYSTEM

Transcription:

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Ivana Keršek Wright - Fisherov model Diplomski rad Mentor: prof. dr. sc. Mirta Benšić Komentor: dr. sc. Nenad Šuvak Osijek, 2011.

SADRŽAJ i Sadržaj 1 Uvod ii 2 Osnovni pojmovi genetike 1 2.1 DNK i ATCG abeceda života................. 1 2.2 Evolucija.............................. 5 2.2.1 Mutacija.......................... 5 2.2.2 Selekcija.......................... 6 2.2.3 Genetički drift....................... 6 3 Wright - Fisherov model 11 3.1 Osnovni pojmovi teorije Markovljevih lanaca i martingala... 11 3.2 Wright - Fisherov model bez mutacija.............. 15 3.3 Wright - Fisherov model s mutacijama............. 24 3.4 Moranov model.......................... 28 4 Primjer Wright - Fisherovog modela 32 Sažetak Summary Životopis iii iv v

1 UVOD ii 1 Uvod Zamislimo da u posudi imamo konačan broj kuglica crvene i zelene boje. Sada izvlačimo jednu po jednu kuglicu, kopiramo ju, stavimo u drugu posudu i vratimo original natrag sve dok ne dosegnemo broj kuglica iz prve posude. Frekvencije zelenih i crvenih kuglica u dvije posude mogu se, ali i ne moraju razlikovati. Postavimo pitanje hoće li se frekvencija zelenih kuglica povećati, smanjiti ili biti jednaka kao u prvoj posudi, ako se smanji ili poveća, za koliko će to biti, u kojem omjeru će se razlikovati? Na ova pitanja ne možemo odgovoriti sa sigurnošću, no možemo predvidjeti vjerojatnosti različitih odstupanja. Isti vjerojatnosni princip uzimanja uzoraka javlja se u evoluciji. Svaka naredna generacija može nasljediti sve osobine kao i početna generacija, a neke osobine mogu prevladavati, kako i u kojem omjeru ne znamo, možemo samo predvidjeti vjerojatnosti odredenih ishoda za svaku generaciju u odnosu na početnu. Evolucija je stohastički proces promjene frekvencija gena u prirodnim populacijama. Motoo Kimura, japanski biolog Populacijska genetika je grana biologije koja osigurava matematičku strukturu za proučavanje procesa mikroevolucije, tj promjena koje se odvijaju na razini gena. Stohastički procesi imaju veliku važnost u genetici. Tako se stohastički procesi u populacijskoj genetici koriste npr. za modeliranje promjene frekvencije gena u populaciji od jedne do druge generacije. Populacijski genetičari odavno su uvidjeli važnost stohastičkih procesa u nastanku i održavanju genetičke varijabilnosti, ali nisu se uvijek slagali oko njihovog utjecaja na mehanizme evolucije. Rad dvojice velikih znanstvenika Seawell Wrighta i R.A. Fishera označio je početak kvantitativne teorije o ulozi genetičkog drifta u evolucijskom procesu. Wright - Fisherov model zauzima središnju ulogu ove teorije i formira početnu točku za primjenu molekularne populacijske genetike. Wright - Fisherov model dodatno je generaliziran te je primjenjen u mnogim područjima biološke znanosti. Čudno je što je Wright tvrdio da su slučajni procesi neophodni za svaki aspekt evolucije, dok je Fisher imao suprotan stav da slučajni procesi imaju manju ulogu pri stvaranju rijetkih novih varijacija. U ovom radu opisan je Wright - Fisherov model, daleko najpoznatiji stohastički model za reprodukciju u populacijskoj genetici. U prvom djelu dane su definicije koje su potrebne za razumjevanje genetičkog djela ovog diplomskog rada. Definirana je DNA molekula te dušične baze, tj

1 UVOD iii nukleotidi. Nakon toga definiran je pojam evolucije te su opisane osnovne sile koje remete nasljednu ravnotežu : mutacija, selekcija i genetički drif koji je detaljnije opisan. U drugom djelu dani su osnovni pojmovi teorije Markovljevih lanaca i martingala zatim je obraden Wright - Fisherov model populacija bez mutacije, zatim u populaciji s mutacijama te je na kraju opisan i Moranov model preklapajućih generacija u kojem se samo jedna jedinka, tj jedan alel mijenja tijekom vremena. U posljednjem poglavlju dan je numerički primjer Wright - Fisherovog modela.

2 OSNOVNI POJMOVI GENETIKE 1 2 Osnovni pojmovi genetike 2.1 DNK i ATCG abeceda života DNK (deoksiribonukleinska kiselina) je složena, vrlo dugačka, nitasta makromolekula, polimer sastavljen od mnogo malih jedinica - nukleotida, nanizanih jedan iza drugoga u dva lanca, omotana jedan oko drugoga. Dva polinukleotidna lanca molekule DNK zavijena su oko zajedničke osi. Takvu strukturu DNK nazivamo dvostrukom zavojnicom. Dušične baze su adenin (A), gvanin (G), citozin(c) i timin (T) i nalaze se na unutarnjoj strani molekule, a vanjsku okosnicu DNK, nepromjenjivu duž cijele molekule, čine deoksiriboze medusobno povezane preko fosfatnih skupina. Primjer: DNK nizove shvatit ćemo kao realizaciju niza nezavisnih slučajnih varijabli X 1,..., X n s vrijednostima u skupu {A, C, T, G} Promatramo DNK spiralnu nit AAATTTGTG Imamo slučajan proces X = {X t, t N 0 } sa skupom stanja {A, C, T, G} Npr. jedna realizacija je: X(0) = A, X(1) = A, X(2) = A, X(5) = T, X(8) = G Slika 2.1 Dio jedne trajektorije procesa X sa skupom stanja {A, C, T, G} Lanci su komplementarni, to jest suprotnog su usmjerenja. Vodikove veze koje povezuju baze na dva komplementarna lanca uvijek nastaju na isti način adenin s jednog lanca uvijek se sparuje s timinom na komplementarnom lancu, a citozin s gvaninom. Primjer: Ako je djelić jedne spiralne niti AAGTCA, tada je ekvivalentan dio druge spirale TTCAGT. U normalnim uvjetima nije moguće sparivanje baza po bilo kojoj drugoj shemi. Slijed baza duž polinukleotidnog lanca nije ničime ograničen i on

2 OSNOVNI POJMOVI GENETIKE 2 čini promjenjivi dio molekule, upravo izmjene navedenih baza ili razlika u broju ponavljanja parova baza koje imaju odreden redoslijed čine osnovu utvrdivanja identiteta odredene osobe. Svaki pojedinačni kontakt izmedu navedenih jedinica naziva se par baza, a cijeli ljudski genom 1 ima oko 3 milijarde parova baza. Ovakva struktura dviju spiralnih niti DNK omogućava prenošenje informacije dijeljenjem kromosoma pri diobi stanice. Kada se stanica treba podijeliti, kromosomske niti se razmotaju. Budući da u jezgri stanice ima mnoštvo slobodnih baza, te baze se vežu na svoje parove na nitima DNK. Tako je informacija sačuvana, kopirana i prenesena na dva novonastala kromosoma. Dva lanca u molekuli DNK su antiparalelni - usmjereni su u suprotnim smjerovima odredenim slobodnim 5 (jedan kraj sadrži fosfatnu grupu, tzv. 5 kraj ), odnosno 3 (drugi kraj DNK polimera sadrži hidroksilne skupine na deoksiribozu, tzv. 3 kraj ) skupinama deoksiriboze. Slika 2.2 Struktura i replikacija DNK lanca Aminokiseline su osnovne strukturne jedinice proteina. Svi proteini u svim organizmima, od bakterija do ljudi, izgradeni su od 20 aminokiselina. Genetska šifra sadržana u DNK mora biti na neki način zapisana linearnim redosljedom dušičnih baza duž polinukleotidnog lanca. Dovoljno je proma- 1 Genom nekog organizma su svi njegovi nasljedni podaci kodirani u DNK

2 OSNOVNI POJMOVI GENETIKE 3 trati samo redoslijed u jednom lancu, jer je drugi lanac prvome komplementaran. Taj redoslijed nukleotida naziva se genetički kod, a sastoji se od tri nukleotida i naziva se kodon kojeg opisujemo trima slovima imena baza (npr. ACT, CAG, TTT). Moguća su 64 kodona, broj svih varijacija trećeg razreda s ponavljanjem skupa od 4 elementa (V r (n) = n r ) koji kodiraju 20 aminokiselina, to jest triplet nukleotida nosi informaciju o vrsti aminokiseline. Rezultati istraživanja koja kombinacija u jednom tripletu predstavlja odredenu aminokiselinu prikazani su u Tablici 2.1 Tablica 2.1 Tablica genetske šifre Primjer: Niz AUG UCC UAU AUC GUU UAA predstavlja lanac sljedećih aminokiselina: Ser - Tyr - Ile -Val. Genetska šifra AUG predstavlja znak za početak, a UAA za završetak lanca aminokiselina. Organizmi mogu imati različit broj kopija svog genetskog materijala. Niži organizmi, poput bakterija, su haploidni - imaju jednu kopiju svog genetskog materijala. Većina viših organizama su diploidni - organizmi koji imaju čitav set kromosoma prisutan u dvije kopije. Neke biljke su tetraploidne (4 kopije) i heksaploidne (6 kopija) ili polipolidne (više kopija, npr. sirak koji ima više od 100 kromosoma 8 osnovnih tipova). Rekombinacija je izmjena genetičkih informacija. Kod reprodukcije haploidnih organizama, postoji jedan roditelj koji daje kopije svog genetskog koda za svoje potomstvo, a kod reprodukcije diploidnih organizama postoje dva

2 OSNOVNI POJMOVI GENETIKE 4 roditelja, jedan kromosom je od oca, a drugi od majke. Dakle, za svako svojstvo postoje dva gena ili dvije informacije. Takav par gena gdje jedan i drugi gen nose informaciju za jedno svojstvo naziva se alel. Svaki gen ima svoje odredeno mjesto na kromosomu. U diploidnoj stanici postoje dva alela od svakog gena koji se nalaze na homolognim kromosomima, od kojih je svaki naslijeden od jednog roditelja. Aleli se označavaju velikim i malim slovima abecede npr. a ili A. Otac genetike, češki redovnik Gregor Mendel, u vrijeme svojih istraživanja nije znao za gene, nego ih je zvao faktorima naslijeda. Primijetio je takoder da neki faktori prevladavaju nad drugima. Jedinka može nositi dva jednaka alela za jedno svojstvo pa se tada naziva homozigot (AA ili aa), a ukoliko su aleli različiti, onda je to heterozigot (Aa). Mendel je križanjem graška visoke i niske stabljike uočio da se u prvoj generaciji pojavljuju biljke s visokim stabljikama. Kada je križao biljke prve generacije medusobno, u idućoj je generaciji bilo i visokih i niskih stabljika. Tako je on zaključio da za jedno svojstvo postoje dva alela (on ih je nazvao nasljednim faktorima). Kako se svojstvo nekad pojavi, a nekad ne, zaključio je da mora postojati razlika u jačini njihova izražavanja u fenotipu. Tako je one koji prevaladavaju nazvao dominantnima (označavaju se velikim slovima abecede), a one potisnute recesivnima (označavaju se malim slovima abecede). Primjer: Smeda boja očiju je dominantno, a plava boja očiju recesivno svojstvo. Netko može nositi gen za boju očiju koji se sastoji od alela za smede A i alela za plave oči a. U tom slučaju, oči će biti smede jer je smeda boja očiju dominantna nad plavom. Često je prisutno pogrešno shvaćanje da je dominantan alel uvijek češći u populaciji dok je recesivan onaj koji je rjedi. Suprotno tomu danas znamo da - kao što kaže G.H. Hardy (1908) : Nema ni najmanjeg temelja ideji da bi dominantno obilježje trebalo pokazivati tendenciju širenje na čitavu populaciju, odnosno, da bi recesivno obilježje trebalo iščeznuti. Učestalost gena može biti visoka ili niska bez obzira kakva je ekspresija toga alela. Fitnes je općenita sposobnost organizma da preživi i reproducira se. Fitnes predstavlja reproduktivni uspjeh organizma, jedinke koje su sposobnije u reprodukciji i pronalasku hrane te preživljavanjem imaju veći reproduktivni uspjeh to jest fitnes. Diploidne jedinke imaju dvije kopije svog genetskog materijala u svakoj stanici, tj. u svakoj stanici postoje dva alela za odredeno svojstvo, stoga kada imamo N stanica to znači da imamo N parova alela, tj. alela. Slučajno razmnožavanje - u prirodnim populacijama dolazi do panmiksije ili slučajnog razmnožavanja što znači da svaka jedinka populacije ima jednaku vjerojatnost da se razmnožava s bilo kojim drugom jedinkom populacije su-

2 OSNOVNI POJMOVI GENETIKE 5 protnoga spola. Genetski lokus je lokacija u genomu organizma, npr. slijed nukleotida koji tvori gen. Genski bazen je cjelokupan set jedinstvenih alela kod odredene vrste ili populacije. 2.2 Evolucija Pojam evolucija znači razvoj, a služi za opisivanje načina razvoja, odnosno promjene živih bića. Razvoj moderne genetike omogućio je proučavanje evolucije istraživanjem populacijske genetike. Promjena frekvencije alela ili genotipova u populaciji odnosno promjena genetičke strukture populacije kroz veliki broj generacija je evolucija. Evolucija započinje narušavanjem genske ravnoteže. Ravnoteža se remeti onda kada se mijenjaju uvjeti u populaciji ili u okolišu. Analize uzročnih osnova evolucije utvrduju da su njezine osnovne sile mutacija, selekcija i genetički drift, znači to su procesi koji remete nasljednu ravnotežu. Evolucija koja se odvija unutar populacije naziva se mikroevolucija. Mikroevolucija je pojava promjena male skale u učestalosti alela u populaciji tijekom nekoliko generacija, takoder je poznata kao promjena na razini vrste (tj. unutar razine vrste). Mikroevolucija sadrži manje sukcesivne promjene u genskoj zalihi odredene populacije od jedne do druge generacije. U njoj djeluju osnovne sile evolucije. Procesi mikroevolucije vode stvaranju novih vrsta, tj. populacija. Makroevolucija je pojava promjena velike skale u učestalosti gena u populaciji, tijekom geološkog vremenskog perioda. Populacijska genetika grana je biologije koja osigurava matematičku strukturu za proučavanje procesa mikroevolucije. 2.2.1 Mutacija Mutacija je trajna (i nasljedna, ako se dogodila u spolnoj stanici) promjena genetskog materijala stanice, tj. DNK ili RNK. Uzroci su mutacija mnogobrojni: greške pri umnožavanju genetskog materijala u procesu stanične diobe, izlaganje vanjskim čimbenicima poput radijacije, različitih kemijskih spojeva ili virusa te programirane ( namjerne ) mutacije tijekom mejoze ili imunološkog odgovora. Mutacije u nespolnim stanicama višestaničnih organizama, tzv. somatske mutacije, ne prenose se na potomstvo i mogu prouzročiti greške u odvijanju staničnih funkcija (greške u reguliranju stanične diobe uzrok su raka) ili smrt stanice. S druge strane, mutacije u spolnim sta-

2 OSNOVNI POJMOVI GENETIKE 6 nicama smatraju se jednim od preduvjeta evolucije jer se procesom prirodnog odabira u populaciji nakupljaju mutacije koje omogućuju bolju prilagodbu uvjetima okoliša i time utječu na bolje preživljavanje jedinki koje ih nose i prijenos na sljedeće generacije. Dakle, u populacijskoj genetici važne su samo mutacije koje se odigravaju u spolnim stanicama jer se jedino one prenose na sljedeću generaciju. 2.2.2 Selekcija Prirodni odabir ili selekcija je prirodni izbor izmedu nositelja različito vrijednih nasljednih faktora. Darwin selekciju objašnjava borbom za opstanak medu pojedinim organizmima, od kojih preživljavaju najsposobniji. Darwin selekciju primjenjuje na jedinke, a ne na populacije, a okoliš kao selektivna sila odabire varijante koje su joj se najbolje prilagodile. Darwin je time naglasio negativno gledište selekcije, ističući da je ona neumoljiva snaga koja uništava jedne, a unaprjeduje druge. Danas je modificirano načelo selekcije temeljna orijentacija u rješavanju evolucijskih problema. Prema Hardy- Weinbergovu pravilu, kao polazištu u populacijskoj genetici, u standardnim uvjetima okoline svi geni populacijskih genskih zaliha dolaze do ravnoteže koja se stalno održava (idealna populacija). Zato je prirodni odabir, osim mutacija, jedina snaga koja uzrokuje promjene u genskoj ravnoteži populacije. Prirodna selekcija utjecaj je bilo kojega faktora iz okoliša organizma. Kao selekcijski faktori mogu djelovati: ekstremne temperature, oborinski omjeri (sušna razdoblja, poplave), kemijski uvjeti, prirodni neprijatelji različitih štetočina i nametnika, paraziti, uzročnici bolesti itd. Natjecanje i borba oko hrane, životnoga prostora i ostalih važnih životnih uvjeta ubraja se u unutarvrstnu selekciju koja podredene skupine potiskuje u nove ekološke niše 2 ili vodi njihovu izumiranju. Tako djeluje selekcijski pritisak. Djelujući tijekom milijuna godina, selekcija omogućuje razvoj novih adaptacija u najrazličitijim sredinama na Zemlji. 2.2.3 Genetički drift Genetički drift odnosi se na promjene u učestalosti alela u genskoj zalihi koje su slučajnog karaktera. Matematički gledano, učestalost alela predstavlja relativnu frekvenciju alela. 3 Drugim riječima, učestalosti alela mogu rasti, padati ili ostati iste, sve kao rezultat slučajnih dogadaja u reprodukciji. U 2 Ekološka niša uloga koju neka jedinka ima u zajednici u odnosu na stanište i njezine interakcije s drugim organizmima. 3 Pokus je ponovljen n puta. Ako se pri tome dogadaj A dogodio n A puta, broj n A zovemo frekvencija dogadaja A, a broj n A zovemo relativna frekvencija dogadaja A. n

2 OSNOVNI POJMOVI GENETIKE 7 većim populacijama je manja vjerojatnost da će doći do genetičkog drifta. Genetički drift se odvija kad se slučajno samo odredeni članovi populacije razmnožavaju i prenose gene u iduću generaciju. Možda je najjednostavniji način za razumijevanje genetičkog drifta analogija bacanja novčića. Vjerojatnost da će pri bacanju simetričnog novčića pasti glava, odnosno pismo, je 1. Ako novčić bacimo 1000 puta, možemo 500 puta 2 dobiti glavu i 500 puta pismo. Moguće su i druge kombinacije (npr. 517 glava i 483 pisma i sl). No, ako je novčić simetričan relativna frkevencija pojavljivanja pisma, odnosno glave, pri velikom broju bacanja novčića približno je jednaka 0.5 (tj. s povećanjem broja bacanja se stabilizira oko 0.5 - statistička stabilnost relativnih frekvencija). Ne možemo unaprijed odrediti koliko će se glava realizirati u odredenom broju bacanja, no možemo izračunati relativnu frekvenciju takvog dogadaja. Relativna frekvencija realizacija glave rezultira histogramom koji dobro aproksimira zvonoliku krivulju (binomna aproksimacija normalne distribucije). Isti vjerojatnosni princip uzimanja uzoraka javlja se u evoluciji. Ako je netko heterozigot za odredeni lokus s genotipom Aa, vjerojatnost da će svom djetetu proslijediti bilo koji od alela A i a jednaka je 1. Ako takva osoba ima 10-ero djece, najvjerojatnije (u usporedbi sa 2 svim ostalim mogućnostima) će proslijediti 5 kopija A i 5 kopija a alela. No, u najvećem broju slučajeva ona neće proslijediti baš taj omjer alela. Može proslijediti 3A alela i 7a alela te će tada doprinijeti idućoj generaciji više a alela od očekivanog. Ovo je slučajni proces koji se javlja kod svake jedinke u populaciji, te je vjerojatno da će se učestalosti alela promijeniti iz jedne na drugu generaciju (naročito ako je broj bacanja (broj potomaka) mali, kao što je to slučaj u maloj populaciji). Ako je u roditeljskoj populaciji učestalost alela 1, njegova učestalost u idućoj generaciji može biti ista, no isto tako može 2 biti viša ili niža. Genetički drift modeliran je slučajnom procesom u kojem se učestalost alela može mijenjati u bilo kojem smjeru i u različitoj veličini iz generacije u generaciju. Učestalosti alela kontinuirano se mijenjaju dok neki alel nestane ili bude apsorbiran. Ukoliko dode do gubitka jednog alela (i time do apsorpcije drugog alela), učestalost alela ostati će 0 (i 1) sve dok novi alel ne bude uveden u populaciju putem mutacije ili migracije. Matematička formulacija genetičkog drifta Zamislimo pokus nasumičnog odabira izmedu dvije vrste alela (A i a) iz genskog bazena, pri čemu je p vjerojatnost odabira alela A, a q = 1 p vjerojatnost odabira alela a. Pretpostavimo da taj pokus ponavljamo nezavisno N puta i pri tome nas zanima broj alela A. Označimo broj alela A s k. Neka je X diskretna slučajna varijabla s konačnim skupom stanja koja

2 OSNOVNI POJMOVI GENETIKE 8 prima vrijednosti u skupu {0,1,...,N} s vjerojatnostima ( ) N P (X = k) = p k q N k k Za slučajnu varijablu X koja opisuje broj alela A u N nezavisnih ponavljanja slučajnog pokusa kažemo da ima binomnu distribuciju s parametrima N i p. Populacijska genetika je grana genetike koja istražuje raspodjelu učestalosti alela i promjene koje nastupaju pod utjecajem evolucijskih sila. Populacijska genetika jedna je od osnovnih sastavnica moderne evolucijske sinteze čiji su utemeljitelji bili S. Wright, J.B.S. Haldane i R.A. Fisher. U terminima populacijske genetike imamo: veličina populacije od N jedinki ima alela (kopija gena) 1 lokus, 2 alela: A koji se pojavljuje s vjerojatnošću p i a koji se pojavljuje s vjerojatnošću q X je slučajna varijabla kojom modeliramo broj alela A u kopija gena skup vrijednosti slučajne varijable X : {0, 1, 2, 3,..., 1, } relativna frekvencija alela A može poprimiti vrijednost iz skupa: { 1 0,, 2,..., 1 }, 1 Vjerojatnost da se slučajna varijabla X realizira s k alela tipa A dana je izrazom: ( ) P (X = k) = p k q k k Primjer: (vjerojatnost genotipova 4 ) Pretpostavimo da je : vjerojatnost pojavljivanja alela A : p = 0.33 vjerojatnost pojavljivanja alela a : q = 0.67 Tada znamo da je P (AA) = 0.33 2 = 0.109 P (Aa) = 0.33 0.67 = 0.221 P (aa) = 0.67 0.33 = 0.221 P (aa) = 0.67 2 = 0.449 4 Genotip je skup svih gena nekog organizma

2 OSNOVNI POJMOVI GENETIKE 9 Slika 2.3 Prikaz distribucije mogućih genotipova histogramom OPĆENITO X - slučajna varijabla kojom modeliramo broj uspjeha N - broj nezavisnih ponavljanja pokusa p - vjerojatnost uspjeha q - vjerojatnost neuspjeha E(X) = Np V ar(x) = Npq POPULACIJSKA GENETIKA X - slučajna varijabla kojom modeliramo broj alela A u kopija gena - broj alela u gametima p - vjerojatnost odabira alela A q - vjerojatnost odabira alela a E(X) = p V ar(x) = pq Efekt genetičkog drifta ovisi o: veličini populacije N-efekt drifta je veći u malim populacijama genetičkoj varijabilnosti 5 pq - efekt drifta je veći u populacijama s većom genetičkom varijabilnošću. Genetički drift u malim populacijama može dovesti do gubitka odredenog alela ili njegove fiksacije. Slijedi primjer genetičkog drifta u populaciji s malim brojem jedinki pri kojem kroz 3 generacije dolazi do gubitka alela a, a fiksacije alela A. 5 Genetička varijabilnost: postojanje dva ili više alela pojedinog gena u promatranoj populacija, genetička varijabilnost predstavlja sposobnost genetičkog materijala da se mijenja čime se postiže njegova ogromna raznovrsnost.

2 OSNOVNI POJMOVI GENETIKE 10 Slika 2.4 Gubitak alela a kroz tri generacije Kako smo već i rekli, efekt drifta veći je u malim populacijama. Iduća slika prikazuje utjecaj genetičkog drifta na populaciju od 500 i na populaciju od 25 kamenjarki. Aleli brzo postanu ili fiksirani ili nestanu ako je populacija konstantne veličine i ima 25 jedinki Kamenjarki dok se, oba alela zadržavaju u populaciji ukoliko je njena konstantna veličina 500. Slika 2.5. 6 Prikaz utjecaja veličine populacije kamenjarki 7 na efekt genetičkog drifta 6 preuzeto s www.biolozi.net/evolucija/vezbe/geneticki drift.ppt 7 Grupa insekata pod imenom Plecoptera (Kamenjarke ili Stone Fly)

3 WRIGHT - FISHEROV MODEL 11 3 Wright - Fisherov model Daleko najpoznatiji stohastički model za reprodukciju u populacijskoj genetici je upravo Wright - Fisherov model. Promatrat ćemo model u dva slučaja: s mutacijama u populaciji i bez mutacija. 3.1 Osnovni pojmovi teorije Markovljevih lanaca i martingala DEFINICIJA 1 Slučajan proces {X t, t T } je familija slučajnih varijabli na istom vjerojatnosnom prostoru (Ω, F, P), pri čemu je t element parametarskog skupa ili skupa indeksa T R. Skup vrijednosti koje može poprimiti svaka slučajna varijabla X t naziva se skup stanja slučajnog procesa {X t, t T } i označava sa S. Elemente skupa S nazivamo stanjima slučajnog procesa {X t, t T }. S obzirom na skup S, razlikujemo sljedeće kategorije slučajnih procesa: ako je S diskretan skup, govorimo o slučajnom procesu s diskretnim skupom stanja, ako S nije diskretan skup, npr. ako je S = R ili je S interval realnih brojeva, govorimo o slučajnom procesu s neprekidnim skupom stanja. DEFINICIJA 2 Slučajan proces {X t ; t T } je Markovljev proces ako za svaki izbor t 1,... t n T takvih da je t 1 <... < t n, sve x 1,..., x n S i a, b R t.d. je a < b, vrijedi Markovljevo svojstvo, tj. P (a < X tn b X tn 1 = x n 1,..., X t1 = x 1 ) = P (a < X tn b X tn 1 = x n 1 ), n {2, 3,...} Pojednostavljeno rečeno, Markovljevo svojstvo nam kaže: ako je poznata prošlost (modelirana slučajnim varijablama X t1,..., X tn 2 ) i sadašnjost (modelirana slučajnom varijablom X tn 1 ), onda budućnost (modelirana slučajnom varijablom X tn ) ovisi samo o sadašnjosti, dok prošlost nema utjecaja. Ako je skup stanja Markovljevog procesa diskretan, govorimo o Markovljevom lancu. Markovljev proces u neprekidnom vremenu s neprekidnim skupom stanja i neprekidnim trajektorijama zovemo difuzijskim procesom ili difuzijom.

3 WRIGHT - FISHEROV MODEL 12 DEFINICIJA 3 Slučajan proces {X n ; n N 0 } s diskretnim skupom stanja S je Markovljev lanac ako vrijedi P (X t = i X t1 = i 1, X t2 = i 2,..., X tn = i n ) = P (X t = i X tn = i n ) za sve t 1, t 2,..., t n, t N 0 t.d. je t 1 <... < t n < t i za sve i, i 1,..., i n S za koje su gornje uvjetne vjerojatnosti dobro definirane. DEFINICIJA 4 Funkcija prijelaznih vjerojatnosti Markovljevog lanca dana je izrazom p(i, s; t, j) = P (X t = j X s = i), s, t N 0, s < t. Funkcija prijelaznih vjerojatnosti u jednom koraku dana je izrazom p ij = p(i, n; n + 1, j) = P (X n+1 = j X n = i), n N 0, i, j S. Ukoliko funkcija prijelaznih vjerojatnosti u jednom koraku ne ovisi o n, tj. za sve n, m N vrijedi p(i, n; n + 1, j) = p(i, m; m + 1, j) kažemo da se radi o homogenom Markovljevom lancu. DEFINICIJA 5 Neka je {X n, n N 0 } Markovljev lanac sa skupom stanja S i matricom prijelaznih vjerojatnosti Π. Za B S definiramo prvo vrijeme pogadanja tog skupa kao T B = inf {n 0 : X n B}, uz konvenciju da je inf := +. U slučaju B = {j} za j S zbog jednostavnosti pišemo T j umjesto preciznijeg T {j}. Kažemo da je stanje j S dostižno iz stanja i S (oznaka i j) ako je P (T j < X 0 = i) > 0, tj. stanje j dostižno je iz stanja i ako lanac s pozitivnom vjerojatnošcu posjeti stanje j krenuvši iz stanja i. Kažemo da stanja i i j komuniciraju (oznaka i j) ako je i j i j i. Markovljev lanac {X n, n N 0 } je ireducibilan ako se prostor stanja S sastoji samo od jedne klase komuniciranja, tj. ako i j za sva stanja i, j S.

3 WRIGHT - FISHEROV MODEL 13 DEFINICIJA 6 Matrica [p ij ] i,j S zove se matrica prijelaznih vjerojatnosti homogenog Markovljevog lanca. Elementi ove matrice su nenegativni, tj. p i,j 0 za sve i, j S, a zbroj elemenata u svakom njezinom retku jednak je jedan, tj. = 1 za svaki i S. Matricu čiji elementi zadovoljavaju navedena j S p ij svojstva nazivamo stohastičkom matricom. DEFINICIJA 7 Slučajna varijabla T : Ω N 0 { } zove se vrijeme zaustavljanja Markovljevog lanca {X n, n N 0 } ako je za svaki n N 0 {T n} σ{x 0, X 1,..., X n }, tj. dogadaj {T n} ovisi samo o X 0, X 1,..., X n. DEFINICIJA 8 Skup stanja C S je zatvoren ako i C vrijedi P ( T S\C = X 0 = i) = 1. Skup C S je zatvoren ako lanac gotovo sigurno ne može napustiti skup C jednom kad se nade u njemu. S druge strane, u zatvoren skup se može ući. Za stanje j S kažemo da je apsorbirajuće stanje ako je {j} zatvoren podskup skupa S. DEFINICIJA 9 Slučajan proces {X t, t T } u diskretnom ili neprekidnom vremenu je martingal ako vrijedi: E[ X t ] <, za svaki t T za svaki izbor t 1,..., t n+1 T takvih da je t 1 <... < t n+1 i sve x 1,..., x n S vrijedi E[X tn+1 X t1 = x 1,..., X tn = x n ] = x n. Martingale možemo shvatiti kao model za pravdne igre. Naime, ako X t opisuje iznos novca kojeg igrač ima u trenutku t, tada martingalno svojstvo kaže da će očekivani iznos kojim igrač raspolaže u trenutku t n+1, uz poznati iznos x n kojim raspolaže u trenutku t n, biti jednak upravo x n, tj. očekivano igrač u poštenoj igri niti zaraduje niti gubi.

3 WRIGHT - FISHEROV MODEL 14 DEFINICIJA 10 Neka je {X n, n N 0 } Markovljev lanac s prebrojivim skupom stanja S i prijelaznom matricom P. Vjerojatnosna distribucija π = (π i : i S) na S je stacionarna distribucija (ili invarijantna distribucija) Markovljevog lanca X (odnosno prijelazne matrice P) ako vrijedi odnosno po komponentama π = πp, π j = k S π k p kj, za sve j S. DEFINICIJA 11 Pretpostavimo da je zadan Markovljev lanac {X n, n N 0 } sa skupom stanja S i matricom 1-koračnih prijelaznih vjerojatnosti Π. Vrijeme m-tog povratka u stanje i S je slučajna varijabla T (m) i = { min{n > T (m 1) i : X n = i}, T (m 1) i <, T (m 1) i =. Dostižno stanje i S je povratno ako vrijedi P (T (1) i < X 0 = i) = 1 Dostižno stanje i S je prolazno ako vrijedi P (T (1) i < X 0 = i) < 1 Kažemo da je stanje i S pozitivno povratno ako je očekivano vrijeme potrebno Markovljevom lancu da iz stanja i opet dode do i konačno: E i [T i ] < gdje je T i = T (1) i vrijeme prvog povratka Markovljevog lanca u stanje i. DEFINICIJA 12 Za stanje i S Markovljevog lanca s matricom prijelaznih vjerojatnosti Π s d(i) označavamo najveći zajednički djelitelj skupa {n 1 : p (n) ii > 0}. Stanje i je aperiodično ako je d(i) = 1, u suprotnom stanje i je periodično s periodom d(i).

3 WRIGHT - FISHEROV MODEL 15 3.2 Wright - Fisherov model bez mutacija Sljedeća slika ukratko prikazuje suštinu modela koji ćemo nakon toga detaljno razraditi. Slika 3.1 Wright - Fisherov model populacijske genetike: koraci izgradnje generacije n + 1 Sada ćemo postupno objasniti Sliku 3.1. Koraci konstruiranja populacije u generaciji (n + 1) iz generacije n : (i) - slučajni odabir gena iz generacije n (ii) - kopiranje odabranog gena (iii) - stavljanje kopije gena u iduću generaciju (n + 1) (iv) - vraćanje originala u roditeljsku populaciju (generaciju n) Koraci se ponavljaju sve dok veličina populacije generacije (n+1) ne postane jednaka veličini populacije generacije n. Promatramo genetski lokus s dva alela A i a koji imaju isti fitnes u diploidnoj populaciji konstantne veličine N s nepreklapajućim generacijama koje prolaze kroz proces slučajnog razmnožavanja. Stanje populacije u početnoj (roditeljskoj) generaciji n možemo prikazati kao genski bazen koji sadrži alela: označenih s A ima i, a označenih s a ima ( i).

3 WRIGHT - FISHEROV MODEL 16 Slika 3.2 Genski bazen s dva alela A i a Generacija (n+1) sastoji se od alela i nastaje provodenjem nezavisnih slučajnih odabira od po jednog alela iz početne generacije n, s tim da se nakon svakog odabira izvučeni alel vraća u roditeljsku populaciju. S obzirom na definiciju binomne distribucije vidimo da je vjerojatnost da imamo j alela A u trenutku (n + 1) kada imamo i alela A u trenutku n ( ) P ij = p j i j (1 p i) j, (i, j = 0, 1,..., ) (1) gdje je p i = i klasična vjerojatnost izvlačenja alela A u jednom pokušaju kada ih postoji i u genskom bazenu i ( ) ()! = j j!( j)! ( je broj načina odabira j alela od, tj. ) j predstavlja broj svih kombinacija j-tog razreda u -članom skupu i naziva se binomni koeficijent. Broj gena tipa A u n-toj populaciji gena potomaka modeliramo slučajnom varijablom X n, n N, pa X 0 opisuje distribuciju alela A u početnoj, roditeljskoj populaciji. Je li proces {X n, n N 0 } iz Wright - Fisherovog modela Markovljev lanac? X n - slučajna varijabla kojom modeliramo broj alela A u n-toj populaciji gena potomaka koja ima skup stanja S = {0, 1, 2,..., }. Slučajna varijabla X n+1, kojom modeliramo broj alela A u (n+1)-oj genskoj populaciji, ovisi samo o broju alela A u n-toj genskoj populaciji, znači ispunjeno je Markovljevo svojstvo pa znamo da je slučajan proces {X n, n N 0 } Markovljev lanac. Funkcija prijelaznih vjerojatnosti u jednom koraku (pod pretpostavkom nepostojanja mutacija u početnoj genskoj populaciji) dana je izrazom: ( p ij = P (X n+1 = j X n = i) = j ) ( i ) j ( 1 i ) j, i, j S.

3 WRIGHT - FISHEROV MODEL 17 p ij = vjerojatnost da će u (n + 1)-oj generaciji biti j alela A, ako znamo da ih je u n-toj generaciji bilo i. Dugoročno ponašanje Wright-Fisherovog modela: na kraju, broj A-ova u populaciji, postat će 0 (što interpretiramo kao nestajanje alela A iz genskog bazena) ili (što interpretiramo kao nestajanje alela a). Jednom izgubljen alel iz populacije nikada se ne vraća (jer pretpostavljamo da se mutacije u populaciji ne mogu dogoditi), tako da su stanja 0 i apsorbirajuća stanja ovog Markovljevog lanca. Nakon što lanac ude u jedno od tih stanja ne može ih napustiti. Neka je τ = min{n : X n = 0 ili X n = } vrijeme apsorpcije, tj. trenutak u kojemu se populacija sastoji od svih alela A ili svih a. Kako je broj jedinki konačan i uvijek je moguće izvući ili sve alele A ili sve alele a, apsorpcija će se na kraju dogoditi. Kako bi izračunali vjerojatnost apsorpcije u svim A stanjima, neka je X n broj alela A u trenutku n. Budući je očekivanje binomne distribucije p (pogledati izraz (1)) slijedi da je ( ) i E(X n+1 = j X n = i) = = i, za sve n N 0 (2) što je upravo poznata vrijednost slučajne varijable X n. Znači, matematičko očekivanje slučajne varijable X n je konstantno u vremenu. Iz toga slijedi da je P i (X τ = ) = P (X τ = X n = i) = i. (3) Zašto je ovo istina? {X n, n N 0 } je martingal, vjerojatnosni model poštene igre. Intuitivno, ako se igra pošteno tada je očekivani iznos novca koji kockar ima na kraju jednak iznosu koji je imao na početku. Dakle, ako koristimo P i za označavanje distribucije vjerojatnosti procesa X n za koji je X 0 = i i E i za označavanje očekivane vrijednosti s obzirom na P i, tada je E i X τ = E i X 0 = i (4) Kako je vrijednost slučajne varijable X τ ili 0 ili imamo da je i = E i X τ = P i (X τ = ) i željeni rezultat slijedi. Kako bi dobili ideju koliko vremena je potrebno da se dogodi apsorpcija, ispitat ćemo heterozigotnost (različitost alela). Ako imamo alela A i a u genskom bazenu, i pri tome je X n slučajna varijabla kojom se modelira broj alela A, ( X n ) je slučajna varijabla kojom se modelira broj alela a. Slučajnom varijablom H 0 n modeliramo heterozogotnost, vjerojatnost da su dva slučajno odabrana alela (bez vraćanja)

3 WRIGHT - FISHEROV MODEL 18 u trenutku n različita. Broj načina da odaberemo jedan alel je, a dva (bez vraćanja prvog alela u genski bazen) je po principu produkta ( 1) pa je ukupan broj načina na koji možemo odabrati bilo koja dva alela iz genskog bazena s ukupno alela jednak ( 1). Slijedi da je 2X n ( X n ) slučajna varijabla kojom modeliramo broj načina na koji se iz genskog bazena s alela bira 2 različita alela. Prema tome, heterozigotnost modeliramo slučajnom varijablom H 0 n = 2X n( X n ) ( 1) Neka je h(n) = EHn 0 matematičko očekivanje heterozigotnosti u trenutku n. Pokažimo ( h(n) = 1 1 ) n h(0). (5) Prije dokaza pojasnit ćemo teoriju koalescencije i definirat ćemo pojam slučajne šetnje s pojavom spajanja u diskretnom vremenu (discrete time coalescing random walks). TEORIJA KOALESECENCIJE Prema teoriji koalescencije, ako se za bilo koja dva haploidna organizma koja se razlikuju u nekom nukleotidu prati njihovo porijeklo unazad, doći će se do točke u vremenu u kojoj se nalazi najbliži zajednički predak tih dviju jedinki (Most Recent Common Ancestor, MRCA) i to je točka u kojoj dvije linije koalesciraju. Evolucijska linija (lineage) predstavlja niz predačko potomačkih populacija jedne vrste ili niz predačko potomačkih taksona koji nastaju jedan iz drugog bez grananja. Linije gena će se spajati (koalescirati) uvijek kada dvije jedinke imaju istog roditelja. Teoriju je razvio Sir John Kingman. Prema teoriji koalescencije, svi su aleli (i geni) u nekoj populaciji naslijedeni od samo jednog pretka. Ako se nasljedno srodstvo zapiše u formi filogenetskog stabla, zvanog genealogija gena, za gen ili alel koji nas zanima kaže se da koalescira u zajedničkom pretku (ko-ancestor, ko-predak). S obzirom da je proces fiksacije gena zbog genetičkog drifta ključna komponenta teorije koalescencije, najkorisnije je kada genski lokus koji se istražuje nije pod utjecajem prirodnog odabira. Vjerojatnost apsorpcije U uvjetima djelovanja isključivo genetičkog drifta, svaki ograničeni set gena ili alela ima točku koalescencije u kojoj svi potomci konvergiraju ka jednom pretku (tj. koalesciraju). Ova činjenica može se koristiti kako bi se derivirala stopa fiksacije (fiksacija u zajedničkom pretku) neutralnog alela za

3 WRIGHT - FISHEROV MODEL 19 populaciju različite veličine. Zbog pretpostavke da je učinak prirodnog odabira zanemariv, vjerojatnost u bilo kojoj vremenskoj točki da alel postane fiksiran isključivo je funkcija frekvencije p u populaciji u točki. Za diploidni organizam u populaciji veličine N i stopi mutacije (vjerojatnost pojave odredene mutacije po gametu po generaciji ) µ, početna učestalost nove mutacije je 1, dok je broj novih mutacija u svakoj generaciji µ. Kako je stopa fiksacije stopa nove neutralne mutacije umnožena za njenu vjerojatnost fiksacije, ukupna vjerojatnost fiksacije mutiranog alela u populaciji je µ 1 = µ. Stoga stopa fiksacije za mutaciju (bez selekcije) je jednostavno stopa uvodenja takvih mutacija. Vrijeme koalescencije Korisna analiza temeljena na teoriji koalescencije traži predvidanje količine vremena koje je proteklo izmedu uvodenja mutacije i distribucije odredenog gena ili alela u populaciji. Taj vremenski period jednak je vremenu u kojem je živio najbliži zajednički predak. Vjerojatnost da dvije linije koalesciraju u prvoj neposrednoj prethodnoj generaciji jednaka je vjerojatnosti da oni imaju zajedničkog roditelja. U diploidnoj populaciji konstantne veličine s kopija svakog lokusa, ima potencijalnih roditelja u prethodnoj generaciji, dakle, vjerojatnost da dva alela imaju zajedničkog roditelja je 1 pa je vjerojatnost da oni ne koalesciraju je ( ) 1 1. U svakoj uzastopnoj prethodnoj generaciji, vjerojatnost koalescencije je geometrijski distribuirana, znači, to je vjerojatnost nekoalescencije u t 1 prethodnih generacija pomnoženo s vjerojatnošću koalescencije u generaciji koja nas zanima: P c (t) = ( 1 1 ) t 1 1 Za dovoljno velike vrijednost N, ova distribucija može se dobro aproksimirati eksponencijalnom distribucijom s funkcijom gustoće ( ) 1 f(t) = e t I 0, (t) Eksponencijalna distribucija s parametrom λ = 1 ima matematičko očekivanje i standardnu devijaciju koja je jednaka. Stoga, premda je očekivano vrijeme koalescencije, stvarna vremena koalescencije imaju širok raspon varijacije. Neka vektor X(t) = (X 1 (t), X 2 (t),..., X n (t)) označava skup stanja u trenutku t, t > 0, pri čemu X i (t) pokazuje postoji li čestica na poziciji i. X i (t)

3 WRIGHT - FISHEROV MODEL 20 je 1 ukoliko je čestica prisutna, u suprotnom je 0 i sustav ima početno stanje X 0 = {1, 1, 1,..., 1}. Možemo uvesti notaciju za broj čestica u sustavu n (populaciji) u trenutku t kao C t = X i (t), gdje je C 0 = n. Sada možemo i=1 zapisati definiciju spomenutog stohastičkog procesa. DEFINICIJA Pretpostavimo da slučajne varijable X i (t), 1 i n, zajedno opisuju stanja sustava X(t). Proces mijenja svoja stanja u bilo kojoj točki diskretnog vremena t, t > 0, prema sljedećoj shemi: 1 1. Postojeća čestica u sustavu slučajno je odabrana s vjerojatnošću. C t 1 Zabilježimo indeks odabrane čestice s i što predstavlja njenu udaljenost od originala. 2. Odabrana čestica pomiče se jedan korak u nekom smjeru, pri čemu je smjer slučajan, na lokaciju s indeksom j = i + 1 ili j = i 1. Ukoliko je neka druga čestica locirana na poziciji j, onda će čestica na poziciji i biti apsorbirana u česticu na poziciji j i nestati iz sustava. Ukoliko je mjesto j prazno, onda čestica s pozicije i prelazi na poziciju j i ostaje u sustavu. 3. Postupak se ponavlja sve dok C t = 1 za neki t > 0. Dokaz kopije lokusa 1, 2,..., promatramo kao jedinke. Pretpostavimo da smo izabrali dvije jedinke x 1 (0) i x 2 (0) u trenutku n. Jedinke i = 1, 2 su potomci jedinke x i (1) u trenutku (n 1), koja je potomak od x i (2) u trenutku (n 2) itd. Kada je x 1 (m) x 2 (m) dva izbora roditelja su nezavisna. Ako je x 1 (m) = x 2 (m) tada imamo x 1 (l) = x 2 (l) za m < l n. Slika 3.3 Trajektorije promatranih slučajnih šetnji u diskretnom vremenu

3 WRIGHT - FISHEROV MODEL 21 U tom modelu jedinke (aleli) 1, 2,, su predstavljene kao prostorne lokacije, mjesta, dok se pokretni objekti nazivaju čestice (x 1 (i) i x 2 (i) u našem primjeru). Kada se čestice nalaze na različitim mjestima, tj. kada se ne podudaraju na poziciji i, i {0, 1,..., }, one se kreću nezavisno, no kada se nadu na istom mjestu kao i neka druga čestica one se spoje i postaju jedna čestica. Kako bi dvije odabrane čestice bile različite u trenutku n, trajektorije slučajne šetnje ne smiju se podudarati niti u jednom trenutku m, 1 m n. Budući da je vjerojatnost da dode do podudaranja dviju, slijedi da je nepodudaranje čestica na ( istim pozicijama dogadaj vjerojatnosti 1 1 ) n. Kada se dvije trajektorije ne podudaraju niti na jednoj od pozicija 1,...,, x 1 (n) i x 2 (n) su dvije jedinke slučajno izabrane iz populacije u trenutku 0, tako da je vjerojatnost čestica na istoj poziciji jednaka 1 da su različiti jednaka H 0 = h(0). Izraz (5) slijedi primjenom formule za vjerojatnost presjeka nezavisnih dogadaja. Kada je x malen poznato je da je (1 x) e x. Dakle, kada je N velik izraz (5) se može zapisati kao h(n) e n h(0) pa heterozigotnost teži u nulu eksponencijalnom brzinom kad n. Ako promatramo k jedinki, onda je vjerojatnost sudara jednaka ( ) k(k 1) 1 k = 2, k! k(k 1)(k 2)! k(k 1) = = =, 2 2!(k 2)! 2(k 2)! 2 gdje prvi faktor daje broj načina odabira dvije od k jedinki koje se sudaraju, a drugi vjerojatnost da će dvije od k jedinki odabrati istog roditelja. Ovdje ignoriramo vjerojatnost da se dva različita para roditelja sudare na jednom mjestu ili da će tri jedinke izabrati istog roditelja. Koristeći vjerojatnost suprotnog dogadaja i nezavisnost medu generacijama, slijedi da je vjerojatnost da neće doći do sudara u prvih n generacija jednaka = ( k(k 1) 1 2 1 ) n ( k(k 1) exp 2 S obzirom da je eksponencijalna distribucija s parametrom λ definirana funkcijom distribucije P (T t) = 1 e λt I 0, (t) i ima očekivanje 1, vidimo λ da ako vrijeme izrazimo u smislu generacija, tj t = n, onda za veliki N vrijeme do prvog sudara ima približno eksponencijalnu distribuciju s očekivanjem 2. Koristeći terminologiju iz teorije Markovljevih lanaca u k(k 1) kontinuiranom vremenu, k čestica se spaja s k 1 po stopi k(k 1). Iduća slika 2 prikazuje proces spajanja. Radi jednostavnosti nije prikazano kako se čestice n ).

3 WRIGHT - FISHEROV MODEL 22 kreću u setu prije sudara, samo pokazuje kada će se sudar dogoditi. Slika 3.4 Proces spajanja čestica koji prikazuje kada će se sudar dogoditi Neka T j označava vrijeme u kojem se prvi put pojavljuje j genskih veza i neka je t j vrijeme tijekom kojeg postoji točno j genskih veza. Znači, ako je t 5 vrijeme tijekom kojeg postoji točno 5 genskih veza, nakon što dvije jedinke koje imaju zajedničkog pretka koalesciraju, t 4 je vrijeme tijekom kojeg postoji točno 4 genskih veza. Teorem 1 Kada mjerimo u jedinicama generacija, vrijeme tijekom kojeg postoji j genskih veza, ima približno aproksimativnu eksponencijalnu distibuciju s očekivanjem 2 j(j 1). Ako započnemo s uzorkom veličine k iz populacije, onda je ukupno vrijeme potrebno da se spajanjem uzorak smanji na samo jednu gensku vezu (jedinka koja predstavlja zajedničkog pretka cijelog uzorka od N jedinki) T 1 = t k + + t 2 tako da je očekivanje k 2 k ( 1 E[T 1 ] = j(j 1) = 2 j 1 1 ) ( = 2 1 1 ) (6) j k j=2 j=2 Treba imati na umu da (6) konvergira ka 2 kad k, ali vrijeme t 2 u kojem postoje samo dvije genske veze (znači i dvije jedinke) ima Et 2 = 1, tako da očekivano vrijeme čekanja za zadnji sudar uvijek čini barem polovicu od ukupnog vremena spajanja. Kako bi to učinili obilježit ćemo jedinke u uzorku kao 1,..., k. Tada se genetsko stanje populacije može u bilo koje vrijeme prikazati kao particija, m A 1,..., A m od {1, 2,..., k} : A i = {1, 2,..., k} i ako je i j skupovi A i i=1

3 WRIGHT - FISHEROV MODEL 23 i A j su disjunktni. Riječima rečeno, svaki A i sastoji se od jednog podskupa čestica koje su se spojile i stoga su identične 8. Kako bismo navedeno bolje razumjeli, pogledajmo još jednom prethodnu sliku. Particije su vrijeme 0 {1} {2} {3} {4} {5} T 4 {1} {2, 3} {4} {5} T 3 {1} {2, 3} {4, 5} T 2 {1, 2, 3} {4, 5} T 1 {1, 2, 3, 4, 5} U početku se particija sastoji od 5 jednočlanih skupova jer još nije došlo do spajanja. Nakon što se 2 i 3 spoje u vremenu T 4, pojavljuju se u istom skupu. Zatim se spoje 4 i 5 u vremenu T 3 i tako do vremena T 1 u kojem sve jedinke čine jedan skup. Neka je ε k skup particija od {1, 2,... k}. Ako je ξ ε k, neka je ξ broj skupova koji čine ξ, tj. broj veza koje ostaju spojene. Ako, npr., ξ = {{1}, {2, 3}, {4, 5}}, tada je ξ = 3. Neka je ξi k, i = k, k 1,..., 1 particija od {1, 2,..., k} u vremenu T i, prvo vrijeme u kojem postoji i veza. Klingman (1982) je pokazao Teorem 2 Ako je ξ particija od {1, 2,..., k} i ξ = i, onda P (ξ k i = ξ) = c k,i w(ξ) Ovdje su w(ξ) težine, w(ξ) = λ 1! λ i!, gdje su λ 1,..., λ i veličine skupova i u particiji i konstanta (k i)!i!(i 1)! c k,i = k!(k 1!) je izabrana tako da je suma vjerojatnosti jednaka jedan. Treba imati na umu da težine pogoduju particijama koje su nejednake. U Teoremu 2 prva i zadnja particija su trivijalne. ξk k = {{1},..., {k}} je najbolja moguća particija, a ξ1 k = {1, 2,..., k} najgrublja. S obzirom na sve particije ξ = {A 1,..., A j } imamo veličina(ξ) = {λ 1,... λ j } gdje je λ i broj točaka u A i, i redosljed kojim su pisane veličine nije važan. Druga najgrublja particija ξ2 k sadrži dva skupa. Koristeći novu notaciju, veličina (ξ2) k = {i, k i} za neke i [1, k 1]. Ako je i = k i tada 8 Identični aleli su oni aleli koji su identičnog porijekla tj. predstavljaju replike istog alela pretka.

3 WRIGHT - FISHEROV MODEL 24 imamo skup s dva identična elementa. Koristeći Teorem 2 i pretpostavljajući i (k i) imamo ( ) k P (veličina(ξ2) k = {i, k i}) = c k,2 i!(k i)! i gdje treći izraz daje broj ξ s veličinom (ξ2) k = {i, k i}. Sijedi da je i (k i). 3.3 Wright - Fisherov model s mutacijama Pretpostavimo da, nakon što uzmemo uzorak iz genskog bazena u trenutku n i prije nego što ispustimo rezultat u genski bazen u trenutku (n + 1), a postaje A s vjerojatnošću u i A postaje a s vjerojatnošću v, tj. dogadaju se mutacije s vjerojatnostima u i v, u, v (0, 1). Vjerojatnost da postoji j alela A u trenutku (n + 1) kada ih je i u trenutku n dana je formulom ( ) p(i, j) = p j i j (1 p i) j (7) ali sada vjerojatnost p i izvlačenja alela A, kada je broj alela A u genskom bazenu i, prema svojstvu aditivnosti vjerojatnosti i vjerojatnosti presjeka nezavisnih dogadaja, postaje p i = i (1 v) + i u (8) Riječima rečeno ili izvučemo alel A i on ne mutira ili izvučemo alel a i on mutira u varijantu A. Posljedica postajanja mutacija je nestajanje apsorbirajućih stanja 0 i, tako da se u ovom modelu prostor stanja sastoji samo od jedne klase komuniciranja pa je lanac ireducibilan, tj. cijeli konačan skup stanja je jedna klasa komuniciranja. Dakle, genetička varijabilnost više ne postoji. Prijelazna vjerojatnost za model s mutacijom je p ij > 0, jer više nema apsorbirajućih stanja, za svaki i, j pa je ovaj Markovljev lanac aperiodičan. Kako je skup stanja konačan i lanac je ireducibilan, slijedi da je povratan (tj. svako njegovo stanje je povratno). Lanac je i pozitivno povratan jer je očekivano vrijeme potrebno Markovljevom lancu da iz stanja i opet dode do i konačno. Budući je lanac ireducibilan i pozitivno povratan, slijedi da ima jedinstvenu stacionarnu distribuciju. A budući je lanac ireducibilan, aperiodičan i ima stacionarnu distribuciju, slijedi da je ta stacionarna distribucija upravo njegova granična distribucija: lim n P (X n = i). Znači, kad broj generacija n, P (X n = i) konvergira ka granici π(i), što

3 WRIGHT - FISHEROV MODEL 25 je jedinstvena stacionarna distribucija ovog Markovljevog lanca 9, tj. jedinstveno rješenje sustava jednadžbi π(i)p(i, j) = π(j) i s π(i) 0 i i π(i) = 1 Slika 3.5 Promjene spajanja čestica pri kojem se čestice poništavaju Stacionarnu distribuciju opisat ćemo u terminu koalescencije. Neka je u vjerojatnost da su dva alela koalescirala u alel A i v vjerojatnost da su dva alela koalescirala u alel a i (1 u v) vjerojatnost da čestice skaču na slučajno odabrano mjesto, tj. nisu koalescirale. (Pretpostavljamo da su u i v maleni i ignoriramo pojave dvije mutacije u jednom koraku). Spajanje čestica odreduje njihovo stanje i stanje svih njihovih potomaka. Ukoliko su sve čestice koalescirale prije nego što smo, prateći njihovo podrijetlo unazad, došli do početnog, zajedničkog pretka, onda stanje u trenutku n ne ovisi o početnoj konfiguraciji i proces je u ravnoteži. Dakle, slučajna konfiguracija odredena kretanjem tog procesa do završetka daje stacionarnu distribuciju za Wright - Fisherov model s mutacijama i X n konvergira ovoj distribuciji za n. Slika iznad prikazuje moguću realizaciju konstrukcije. Neka je X = lim n X n. Tada je matematičko očekivanje dano formulom EX = ρ = u u + v Svaka od veza će s vremenom naići na alel A ili a, a ρ je vjerojatnost da smo prvo naišli na A, ρ = u. u+v 9 Durrett R., Probability models for DNA sequence evolution, Springer, 2002. (9)

3 WRIGHT - FISHEROV MODEL 26 Dokaz Promotrimo očekivanja µ(n) = EX n. Iz (8) slijedi EX n+1 = (1 v)ex n + ( EX n ) u (10) Ako stavimo x = EX n = EX n+1 zbog svojstva martingalosti imamo x = (1 v)x + ( x)u (11) Rješavanjem dobijemo (v + u)x = u x = u. Kako bi vidjeli da će u + v E[X n ] konvergirati svojoj granici, primjetimo da stavljajući x = ρ u (11) dobijemo ρ = (1 v)ρ + (1 ρ)u i oduzmemo li ovo od (10) imamo E(X n+1 ρ) = (1 u v)e(x n ρ) E(X n+1 ) ρ = (1 u v)e(x n ) (1 u v)ρ E(X n+1 ) (1 u v)e(x n ) = ρ (1 u v)ρ Kako je E(X n+1 ) = E(X n ) E(X n )(1 1 + u + v) = ρ(1 1 + u + v) (u + v)e(x n ) = (u + v)ρ E(X n ) = ρ, za svaki n N 0. Slijedi da EX n ρ kad n Teorem 3 Ako je µ vjerojatnost mutacije u jednoj generaciji, onda je vjerojatnost da su dvije jedinke identične po porijeklu 10 (kada je µ malen i N velik) približno jednaka 1 2µ + 1 = 1 1 + 4Nµ Dokaz Na svakom koraku, može se dogoditi mutacija na jednoj od genskih veza, što je dogadaj s vjerojatnošću p 1 = 2µ, ili veze koalesciraju, što je dogadaj s vjerojatnošću p 2 = 1. Uzmemo li u obzir jedan ciklus, vidimo da vjerojatnost ρ mutacije prije koalescencije zadovoljava jednakost ρ = p 1 + (1 p 1 )(1 p 2 )ρ 10 Kažemo da su dvije jedinke identične po porijeklu ako se njihove veze spoje prije nego što mutacija djeluje na ijednu od veza.

3 WRIGHT - FISHEROV MODEL 27 budući da ako se niti jedan dogadaj ne dogodi počinjemo ponovno. Ukoliko ignoriramo vjerojatnost da se mutacija i koalescencija dogode na istom koraku možemo posljednju jednadžbu zapisati kao 1 ρ = 1 2µ 2µ + 1 ρ = p 1 + (1 p 1 p 2 )ρ ρ(1 1 + p 1 + p 2 ) = p 1 ρ = p 1 p 1 + p 2 = 1 2µ + 1 = 1 4Nµ + 1 Neka je X = lim X n. Tada je varijanca dana formulom n ( Var(X ) = + Dokaz ( 1) 1 + 4N(u + v) Kako bi izračunali EX 2, gledamo X = i=1 ) uv (u + v) 2 (12) η i gdje je η i = 1 ukoliko je i-ta jedinka alel A,a inače je 0. U teoriji vjerojatnosti η i naziva se indikator slučajna varijabla budući da ukazuje da li se dogadaj dogodio ili nije. Kvadrirajući sumu imamo X 2 = i=1 j=1 η i η j (13) Odvojimo li s uvjetom i = j od ( 1) s i j dobivamo E(X ) 2 = P (η 1 = 1) + ( 1)P (η 1 = 1, η 2 = 1) (14) Iz (9), P (η 1 = 1) = u. Razmatrajući mogućnosti spajanja prije mutacije u + v ili ne, i koristeći Tvrdnju 3 s µ = u + v slijedi 1 u P (η 1 = 1, η 2 = 1) = 1 + 4Nµ u + v + 4Nµ 1 + 4Nµ Izračunamo ( ) 2 u (EX ) 2 = 4N 2 = u + v ( { 1 = + ( 1) 1 + 4Nµ + 4Nµ 1 + 4Nµ i koristeći (13), (14), (15) dobivamo navedeni rezultat. ( ) 2 u (15) u + v }) ( u ) 2 u + v