Recent advances in analysis of evolutionary transpositions

Reent vnes in nlysis of evolutionry trnspositions Mx Alekseyev Deprtment of Mthemtis / Computtionl Biology Institute George Wshington University 2015

Genome Rerrngements Mouse X hromosome unknown nestor ~ 80 M yers go Humn X hromosome

Genome Rerrngements Shuffle Genomes unknown nestor ~ 80 M yers go Wht is the evolutionry senrio for trnsforming one genome into the other? Wht is the orgniztion of the nestrl genome?

Algorithmi Bkgroun: Genome Rerrngements n Brekpoint Grphs

Multihromosoml Genomes: Genomi Distne Genomi Distne etween two genomes is the minimum numer of reversls, trnslotions, fusions, n fissions require to trnsform one genome into the other. Hnnenhlli n Pevzner (STOC 1995) extene their lgorithm for omputing the reversl istne to omputing the genomi istne. (с) http://www.genome.gov These lgorithms were followe y mny improvements: Kpln et l. 1999, Ber et l. 2001, Tesler 2002, Ozery-Flto & Shmir 2003, Tnnier & Sgot 2004, Bergeron 2001-07, et.

HP Theory Is Rther Complite: Is There Simpler Alterntive? HP theory is key tool in most genome rerrngement stuies. However, it is rther omplite tht mkes it iffiult to pply in omplex setups. To stuy genome rerrngements in multiple genomes, we use 2-rek rerrngements, lso known s DouleCut-n-Join, DCJ rerrngements (Ynopoulus et l., Bioinformtis 2005).

Simplifying HP Theory: Swith from Liner to Cirulr Chromosomes A hromosome n e represente s yle with irete re n unirete lk eges, where: re eges enoe loks n their iretions; jent loks re onnete with lk eges.

Reversls on Cirulr Chromosomes reversl Reversls reple two lk eges with two other lk eges

Fissions fission Fissions split single yle (hromosome) into two. Fissions reple two lk eges with two other lk eges.

Trnslotions / Fusions fusion Trnslotions/Fusions trnsform two yles (hromosomes) into single one. They lso reple two lk eges with two other lk eges.

2-Breks 2-rek 2-Brek reples ny pir of lk eges with nother pir forming mthing on the sme 4 verties. Reversls, trnslotions, fusions, n fissions represent ll possile types of 2-reks.

2-Brek Distne The 2-rek istne 2(P,Q) etween genomes P n Q is the minimum numer of 2-reks require to trnsform P into Q. In ontrst to the genomi istne, the 2-rek istne is esy to ompute.

Two Genomes s Blk-Re n Green-Re Cyles P Q

Rerrnging P in the Q orer P Q

Brekpoint Grph = Superposition of Genome Grphs: Gluing Re Eges with the Sme Lels P Brekpoint Grph Q G(P,Q) (Bfn & Pevzner, FOCS 1994)

Blk-Green Cyles Blk n green eges represent perfet mthings in the rekpoint grph. Therefore, together these eges form olletion of lk-green lternting yles (where the olor of eges lternte). The numer of lk-green yles (P,Q) in the rekpoint grph G(P,Q) plys entrl role in omputing the 2rek istne etween P n Q.

Rerrngements Chnge Cyles Trnsforming genome P into genome Q y 2-reks orrespons to trnsforming the rekpoint grph G(P,Q) into the rekpoint grph G(Q,Q). G(P,Q) (P,Q) = 2 G(P',Q) (P',Q) = 3 G(Q,Q) trivil yles (Q,Q) = 4 = P = Q

Trnsforming P into Q y 2-reks 2-reks P=P0 P1... P= Q G(P,Q) G(P1,Q)... G(Q,Q) (P,Q) yles... P = Q yles # of lk-green yles inrese y P - (P,Q) How muh eh 2-rek n ontriute to this inrese?

2-Brek Distne Any 2-rek n inrese the numer of yles y t most one (Δ 1) Any non-trivil yle n e split into two yles with 2-rek (Δ = 1) Every sorting y 2-rek must inrese the numer of yles y P (P,Q) The 2-Brek Distne etween genomes P n Q (Ynopoulos et l., 2005; Bergeron et l., 2006): 2(P,Q) = P (P,Q) The formul implies tht 2(P,Q) P 1.

Prolem: Anlysis of Complex Rerrngements

Complex Rerrngements: Trnspositions (с) http://www.genome.gov

Sorting y Trnspositions Sorting y Trnspositions Prolem: Given two genomes, fin the shortest sequene of trnspositions trnsforming one genome into the other. First 1.5-pproximtion lgorithm ws given y Bfn n Pevzner (SODA 1995). Best hievement: 1.375-pproximtion lgorithm ue to Elis n Hrtmn (WABI 2005). Prove to e NP-omplete y Bulteu, Fertin, n Rusu (ICALP 2011).

Trnspositions trnsposition Trnspositions ut off segment of one hromosome n insert it t some position in the sme or nother hromosome

Trnspositions Are 3-Breks 3-rek 3-Brek reples ny triple of lk eges with nother triple forming mthing on the sme 6 verties. Trnspositions re 3-Breks.

3-Brek Distne: Fous on O Cyles A 3-rek n inrese the numer of o yles (i.e., yles with o numer of lk eges) y t most 2 (Δo 2) A non-trivil o yle n e split into three o yles with 3rek (Δo = 2) An even yle n e split into two o yles with 3-rek (Δo = 2) The 3-rek Distne etween genomes P n Q is: 3(P,Q) = ½ ( P o(p,q) )

Complition: Trnspositions re Powerful ut Rre When the rerrngement moel llows trnspositions, they ten to pper in lrge proportion in ny shortest trnsformtion. However, in relity, trnspositions re very rre s ompre to reversl-like rerrngements.

Purporte Solution: Weighte Genomi Distne

Intuition Suggests to Consier Weighte Rerrngements To oun the proportion of trnspositions in trnsformtion, one's intuition my suggest to ssign to trnspositions reltive weight α > 1. It seems nturl to expet tht the lrger is α, the smller is the proportion of trnspositions in the minimum-weight trnsformtions.

Weight of Trnsformtion For trnsformtion t, we efine: n2(t) s the numer of reversl-like rerrngements (tht mke 2 rekges) in t; n n3(t) s the numer of trnsposition-like rerrngements (tht mke 3 rekges) in t. Then the weight of t is Wα(t) = 1 n2(t) + α n3(t)

Weighte Genomi Distne Weighte genomi istne etween genomes P n Q s the miniml possile weight of trnsformtion etween them, i.e.: α(p,q) = mint Wα(t) where minimum is tken over ll trnsformtions t etween P n Q.

Weighte Genomi Distne: Exmples Rell tht the weight of trnsformtion t is: Wα(t) = n2(t) + α n3(t) For α = 1, W1(t) = n2(t) + n3(t) represents the length of the trnsformtion t. For α = ³ ₂, W³ ₂(t) = n2(t) + ³ ₂ n3(t) = ½ (2 n2(t) + 3 n3(t)) represents the hlve numer of rekges in t.

Previous results The omplexity of omputing weighte genomi istne remins unknown. Brer n Ohleush, 2007, evelope 1.5-pproximtion lgorithm for omputing the weighte genomi istne for α [1,2]. Eriksen, 2001, propose (1+ε)-pproximtion lgorithm for omputing the weighte genomi istne for α = 2, n ny ε > 0. Blnhette et l, 1995, empirilly oserve tht for α (1,2), typil trnsformtion still inlues lrge proportion of trnspositions.

Counterexmple: Anlysis of Minimum-Weight Trnsformtions

Shortest n Optiml Trnsformtions A trnsformtion is shortest if it minimizes W1(t). A trnsformtion is optiml if it simultneously minimizes W1(t) n W³ ₂(t). Optiml trnsformtions exist (MA & P. Pevzner, PloS Comput. Biol., 2007) By efinition, ny optiml trnsformtion is lso shortest. However, not every shortest trnsformtion is optiml.

Chrteriztion of Shortest Trnsformtions Theorem 1. A trnsformtion t etween two genomes is shortest if n only if for ny rerrngement r t, ro = 2 n: if r is 2-rek, then reven = 1; if r is 3-rek, then reven = 0 or reven = 2. even even o o A 3-rek r with ro = 2 n reven = 2.

Chrteriztion of Optiml Trnsformtions Theorem 2. A trnsformtion t etween two genomes is optiml if n only if for ny rerrngement r t, ro = 2 n: if r is 2-rek, then reven = 1; if r is 3-rek, then reven = 0 or reven = 2. Corollry 1. An optiml trnsformtion hs no rerrngements with reven = 2.

Numer of 2- n 3-Breks in Optiml Trnsformtions Theorem 3. A trnsformtion t etween genomes P n Q is optiml if n only if, the numer of 2-reks n 3-reks in t is n2(t) = even(p,q) n3(t) = ½ ( P o(p,q)) even(p,q)

Min Theorem Theorem 4. For α (1,2], mint Wα(t) = Wα(t0), where t goes over ll trnsformtions etween two genomes n t0 is ny optiml trnsformtion etween them. Tht is, for ny α (1,2], the weighte genomi istne etween two genomes equls the weight of ny optiml trnsformtion etween them.

Min Theorem: Proof We lssify 2- n 3-reks r epening on how they ffet the numer of even n o yles: By efinition, for the trnsformtion t we hve: For the optiml trnsformtion t0, we erive from Theorem 3:

Min Theorem: Proof Now, we n ompute Wα(t) Wα(t0) s follows: All oeffiients of x's n y's in the this formul re nonnegtive, implying tht Wα(t) Wα(t0) 0. Q.E.D.

Trnsformtions Consisting of Trnspositions For n optiml trnsformtion t etween genomes P n Q, we hve: n2(t) = even(p,q) n3(t) = ½ ( P o(p,q)) even(p,q) (Theorem 3) For ny α (1,2], the trnsformtion t is minimum-weight trnsformtion etween P n Q. (Theorem 4) Corollry 2. If even(p,q) = 0, then ny optiml trnsformtion hs minimum weight for ny α (1,2] n onsists entirely of 3-reks (trnspositions).

Conlusion: Intuition File We prove tht for α (1,2], the minimum-weight trnsformtions inlue the optiml trnsformtions tht my entirely onsist of trnsposition-like rerrngements. Thus, the weighte genomi istne oes not tully impose ny oun on the proportion of trnspositions.

Prolem: Reognition of Evolutionry Trnspositions uner the 2-Brek Moel

Trnspositions s Pirs of 2-Breks A trnsposition n e moele s two 2-reks: trnsposition 2- re α k k e r 2- β 2-Brek β opertes on the ege rete y α. We sy tht β epens on α.

Depenent vs Inepenent 2-Breks In this senrio, we hve three pirs of epenent 2-reks: (β1,β3), (β2,β3), n (β2,β4). The other pirs of 2-reks re inepenent. We n swp the orer of jent inepenent 2reks, suh s (β1,β2) or (β3,β4).

Trnspositions My Be Cpture y 2-Breks The 2-rek moel oes iretly not ount for trnspositions. However, evolutionry trnspositions my impliitly pper in shortest 2-rek senrios s pirs of epenent 2-reks. Cn one reover trnspositions from given shortest 2-rek senrio?

Reovering Trnspositions From Shortest 2-Brek Senrio One n reple every pir of jent epenent 2-reks with trnsposition (3-rek). Complition: the orer of 2-reks in shortest senrio is not unique; inepenent 2-rek my e shuffle n pper in ny orer. In prtiulr, epenent 2-reks forming trnsposition my e seprte y other 2-reks. So, we nee to sort the given senrio efore reovering trnspositions.

Impliit Trnspositions In 2-rek senrio t=(α1,α2,...,αn), pir of epenent 2-reks (αi,αj) forms n impliit trnsposition if they n e me jent with numer of swps of inepenent 2-reks. After mking suh 2-reks jent, we n reple them with single trnsposition. We refer to suh trnsposition s reovere from t. How mny trnspositions n e simultneously reovere from given shortest 2-rek senrio t?

Disjoint Impliit Trnspositions Two istint impliit trnspositions in senrio t my shre 2-rek. So, the mximum numer of trnspositions tht n e reovere from t my e smller thn the numer of impliit trnspositions in t. We therefore re intereste in (pirwise) isjoint impliit trnspositions, whih o not shre ny 2reks etween them. Let DIT(t) e the mximum numer of isjoint impliit trnspositions in t.

Depeneny Grph We onstrut the epeneny grph DG(t), where verties re lele with 2-reks of senrio t n there is n r (α,β) whenever β epens on α. Impliit trnspositions in 2-rek senrio t orrespon to the rs in DG(t).

Properties of Depeneny Grph Theorem 1. Let t e shortest 2-rek senrio etween genomes P n Q of size n. Then: the numer of rs in DG(t) is n 2 (P,Q) + 1(P,Q); oth inegree n outegree of eh vertex in DG(t) re t most 2; t represents topologil orering of DG(t). Sho et l. 2013 further prove tht DG(t)* is forest (* enotes n unirete version of grph).

Depeneny Grph Is Invrint Theorem 2. Let t1 n t2 e shortest 2-rek senrios etween the sme genomes. Then t1 n e otine from t2 with swps of jent inepenent 2-reks if n only if DG(t1)=DG(t2). In other wors, in this se t1 n t2 represent topologil orerings of the sme epeneny grph.

Impliit Trnspositions s Mthings Theorem 3. Let G e irete grph suh tht G* is forest. Then for ny mthing M in G, there exists topologil orering t' of G suh tht for ny r (α,β) M, verties α n β re jent in t'. Theorem 3 implies tht DIT(t) orrespons to mximl mthing in DG(t) n ll impliit trnspositions from DIT(t) n e simultneously reovere: For suh mximl mthing M, we n fin topologil orering t' mking jent enpoints of every r from M. By Theorem 2, t' n e otine from t with swps of inepenent 2-reks.

Universl Lower Boun for DIT(t) Theorem 4. Let t e shortest 2-rek senrio etween genomes P n Q of size n. Then DIT(t) TL(P,Q), where TL(P,Q) = (n 2 (P,Q) + 1(P,Q)) / 4.

Proof of Lower Boun for DIT(t) By Theorem 3, DIT(t) M for ny mthing M in DG(t). We onstrut mthing M itertively. Initilly let G = DG(t)* n M =. If G ontins t lest one ege, it ontins lef α. We its only inient ege (α,β) to M n remove ll eges inient to β from G. Repet. By Theorem 1, t eh itertion t most 4 eges re remove, implying tht eventully we hve M TL(P,Q). QED

Universl Upper Boun for DIT(t) Theorem 5. Let t e shortest 2-rek senrio etween genomes P n Q of size n. Then DIT(t) TU(P,Q), where TU(P,Q) = (n 2 (P,Q) + o(p,q)) / 2.

Proof of Upper Boun for DIT(t) By Theorem 3, from shortest 2-rek senrio t we n reover DIT(t) impliit trnspositions, resulting in senrio t' ompose of t 2 DIT(t) = n (P,Q) 2 DIT(t) 2-reks n DIT(t) trnspositions. The length of t' is oune elow y 3(P,Q), tht is n (P,Q) DIT(t) ( n o(p,q) ) / 2, implying tht DIT(t) TU(P,Q). QED

Rte of Impliit Trnspositions Agin, from shortest senrio t we n reover DIT(t) impliit trnspositions, resulting in senrio t' with t 2 DIT(t) = 2(P,Q) 2 DIT(t) 2reks n DIT(t) trnspositions. The rte of impliit trnspositions in t (i.e., the proportion of trnspositions in t') is r(t) = DIT(t) / ( 2(P,Q) DIT(t) ). As funtion of DIT(t) it monotonilly grows. Hene, TL(P,Q) / ( 2(P,Q) TL(P,Q) ) r(t) TU(P,Q) / ( 2(P,Q) TU(P,Q) ).

Impliit Trnspositions Between Mmmlin Genomes Estimtion for the rte of impliit trnspositions etween pirs of genomes mong mouse (M), rt (R), og (D), mque (Q), humn (H), n himpnzee (C).

Prolem: Sttistil Estimtion for the Rte of Evolutionry Trnspositions

Evolution s Mrkov Proess Let us ssume tht the evolution represents isrete Mrkov proess, where ifferent types of genome rerrngements (2-reks n 3-reks) our inepenently with fixe proilities. Let p n 1 p e the rte (proility) of 3-reks n 2-reks, respetively. For ny two given genomes resulte from this proess, our gol is to estimte the vlue of p.

Evolution s Mrkov Proess Let the evolution proess strt from lk genome P n result in re genome Q. It n e viewe s trnsformtion of the rekpoint grph G(P,P) (where re eges re prllel to lk eges n form trivil yles) into the rekpoint grph G(P,Q) with 2-reks n 3reks operting on re eges.

Frgile Brekge Moel We ssume the Frgile Brekge Moel, whih postultes tht genomes re mosis of frgile n soli regions, where only the former n e roken y genome rerrngements. Eh frgile region my or my not e roken (y hne) in the ourse of evolution. Only roken (tive) frgile regions n e oserve in the resulting genomes s rekpoints. Unroken (intive) frgile regions nnot e istinguishe from soli regions n thus the totl numer of frgile regions is unoservle.

Oservle Prmeters ℓ = ℓ(P,Q), the numer of ℓ-yles in G(P,Q) (for ny ℓ 2); = (P,Q) = Σℓ 2 ℓ ℓ, the numer of tive (roken) frgile regions etween P n Q, lso equl the numer of synteny loks, n the hlve totl length of ll non-trivil yles in G(P,Q); = 2(P,Q), the 2-rek istne etween P n Q.

Hien Prmeters n = n(p,q) = Σℓ 1 ℓ ℓ, the numer of (tive n intive) frgile regions in P (or Q), lso equl the numer of soli regions (loks); 1 = 1(P,Q), the numer 1-yles in G(P,Q), lso equl the intive frgile regions; k2, the numer of 2-reks etween P n Q, k3, the numer of 3-reks etween P n Q. Our gol is to estimte the vlue p = k3 / ( k2 + k3 ).

Proility for n Ege to Remin Intt Fin the proility tht re ege ws never roken in the ourse of evolution etween P n Q: An ege is not roken y single 2-rek with the proility (1-2/n) n y single 3-rek with the proility (1-3/n). So, the proility for n ege to remin intt uring the whole proess of k2 2-reks n k3 3reks is (1-2/n)k2 (1-3/n)k3 e γ, where γ = (2k2 + 3k3) / n.

First Eqution: Numer of 1-Cyles For ny fixe ℓ, the numer of ℓ-yles resulting from osionl splitting of longer yles is negligile (of orer / n2). Hene, the numer of 1-yles n e pproximte s the numer of re eges tht were never roken y rerrngements, whih is n e γ. On the other hn, the numer of 1-yles in G(P,Q) simply equls n, the numer of shre lok jenies etween P n Q. Tht is, 1 = n n e γ.

Seon Eqution: Numer of 2-Cyles Similrly, 2-yles mostly result from 2-reks tht merge pirs of 1-yles. The proility for re ege to e involve in extly one 2-rek is 2k2/n (1-1/n)2k2+3k3-1. The proility tht nother re ege ws involve in the sme 2-rek is 1/n (1-1/n)2k2+3k3-1. Sine the totl numer of ege pirs is n(n-1)/2, we hve the following pproximte equlity for the numer of 2-yles: 2 k2 e 2γ.

Thir Eqution: Numer of 3-Cyles Similrly, 3-yles mostly result from either 3reks tht merge three 1-yles, or 2-reks tht merge 1-yle n 2-yle. By nlogous nlysis, we get the following pproximte equlity: 3 (k3 + 2k22/n) e 3γ.

Empiril vs Anlytil Curves numer of 2- n 3-yles verge over 100 simultions on n = 400 loks with p = 0.3

System of Approximte Equtions We solve numerilly the system of equtions: n n e γ, 2 k2 e 2γ, 3 (k3 + 2k22/n) e 3γ, to otin nest, k2est, k3est n ompute pest = k3est / ( k2est + k3est ).

Simultions Boxplot for simultion with n = 1800 n vrile prmeters p n γ emonstrtes tht our estimtion pest is quite urte with the solute error elow 0.1 in 90% of oservtions.

Mmmlin Genomes We nlyze pirs of genomes of rt, mque, n humn represente s sequenes of 1,360 synteny loks: These results re onsistent n roust with respet to the evolutionry istne. The rte of trnspositions for ll pirs is lose to 0.26. Simultions suggest tht the 95% onfiene intervl for suh pest is [0.1, 0,4].

Aknowlegments Shui Jing, University of South Crolin Nikit Alexeev, George Wshington University Ntionl Siene Fountion grnt no. IIS-1462107