INFOTEH-JAHORINA Vol. 15, Marh 2016. Dskretzaa podataka redukom tačaka reza Všna Ognenovć, Vladmr Brtka, Eleonora Brtka, Ivana Berkovć Unverztet u Novom Sadu, Tehnčk fakultet Mhalo upn Zrenann Srba vsnao@tfzr.uns.a.rs, vbrtka@tfzr.uns.a.rs, eleonorabrtka@gmal.om, berkov@tfzr.uns.a.rs Sažetak U oblast Data Mnng-a mnog obučavauć metod mogu da rade samo sa dskretnm vrednostma atrbutma. Kontunalne vrednost atrbuta mogu da se dskretzuu pomoću razlčth metoda za dskretzau. Zamenom mnogh vrednost atrbuta malm broem ntervala, orgnaln poda se redukuu poednostavluu. Rad predstavla uta reduke tačaka reza na rezultat klasfkae u oblast teore grubh skupova. Klučne reč - dskretzaa; tačke reza; klasfkaa; teora grubh skupova I. UVOD U oblast Data Mnng-a mnog obučavauć metod (mahne learnng) mogu da rade samo sa dskretnm vrednostma atrbuta. Zbog toga pre mahne learnng proesa, neophodno e transformsat kontnualne vrednost аtrbuta u dskretne, konsttusane od skupa ntervala. Ova proess poznat kao dskretzaa podataka e esenaln zadatak u preproesranu podataka, ne samo zbog toga što nek obučavauć metod ne rade sa kontnualnm vrednostma atrbuta, već zbog toga što su poda transformsan u skup ntervala kogntvno relevantn za ludska tumačena. Rezultat dskretzae podataka e skup tačaka koma se poda svrstavau u ntervale. U zavsnost od konkretnog algortma dskretzae, ko e koneptualno vezan za određenu teoru l metod razvau se metod optmzae algortama, heurstke, a takođe aproksmatvne vrednost rezultata dskretzae. Emprsk rezultat pokazuu da kvaltet klasfkaskh metoda zavs od algortma dskretzae ko se korst [1]. ošto e dskretzaa proes tražena parta domena atrbuta uednačavana vrednost u okvru svh ntervala, problem dskretzae se može defnsat kao problem tražena relevantnh skupova tačaka reza (ut) nad domenma atrbuta [2]. osto nekolko podela na osnovu koh e moguće klasfkovat algortme za dskretzau. rema [3],.[4] neke od osnovnh podela su sledeće: lokalna globalna dskretzaa (loal global) dnamčka statčka dskretzaa (dynam stat) nadzrana nenadzrana dskretzaa (supervsed unsupervsed) unvarantna multvarantna dskretzaa (unvarate multvarate) deleća obednuuća dskretzaa (splttng mergng, Top-Down and Bottom-up) drektna nkrementalna dskretzaa (dret nremental) po mer oene dskretzae (nformaa, statstka, grub skupov, wrapper, bnnng) Ako se u dskretzau ukluč l ne ukluč ekspert, onda b to bla oš edna podela. Stručnak nabole može da prlagod tačke reza tako da odgovarau važnost određenog atrbuta. Međutm to u nekm stuaama može da bude kontraproduktvno. Btno e da se razume eo proes dskretzae kao prv korak klasfkae, al kompletan algortam klasfkae doben rezultat. Na osnovu podela mogu se zvest relae zmeđu poednh dskretzaa, kao na prmer da su sve dnamčke dskretzae lokalne, l da e nadgledana dskretzaa u odnosu na određen algortam lokalna. U okvru teore grubh skupova algortam za dskretzau maksmalne razbervost e dnamčk nadzran [2]. U ovom radu će se pokazat dskretzaa podataka u teor grubh skupova, tako da će razmatrat reduka dobenh tačaka reza. Tme b se smano bro ntervala a to b utalo na rezultat dskretzae. Za dskretzau korstće se algortam maksmalne nerazbervost (MD-heurst algorthm) ko e u stvar greedy algortam za određvane mnmalnog skupa pokrvana (mnmal set overng) obekata z razlčth klasa atrbuta odluke. Ova algortam e mplementran u sstemu Rosetta ko će se korstt za dobane početnh tačaka reza [5]. Reduka dobenh tačaka reza će se radt na osnovu analze hstograma podataka poednh atrbuta, a za analzu hstograma će se korstt softver EasyFt [6]. Tme b se pokazalo kako se redukom tačaka reza na osnovu hstograma, može pobolšat ukupan rezultat klasfkae. Za klasfkau dskretzovanh podataka korstće se rezultat Rad e potpomognut sredstvma proekta CR 32044 Razvo softverskh alata za analzu pobolšane poslovnh proesa ko fnansra Mnstarstvo za prosvetu, nauku tehnološk razvo Repulke Srbe - 665 -
Džonsonovog algortma za zračunavane mnmalnh prosth mplkant Bulove funke. Ova algortam e takođe mplementran u sstemu Rosetta [5]. II. DISKRETIZACIJA U TEORIJI GRUBIH SKUOVA Teoru grubh skupova e razvo awlak 1982 za analzu podataka. Osnovna namena grubh skupova e aproksmaa nepoznath znana preko poznatog znana [7]. Za teoru grubh skupova e btno postoane unverzuma ko sadrž obekte defnsane pomoću vrednost svoh atrbuta. Bazrana na prnpu nerazbervost obekata koneptu aproksmae, ova teora omogućue prepoznavane zavsnost zmeđu atrbuta odluke uslovnh atrbuta [8]. U ovom radu analzraće se naknadna reduka tačaka reza nen uta na klsfkau u okvru teore grubh skupova. A. Osnove teore grubh skupova oda ko se analzrau su tabelarno organzovan. U teor grubh skupova defnsana e nformaona tabela [9]. Informaonu tabelu čn uređena četvorka: S U, Q, V, f, gde e U konačan skup obekata unverzum; Q { q1, q2,..., qm} e konačan skup atrbuta; V qq V, gde e q V domen atrbuta q q (vrednost atrbuta); f U Q V e totalna funka takva da e f ( x, q) za svako q Q, xu zove se nformaona V q funka (nformaton funton). Svak obekat vektorom: x U e opsan Des x) [ f ( x, q ), f ( x, q ),..., f ( x, q )] q( 1 2 m ko defnše vrednost atrbuta obekta x. Neka e sa označen neprazan podskup skupa atrbuta Q. Defnsana e relaa I nad U: {( x, y) U U : f ( x, q) f ( y, q), q } I Relaa (2) se zove relaa nerazbervost, l relaa nerazlkovana (ndsernblty relaton). Ako ( x, y) I, kaže se da su obekt x y -nerazberv (-ndsernble). Relaa nerazbervost e relaa ekvvalene. Ovakva relaa generše klase ekvvalene. Famla klasa ekvvalene kou generše I označena e sa U I. Klase ekvvalene genersane relaom I nazvau se -elementarn skupov (elementary sets), a klasa ekvvalene koa sadž obekat x U označena e sa I (x). Ako e Q, -elementarn skupov se nazvau atom (atoms). Neka e S nformaona tabela, X neprazan podskup od U, a Q: ( X ) { x U : I ( x) X} ( X ) I x ( ) xx Sa (X ) e označena -dona aproksmaa (-lower approxmaton), a sa (X ) -gorna aproksmaa (-upper approxmaton) skupa X. Element (X ) su on obekt x X ko prpadau klas ekvvalene genersano sa I koa e sadržana u X. Element (X ) su on obekt x X ko prpadau klas ekvvalene genersano sa I koa sadrž namane edan obekat x ko prpada X. -grana (-boundary) X u S defnše se kao: Bn ( X ) ( X ) ( X ) Grafčka nterpretaa -grane e prkazana na Sl. 1. Slka 1. Osnovna dea teore grubh skupova, slka preuzeta z [10] Ako e skup atrbuta Q nformaone tabele podelen na uslovne (ondton) atrbute C atrbute odluke (deson attrbutes) D, tako da e C D Q C D, takva nformaona tabela nazvana e tabela odluke (deson table). Atrbut odluke D, generšu partu skupa U preko relae nerazbervost I. D-elementarn skupov se nazvau klase D odluke (deson lasses). Tabela odluke predstavlena e uređenom četvorkom S U,( C D), V, f. Generalzovana funku odluke A (x ) obekta x za skup A C, defnsana e kao skup klasa odluke po svm obektma u okvru klase ekvvalene x [11]. x ) { f ( x, d) x x } A ( A Za tabelu odluke se kaže da e konzstentna (onsstent) ako e kardnalnost od A (x ) ednaka 1 za sve obekte u unverzumu. Inače ako kardnalnost generalzovane funke odluke ne ednaka 1, tabela e nekonzstenta (nonsstent). B. Osnovne defne dskretzae u teor grubh skupova Dskretzaa kontnualnh podataka u okvru teore grubh skupova e bazrana na defnsanu skupa tačaka reza (set od uts) nad svm atrbutma sa kontnualnm vrednostma. Neka e V skup vrednost atrbuta C. Neka e l leva grana a r desna grana skupa V tako da e - 666 -
l r. Skup V [ l, r ) R, gde e R skup realnh broeva. Neka e p realan bro takav da e l p r. Bro p prav partu obekata unverzuma U na dva dsunktna skupa U l U r gde e U x U f x, p } l { U x U f x, p } r { III. REDUKCIJA TAČAKA REZA Glavna dea vezana za reduku tačaka reza dobenh MD algortmom e vezana za analzu odnosa tačaka reza hstograma vrednost atrbuta. A. rmer 1 Za bazu Blood Transfuson Serve Center Data Set [12], koa ma četr uslovna atrbuta edan atrbut odluke, na osnovu MD algortma dobene su sledeće tačke reza (Sl.3). Sa nulom e označen prv atrbut, sa ednom drug a sa broem tr četvrt atrbut. Treć atrbut ne dskretzovan, odnosno MD-algortam ga e zbao pošto ne utče na razbervost. Oba skupa U l U r su neprazna. Realan bro p defnše se kao tačka reza (ut) atrbuta. Neka e skup tačaka reza atrbuta defnsan sa = {p 1, p 2,..., p k }, tako da e l p 1 < p 2 <... < p k < r. rema [11] dskretzovana verza konzstentnog sstema S e nov sstem odluke -dskretzaa od S on e defnsan kao p p petorka S U,( C D), V,, f, gde e skup tačaka reza (uts) nad C, što se može zapsat kao a funka f C e defnsana na sledeć načn: 0, f f ( x, ) p1 p f ( x, ), f f ( x, ) [ p, p 1), 1 k 1 k, f f ( x, ) pk C. Algortam maksmalne razbervost Algortam maksmalne razbersvost (MD-heurst algorthm) korst Boolean reasonng prstup [2] ko garantue razbervost zmeđu obekata. Ova algortam e mplementran u sstemu Rosetta na Sl.2 e prkazan negov korsnčk nferfes: Slka 3. Tačke reza - rezultat MD algortma Rezultat klasfkae na ovako dskretzovanm podama e loš. Na Sl.4 e prkazana matra konfuze. Ukupna oena e 35,92%. Slka 4. Rezultat klasfkae pr dskretza MD algrtmom Ako se pogleda hstogram na prmer četvrtog atrbuta, negove tačke reza, može se prmett da one prate lokalne maksmume l normalnu raspodelu oko lokalnog maksmuma (Sl. 5) Slka 2. Korsnčk nterfes MD algortma - 667 -
Slka 5. Tačke reza na hstogramu Ako se urad reduka tačaka reza tako da se uoče grupae lokalnh maksmuma koe na ednom delu ukupnog ntervala vrednost atrbuta predstavlau normalnu raspodelu na hstogramu, onda grafčk to može da zgleda kao na Sl. 6. Na osnovu rezultata matre konfuze može se vdet da se na ova načn dskretzovana tabela može bole klasfkovat na osnovu ukupnog rezultata. roblem ko e evdentan e da se pored značanog povećana broa obekata ko se pravlno klasfkuu, povećao bro obekata ko se nepravlno klasfkuu. ored posmatrana matra konfuze, ako se posmatrau pravla na osnovu koh e zvršena klasfkaa, može se uočt sledeće: dobeno e 266 pravla (na osnovu podataka dskretzovanh MD algortmom algortmom maksmalne razbervost) od koh nh 11 ma veznk OR u THEN delu pravla (Sl. 9). dobeno e 118 pravla (na osnovu reduke tačaka reza) od koh nh 30 ma veznk OR u THEN delu pravla (Sl. 10). Slka 6. Tačke reza četvrtog atrbuta dobene redukom na osnovu grupaa lokalnh maksmuma raspodele na hstogramu Ako se stm postupkom redukuu tačke reza kod ostalh atrbuta, onda se za tako redukovane tačke reza koe su ručno unete u sstem Rosetta (Sl. 7), doba rezultat klasfkae prkazan na Sl. 8. Slka 9. Deo pravla dobenh nad podama ko su dskretzovan MD algortmom Slka 7. Redukovan skup tačaka reza na osnovu grupaa lokalnh maksmuma Slka 10. Deo pravla dobenh nad podama ko su dskretzovan redukovanm skupom tačaka reza sa Sl. 7 ovećanem broa pravla koa mau OR smanue se razbervost, odnosno st poda se klasfkuu na dva razlčta načna. Zbog toga matra konfuze može da ma dobar rezultat a da se u stvar ne zna tačna odluka za konkretan obekat. B. rmer 2 Da b se pokazala značanost grupsana lokalnh maksmuma sa Sl. 6, u odnosu na neku drugu reduku tačaka, u ovom prmeru će se ponovo poć od ste baze od tačaka reza dobenh Bulovm algortmom maksmalne razbervost (Sl. 3 Sl. 5). U odnosu na redukovan skup tačaka reza sa Sl. 7, zmenće se samo tačke reza četvrtog atrbuta. Namerno će se zaobć grupsane oko lokalnh maksmuma kod četvrtog atrbuta, odnosno uzeće se tačke koe se nalaze unutar grupaa lokalnh maksmuma. Takav zbor tačaka reza četvrtog atrbuta e prkazan na hstogramu na Sl. 11. Slka 8. Rezultat klasfkae za redukovan skup tačaka reza na osnovu grupaa lokalnh maksmuma - 668 -
za st broa tačaka reza kao uednačene velčne ntervala dobenh tačkama reza, 8 pravla vše, čn značanu razlku. Tme se u rmeru 2 u većo mer nego u rmeru 1 (sa tačkama reza dobenm redukom) narušava razbervost. Slka 11. Izmenen skup tačaka reza kod četvrtog atrbuta tako da ne poštovano grupsane oko lokalnh maksmuma Za tako zabrane tačke reza četvrtog atrbuta, koe su ručno unete u sstem Rosetta (Sl. 12), doba se rezultat klasfkae prkazan na Sl. 13. Slka 12. Izmenen skup tačaka reza - za četvrt atrbut tačke reza sa Sl. 11 D. Metod reduke tačaka reza Radom u sstemu Rosetta prmećeno e da se u zavsnost od vrste podataka dobau određen rezultat. Istražvanem hstograma podataka, kao raspodela nad hstogramma, potvrđeno e da reduka tačaka reza dobenh MD algortmom zavs od sledećeg: u koo mer poda predstavlen hstogramom odgovarau l ne odgovarau normalno raspodel l normalnm raspodelama na poednm delovma hstograma na osnovu toga reduka tačaka reza može da se urad kao u rmeru 1; kolk e bro tačaka reza kod malog broa tačaka reza, redukom se uglavnom dobau loš rezultat a što e bro tačaka reza već, rezultat reduke su bol; kolk e rezultat klasfkae kod dobrog rezultata klasfkae zbavanem tačke reza koa se na hstogramu već nalaz u podntervalu okolne lokalnog maksmuma, u velkom brou slučaeva doba se st rezultat. Ovo su samo osnovn parametr ko mogu da pomognu u stuaama kada e rezultat klasfkae loš. U slučau kada e rezultat klasfkae dobar, redukom tačaka reza može da se naruš razbervost a tme dobe loš rezultat klasfkae. Slka 13. Rezultat klasfkae za redukovan skup tačaka reza na osnovu negrupsana lokalnh maksmuma C. Komparaa Ono što delue kao napredak u rmeru 2 e u stvar problem er e klasfkaa dobena značano većm povećanem broa pravla koa u THEN delu mau OR. Na baz dskretzae z rmera 2, dobeno e ukupno 117 pravla od koh nh 38 ma operator OR u THEN delu. U odnosu na reduku tačaka reza z rmera 1, prva dva atrbuta mau ste tačke reza, treć atrbut ne dskretzovan, dok e za četvrt atrbut uzet st bro tačaka reza al e u rmeru 1 poštovan prnp grupsana lokalnh maksmuma, a u rmeru 2 ne. U rmeru 1 dobeno e 118 pravla, a u rmeru 2, 117 pravla. Ono što e značana razlka e što e u rmeru 1, operator OR u THEN delu pravla malo 30 pravla, dok e u rmeru 2, čak 38 pravla malo operator OR u THEN delu pravla. Za zmenu tačaka reza kod samo ednog atrbuta IV. ZAKLJUČAK U radu e pokazano na ko načn hstogram vrednost atrbuta može da utče na zbor tačaka reza za reduku. Na osnovu odgovaraućh prmera pokazan e problem genersana velkog broa tačaka reza nad podama ko mau već bro lokalnh maksmuma na hstogramu. Redukom onh tačka koe se nalaze u okoln lokalnh maksmuma, pored smanena broa tačaka reza, doba se bol rezultat klasfkae uz mane smanene razbervost. Ovakav metod može da pomogne ekspertu da bole razume uta dskretzae na klasfkau podataka, kao da zbegne lošu reduku tačaka reza. LITERATURA [1] J. Gama, L. Torgo, C. Soares, Dynam Dsretzaton of Contnuons Attrbutes, www.laad.up.pt/~ltorgo/apers/ddca.ps.gz [2] HS Nguyen, Approxmate boolean reasonng: foundatons and applatons n data mnng, Transatons on rough sets V, 334-506, 2006. [3] Sergo Ramırez-Gallego, Salvador Garıa, Hetor Mourno-Talın, Davd Martınez-Rego, Verona Bolon-Canedo, Amparo Alonso-Betanzos, Jose Manuel Benıtez, Franso Herrera, Data Dsretzaton: Taxonomy and Bg Data Challenge, Wley Interdsplnary Revews: Data Mnng and Knowledge Dsovery, Volume 6, Issue 1, pages 5 21, January/February 2016. [4] Stephen D. Bay, Multvarate Dsretzaton of Contnuous Varables for Set Mnng, Department of Informaton and Computer Sene, - 669 -
Unversty of Calforna, Irvne, http://www.me.unamp.br/~wanderson/artgos/multvarate_dsretzat on_of_ontnuous_varables.pdf. [5] Øhrn, A.: Rosetta Tehnal Referene Manual (1999), http://www.d.ntnu.no/_aleks/rosetta [6] EasyFt - Dstrbuton Fttng Software, http://www.mathwave.om/easyft-dstrbuton-fttng.html [7] awlak, Z.: Rough sets: Theoretal Aspets of Reasonng about Data. Kluwer Aadem ublshers, Dordreht (1991) [8] Brtka V., Stok E., Srd B., Automated extraton of deson rules for leptn dynams A rough sets approah, Journal of Bomedal Informats 41, pp. 667 674, 2008. [9] Komorowsk J., awlak Z., olkowsk L., Skowron A., Rough Sets: A Tutoral, http://teseer.st.psu.edu/komorowsk98rough.html, 1998. [10] Glora Vrgna, Lexon-based Doument Representaton, Fundamenta Informatae 124 (2013) 27 46 [11] Srlatha Chebrolu, Srram G. Saneev, Attrbute Reduton on Contnuous Data n Rough Set Theory usng Ant Colony Optmzaton Metaheurst, WCI '15 roeedngs of the Thrd Internatonal Symposum on Women n Computng and Informats, ISBN: 978-1- 4503-3361-0, ages 17-24 [12] Blake, C.L., Merz, C.J.: UCI Mahne Learnng Repostory, http://arhve.s.u.edu/ml/ ABSTRACT In the Data Mnng feld, many learnng methods an handle only dsrete attrbutes. Contnuous features n the data an be dsretzed usng dfferent dsretzaton methods. Replang numerous values of a ontnuous attrbute by a small number of ntervals thereby redues and smplfes the orgnal data. aper presents the mpat of redung the uts on the result of lassfaton n the rough set theory. DATA DISCRETIZATION BY REDUCTION OF CUTS Vsna Ognenov, Vladmr Brtka, Eleonora Brtka, Ivana Berkov - 670 -