Diskretizacija podataka redukcijom tačaka reza

Similar documents
KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

TEORIJA SKUPOVA Zadaci

O homomorfizam-homogenim geometrijama ranga 2

Projektovanje paralelnih algoritama II

Mathcad sa algoritmima

ODREĐIVANJE NAJPOVOLJNIJEG UKLOPNOG STANJA S ASPEKTA MINIMIZIRANJA GUBITAKA RADNE SNAGE POMOĆU GENETSKOG ALGORITMA

ELEKTRYKA 2016 Zeszyt 3-4 ( )

JSM Survey Research Methods Section. Is it MAR or NMAR? Michail Sverchkov

Discretization of Continuous Attributes in Rough Set Theory and Its Application*

Primena distribuiranih prostorno-vremenskih kodova u kooperativnim kognitivnim radio mrežama sa Rejlijevim fedingom

Machine Learning: and 15781, 2003 Assignment 4

Materijali za kolegij Kvantitativne metode u menadžmentu za poslijediplomski studij

Vjerojatnost, statistika i Boltzmannova raspodjela. AK2; šk.g.2006/07; sastavio: T. Biljan

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

Clustering. CS4780/5780 Machine Learning Fall Thorsten Joachims Cornell University

Fajl koji je korišćen može se naći na

CS 3710: Visual Recognition Classification and Detection. Adriana Kovashka Department of Computer Science January 13, 2015

ANALYTICAL AND NUMERICAL PREDICTION OF SPRINGBACK IN SHEET METAL BENDING

A solution to the Curse of Dimensionality Problem in Pairwise Scoring Techniques

Instance-Based Learning and Clustering

Algoritam simulatora sinhronizovanog rojenja naoružanih mobilnih platformi protiv aktivne pretnje

Interval Valued Neutrosophic Soft Topological Spaces

Support Vector Machines

Keyword Reduction for Text Categorization using Neighborhood Rough Sets

Application research on rough set -neural network in the fault diagnosis system of ball mill

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

CIS526: Machine Learning Lecture 3 (Sept 16, 2003) Linear Regression. Preparation help: Xiaoying Huang. x 1 θ 1 output... θ M x M

Iterative Discovering of User s Preferences Using Web Mining

APLSSVM: Hybrid Entropy Models for Image Retrieval

Image classification. Given the bag-of-features representations of images from different classes, how do we learn a model for distinguishing i them?

Population Design in Nonlinear Mixed Effects Multiple Response Models: extension of PFIM and evaluation by simulation with NONMEM and MONOLIX

Lecture 3: Dual problems and Kernels

DEVELOPMENT OF MATHEMATICAL MODELS TO PREDICT THE EFFECT OF INPUT PARAMETERS ON FEED RATE OF A RECIPROCATORY TUBE FUNNEL FEEDER

Mr.Said Anwar Shah, Dr. Noor Badshah,

Statistical analysis using matlab. HY 439 Presented by: George Fortetsanakis

Outline. Clustering: Similarity-Based Clustering. Supervised Learning vs. Unsupervised Learning. Clustering. Applications of Clustering

24. Balkanska matematiqka olimpijada

Red veze za benzen. Slika 1.

Natural Language Processing and Information Retrieval

Scientific Research of the Institute of Mathematics and Computer Science 1(11) 2012, 23-30

2-π STRUCTURES ASSOCIATED TO THE LAGRANGIAN MECHANICAL SYSTEMS UDC 531.3: (045)=111. Victor Blãnuţã, Manuela Gîrţu

An Evaluation on Feature Selection for Text Clustering

Support Vector Machines. Vibhav Gogate The University of Texas at dallas

MODELIRANJE TEHNOLOŠKIH PROCESA U RUDARSTVU U USLOVIMA NEDOVOLJNOSTI PODATAKA PRIMENOM TEORIJE GRUBIH SKUPOVA

Decision Diagrams Derivatives

ALGEBRAIC SCHUR COMPLEMENT APPROACH FOR A NON LINEAR 2D ADVECTION DIFFUSION EQUATION

Metaheuristics for The Solution of Dynamic Vehicle Routing Problem With Time Windows (DVRPTW) With Travel Time Variable

The Study of Teaching-learning-based Optimization Algorithm

Probabilistic & Unsupervised Learning

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Tenth Order Compact Finite Difference Method for Solving Singularly Perturbed 1D Reaction - Diffusion Equations

Magnitude Approximation of IIR Digital Filter using Greedy Search Method

Stress analysis by local integral equations

STATISTIČKE I MATEMATIČKE METODE ZA REŠAVANJE PROBLEMA KLASTEROVANJA POŠTANSKIH PODATAKA KADA SU ONI NEPOTPUNI

Maximum Likelihood Estimation of Binary Dependent Variables Models: Probit and Logit. 1. General Formulation of Binary Dependent Variables Models

System identifications by SIRMs models with linear transformation of input variables

Handling Uncertain Spatial Data: Comparisons between Indexing Structures. Bir Bhanu, Rui Li, Chinya Ravishankar and Jinfeng Ni

Hidden Markov Model Cheat Sheet

Assignment 5. Simulation for Logistics. Monti, N.E. Yunita, T.

An improved approach to attribute reduction with covering rough sets

Iskazna logika 1. Matematička logika u računarstvu. oktobar 2012

The calculation of ternary vapor-liquid system equilibrium by using P-R equation of state

APPROXIMATE OPTIMAL CONTROL OF LINEAR TIME-DELAY SYSTEMS VIA HAAR WAVELETS

EXPERIMENTAL INVESTIGATION OF EXTRUSION SPEED AND TEMPERATURE EFFECTS ON ARITHMETIC MEAN SURFACE ROUGHNESS IN FDM- BUILT SPECIMENS

5 SEKTORSKO OZVUČAVANJE

Matrix Approximation via Sampling, Subspace Embedding. 1 Solving Linear Systems Using SVD

Decoding LDPC Codes with Mutual Information-Maximizing Lookup Tables

INVESTIGATION OF UPSETTING OF CYLINDER BY CONICAL DIES

Statistical inference for generalized Pareto distribution based on progressive Type-II censored data with random removals

Downloaded from jamlu.liau.ac.ir at 21: on Friday February 22nd K-means. * :

A ME Model Based on Feature Template for Chinese Text Categorization

Uvod u analizu (M3-02) 05., 07. i 12. XI dr Nenad Teofanov. principle) ili Dirihleov princip (engl. Dirichlet box principle).

Efficient Sampling for Gaussian Process Inference using Control Variables

International Journal of Mathematical Archive-3(3), 2012, Page: Available online through ISSN

Nonlinear Classifiers II

can be decomposed into r augmenting cycles and the sum of the costs of these cycles equals, c . But since is optimum, we must have c

A Network Intrusion Detection Method Based on Improved K-means Algorithm

CS246: Mining Massive Datasets Jure Leskovec, Stanford University

VELOCITY PROFILES AT THE OUTLET OF THE DIFFERENT DESIGNED DIES FOR ALUMINIUM EXTRUSION

Learning with Maximum Likelihood

ANALYSIS OF INFLUENCE OF PARAMETERS ON TRANSFER FUNCTIONS OF APERIODIC MECHANISMS UDC Života Živković, Miloš Milošević, Ivan Ivanov

CLUSTERING ALGORITHMS FOR CATEGORICAL DATA USING CONCEPTS OF SIGNIFICANCE AND DEPENDENCE OF ATTRIBUTES

ANALYSIS OF THE RELIABILITY OF THE "ALTERNATOR- ALTERNATOR BELT" SYSTEM

VARIATION OF CONSTANT SUM CONSTRAINT FOR INTEGER MODEL WITH NON UNIFORM VARIABLES

Metrički prostori i Riman-Stiltjesov integral

Osobine metode rezolucije: zaustavlja se, pouzdanost i kompletnost. Iskazna logika 4

Linearno uređena topologija

1 Convex Optimization

Probability & Bayesian Decision Theory

Summary ELECTROMAGNETIC FIELDS AT THE WORKPLACES. System layout: exposure to magnetic field only. Quasi-static dosimetric analysis: system layout

Randomness and Computation

Statistical Analysis of Environmental Data - Academic Year Prof. Fernando Sansò CLUSTER ANALYSIS

Logistic Regression. CAP 5610: Machine Learning Instructor: Guo-Jun QI

Chapter 2 A Class of Robust Solution for Linear Bilevel Programming

PROGRAM FOR CALCULATION OF A DEFLECTION OF A UNIFORM LOADED SQUARE PLATE USING GAUSS-SEIDEL METHOD FOR SOLUTION OF POISSON DIFFERENTIAL EQUATION

Key words: path synthesis, joint clearances, Lagrange s equation, Differential evaluation (DE), optimization.

CS 2750 Machine Learning. Lecture 5. Density estimation. CS 2750 Machine Learning. Announcements

Probabilistic Information Retrieval CE-324: Modern Information Retrieval Sharif University of Technology

Wavelet chaotic neural networks and their application to continuous function optimization

Exact Inference: Introduction. Exact Inference: Introduction. Exact Inference: Introduction. Exact Inference: Introduction.

Transcription:

INFOTEH-JAHORINA Vol. 15, Marh 2016. Dskretzaa podataka redukom tačaka reza Všna Ognenovć, Vladmr Brtka, Eleonora Brtka, Ivana Berkovć Unverztet u Novom Sadu, Tehnčk fakultet Mhalo upn Zrenann Srba vsnao@tfzr.uns.a.rs, vbrtka@tfzr.uns.a.rs, eleonorabrtka@gmal.om, berkov@tfzr.uns.a.rs Sažetak U oblast Data Mnng-a mnog obučavauć metod mogu da rade samo sa dskretnm vrednostma atrbutma. Kontunalne vrednost atrbuta mogu da se dskretzuu pomoću razlčth metoda za dskretzau. Zamenom mnogh vrednost atrbuta malm broem ntervala, orgnaln poda se redukuu poednostavluu. Rad predstavla uta reduke tačaka reza na rezultat klasfkae u oblast teore grubh skupova. Klučne reč - dskretzaa; tačke reza; klasfkaa; teora grubh skupova I. UVOD U oblast Data Mnng-a mnog obučavauć metod (mahne learnng) mogu da rade samo sa dskretnm vrednostma atrbuta. Zbog toga pre mahne learnng proesa, neophodno e transformsat kontnualne vrednost аtrbuta u dskretne, konsttusane od skupa ntervala. Ova proess poznat kao dskretzaa podataka e esenaln zadatak u preproesranu podataka, ne samo zbog toga što nek obučavauć metod ne rade sa kontnualnm vrednostma atrbuta, već zbog toga što su poda transformsan u skup ntervala kogntvno relevantn za ludska tumačena. Rezultat dskretzae podataka e skup tačaka koma se poda svrstavau u ntervale. U zavsnost od konkretnog algortma dskretzae, ko e koneptualno vezan za određenu teoru l metod razvau se metod optmzae algortama, heurstke, a takođe aproksmatvne vrednost rezultata dskretzae. Emprsk rezultat pokazuu da kvaltet klasfkaskh metoda zavs od algortma dskretzae ko se korst [1]. ošto e dskretzaa proes tražena parta domena atrbuta uednačavana vrednost u okvru svh ntervala, problem dskretzae se može defnsat kao problem tražena relevantnh skupova tačaka reza (ut) nad domenma atrbuta [2]. osto nekolko podela na osnovu koh e moguće klasfkovat algortme za dskretzau. rema [3],.[4] neke od osnovnh podela su sledeće: lokalna globalna dskretzaa (loal global) dnamčka statčka dskretzaa (dynam stat) nadzrana nenadzrana dskretzaa (supervsed unsupervsed) unvarantna multvarantna dskretzaa (unvarate multvarate) deleća obednuuća dskretzaa (splttng mergng, Top-Down and Bottom-up) drektna nkrementalna dskretzaa (dret nremental) po mer oene dskretzae (nformaa, statstka, grub skupov, wrapper, bnnng) Ako se u dskretzau ukluč l ne ukluč ekspert, onda b to bla oš edna podela. Stručnak nabole može da prlagod tačke reza tako da odgovarau važnost određenog atrbuta. Međutm to u nekm stuaama može da bude kontraproduktvno. Btno e da se razume eo proes dskretzae kao prv korak klasfkae, al kompletan algortam klasfkae doben rezultat. Na osnovu podela mogu se zvest relae zmeđu poednh dskretzaa, kao na prmer da su sve dnamčke dskretzae lokalne, l da e nadgledana dskretzaa u odnosu na određen algortam lokalna. U okvru teore grubh skupova algortam za dskretzau maksmalne razbervost e dnamčk nadzran [2]. U ovom radu će se pokazat dskretzaa podataka u teor grubh skupova, tako da će razmatrat reduka dobenh tačaka reza. Tme b se smano bro ntervala a to b utalo na rezultat dskretzae. Za dskretzau korstće se algortam maksmalne nerazbervost (MD-heurst algorthm) ko e u stvar greedy algortam za određvane mnmalnog skupa pokrvana (mnmal set overng) obekata z razlčth klasa atrbuta odluke. Ova algortam e mplementran u sstemu Rosetta ko će se korstt za dobane početnh tačaka reza [5]. Reduka dobenh tačaka reza će se radt na osnovu analze hstograma podataka poednh atrbuta, a za analzu hstograma će se korstt softver EasyFt [6]. Tme b se pokazalo kako se redukom tačaka reza na osnovu hstograma, može pobolšat ukupan rezultat klasfkae. Za klasfkau dskretzovanh podataka korstće se rezultat Rad e potpomognut sredstvma proekta CR 32044 Razvo softverskh alata za analzu pobolšane poslovnh proesa ko fnansra Mnstarstvo za prosvetu, nauku tehnološk razvo Repulke Srbe - 665 -

Džonsonovog algortma za zračunavane mnmalnh prosth mplkant Bulove funke. Ova algortam e takođe mplementran u sstemu Rosetta [5]. II. DISKRETIZACIJA U TEORIJI GRUBIH SKUOVA Teoru grubh skupova e razvo awlak 1982 za analzu podataka. Osnovna namena grubh skupova e aproksmaa nepoznath znana preko poznatog znana [7]. Za teoru grubh skupova e btno postoane unverzuma ko sadrž obekte defnsane pomoću vrednost svoh atrbuta. Bazrana na prnpu nerazbervost obekata koneptu aproksmae, ova teora omogućue prepoznavane zavsnost zmeđu atrbuta odluke uslovnh atrbuta [8]. U ovom radu analzraće se naknadna reduka tačaka reza nen uta na klsfkau u okvru teore grubh skupova. A. Osnove teore grubh skupova oda ko se analzrau su tabelarno organzovan. U teor grubh skupova defnsana e nformaona tabela [9]. Informaonu tabelu čn uređena četvorka: S U, Q, V, f, gde e U konačan skup obekata unverzum; Q { q1, q2,..., qm} e konačan skup atrbuta; V qq V, gde e q V domen atrbuta q q (vrednost atrbuta); f U Q V e totalna funka takva da e f ( x, q) za svako q Q, xu zove se nformaona V q funka (nformaton funton). Svak obekat vektorom: x U e opsan Des x) [ f ( x, q ), f ( x, q ),..., f ( x, q )] q( 1 2 m ko defnše vrednost atrbuta obekta x. Neka e sa označen neprazan podskup skupa atrbuta Q. Defnsana e relaa I nad U: {( x, y) U U : f ( x, q) f ( y, q), q } I Relaa (2) se zove relaa nerazbervost, l relaa nerazlkovana (ndsernblty relaton). Ako ( x, y) I, kaže se da su obekt x y -nerazberv (-ndsernble). Relaa nerazbervost e relaa ekvvalene. Ovakva relaa generše klase ekvvalene. Famla klasa ekvvalene kou generše I označena e sa U I. Klase ekvvalene genersane relaom I nazvau se -elementarn skupov (elementary sets), a klasa ekvvalene koa sadž obekat x U označena e sa I (x). Ako e Q, -elementarn skupov se nazvau atom (atoms). Neka e S nformaona tabela, X neprazan podskup od U, a Q: ( X ) { x U : I ( x) X} ( X ) I x ( ) xx Sa (X ) e označena -dona aproksmaa (-lower approxmaton), a sa (X ) -gorna aproksmaa (-upper approxmaton) skupa X. Element (X ) su on obekt x X ko prpadau klas ekvvalene genersano sa I koa e sadržana u X. Element (X ) su on obekt x X ko prpadau klas ekvvalene genersano sa I koa sadrž namane edan obekat x ko prpada X. -grana (-boundary) X u S defnše se kao: Bn ( X ) ( X ) ( X ) Grafčka nterpretaa -grane e prkazana na Sl. 1. Slka 1. Osnovna dea teore grubh skupova, slka preuzeta z [10] Ako e skup atrbuta Q nformaone tabele podelen na uslovne (ondton) atrbute C atrbute odluke (deson attrbutes) D, tako da e C D Q C D, takva nformaona tabela nazvana e tabela odluke (deson table). Atrbut odluke D, generšu partu skupa U preko relae nerazbervost I. D-elementarn skupov se nazvau klase D odluke (deson lasses). Tabela odluke predstavlena e uređenom četvorkom S U,( C D), V, f. Generalzovana funku odluke A (x ) obekta x za skup A C, defnsana e kao skup klasa odluke po svm obektma u okvru klase ekvvalene x [11]. x ) { f ( x, d) x x } A ( A Za tabelu odluke se kaže da e konzstentna (onsstent) ako e kardnalnost od A (x ) ednaka 1 za sve obekte u unverzumu. Inače ako kardnalnost generalzovane funke odluke ne ednaka 1, tabela e nekonzstenta (nonsstent). B. Osnovne defne dskretzae u teor grubh skupova Dskretzaa kontnualnh podataka u okvru teore grubh skupova e bazrana na defnsanu skupa tačaka reza (set od uts) nad svm atrbutma sa kontnualnm vrednostma. Neka e V skup vrednost atrbuta C. Neka e l leva grana a r desna grana skupa V tako da e - 666 -

l r. Skup V [ l, r ) R, gde e R skup realnh broeva. Neka e p realan bro takav da e l p r. Bro p prav partu obekata unverzuma U na dva dsunktna skupa U l U r gde e U x U f x, p } l { U x U f x, p } r { III. REDUKCIJA TAČAKA REZA Glavna dea vezana za reduku tačaka reza dobenh MD algortmom e vezana za analzu odnosa tačaka reza hstograma vrednost atrbuta. A. rmer 1 Za bazu Blood Transfuson Serve Center Data Set [12], koa ma četr uslovna atrbuta edan atrbut odluke, na osnovu MD algortma dobene su sledeće tačke reza (Sl.3). Sa nulom e označen prv atrbut, sa ednom drug a sa broem tr četvrt atrbut. Treć atrbut ne dskretzovan, odnosno MD-algortam ga e zbao pošto ne utče na razbervost. Oba skupa U l U r su neprazna. Realan bro p defnše se kao tačka reza (ut) atrbuta. Neka e skup tačaka reza atrbuta defnsan sa = {p 1, p 2,..., p k }, tako da e l p 1 < p 2 <... < p k < r. rema [11] dskretzovana verza konzstentnog sstema S e nov sstem odluke -dskretzaa od S on e defnsan kao p p petorka S U,( C D), V,, f, gde e skup tačaka reza (uts) nad C, što se može zapsat kao a funka f C e defnsana na sledeć načn: 0, f f ( x, ) p1 p f ( x, ), f f ( x, ) [ p, p 1), 1 k 1 k, f f ( x, ) pk C. Algortam maksmalne razbervost Algortam maksmalne razbersvost (MD-heurst algorthm) korst Boolean reasonng prstup [2] ko garantue razbervost zmeđu obekata. Ova algortam e mplementran u sstemu Rosetta na Sl.2 e prkazan negov korsnčk nferfes: Slka 3. Tačke reza - rezultat MD algortma Rezultat klasfkae na ovako dskretzovanm podama e loš. Na Sl.4 e prkazana matra konfuze. Ukupna oena e 35,92%. Slka 4. Rezultat klasfkae pr dskretza MD algrtmom Ako se pogleda hstogram na prmer četvrtog atrbuta, negove tačke reza, može se prmett da one prate lokalne maksmume l normalnu raspodelu oko lokalnog maksmuma (Sl. 5) Slka 2. Korsnčk nterfes MD algortma - 667 -

Slka 5. Tačke reza na hstogramu Ako se urad reduka tačaka reza tako da se uoče grupae lokalnh maksmuma koe na ednom delu ukupnog ntervala vrednost atrbuta predstavlau normalnu raspodelu na hstogramu, onda grafčk to može da zgleda kao na Sl. 6. Na osnovu rezultata matre konfuze može se vdet da se na ova načn dskretzovana tabela može bole klasfkovat na osnovu ukupnog rezultata. roblem ko e evdentan e da se pored značanog povećana broa obekata ko se pravlno klasfkuu, povećao bro obekata ko se nepravlno klasfkuu. ored posmatrana matra konfuze, ako se posmatrau pravla na osnovu koh e zvršena klasfkaa, može se uočt sledeće: dobeno e 266 pravla (na osnovu podataka dskretzovanh MD algortmom algortmom maksmalne razbervost) od koh nh 11 ma veznk OR u THEN delu pravla (Sl. 9). dobeno e 118 pravla (na osnovu reduke tačaka reza) od koh nh 30 ma veznk OR u THEN delu pravla (Sl. 10). Slka 6. Tačke reza četvrtog atrbuta dobene redukom na osnovu grupaa lokalnh maksmuma raspodele na hstogramu Ako se stm postupkom redukuu tačke reza kod ostalh atrbuta, onda se za tako redukovane tačke reza koe su ručno unete u sstem Rosetta (Sl. 7), doba rezultat klasfkae prkazan na Sl. 8. Slka 9. Deo pravla dobenh nad podama ko su dskretzovan MD algortmom Slka 7. Redukovan skup tačaka reza na osnovu grupaa lokalnh maksmuma Slka 10. Deo pravla dobenh nad podama ko su dskretzovan redukovanm skupom tačaka reza sa Sl. 7 ovećanem broa pravla koa mau OR smanue se razbervost, odnosno st poda se klasfkuu na dva razlčta načna. Zbog toga matra konfuze može da ma dobar rezultat a da se u stvar ne zna tačna odluka za konkretan obekat. B. rmer 2 Da b se pokazala značanost grupsana lokalnh maksmuma sa Sl. 6, u odnosu na neku drugu reduku tačaka, u ovom prmeru će se ponovo poć od ste baze od tačaka reza dobenh Bulovm algortmom maksmalne razbervost (Sl. 3 Sl. 5). U odnosu na redukovan skup tačaka reza sa Sl. 7, zmenće se samo tačke reza četvrtog atrbuta. Namerno će se zaobć grupsane oko lokalnh maksmuma kod četvrtog atrbuta, odnosno uzeće se tačke koe se nalaze unutar grupaa lokalnh maksmuma. Takav zbor tačaka reza četvrtog atrbuta e prkazan na hstogramu na Sl. 11. Slka 8. Rezultat klasfkae za redukovan skup tačaka reza na osnovu grupaa lokalnh maksmuma - 668 -

za st broa tačaka reza kao uednačene velčne ntervala dobenh tačkama reza, 8 pravla vše, čn značanu razlku. Tme se u rmeru 2 u većo mer nego u rmeru 1 (sa tačkama reza dobenm redukom) narušava razbervost. Slka 11. Izmenen skup tačaka reza kod četvrtog atrbuta tako da ne poštovano grupsane oko lokalnh maksmuma Za tako zabrane tačke reza četvrtog atrbuta, koe su ručno unete u sstem Rosetta (Sl. 12), doba se rezultat klasfkae prkazan na Sl. 13. Slka 12. Izmenen skup tačaka reza - za četvrt atrbut tačke reza sa Sl. 11 D. Metod reduke tačaka reza Radom u sstemu Rosetta prmećeno e da se u zavsnost od vrste podataka dobau određen rezultat. Istražvanem hstograma podataka, kao raspodela nad hstogramma, potvrđeno e da reduka tačaka reza dobenh MD algortmom zavs od sledećeg: u koo mer poda predstavlen hstogramom odgovarau l ne odgovarau normalno raspodel l normalnm raspodelama na poednm delovma hstograma na osnovu toga reduka tačaka reza može da se urad kao u rmeru 1; kolk e bro tačaka reza kod malog broa tačaka reza, redukom se uglavnom dobau loš rezultat a što e bro tačaka reza već, rezultat reduke su bol; kolk e rezultat klasfkae kod dobrog rezultata klasfkae zbavanem tačke reza koa se na hstogramu već nalaz u podntervalu okolne lokalnog maksmuma, u velkom brou slučaeva doba se st rezultat. Ovo su samo osnovn parametr ko mogu da pomognu u stuaama kada e rezultat klasfkae loš. U slučau kada e rezultat klasfkae dobar, redukom tačaka reza može da se naruš razbervost a tme dobe loš rezultat klasfkae. Slka 13. Rezultat klasfkae za redukovan skup tačaka reza na osnovu negrupsana lokalnh maksmuma C. Komparaa Ono što delue kao napredak u rmeru 2 e u stvar problem er e klasfkaa dobena značano većm povećanem broa pravla koa u THEN delu mau OR. Na baz dskretzae z rmera 2, dobeno e ukupno 117 pravla od koh nh 38 ma operator OR u THEN delu. U odnosu na reduku tačaka reza z rmera 1, prva dva atrbuta mau ste tačke reza, treć atrbut ne dskretzovan, dok e za četvrt atrbut uzet st bro tačaka reza al e u rmeru 1 poštovan prnp grupsana lokalnh maksmuma, a u rmeru 2 ne. U rmeru 1 dobeno e 118 pravla, a u rmeru 2, 117 pravla. Ono što e značana razlka e što e u rmeru 1, operator OR u THEN delu pravla malo 30 pravla, dok e u rmeru 2, čak 38 pravla malo operator OR u THEN delu pravla. Za zmenu tačaka reza kod samo ednog atrbuta IV. ZAKLJUČAK U radu e pokazano na ko načn hstogram vrednost atrbuta može da utče na zbor tačaka reza za reduku. Na osnovu odgovaraućh prmera pokazan e problem genersana velkog broa tačaka reza nad podama ko mau već bro lokalnh maksmuma na hstogramu. Redukom onh tačka koe se nalaze u okoln lokalnh maksmuma, pored smanena broa tačaka reza, doba se bol rezultat klasfkae uz mane smanene razbervost. Ovakav metod može da pomogne ekspertu da bole razume uta dskretzae na klasfkau podataka, kao da zbegne lošu reduku tačaka reza. LITERATURA [1] J. Gama, L. Torgo, C. Soares, Dynam Dsretzaton of Contnuons Attrbutes, www.laad.up.pt/~ltorgo/apers/ddca.ps.gz [2] HS Nguyen, Approxmate boolean reasonng: foundatons and applatons n data mnng, Transatons on rough sets V, 334-506, 2006. [3] Sergo Ramırez-Gallego, Salvador Garıa, Hetor Mourno-Talın, Davd Martınez-Rego, Verona Bolon-Canedo, Amparo Alonso-Betanzos, Jose Manuel Benıtez, Franso Herrera, Data Dsretzaton: Taxonomy and Bg Data Challenge, Wley Interdsplnary Revews: Data Mnng and Knowledge Dsovery, Volume 6, Issue 1, pages 5 21, January/February 2016. [4] Stephen D. Bay, Multvarate Dsretzaton of Contnuous Varables for Set Mnng, Department of Informaton and Computer Sene, - 669 -

Unversty of Calforna, Irvne, http://www.me.unamp.br/~wanderson/artgos/multvarate_dsretzat on_of_ontnuous_varables.pdf. [5] Øhrn, A.: Rosetta Tehnal Referene Manual (1999), http://www.d.ntnu.no/_aleks/rosetta [6] EasyFt - Dstrbuton Fttng Software, http://www.mathwave.om/easyft-dstrbuton-fttng.html [7] awlak, Z.: Rough sets: Theoretal Aspets of Reasonng about Data. Kluwer Aadem ublshers, Dordreht (1991) [8] Brtka V., Stok E., Srd B., Automated extraton of deson rules for leptn dynams A rough sets approah, Journal of Bomedal Informats 41, pp. 667 674, 2008. [9] Komorowsk J., awlak Z., olkowsk L., Skowron A., Rough Sets: A Tutoral, http://teseer.st.psu.edu/komorowsk98rough.html, 1998. [10] Glora Vrgna, Lexon-based Doument Representaton, Fundamenta Informatae 124 (2013) 27 46 [11] Srlatha Chebrolu, Srram G. Saneev, Attrbute Reduton on Contnuous Data n Rough Set Theory usng Ant Colony Optmzaton Metaheurst, WCI '15 roeedngs of the Thrd Internatonal Symposum on Women n Computng and Informats, ISBN: 978-1- 4503-3361-0, ages 17-24 [12] Blake, C.L., Merz, C.J.: UCI Mahne Learnng Repostory, http://arhve.s.u.edu/ml/ ABSTRACT In the Data Mnng feld, many learnng methods an handle only dsrete attrbutes. Contnuous features n the data an be dsretzed usng dfferent dsretzaton methods. Replang numerous values of a ontnuous attrbute by a small number of ntervals thereby redues and smplfes the orgnal data. aper presents the mpat of redung the uts on the result of lassfaton n the rough set theory. DATA DISCRETIZATION BY REDUCTION OF CUTS Vsna Ognenov, Vladmr Brtka, Eleonora Brtka, Ivana Berkov - 670 -