Fajl koji je korišćen može se naći na

Similar documents
KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

Projektovanje paralelnih algoritama II

Mathcad sa algoritmima

Red veze za benzen. Slika 1.

TEORIJA SKUPOVA Zadaci

CptS 570 Machine Learning School of EECS Washington State University. CptS Machine Learning 1

LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

Preliminarno ispitivanje sadrž aja slike pomoć u histograma slike koris ć enjem SVM algoritma i neuronske mrež e

BROJEVNE KONGRUENCIJE

Smart Home Health Analytics Information Systems University of Maryland Baltimore County

Evaluation & Credibility Issues

CLASSIFICATION NAIVE BAYES. NIKOLA MILIKIĆ UROŠ KRČADINAC

Performance Evaluation

Data Mining: Concepts and Techniques. (3 rd ed.) Chapter 8. Chapter 8. Classification: Basic Concepts

Matthew Piccoli University of Pennsylvania

SUPERVISED LEARNING: INTRODUCTION TO CLASSIFICATION

Introduction to Supervised Learning. Performance Evaluation

Zadatci sa ciklusima. Zadatak1: Sastaviti progra koji određuje z ir prvih prirod ih rojeva.

MAGNETIC FIELD OF ELECTRICAL RADIANT HEATING SYSTEM

Performance Evaluation and Comparison

Classifier Evaluation. Learning Curve cleval testc. The Apparent Classification Error. Error Estimation by Test Set. Classifier

Šta je to mašinsko učenje?

Slika 1. Slika 2. Da ne bismo stalno izbacivali elemente iz skupa, mi ćemo napraviti još jedan niz markirano, gde će

Model Accuracy Measures

ABOUT SOME VARIOUS INTERPRETATIONS OF THE FATIGUE CRITERION AT LOW NUMBER OF STRAIN CYCLES UDC Miodrag Janković

FTN Novi Sad Katedra za motore i vozila. Drumska vozila Uputstvo za izradu vučnog proračuna motornog vozila. 1. Ulazni podaci IZVOR:

Bayesian Decision Theory

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Data Mining and Knowledge Discovery: Practice Notes

AIR CURTAINS VAZDU[NE ZAVESE V H

INVESTIGATION OF UPSETTING OF CYLINDER BY CONICAL DIES

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

Stephen Scott.

FIZIKALNA KOZMOLOGIJA VII. VRLO RANI SVEMIR & INFLACIJA

Uvod u relacione baze podataka

A SPECTRAL ATLAS OF λ BOOTIS STARS

DYNAMIC HEAT TRANSFER IN WALLS: LIMITATIONS OF HEAT FLUX METERS

ADAPTIVE NEURO-FUZZY MODELING OF THERMAL VOLTAGE PARAMETERS FOR TOOL LIFE ASSESSMENT IN FACE MILLING

MATHEMATICAL ANALYSIS OF PERFORMANCE OF A VIBRATORY BOWL FEEDER FOR FEEDING BOTTLE CAPS

An Algorithm for Computation of Bond Contributions of the Wiener Index

Linear Classifiers as Pattern Detectors

Class 4: Classification. Quaid Morris February 11 th, 2011 ML4Bio

Mehurasto sortiranje Brzo sortiranje Sortiranje učešljavanjem Sortiranje umetanjem. Overviev Problemi pretraživanja Heš tabele.

The Solution to Assignment 6

NIPP. Implementing rules for metadata. Ivica Skender NSDI Working group for technical standards.

Performance Evaluation

Strojno učenje 3 (I dio) Evaluacija modela. Tomislav Šmuc

Regularization. CSCE 970 Lecture 3: Regularization. Stephen Scott and Vinod Variyam. Introduction. Outline

Diagnostics. Gad Kimmel

CONSTRUCTION OF GENERATOR CAPABILITY CURVES USING THE NEW METHOD FOR DETERMINATION OF POTIER REACTANCE

Philippe Jodin. Original scientific paper UDC: :519.6 Paper received:

.. Cal Poly CSC 466: Knowledge Discovery from Data Alexander Dekhtyar.. for each element of the dataset we are given its class label.

Machine Learning in Action

EXPERIMENTAL ANALYSIS OF THE STRENGTH OF A POLYMER PRODUCED FROM RECYCLED MATERIAL

ANALYSIS OF INFLUENCE OF PARAMETERS ON TRANSFER FUNCTIONS OF APERIODIC MECHANISMS UDC Života Živković, Miloš Milošević, Ivan Ivanov

Iskazna logika 1. Matematička logika u računarstvu. oktobar 2012

CHAPTER 4: PREDICTION AND ESTIMATION OF RAINFALL DURING NORTHEAST MONSOON

VELOCITY PROFILES AT THE OUTLET OF THE DIFFERENT DESIGNED DIES FOR ALUMINIUM EXTRUSION

EXPERIMENTAL INVESTIGATION OF EXTRUSION SPEED AND TEMPERATURE EFFECTS ON ARITHMETIC MEAN SURFACE ROUGHNESS IN FDM- BUILT SPECIMENS

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Sveučilišni nastavnički studij matematike i informatike. Sortiranje u linearnom vremenu

Evaluation. Andrea Passerini Machine Learning. Evaluation

Analysis of Data Mining Techniques for Weather Prediction

Hypothesis Evaluation

Lecture 4 Discriminant Analysis, k-nearest Neighbors

PRECIPITATION FORECAST USING STATISTICAL APPROACHES UDC 55:311.3

DEVELOPMENT OF A MATHEMATICAL MODEL TO PREDICT THE PERFORMANCE OF A VIBRATORY BOWL FEEDER FOR HEADED COMPONENTS

Programiranje u realnom vremenu Bojan Furlan

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

Data Mining and Analysis: Fundamental Concepts and Algorithms

O homomorfizam-homogenim geometrijama ranga 2

Evaluation requires to define performance measures to be optimized

U X. 1. Multivarijantna statistička analiza 1

Performance. Learning Classifiers. Instances x i in dataset D mapped to feature space:

Performance evaluation of binary classifiers

DEVELOPMENT OF MATHEMATICAL MODELS TO PREDICT THE EFFECT OF INPUT PARAMETERS ON FEED RATE OF A RECIPROCATORY TUBE FUNNEL FEEDER

Stats notes Chapter 5 of Data Mining From Witten and Frank

THE USE OF SCRIPT IN THE SOFTWARE GEMCOM ***

Lecture Slides for INTRODUCTION TO. Machine Learning. ETHEM ALPAYDIN The MIT Press,

Least Squares Classification

Dynamic Clustering-Based Estimation of Missing Values in Mixed Type Data

ANALYTICAL AND NUMERICAL PREDICTION OF SPRINGBACK IN SHEET METAL BENDING

On the relation between Zenkevich and Wiener indices of alkanes

ANALYSIS OF THE RELIABILITY OF THE "ALTERNATOR- ALTERNATOR BELT" SYSTEM

Osobine metode rezolucije: zaustavlja se, pouzdanost i kompletnost. Iskazna logika 4

DETERMINATION OF THE EFFECTIVE STRAIN FLOW IN COLD FORMED MATERIAL

MACHINE LEARNING ADVANCED MACHINE LEARNING

BANA 7046 Data Mining I Lecture 4. Logistic Regression and Classications 1

AN EXPERIMENTAL METHOD FOR DETERMINATION OF NATURAL CIRCULAR FREQUENCY OF HELICAL TORSIONAL SPRINGS UDC:

Machine Learning for natural language processing

APPLICATION OF THOMAS-FERMI MODEL TO FULLERENE MOLECULE AND NANOTUBE UDC 547. Yuri Kornyushin

Data Mining and Knowledge Discovery. Petra Kralj Novak. 2011/11/29

Metode izračunavanja determinanti matrica n-tog reda

Određivanje koncentracija dve reaktivne boje u bojenom pamučnom materijalu

GIS AND REMOTE SENSING APPLICATION IN GEOLOGICAL MAPPING AND 3D TERRAIN MODELING: A CASE STUDY IN EGHEI UPLIFT, LIBYA

KINETIKA UMREŽAVANJA SMEŠA ALKID/MELAMINSKA SMOLA

15-388/688 - Practical Data Science: Nonlinear modeling, cross-validation, regularization, and evaluation

IMPROVEMENT OF HIPPARCOS PROPER MOTIONS IN DECLINATION

CSC314 / CSC763 Introduction to Machine Learning

Asian Journal of Science and Technology Vol. 4, Issue 08, pp , August, 2013 RESEARCH ARTICLE

Uvod u analizu (M3-02) 05., 07. i 12. XI dr Nenad Teofanov. principle) ili Dirihleov princip (engl. Dirichlet box principle).

Transcription:

Machine learning Tumačenje matrice konfuzije i podataka Fajl koji je korišćen može se naći na http://www.technologyforge.net/datasets/. Fajl se odnosi na pečurke (Edible mushrooms). Svaka instanca je definisana sa 23 atributa (raznih: oblik šešira, boja, boje spora...). Poslednji atribut je klasa i može uzimati vrednosti Y ili N (Y - jestiva, N - poisonous). Podaci se propuštaju kroz klasifikator da bi se omogućilo da se na osnovu njih, neka nova pečurka, sa određenim atributima, svrsta u jednu od ovih klasa. Rezultat klasifikacije nam govori koliko je model dobar. Šta se dešava: Klasifikator napravi model koji treba da na osnovu prethodno poznatih podataka, klasifikuje novu instancu pečurke u jednu od dveju klasa. Zatim se taj model proverava nekim podacima za koje se znaju klase, da bi se procenila uspešnost modela. Pošto se model pravi nad velikom količinom podataka, naravno da neće biti savršen (što je i dobro - ali to je neka druga priča) već će i praviti greške. Rezultat koji dobijemo pokazuje uspešnost modela. U našem slučaju, model je napravljen na celokupnom setu podataka. Zatim je isti taj set (ceo) korišćen za proveru. Rezultat je dobijen korišćenjem filtera Naive Bayes, 10-folds iteration, u programu Weka:

Ovo je deo izlaza koji je nama potreban. === Stratified cross-validation === === Summary === Correctly Classified Instances 7785 95.8272 % Incorrectly Classified Instances 339 4.1728 % Kappa statistic 0.9162 Mean absolute error 0.0419 Root mean squared error 0.1757 Relative absolute error 8.3961 % Root relative squared error 35.159 % Total Number of Instances 8124 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.992 0.078 0.932 0.992 0.961 0.998 Y 0.922 0.008 0.991 0.922 0.955 0.998 N Weighted Avg. 0.958 0.044 0.96 0.958 0.958 0.998 === Confusion Matrix === a b <-- classified as 4176 32 a = Y 307 3609 b = N

Matrica konfuzije Matrica konfuzije se pravi za jednu klasu. Matrica je data u obliku: TP - True positives FP - False positives FN - False negatives TN - True negatives Pogledajmo šta to znači na gornjem primeru: a b <-- classified as 4176 32 a = Y 307 3609 b = N U ovom slučaju, matrica je data za klasu a (koja predstavlja Y - jestive pečurke). Značenje je sledeće: 4176 je true positives - to znači da je za 4176 instanci klasifikator predvideo da su jestive, i da je bio u pravu, da one zaista jesu jestive 32 je false negatives - model je za 32 instance predvideo da su otrovne, a one su zapravo jestive 307 je false positives - model je za 307 instanci predvideo da su jestive, a one su zapravo otrovne 3609 je true negatives - model je za 3609 instanci smatrao da su otrovne i bio je u pravu, one jesu otrovne. Odavde možemo videti koliko je model dobar - poželjno je da na glavnoj dijagonali matrice bude što veći broj elemenata - time je ispravnost modela veća. Čitanje matrice: po vertikali su brojevi elemenata koje je model klasifikovao u neku od klasa. Po horizontali su elementi koji zapravo pripadaju nekoj od klasa (prema podacima iz fajla). Matrica konfuzije za klasu b (N - otrovne pečurke) bi bila: a b <-- classified as 3609 307 a = N 32 4176 b = Y

Računanje pokazatelja ispravnosti Dobijeni rezultat: TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.992 0.078 0.932 0.992 0.961 0.998 Y 0.922 0.008 0.991 0.922 0.955 0.998 N Weighted Avg. 0.958 0.044 0.96 0.958 0.958 0.998 Matrice konfuzije: Klasa Y Klasa N a b <-- classified as 4176 32 a = Y 307 3609 b = N a b <-- classified as 3609 307 a = N 32 4176 b = Y Podaci TP Rate - pokazuje osetljivost modela. Ovaj broj pokazuje udeo dobro predviđenih instanci neke klase, u ukupnom broju instanci koje zapravo pripadaju toj klasi. Npr: Za klasu Y, model je od 4208 instanci, uspešno klasifikovao 4176. FP Rate - pokazuje specifičnost modela, tačnije njegovu sposobnost da uspešno klasifikuje negativne instance (tačnije one koje ne pripadaju klasi za koju se pravi matrica konfuzije). Npr: za klasu Y, od 3916 instanci koje su u drugoj klasi, pogrešio je u klasifikaciji 307 instanci.

Precision - pokazuje preciznost modela. Ovaj broj pokazuje udeo dobro predviđenih instanci neke klase, u ukupnom broju instanci koje je model svrstao u datu klasu. Drugim rečima, pokazuje koliki deo rezultata u jednoj klasi je uspešno klasifikovan. Npr: Za klasu Y, model je ukupno klasifikovao 4383 instance da će pripadati toj klasi, od toga, 4176 zaista pripada toj klasi. Recall je jednak TP Rate. F- measure je harmonijska sredina Recall i Precission. Služi da označi tačnost. ROC Area - to je površina ispod ROC krive. Ova kriva se dobija iscrtavanjem vrednosti koje predstavljaju odnos TP rate i FP rate. Ovo je kumulativna funkcija. Accuracy - nema ga u izveštaju a odnosi se na procenat uspešno klasifikovanih instanci u odnosu na ukupan broj instanci. Računa se kao: U našem slučaju to je:

Još malo o Recall i Precision. Ovo su dve najznačajnije mere ispravnosti modela. Recall možemo posmatrati kao meru kompletnosti (kvantiteta) a Precission kao meru tačnosti (kvaliteta) Recall pokazuje koliko je relevantnih rezultata algoritam vratio, a Precision pokazuje koliki je udeo relevantnih u nerelevantnim rezultatima koje je algoritam vratio. by Hijavata