Klasifikácia. Obchodný dom = oddelenia (typ/druh tovaru) alternatívne kritériá výberu príznakov vedú k rôznemu výsledku klasifikácie

Size: px

Start display at page:

Download "Klasifikácia. Obchodný dom = oddelenia (typ/druh tovaru) alternatívne kritériá výberu príznakov vedú k rôznemu výsledku klasifikácie"

Flora Bryant
5 years ago
Views:

1 Klasifikácia Obchodný dom = oddelenia (typ/druh tovaru) alternatívne kritériá výberu príznakov vedú k rôznemu výsledku klasifikácie určenie triedy objektu na základe príznakov získaných z objektu

2 Rozhodovacie oblasti

3 Príznakové metódy štatistické metódy vzdialenosti medzi príznakmi techniky najbližších susedov diskriminačná analýza mechanizmy podporných vektorov metóda K priemerov hierarchické zhlukovanie biologicky inšpirované metódy neurónové siete samoorganizujúce mapy pravidlá (aj nemetrické príznaky) rozhodovacie stromy

4 Syntaktickémetódy opis objektu elementárne (ďalej nedeliteľné) prvky objektu zvané primitíva a relácie medzi nimi opis objektu tvorí slovo jazyka nad nejakou abecedou.

5 Hybridné metódy sú kombináciou predchádzajúcich metód Príznakovými metódami identifikujeme primitíva na vytvorenie syntaktického opisu objektu.

6 Riadené metódy Jedna premenná, ktorá sa nazýva cieľová (klasifikačná trieda), riadi proces učenia tak, aby ostatné premenné (prediktory), čo najlepšie predpovedali (v trénovacej vzorke známu) hodnotu cieľovej premennej. * Neurónové siete * Mechanizmy podporných vektorov * Diskriminačná analýza * Rozhodovacie stromy * Bayesovské modely * Techniky najbližších susedov

7 Neriadené metódy Všetky premenné v modely sú rovnocenné, žiadna z nich neriadi proces učenia. Výsledná trieda je určená na základe hľadania podobností medzi pozorovaniami * Hierarchické zhlukovanie * Metóda K priemerov * Neurčité (fuzzy) zhlukovanie * Kohonenove siete (Samo-organizujúce mapy)

8 Riadené trénovacia množina N pozorovaní (x 1,..., x N ), x i R d triedy (y 1,..., y N ), y i { 1, 1} klasifikačný problém: určiť f(x) tak, aby f(x i ) = y i

9 Bayesovský klasifikátor Bayesovský klasifikátor: objekt je priradený do triedy, ktorá je najpravdepodobnejšia vzhľadom na príznaky podmienené rozdelenie pravdepodobnosti P(x ωi) pre každú klasifikačnú triedu ωi apriórna pravdepodobnost P(ωi) pre každú ωi (pred pozorovaním vektora x) nepodmienené rozdelenie pravdepodobnosti P(x) určuje pravdepodobnost vektora x bez ohl adu na triedu

10 Naivný Bayesovský klasifikátor vychádza z predpokladu, že efekt, ktorý má hodnota každého príznakuna danú triedu, nie je ovplyvnený hodnotami ostatných príznakov P(x1,x2,...xN ωi)=p(x1 ωi)p(x2 ωi)...p(xn ωi)

11 Bayesovský klasifikátor priradí objekt triede, kde P(ωi x) je maximálne Rozhodovacia funkcia

12 Optimalita Bayesovho klasifikátora klasifikácia do dvoch rovnako pravdepodobných tried

14 Príklad Máme Red domestic SUV, ukradnú nám ho? P(Yes Red, SUV, Domestic) P(Red, SUV, Domestic Yes)? P(Red, SUV, Domestic No) P(Red Yes), P(SUV Yes), P(Domestic Yes), P(Red No), P(SUV No), P(Domestic No)

no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes

15 Do ktorej triedy patrí tento zákazník? X = (age <=30, Income = medium, Student = yes Credit_rating = Fair) age income student credit rating buys computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no

16 štatisticky nezávislé rovnaká variancia

17 Rovnaká kovariančná matica Rôzne variancie

18 Rovnaká kovariančná matica Nie diagonálna

19 Diagonálna kovariančná matica, rôzna

20 Rôzna kovariančná matica

21 K najbližších susedov Algoritmus pre každý testovaný bod x, nájdi K najbližších susedov z trénovacej množiny klasifikuj x podľa väčšiny K=1? K = 3

22 K=1 Voronoiov diagram

24 zvyšovanie K: vyhladzuje sa hranica zvyšuje / znižuje sa klasifikačná chyba rastie výpočtová náročnosť vzájomná validácia na určenie K trénovacia / testovacia množina priemer chyby na trénovacích množinách

25 Čo znamená najbližší? Metrika... Výpočtová náročnosť: Musíme prehľadať celú trénovaciu množinu na určenie susedov. K=3

26 Rozhodovacie stromy nominálne dáta, pojem vzdialenosti stráca zmysel pravidlá Strom: uzol = test, vetvy zodpovedajú možným výsledkom list = klasifikačná trieda

27 Rozhodovacie porovnanie v každom uzle aký je vzt ah hodnoty určeného príznaku k zvolenej prahovej hodnote uzol t skúma dáta podmnožiny Xt trénovacej množiny a rozdel uje ju na dve podmnožiny XtA, XtN

28 Rozdeľujúce kritérium určuje prahovú hodnotu a príznak, ktoré budú vystupovat v rozhodovacom porovnaní Ukončujúce kritérium riadi rast stromu Pravidlá určujú klasifikačnú triedu v listoch

30 1. vezmi všetky nepoužité príznaky, ohodnoť 2. do uzlu vezmi príznak s najlepším ohodnotením 3. pre každú hodnotu príznaku vytvor podmnožinu dát

31 Rozdeľujúce kritérium Gini-index ako často bude náhodný element nesprávne klasifikovaný, ak bude náhodne klasifikovaný podľa rozdelenia tried v množine Pravdepodobnosť nesprávnej klasifikácie Pravdepodobnosť výberu ID3 (Iterative Dichotomiser 3) minimalizácia entropie C4.5 maximalizácia MI

33 Ukončujúce kritérium Všetky objekty v skúmanej množine patria do jednej klasifikačnej triedy. Strom dosiahol maximálnu stanovenú hĺbku. Počet objektov klasifikovaných v danom uzle je menší ako stanovený prah. Ohodnotenie najlepšieho príznaku je nižšie ako stanovený prah.

34 Príklad C4.5

35 Outlook Temp Humidity Windy sunny FALSE Play overcast FALSE Play overcast FALSE Play rain FALSE Play rain FALSE Play sunny FALSE Don't Play sunny FALSE Don't Play rain FALSE Play overcast TRUE Play rain TRUE Don't Play sunny TRUE Play rain TRUE Don't Play overcast TRUE Play sunny TRUE Don't Play Play (positive) / Don't Play (negative) false 8/14 [9+,5-] vietor 6/14 true [6+, 2-] [3+, 3-] I(S;vietor): = (8/14)* (6/14)*1.0 =0.048

36 Outlook Temp Humid Windy Play (positive) / Don't Play (negative) overcast TRUE Play overcast FALSE Play overcast FALSE Play overcast TRUE Play rain TRUE Don't Play rain FALSE Play rain TRUE Don't Play rain FALSE Play rain FALSE Play sunny FALSE Play sunny TRUE Play sunny FALSE Don't Play sunny TRUE Don't Play sunny FALSE Don't Play Sunny [9+,5-] Počasie 5/14 4/14 5/14 Overcast Rain [2+, 3-] [4+, 0-] [3+, 2-] I(S;počasie) =0.940-(5/14)* (4/14)*0.0 (5/14)*0.971 =0.247

37 S=[9+,5-] humidita Prah {v 1, v 2,, v i } a {v i+1, v i+2,, v k } Takýchto možných rozdelení je k-1. hodnotiaca funkcia rozdelenia rozdelenie s maximálnym ohodnotením. <=prah [?+,?-] >prah [?+,?-]

38 Outlook Temp Humidity Windy Play (positive) / Don't Play (negative) overcast TRUE Play rain TRUE Don't Play sunny FALSE Play sunny TRUE Play overcast FALSE Play overcast FALSE Play rain FALSE Play rain TRUE Don't Play rain FALSE Play sunny FALSE Don't Play S=[9+,5-] humidita overcast TRUE Play sunny TRUE Don't Play sunny FALSE Don't Play rain FALSE Play <=prah >prah [?+,?-] [?+,?-] 8 možných prahov Najlepší: 82,5 I(S,Humidity) =0.102 Obdobne teplota: prah=70,5 I(S,Teplota) =0. 045

39 I(S;počasie) = I(S;vietor) = I(S;humidity) = I(S;teplota) = sunny FALSE Play sunny TRUE Play sunny FALSE Don't Play sunny TRUE Don't Play sunny FALSE Don't Play rain TRUE Don't Play rain FALSE Play rain TRUE Don't Play rain FALSE Play rain FALSE Play

40 Orezávanie rozhodovacích stromov počas generovania rozhodovacieho stromu Ak hodnota zvolenej miery významnosti pre skúmaný uzol nepresiahne stanovený prah, ďalšie vetvenie sa zastaví. po vygenerovaní rozhodovacieho stromu Toto orezávanie odstraňuje vetvy z už vygenerovaného stromu takým spôsobom, že porovnáva veľkosť očakávanej chyby klasifikácie pre daný podstrom a jeho náhradu listovým uzlom. Ak sa chyba po náhrade listovým uzlom nezväčší, daný podstrom je možné odrezať.

41 Výhody Jednoduchá interpretácia Dáta netreba predspracovať Numerické aj kategorické dáta Biela skrinka (boolovská logika) Nízka výpočtová náročnosť Nevýhody Optimálny strom NP úplný problém Heuristiky nezaručujú optimálny strom Možnosť preučenia

Ing. Tomasz Kanik. doc. RNDr. Štefan Peško, CSc.

Ing. Tomasz Kanik. doc. RNDr. Štefan Peško, CSc. Ing. Tomasz Kanik Školiteľ: doc. RNDr. Štefan Peško, CSc. Pracovisko: Študijný program: KMMOA, FRI, ŽU 9.2.9 Aplikovaná informatika 1 identifikácia problémovej skupiny pacientov, zlepšenie kvality rozhodovacích