Bayesove verjetnostne mreže

Similar documents
Reševanje problemov in algoritmi

TOPLJENEC ASOCIIRA LE V VODNI FAZI

Hipohamiltonovi grafi

Iskanje najcenejše poti v grafih preko polkolobarjev

OPTIMIRANJE IZDELOVALNIH PROCESOV

NIKJER-NIČELNI PRETOKI

ENAČBA STANJA VODE IN VODNE PARE

Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Minimizacija učne množice pri učenju odločitvenih dreves

Matej Mislej HOMOMORFIZMI RAVNINSKIH GRAFOV Z VELIKIM NOTRANJIM OBSEGOM

Attempt to prepare seasonal weather outlook for Slovenia

AKSIOMATSKA KONSTRUKCIJA NARAVNIH

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

Problem umetnostne galerije

OA07 ANNEX 4: SCOPE OF ACCREDITATION IN CALIBRATION

Verifikacija napovedi padavin

Ana Mlinar Fulereni. Delo diplomskega seminarja. Mentor: izred. prof. dr. Riste Škrekovski

modeli regresijske analize nominalnih spremenljivk

ENERGY AND MASS SPECTROSCOPY OF IONS AND NEUTRALS IN COLD PLASMA

Eulerjevi in Hamiltonovi grafi

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Analiza 3 Course title: Analysis 3. Študijska smer Study field ECTS

Linearna regresija. Poglavje 4

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Optimizacija 1 Course title: Optimization 1. Študijska smer Study field

TEORIJA GRAFOV IN LOGISTIKA

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo DIPLOMSKO DELO.

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Parcialne diferencialne enačbe Partial differential equations. Študijska smer Study field

Jernej Azarija. Štetje vpetih dreves v grafih

Ekstrakcija časovnega znanja iz dogodkov v spletnih novicah

Miha Troha. Robotsko učenje in planiranje potiskanja predmetov

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

Dejan Petelin. Sprotno učenje modelov na podlagi Gaussovih procesov

Katastrofalno zaporedje okvar v medsebojno odvisnih omrežjih

Inštitut za matematiko, fiziko in mehaniko. Seminar DMFA Slovenije. Zgledi uporabe statistike na različnih strokovnih področjih

OFF-LINE NALOGA NAJKRAJŠI SKUPNI NADNIZ

Primerjava metod aproksimativnega sklepanja pri izolaciji napak - simulacijska študija

POLDIREKTNI PRODUKT GRUP

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

Teorija verjetnosti uvod. prof. dr. Jurij Tasič Asistent Emil Plesnik Laboratorij za digitalno obdelavo signalov, slik in videa

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA POLONA ŠENKINC REŠEVANJE LINEARNIH DIFERENCIALNIH ENAČB DRUGEGA REDA S POMOČJO POTENČNIH VRST DIPLOMSKO DELO

SVM = Support Vector Machine = Metoda podpornih vektorjev

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SAŠO ZUPANEC MAX-PLUS ALGEBRA DIPLOMSKO DELO

Domen Perc. Implementacija in eksperimentalna analiza tehnike razvrščanja podatkov s konsenzom

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Verjetnostni algoritmi za testiranje praštevilskosti

UČNI NAČRT PREDMETA / COURSE SYLLABUS Numerical linear algebra. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

Uvod v odkrivanje znanj iz podatkov (zapiski predavatelja, samo za interno uporabo)

MICROWAVE PLASMAS AT ATMOSPHERIC PRESSURE: NEW THEORETICAL DEVELOPMENTS AND APPLICATIONS IN SURFACE SCIENCE

MODELIRANJE IN SIMULACIJA TER NJUNA UPORABA V MEDICINI IN FARMACIJI

Analiza variance in linearna regresija

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kromatično število in kromatični indeks grafa

matematika + biologija = sistemska biologija? Prof. Dr. Kristina Gruden Prof. Dr. Aleš Belič Doc. DDr. Jure Ačimovič

Simulation of multilayer coating growth in an industrial magnetron sputtering system

Hadamardove matrike in misija Mariner 9

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Simetrije cirkulantnih grafov

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. O neeksaknotsti eksaktnega binomskega intervala zaupanja

Univerza na Primorskem FAMNIT, MFI STATISTIKA 2 Seminarska naloga

DOMINACIJSKO TEVILO GRAFA

JERNEJ TONEJC. Fakulteta za matematiko in fiziko

UPORABA STROJNEGA UČENJA PRI ANALIZI VREDNOSTNIH PAPIRJEV

UČNI NAČRT PREDMETA / COURSE SYLLABUS Predmet: Analiza 1 Course title: Analysis 1. Študijska smer Study field. Samost. delo Individ.

USING THE DIRECTION OF THE SHOULDER S ROTATION ANGLE AS AN ABSCISSA AXIS IN COMPARATIVE SHOT PUT ANALYSIS. Matej Supej* Milan Čoh

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Študijska smer Study field ECTS

Rudarjenje razpoloženja na komentarjih rtvslo.si

Grafični gradnik za merjenje kvalitete klasifikatorja s pomočjo krivulj

Makroekonomija 1: 4. vaje. Igor Feketija

USING SIMULATED SPECTRA TO TEST THE EFFICIENCY OF SPECTRAL PROCESSING SOFTWARE IN REDUCING THE NOISE IN AUGER ELECTRON SPECTRA

Analogna elektronska vezja. Uvodna vaja

Simulacija dinamičnih sistemov s pomočjo osnovnih funkcij orodij MATLAB in Simulink

Izbrana poglavja iz velikih omreºij 1. Zbornik seminarskih nalog iz velikih omreºij

UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO ODDELEK ZA MATEMATIKO

Razpoznavanje znakov prstne abecede na osnovi računalniškega vida

Linearne enačbe. Matrična algebra. Linearne enačbe. Linearne enačbe. Linearne enačbe. Linearne enačbe

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kvadratne forme nad končnimi obsegi

Gručenje z omejitvami na podlagi besedil in grafov pri razporejanju akademskih člankov

The consequences of quantum computing

OPTIMIZACIJSKE METODE skripta v pripravi

Optimizacija razporeditve preizkušanja in vzdrževanja varnostne opreme na podlagi najmanjšega tveganja

Particija grafa, odkrivanje skupnosti in maksimalen prerez

Katja Tuma Generiranje in reševanje sudokuja

VAJE 2: Opisna statistika

Adaptivni sistem za učenje jezika SQL

2 Zaznavanje registrske tablice

Formalni sistem in mehka logika za analizo digitalne slike: osnovni koncept

Grafi, igre in še kaj

Usmerjene nevronske mreže: implementacija in uporaba

SIMETRIČNI BICIRKULANTI

R V P 2 Predavanje 05

Odgovor rastlin na povečane koncentracije CO 2. Ekofiziologija in mineralna prehrana rastlin

Assessment of surface deformation with simultaneous adjustment with several epochs of leveling networks by using nd relative pedaloid

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Statistika 2 Course title: Statistics 2. Študijska smer Study field

Modeliranje časovnih vrst z metodami teorije informacij

Črtomir Gorup RAČUNSKE TEHNIKE NAPOVEDOVANJA VPLIVA UČINKOVIN NA FENOTIP MODELNIH ORGANIZMOV

Študijska smer Study field. Samost. delo Individ. work Klinične vaje work. Vaje / Tutorial: Slovensko/Slovene

Univerza v Ljubljani Fakulteta za matematiko in fiziko. Oddelek za fiziko. Seminar - 3. letnik, I. stopnja. Kvantni računalniki. Avtor: Tomaž Čegovnik

Preprečevanje neizvedljivosti urnikov pri metahevrističnem razvrščanju proizvodnih procesov

Transcription:

Bayesove verjetnostne mreže Martin Žnidaršič Seminarska naloga pri predmetu Avtomatsko učenje Nosilec predmeta: prof. dr. Igor Kononenko Povzetek Uporaba verjetnostnega sklepanja je na področju umetne inteligence in strojnega učenja od nekdaj zelo pogosta. Bayesove verjetnostne mreže so ena od tovrstnih metodologij, ki v zadnjem času doživlja razcvet. Ideja sicer ni nova, očitno pa so šele sedaj nastopili pogoji (hitrejši računalniki, porazdeljeni sistemi), ki omogočajo njeno uporabo na večjem številu praktičnih problemov. Velika računska kompleksnost je namreč ena največjih ovir za širšo uporabo Bayesovih mrež. Preučevanje tipov Bayesovih mrež, novih algoritmov in njihov vpliv na računsko kompleksnost postopkov uporabe, so področja, ki predstavljajo jedro aktualnih raziskav na tem področju. V tem delu so predstavljeni cilji tovrstnih raziskav in nekateri rezultati. Predstavljeni so tudi izsledki primerjalnih študij napovedne uspešnosti Bayesovih mrež in nekaterih drugih znanih algoritmov. Opisan je zanimiv in težak problem izgradnje Bayesovih mrež na podlagi podatkov, kakor tudi postopek izgradnje na podlagi znanja strokovnjakov. Predstavljen je eden od zanimivejših primerov uporabe. Pomemben prispevek dela je daljši in lahko razumljiv uvod v Bayesove mreže. 1 Uvod Ideja Bayesovih verjetnostnih mrež ni najnovejša, z njimi so se pričeli ukvarjati že v osemdesetih letih na področju ekspertnih sistemov. Pravi zagon je to področje dobilo šele v devetdesetih letih, verjetno tudi zaradi povečanja hitrosti računalnikov in obnovljenega zanimanja za porazdeljeno procesiranje, kar omogoča njihovo uporabo na nekoliko večjem številu praktičnih problemov. Danes je to področje raziskav zelo živahno, oblikovane so skupnosti raziskovalcev, ki se z njimi ukvarjajo, pogosto pa zasledimo uporabo Bayesovih mrež tudi v splošni literaturi s področja strojnega učenja. 1

1.1 Verjetnostni problemi Praktični problemi, torej procesi iz okolja, ki jih skušamo računalniško modelirati, običajno vsebujejo spremenljivke, katerih vrednosti so negotove. To so verjetnostne spremenljivke. Pogosto so njihove vrednosti tudi pogojno odvisne od vrednosti drugih verjetnostnih spremenljivk. Kot primer vzemimo naslednjo situacijo. Recimo, da imamo akvarij z ribami. Ena od važnejših lastnosti akvarijske vode je koncentracija kisika. Če le-ta upade, so lahko ribice v življenjski nevarnosti. Na to se odzovejo s plavanjem pri gladini (kjer je sicer največ kisika zaradi mešanja z zrakom), kar nas lahko opozori na spremenjene razmere v vodi. V urejenem akvariju lahko tako stanje povzročita dva manj verjetna dogodka: okvara filtra ali pa vnos prekomerne količine hrane. Na okvaro filtra nas običajno opozori ropot lopatic za ustvarjanje pretoka vode. Problem je skiciran na sliki 1, kjer elipse predstavljajo spremenljivke, usmerjene povezave pa vodijo od spremenljivk, ki predstavljajo vzroke do spremenljivk, ki predstavljajo posledice. okvara filtra pretirano hranjenje ropot upad konc. kisika ribe pri gladini Slika 1: Skica problema koncentracije kisika v akvariju. Prikazan je sistem vzročno povezanih verjetnostnih spremenljivk. Grafu, ki predstavlja vzročne zveze med dogodki (spremenljivkami), pravimo vzročna mreža. Na sliko 1 torej lahko gledamo kot na grafični prikaz vzročne mreže za opisani problem. Vzročna mreža je sestavljena iz spremenljivk in množice usmerjenih povezav med njimi, torej je usmerjen graf. Vrednosti spremenljivk so lahko kategorične ali zvezne in so lahko neznane. Vzročne mreže so uporabne za opazovanje, kako sprememba verjetnosti vrednosti (verjetnostne porazdelitve) ene spremenljivke vpliva na verjetnostne porazdelitve 2

ostalih spremenljivk. S tem povezana pravila veljajo na vzročnih mrežah ne glede na tip računa negotovosti (verjetnostni, mehki,...). Podrobneje so ta pravila predstavljena v podrazdelku 1.1.3. Metoda za izračune teh sprememb in njena računska zahtevnost sta zelo odvisni od tipa mreže. V naslednjih podrazdelkih so predstavljene nekatere od njih, v nadaljevanju pa se bomo posvetili samo Bayesovim verjetnostnim mrežam. 1.1.1 Neodvisne spremenljivke Najenostavnejši primer vzročne mreže je ena sama verjetnostna spremenljivka ali pa množica medsebojno neodvisnih spremenljivk. Običajni izračuni verjetnosti neke vrednosti spremenljivke iz verjetnostnih porazdelitev ostalih spremenljivk niso mogoči, lahko pa ocenimo verjetnost njenih vrednosti na podlagi podatkov. Pri tem lahko uporabimo relativno frekvenco ali pa katero drugo mero. Z ocenjevanjem verjetnosti vrednosti iz podatkov se tu ne bomo ukvarjali. Za sistem, ki je sestavljen iz množice neodvisnih spremenljivk velja podobno kot za eno samo spremenljivko, vse operacije se nanašajo na posamično spremenljivko. 1.1.2 Odvisne spremenljivke Sistemi več medsebojno odvisnih spremenljivk so precej bolj zanimivi. V najpreprostejšem primeru gre za množico verjetnostnih spremenljivk, ki so v odvisni zvezi z eno samo verjetnostno spremenljivko. Tak sistem je prikazan na sliki 2. To je pogosto uporabljen model praktičnih problemov, saj so izračuni sklepanja na njem zelo enostavni. Pogosto je uporabljen v strojnem učenju za klasifikacijske probleme in je znan tudi kot naivni Bayesov klasifikator. Pridevnik naivni je dobil zato, ker običajno natanačin modeliramo tudi sisteme, kjer niso vse spremenljivke A1..An (glej sliko 2) med seboj neodvisne. Kljub temu, običajno dobro deluje, tudi ko je predpostavka o neodvisnosti kršena. Je ena najpreprostejših in najbolj znanih metod strojnega učenja, zato je omenjen, sicer pa nas pri nadaljnji obravnavi Bayesovih mrež ne bo posebej zanimal. X A1 A2 An Slika2:Naivnibayes. 3

V splošni vzročni mreži, so spremenljivke med seboj lahko poljubno vzročno povezane. Vendar pa računske metode za mreže s cikli, kot je mreža na sliki 3, ne obstajajo. Vzročne mreže s cikli zato niso uporabne za modeliranje in praktično delo s problemi. Bolj zanimive so zato mreže brez ciklov. Take so Bayesove verjetnostne mreže, ki pa imajo še nekaj omejitev. Grafični prikaz take mreže je na sliki 1. Podrobneje so predstavljene v razdelku 2. A B C D E F G H Slika 3: Vzročna mreža s ciklom vozlišč C-D-F-E-C. 1.1.3 Prenos sprememb gotovosti Tu bomo podali pravila za prenos sprememb gotovosti po vzročnih mrežah. Ta pravila določajo kako spremembe gotovosti za vrednosti ene spremenljivke, vplivajo na gotovosti za vrednosti ostalih spremenljivk. Pri tem nam je v pomoč grafični prikaz vzročne mreže, iz katerega so razvidni medsebojni vzročni odnosi (povezave) med spremenljivkami. Spremembe se prenašajo v odvisnosti od tipa povezave, ki je s stališča spremenljivke lahko zaporedna, divergentna ali konvergentna. Zaporedna povezava Primer zaporedno povezanih spremenljivk je prikazan na sliki 4. A vpliva na B in ta na C. Torej sprememba gotovosti v A, vpliva na gotovost o C preko B, kakor tudi sprememba gotovosti o C, prekob vplivanaspremembo gotovosti o A. Če pa je vrednost B znana, gotova, potem sta spremenljivki 4

A B C Slika 4: Primer zaporedno povezanih spremenljivk. A B C E Slika 5: Primer divergentno povezanih spremenljivk. A in C medsebojno neodvisni in spremembe gotovosti v eni od njih ne vplivajo na gotovost druge. Morda velja opozoriti, da ko govorimo o spremebah gotovosti o neki spremenljivki, pravzaprav govorimo o spremembah gotovosti o verjetnostni porazdelitvi vseh njenih vrednosti. Divergentna povezava Pri divergentno povezanih spremenljivkah (slika 5) se vpliv sprememb prenaša med vsemi otroki spremenljivke A, razen če je ta določena. Konvergentna povezava Pri konvergentno povezanih spremenljivkah (slika 6) je pravilo nekoliko bolj zapleteno. Če ni o A nič znanega, potem so njeni starši (vozlišča z vhodno povezavo v A) medsebojno neodvisni in spremembe v gotovosti kateregakoli od njih, vplivajo le na A. Če pa se spremeni gotovost v A ali katerem od njenih naslednikov, potem postanejo njeni starši medsebojno odvisni. V takem primeru sprememba gotovosti v enem od staršev lahko vpliva na gotovost v ostalih starših. Primer si poglejmo na sliki 1, kjer okvara filtra in pretirano hranjenje medsebojno nista odvisna, če pa opazimo, da ribe pla- B C E A Slika 6: Primer konvergentno povezanih spremenljivk. 5

vajo blizu gladine, bo naprimer informacija o tem, da filter ni pokvarjen, povečala verjetnost, da so bile ribe pretirano nahranjene, torej se bo med spremenljivkama, ki sta bili prej neodvisni, vzpostavila odvisnost. Za zapiranje poti spremembe skozi spremenljivko v primeru zaporedne in divergentne povezanosti je potrebna določenost (popolna gotovost), za odpiranje poti skozi spremenljivko v primeru konvergentne povezave, pa je dovolj kakršnakoli sprememba v gotovosti. D-ločenost Podana pravila lahko strnemo v definicijo odnosa med spremenljivkami, ki ji pravimo d-ločenost (angl. d-separation). Definicija 1 Spremenljivki A in B vvzročni mreži, sta d-ločeni, če na vseh poteh med A in B obstaja taka spremenljivka V, da velja ali: - povezava je zaporedna ali divergentna in V je določena ali: - povezava je konvergentna in niti v V, niti v katerem od njenih naslednikov, ni prišlo do spremembe gotovosti. S pomočjo definicije d-ločenosti lahko na kratko zapišemo kdaj sta dve spremenljivki v vzročni mreži med seboj neodvisni: Trditev 1 Če sta A in B d-ločeni, potem spremembe gotovosti o A ne bodo vplivale na gotovost B. 2 Bayesova mreža V prejšnjem razdelku smo spoznali vzročne mreže in nekaj njihovih lastnosti. Bayesove mreže pa so mreže, ki izpolnjujejo določene zahteve, ki nam v praksi omogočajo kvantitativne izračune sprememb (pogojnih) vrednosti spremenljivk, torej sklepanje. V splošnem ni nujno da so to vzročne mreže (lahko predstavljajo drugačne odnose), običajno pa jih obravnavamo prav kot take. Definicija 2 Za Bayesovo mrežo velja: Sestavljena je iz množice spremenljivk in množice usmerjenih povezav med njimi. Vsaka spremenljivka ima končno zalogo med seboj izključujočih vrednosti. 6

Spremenljivke in povezave tvorijo usmerjen, necikličen graf. Vsaki spremenljivki A sstarši B 1,B 2,.., B n, je določena tabela pogojnih verjetnosti P (A B 1,B 2,.., B n ). Verjetno najpomembnejša je zahteva po necikličnosti, ki je nujno potrebna, sajzamreže s cikli ni znanega računskega postopka, ki bi omogočal kvantitativno modeliranje. V takem modelu nas običajno zanima verjetnostna porazdelitev neke spremenljivke P (A i ) ali taka porazdelitev ob znanih vrednostih nekaterih drugih spremenljivk P (A i e), kjer e predstavlja znane vrednosti spremenljivk. Če nam je znana skupna verjetnostna porazdelitev vseh spremenljivk P (A 1,A 2,.., A n ), je izračun vedno mogoč. Vendar pa P (A 1,A 2,.., A n ) raste eksponentno s številom spremenljivk. Pri n binarnih spremenljivkah, bi recimo potrebovali 2 n 1 verjetnosti. Bayesova mreža pa nam podaja tudi podatke o odvisnosti v njej prikazanih spremenljivk, kar lahko izkoristimo in prihranimo pri številu podanih verjetnosti. Iz Bayesove mreže lahko s pomočjo podanih pogojnih verjetnostnih porazdelitev v mreži vedno naračunamo P (A 1,A 2,.., A n ). To nam zagotavlja izrek, ki je poimenovan verižno pravilo za Bayesove mreže. Tu ga navajamo brez dokaza, ki je sicer dostopen v literaturi [3]. Ideja dokaza je v indukciji po vozliščih mreže, pri čemer vedno lahko vedno izberemo vozlišče brez otrok (ker ni ciklov), ki je d-ločeno odvsehvozlišč razen staršev. Vsak tak otrok nato prispeva pogojne verjetnosti za izraz v izreku. Izrek 1 Naj bo BN Bayesova mreža nad spremenljivkami A 1,A 2,.., A n.potem je skupna verjetnostna porazdelitev P (U) = P (A 1,A 2,.., A n ) produkt pogojnih verjetnosti v BN: P (U) = i P (A i pa(a i )), (1) kjer je pa(a i ) množica staršev od A i. Tako potrebujemo le verjetnostne porazdelitve, ki so del Bayesove mreže. To so verjetnostne porazdelitve za spremenljivke brez staršev in pogojne verjetnostne porazdelitve ostalih spremenljivk ob vrednostih neposrednih predhodnikov, torej staršev. Z uporabo verjetnostnega računa in predstavljenih pravil lahko v Bayesovih mrežah opravljamo naloge računskega sklepanja, običajno za razlago zaznanih pojavov. Večinoma nad Bayesovimi mrežami izvajamo dva tipa poizvedb, osvežitev prepričanja (angl. belief updating) inpregled prepričanja (angl. belief revision). Pri prvem (osvežitev) gre za izračun spremenjenih pogojnih 7

P(F)=(0.01, 0.99) P(H)=(0.2, 0.8) F (okvara filtra) H (pretirano hranjenje) R (ropot) K (upad konc. kisika) R=da R=ne F=da 0.8 0.2 F=ne 0.1 0.9 K=da K=ne F=da, H=da F=da, H=ne F=ne, H=da F=ne, H=ne 0.99 0.7 0.2 0.1 0.01 0.3 0.8 0.9 RG (ribe pri gladini) RG=da RG=ne K=da 0.9 0.1 K=ne 0.3 0.7 Slika 7: Bayesova mreža za problem koncentracije kisika v akvariju. verjetnosti nekaterih ali vseh spremenljivk, ob podanih novih dejstvih. Pri drugem (pregled), pa pri podanih dejstvih iščemo najbolj verjetno razlago, torej kombinacijo vrednosti ostalih spremenljivk, ki ob podanih dejstvih doseže največjo verjetnost. Tako na podlagi dejstev skušamo sklepati na najverjetnejše vrednosti ostalih, nedoločenih, spremenljivk. Pri pregledu prepričanja je včasih posebej obravnavana varianta, pri kateri v iskanju najverjetnejše razlage določimo le nekatere (ne vseh) spremenljivke. Naštete tipe poizvedb bomo tu krajše poimenovali: osvežitev, pregled in delni pregled. Pri vseh poizvedbah so v osnovi potrebni podobni izračuni pogojne verjetnosti (ene ali več) spremenljivk ob podanih novih dejstvih, zato jih lahko poimenujemo s skupnim imenom: vrednotenje Bayesove mreže. Za primer vrednotenja, vzemimo problem kisika v akvariju, ki je bil predstavljen v uvodu. Na sliki 7 je problem ponovno skiciran. Tokrat so imena spremenljivk okrajšana zaradi preglednejšega prikaza v enačbah. Dodane so tudi tabelice pogojnih verjetnosti. Recimo, da smo opazili, da ribe plavajo pri gladini (RG = da) in da filter ne ropota (R = ne). Sedaj nas recimo zanima verjetnost, da je vzrok za naša opažanja v prekomernem hranjenju, torej nas zanima P (H R = ne, RG = da). Če želimo izvedeti kaj je najverjetnejši vzrok za to, pa moramo izračunati še P (F R = ne, RG = da) in primerjati obe verjetnostni porazdelitvi možnih vzrokov za opaženo stanje. V tem primeru bomo opravili osvežitev prepričanja za dve spremenljivki, H in F. 8

Zizračunom, katerega potek je v dodatku A, izvemo, da je: in da je: P (H R = ne, RG = da) =(0.23, 0.77) (2) P (F R = ne, RG = da) =(0.005, 0.995), (3) torej je ob podani mreži in novih zaznanih dejstvih, še bolj verjetno, da je vzrok za nastalo stanje prekomerno hranjenje, kot okvara filtra. Verjetnost vrednosti da za prvo spremenljivko se je namreč povečala, za drugo pa zmanjšala. Naj tu opozorimo, da je verjetnost spremenljivk v mreži seveda ostala enaka, kar se je spremenilo, so pogojne verjetnosti ob spremenjenih dejstvih. 3 Računska zahtevnost Izračun, ki smo ga v prejšnjem razdelku naredili kot primer, je primer običajnega vrednotenja Bayesove mreže, ki ima lahko zelo uporaben razlagalni učinek. Žal pa je tak izračun v splošnem NP-težak problem, torej zanj ne obstajajo učinkoviti algoritmi. Še huje je, da se to tudi odraža na velikem delu praktičnih uporab Bayesovih mrež. Velik del raziskav na področju Bayesovih mrež, je zato posvečen omilitvi te težave. Najpogosteje sta v uporabi dva načina, formuliranje problema na podtipu Bayesovih mrež, za katerega obstajajo učinkoviti algoritmi, ali pa uporaba aproksimacijskih algoritmov, kadar se lahko zadovoljimo s približnimi rezultati. Te rešitve so pogosto opisane, tu pa bomo raje opisali dve nedavni raziskavi, ki se prav tako lotevata problema računske zahtevnosti verjetnostnega sklepanja v Bayesovih mrežah. 3.1 Usmerjeno eno-povezane Bayesove mreže Najugodnejša in najbolj pogosto uporabljena rešitev za veliko računsko zahtevnost vrednotenja splošnih Bayesovih mrež, je formulacija problema v enopovezani (angl. singly connected, polytree) strukturi grafa, za katero že dalj časa obstajajo algoritmi z linearno zahtevnostjo glede na število spremenljivk. Pomembno pa je raziskati tudi ostale podobne tipe Bayesovih mrež. Take so tudi usmerjeno eno-povezane Bayesove mreže [8]. To so mreže, za katere velja, da za vsak par vozlišč (s, t) v usmerjenem necikličnem grafu mreže, obstaja največ ena usmerjena povezava od s do t. Drugače kot pri eno-povezani Bayesovi mreži, pri kateri mora obstajati največ ena pot v pripadajočem neusmerjenem grafu mreže. Razlika med obema tipoma mrež je 9

A B A B C D E C D E F G F G Slika 8: Na levi skici je eno-povezan graf, na desni pa je usmerjeno enopovezan graf, ki pa ni hkrati tudi eno-povezan, saj v pripadajočem neusmerjenem grafu obstajata dve poti med nekaterimi pari vozlišč. prikazana na sliki 8. Eno-povezane Bayesove mreže so hkrati tudi usmerjeno eno-povezane Bayesove mreže, obratno pa ne velja. Shimony in Domschlak v svojem člaku [8] dokazujeta, da sta osvežitev in pregled v usmerjeno eno-povezanih Bayesovih mrežah NP-težka problema. V dokazih uporabljata dvonivojske mreže, ki spadajo med usmerjeno enopovezane mreže. V praksi se ta tip mrež ne uporablja pogosto, so pa priročne za dokazovanje izrekov. Vse pa le ni tako črno, saj v istem članku dokažeta, da je napovedna osvežitev v tem tipu mreže rešljiva v linearnem času. Osvežitev je lahko strogo ali šibko napovedna, omenjena trditev pa velja v obeh primerih. Definicijo napovedne osvežitve podajata definiciji: Definicija 3 V podani Bayesovi mreži B =(G, P ), z dejstvi v vozliščih E, je osvežitev strogo napovedna, če definirana vozlišča E nimajo nobenega nedefiniranega starša v grafu G. Definicija 4 Naj Π(X) označuje starše spremenljivke X in naj Π (X) o- značuje vse prednike od X, vključno z X. Za X, ki ni določena, označimo še F (X) kot: F (X) ={U [U Π (E)] [ W Π (X) Π (E); U Π(W )]}. Osvežitev je šibko napovedna, če za množico dejstev E veljajo naslednji pogoji: Graf prednikov od E je eno-povezan graf Za vsako vozlišče X vmreži, ki ni v množici Π (E), morajo biti vozlišča F (X) E paroma d-ločena. Slednja definicija je težje razumljiva, zato morda ni odveč pogled v omenjeni članek, kjer je razložena tudi z grafičnimi prikazi. Žal ugodni rezultati napovedne osvežitve ne veljajo tudi za usmerjeno večpovezane mreže, ki so razširitev eno-povezanih. Kot že ime pove, so to mreže, 10

ki imajo določeno omejeno število usmerjenih poti med pari spremenljivk. Že na usmerjeno dvo-povezanih mrežah je napovedna osvežitev NP-težka. 3.2 Kontekstna neodvisnost Poleg raziskav zahtevnosti izračunov na različnih tipih Bayesovih mrež, je veliko raziskovalnega dela usmerjenega tudi v izkoriščanje strukture, lokalnih lastnosti in raznih posebnih odnosov med spremenljivkami v mreži. Med temi pristopi je eden obetavnejših izraba kontekstne neodvisnosti spremenljivk. David Poole in Nevin Lianwen Zhang v svojem članku [7] prikažeta kako pri postopku ukinjanja spremenljivk (del klasičnega algoritma za sklepanje v splošnih Bayesovih mrežah) poleg medsebojne pogojne neodvisnosti spremenljivk, lahko izkoristimo tudi njihovo kontekstno neodvisnost. Za pojasnitev tega pojma bomo potrebovali definiciji, ki si ju sposojamo iz njunega članka: Definicija 5 Ob podani množici spremenljivk C, je njen kontekst, prireditev ene vrednosti vsaki od spremenljivk v C. Rečemo lahko, da so C spremenljivke konteksta. Dva konteksta sta med seboj nezdružljiva, če obstaja spremenljivka, ki ji je v vsakem od kontekstov prirejena drugačna vrednost. Sicer sta združljiva. Definicija 6 Recimo, da so X, Y, Z in C množice spremenljivk. X in Y sta kontekstno neodvisna ob danem Z in kontekstu C = c, kjerc pripada domeni C-ja, torej je neka možna določitev vrednosti spremenljivk iz C, če velja: P (X Y = y 1 Z = z 1 C = c) =P (X Y = y 2 Z = z 1 C = c) (4) za vse y 1,y 2 iz domene Y,zavsez 1 iz domene Z, takodap (Y = y 1 Z = z 1 C = c) > 0 in P (Y = y 2 Z = z 1 C = c) > 0. V enostavnejšem primeru je množica Z prazna in takrat rečemo, da sta X in Y kontekstno neodvisna pri kontekstu C = c. Starševski kontekst je za neko spremenljivko tak kontekst, ki jo naredi kontekstno neodvisno od ostalih predhodnikov. Neka spremenljivka ima tako minimalno množico starševskih kontekstov s toliko elementi, kolikor ima različnih pogojnih verjetnosti. Kontekstno neodvisnost lahko običajno predstavimo z drevesom, ki je podobno odločitvenemu drevesu v strojnem učenju. Pri takem drevesu, vsaka pot po drevesu ustreza starševskemu kontekstu. Tako lahko definiramo kontekstno verjetnostno mrežo, ki je zelo podobna običajni verjetnostni mreži, s tem, da vsakemu vozlišču pripada množica starševskih kontekstov in pogojna verjetnostna porazdelitev spremenljivke 11

za vsakega od njih. V taki mreži računamo s konteksti, kar običajno prinese pohitritve, žal pa ne vedno. Po eni strani ima vozlišče v taki mreži lahko precej manj starševskih kontekstov kot pa staršev v ustrezni običajni verjetnostni mreži, po drugi strani, pa je lahko starševskih kontekstov neprimerno več kot staršev, s čimer si problem le otežimo. Vendar pa Poole in Zhang, s pomočjo nekoliko bolj zapletenega konstrukta kontekstne mreže, predstavita algoritem 1, ki se v primerih, ko ni kontekstne neodvisnosti, zreducira na običajni algoritem. V primerih ko je kontekstna neodvisnost prisotna, to običajno prinese znatne pohitritve postopka, če je le problem tak, da omogoča dovolj njene izrabe. Omenjeni postopek ima namreč nekaj dodatnega dela z upravljanjem kontekstov, zato ob slabši izrabi kontekstne neodvisnosti ni opazno hitrejši. 4 Izgradnja modelov Predenj lahko Bayesovo mrežo vrednotimo, jo moramo zgraditi, torej določiti graf spremenljivk in zahtevane pogojne odvisnosti. To opravilo ni enostavno, vzročni odnosi med spremenljivkami, ki jih želimo spremljati, so lahko zapleteni ali težko določljivi. Glede na priporočila iz prejšnjega razdelka, moramo paziti tudi na lastnosti mreže, ki lahko zelo vplivajo na izvedljivost željenih izračunov v njej. Že v primeru, da sami dobro poznamo problem, ki ga želimo modelirati, je izgradnja primerne Bayesove mreže težka naloga. V literaturi [3] zato pogosto navajajo predloge in nasvete, kako to najbolje opraviti. Tehnološko še precej zahtevnejša je izgradnja modela, ko znanje o odnosih med spremenljivkami in njihovih verjetnostih pridobivamo od strokovnjakov z nekega področja, ali pa, ko skušamo tako znanje pridobiti iz podatkov. Izgradnja Bayesovih mrež na podlagi znanja iz podatkov je zelo aktivno in zanimivo raziskovalno področje. V razdelku 4.1 bomo predstavili enega od tovrstnih pristopov. Dejansko pa se v praksi večkrat srečamo s prvim omenjenim izzivom, pridobiti znanje od strokovnjakov s področja problema. Ker so tovrstne metode manj raziskane, hkrati pa praktično zelo uporabne, bomo v razdelku 4.2 predstavili eno od njih. 4.1 Bayesove mreže iz podatkov Naivni Bayesov klasifikator (glej razdelek 1.1.2) je enostavna in presenetljivo uspešna metoda strojnega učenja, vendar deluje slabo, ko je uporabljena na 1 Dolg in zapleten algoritem je podrobno predstavljen v omenjenem članku [7]. 12

podatkih z močnimi odvisnostmi med opazovanimi spremenljivkami (atributi). Veliko raziskovalnega truda je bilo zato vloženega v razširitve te metode,kibiomogočale modeliranje odvisnosti med atributi. Ena od možnih razširitev naivnega Bayesovega klasifikatorja, je klasifikator na podlagi splošnejše Bayesove mreže. V članku [2], kjer je tak pristop opisan, so se avtorji na več načinov lotili problema izgradnje strukture Bayesove mreže iz podatkov. Zgrajeno mrežo so uporabili kot klasifikator in ga primerjali z nekaj referenčnimi metodami. O primerjavi je kratek komentar v razdelku 5, tu pa nas bo zanimal le način izgradnje mreže iz podatkov. Prostor možnih struktur so preiskovali s požrešnim preiskovanjem in ocenjevali možne rezultate z oceno, ki je temeljila na principu najkrajšega opisa (za razlago glej [4]). Prostor možnih rešitev je ogromen, zato izčrpni načini preiskovanja niso praktično izvedljivi. Postopek so začeli s prazno mrežo, na kateri so postopoma izvajali lokalne operacije, ki so v dani situaciji najbolj izboljšale oceno mreže. Te operacije so: dodajanje povezave, brisanje povezave in sprememba smeri povezave. Postopek se zaključi, ko nobena operacija ne more več izboljšati mreže, torej v lokalnem minimumu ocene. Uporabljena ocena temelji na principu najkrajšega opisa, torej dobro oceni modele, ki na najkrajši način opišejo učne podatke. V tak opis je vključena tudi definicija modela. Formula ocene, ki jo uporabljajo je sestavljena iz dveh delov. Prvi del meri dolžino opisa modela, drugi del pa meri prileganje podatkom in je negiran. Majhne vrednosti te formule so tako značilne za modele, ki so enostavni (kratek opis) in so hkrati dobra predstavitev učnih podatkov. Kljub lepim lastnostim omenjene ocene, so bili empirični rezultati v nekaterih primerih zelo slabi. Vzrok je v neprimernosti ocene za klasifikacijske probleme z velikim številom atributov, kar so avtorji teoretično in praktično razložili. Bistvo težave je v tem, da so v dobro ocenjenih mrežah, pogosto manjkale povezave med ciljno spremenljivko in pomembnimi atributi. Prilagoditevocenejeslabarešitev, ker je potem ni mogoče več učinkovito izračunavati. V omenjenem članku so zato raje prilagodili metodo modeliranja, da upošteva poseben status ciljne spremenljivke. Predlagajo drevesno povečano naivno Bayesovo mrežo (angl. tree-augmented naive Bayesian network). Gre za Bayesovo mrežo atributov, ki jo dodamo strukturi naivnega Bayesovega klasifikatorja (slika 2). Tako dosežemo, da so pri računanju pogojne verjetnosti ciljne spremenljivke upoštevani vsi atributi, hkrati pa v modelu zajamemo tudi medsebojne odvisnosti atributov. Primer take strukture je na sliki 9. Avtorji zagotavljajo, da je izračun tako dodanih Bayesovih mrež, ob določenih omejitvah, mogoč v polinomskem času. V predlagani strukturi, ciljna spremenljivka nima staršev, ostale spremenljivke pa imajo lahko poleg ciljne spremenljivke samo še po enega starša. 13

C A1 A2 A3 A4 Slika 9: Drevesno povečana naivna Bayesova mreža. Ciljna spremenljivka je vzročno povezana z vsemi atributi, dovoljene pa so tudi omejene vzročne zveze med atributi. Algoritem za učenje te strukture je zasnovan na sorodnem, zelo starem predlogu [1] in ima kvadratično računsko zahtevnost (po številu atributov). Taka struktura ima kot klasifikator boljše rezultate, nekaj manjših izboljšav pa dosežejo tudi z mehčanjem in s tovrstno multimrežo, klasifikatorjem, ki se nauči drevesno povečano naivno Bayesovo mrežo za vsako vrednost ciljne spremenljivke (razred) posebej. 4.2 Bayesove mreže iz vzročnih mrež Pridobivanje znanja od strokovnjakov z nekega področja, je pogosta in običajno zelo zahtevna naloga pri izgradnji kakršnihkoli modelov, tudi Bayesovih mrež. Pri tem moramo težiti k čimbolj popolnemu opisu problema, ki bo že podvržen omejitvam tehnik modeliranja, hkrati pa ne smemo pretirano obremeniti strokovnjakov, ki jih izprašujemo. Če od njih zahtevamo preveč, lahko izgubijo voljo do sodelovanja, zato je zelo pomembno, da jih obremenimo čimmanj. Cilj izpraševalca je torej, najti pravi kompromis med natančnim opisom problema in čimmanjšo obremenitvijo izpraševanca. Skozi čas, se je kot dobra praksa izkazal naslednji postopek: najprej povprašamo po grobem in čimbolj naravno oblikovanem opisu problema (tekst, prosta skica), nato najdemo točke, ki so ključne za naš probleminonjih sprašujemo podrobneje, na koncu postavimo še kontrolna vprašanja o morebitnih nejasnostih. Po tovrstnem uvodnem pogovoru, informacije strukturiramo in poiščemo vse neskladnosti z željeno tehniko modeliranja in manjkajoče (skrito, tacitno) znanje, ki jih lahko odpravi. Za zajem skritega znanja pripravimo ustrezne vprašalnike. Ob koncu zajema, sledi še pregled končnega izdelka. Bistveno je, da začnemo zajem znanja z enostavnimi tehnikami, ki izpraševanca ne obremenijo. Po analizi in prestrukturiranju le-teh, pa zastavljamo 14

podrobnejša vprašanja in rešujemo težave z omejitvami metode modeliranja. V tem pogledu Bayesove mreže gotovo niso predstavitev, ki bi bila enostavna in naravna za podajanje znanja. Vsebujejo namreč predpostavke (neodvisnost) in omejitve (necikličnost), kakor tudi numerične vrednosti (pogojne verjetnosti), ki jih ni enostavno podati na pamet. Če želimo nek problem modelirati z Bayesovo mrežo, je torej ugodno, če lahko zajamemo znanje v bolj prosti predstavitvi, ki jo z nekaj dodatnega truda in sodelovanja s strokovnjakom, pretvorimo v Bayesovo mrežo. Nadkarni in Shenoy [5] v ta namen predlagata vzročno mrežo in postopek za pretvorbo v Bayesovo mrežo ob sodelovanju s strokovnjakom. Primernost vzročnih mrež upravičujeta z naslednjimi argumenti: zajemajo znanje o vzročnih povezavah v problemu, česar nekatere druge tehnike (npr. analiza protokolov) ne morejo znanje prikažejo grafično, deskriptivno so časovno manj zahtevne in manj neprijetne od večine ostalih metod na njih lahko izvajamo veliko metod statistične analize (npr. relacijsko algebro, mrežno analizo, sistemsko dinamiko) Vzročne mreže smo srečali že v uvodu, so usmerjeni grafi, ki predstavljajo vzročne odnose med spremenljivkami problemskega področja. V kontekstu zajema znanja, predstavljajo prepričanje strokovnjakov, kako spremenljivke problema vplivajo ena na drugo. Sestavljene so iz treh glavnih komponent: vzročnih konceptov, vzročnih zvez in vzročnih vrednosti. Vzročni koncept ustreza pojavu, ki ga opisuje verjetnostna spremenljivka, vzročne povezave povezujejo koncepte in so usmerjene od vzroka do posledice. Vzročne vrednosti pa predstavljajo moč vzročnih povezav, v našem primeru bodo temu služile pogojne verjetnosti. Predlagani postopek temelji na štirih glavnih korakih: zajem podatkov izdelava vzročnih mrež pretvorba vzročnih mrež v Bayesove mreže izračun parametrov Bayesovih mrež Avtorja se vsakemu od njih zelo podrobno posvetita, vendar se bomo tu omejili le na tretjega, saj so ostali postopki dokaj standardni, z mnogimi opisi v literaturi. 15

Pri pretvorbi splošnih vzročnih mrež, nas čakajo štiri naloge, ki so na kratko opisane v naslednjih podrazdelkih. Za rešitev teh nalog, avtorja predlagata dva postopka, strukturiran intervju in matriko odvisnosti. Oba postopka od izpraševanca zahtevata podajanje smeri in moči odvisnosti za pare spremenljivk. 4.2.1 Pregled pogojnih neodvisnosti Vzročni mreži je potrebno dodati vse povezave, ki predstavljajo vzročne odnose, nepovezane morajo ostati samo tiste spremenljivke, ki so medsebojno neodvisne ob podanih ostalih spremenljivkah. Ta naloga zahteva več premisleka, kot se morda zdi na prvi pogled. Včasih so odnosi med spremenljivkami nejasni in se zdi, da spremenljivki lahko obravnavamo kot odvisni ali kot neodvisni. Pri tem običajno pomaga tretja, mediatorska spremenljivka. Pogosto se izkaže, da sta ob podani mediatorski spremenljivki, prvotni dve spremenljivki neodvisni, vendar obe vplivata na mediatorja. 4.2.2 Pregled smeri sklepanja Vvzročni Bayesovi mreži morajo povezave potekati od vzrokov k posledicam (deduktivno sklepanje). Tega definicija Bayesove mreže sicer ne predpisuje, vendar je nujno potrebno za sklepanje v njej. Pogosto se zgodi, da strokovnjak pri podajanju relacij ali pri risanju vzročne mreže usmeri povezavo od posledice k vzroku. To se zgodi zato, ker so nekateri navajeni takega sklepanja (abduktivnega) pri svojem vsakdanjem delu. Tipičen primer so medicinski diagnostiki, ki iz znakov bolezni sklepajo na vzrok, zato pogosto tako tudi usmerijo vzročno povezavo. V Bayesovi mreži sicer lahko in pravzaprav pogosto sklepamo tudi od posledic k vzrokom, vendar mora biti mreža vseeno zgrajena konsistentno v deduktivnem načinu. Če temu ni zadoščeno, so v modelu odvečne in napačno usmerjene povezave, kar običajno privede do ciklov. 4.2.3 Razlikovanje posrednih in neposrednih vzrokov Pri začetnem sestavljanju vzročne mreže pogosto nismo pozorni na neposrednost vzrokov, zato običajno naredimo več povezav kot je nujno potrebnih. Povezave, ki ustrezajo neposrednim vplivom med spremenljivkami moramo ohraniti, tiste, ki predstavljajo posredne vzročne zveze, pa usmerimo preko mediatorskih spremenljivk (če niso že) in jih odstranimo. Pri pretvorbi v Bayesove mreže je potrebno take povezave odstraniti, sicer otežijo razumevanje problema, povzročijo pa tudi večjo kompleksnost predstavitve in računskih postopkov. 16

4.2.4 Odprava ciklov Bayesove mreže po definiciji ne dopuščajo ciklov, saj ti praktično onemogočijo metode sklepanja. Odstranitev ciklov iz zajetih vzročnih mrež jezatonujno potrebna za pretvorbo v Bayesove mreže. Cikli se pojavijo v vzročnih mrežah iz dveh razlogov, zaradi napak ali zaradi dinamičnih odnosov med spremenljivkami. Če je vzrok za cikel v napaki (glej prejšnje tri naloge), jo odpravimo. Sicer moramo premisliti ali je problem sploh primeren za predstavitev v Bayesovi mreži. Če je med spremenljivkami veliko smiselnih dinamičnih vzročnih odnosov, potem Bayesove mreže niso pravi način za modeliranje problema. Če pa je ciklov malo, jih lahko skušamo odpraviti. Cikel (zanko) lahko poskusimo raztegniti. To je možno v primerih, ko je možnih le manjše število obhodov cikla, torej sprememb medsebojnih vplivov skozi čas. V takih primerih dobimo neciklično povezano verigo spremenljivk. Če je ta predolga, lahko to pomembno vpliva na čas izračunovzasklepanje v mreži in ga praktično onemogoči. Še huje je seveda, če je obhodov lahko poljubno mnogo. V takih primerih je potrebno premisliti o drugačni zgradbi mreže (nove spremenljivke, združevanje konceptov) ali pa o drugi tehniki modeliranja problema. 5 Uporaba Bayesove verjetnostne mreže so primerne za uporabo na raznih področjih. Najprej so jih večinoma uporabljali kot ekspertne sisteme, danes pa imajo širok spekter namembnosti. V razdelku 4.1 je omenjen primer, ko so bile uspešno uporabljene kot klasifikator, z razširitvijo pa pri klasifikaciji prekosajo referenčne metode. Lep primer zaupanja v uporabno vrednost Bayesovih mrež je njihova uporaba v programski opremi zelo dragega robota, ki je bil uporabljen za samodejno iskanje in prepoznavanje meteoritov na Antarktiki [6]. Na antarktiki so zelo ugodne razmere za iskanje meteoritov, precej manj ugodne pa za ljudi, ki naj bi to delo opravljali. Poskusno so zato izdelali mobilnega robota, ki naj bi iskal meteorite po sirnih ledenih planjavah te celine. Poleg mobilnosti in velikega števila zelo dragih senzorjev, je model za razpoznavanje meteoritov v robotu ključnega pomena. Metoda za modeliranje mora omogočati začetno ročno izgradnjo modela na podlagi znanja strokovnjakov. Omogočati mora popravke modela na podlagi učnih podatkov, v nadaljevanju pa se mora znati tudi sam učiti prepoznavati meteorite. Samodejno učenje je omogočeno s tem, da je robot opremljen s poceni senzorji 17

nižje natančnosti in s senzorji, katerih uporaba je zelo draga in zamudna, vendar omogoča zelo veliko natančnost. Dvoumne primerke lahko robot pregleda tudi z dražjim senzorjem in tako dobi nov učni primer, ki je zelo verjetno pravilno klasificiran. Učenje mora biti čimbolj učinkovito, da se robot v čimvečji meri izogne uporabi dražjega senzorja. Vse omenjene zahteve govorijo v prid uporabi Bayesove mreže. Eksperimentalni rezultati so sprva sicer pokazali nekaj slabosti, vendar je vzrok zanje tičal v slabo izbranih učnih primerih. Kljub nekaterim začetnim pomanjkljivostim, je robot, opremljen z Bayesovo mrežo kot modelom za razpoznavanje, v januarju leta 2000 našel in pravilno razpoznal meteorit. To je bilo prvo samostojno robotsko odkritje meteorita. V prihodnosti naj bi bilo iskanje meteoritov še bolj podprto s samostojnimi roboti. Avtorji članka [6] so zelo zadovoljni z uspešnostjo in uporabnostjo Bayesovih mrež v ta namen in jih nameravajo uporabljati tudi v bodoče. 6 Zaključek Velik razmah uporabe Bayesovih verjetnostnih mrež ni slučaj. Pokazali smo, da lahko istočano služijo kot predstavitev znanja, kot sistem, ki se lahko postopoma uči in recimo kot klasifikator. Poglavitna ovira, velika zahtevnost računskih postopkov na splošnih Bayesovih mrežah je sprožila obsežno število raziskav tega pojava in možnih rešitev. Nekateri rezultati že omogočajo praktično uporabo te metodologije na povečanem številu praktičnih problemov. Z napredkom v razvoju učinkovitih algoritmov za izračune v Bayesovih mrežah in z uspešnimi primeri praktične uporabe, bodo Bayesove mreže gotovo tudi v bodoče ostale zanimivo področje raziskovalnega dela. Literatura [1] C. J. K. Chow and C. N. Liu. Approximating discrete probability distributions with dependence trees. IEEE Trans. Information Theory, 14(3):462 467, 1968. [2] N. Friedman, D. Geiger, and M. Goldszmidt. Bayesian network classifiers. Machine Learning, 29(2-3):131 163, 1997. [3] F. V. Jensen. Bayesian Networks and Decision Graphs. Springer, 2001. [4] I. Kononenko. Strojno učenje. Založba FE in FRI, Ljubljana, 1997. 18

[5] S. Nadkarni and P. P. Shenoy. A causal mapping approach to constructing bayesian networks. Decision Support Systems, Vol.38, No.2, pp.259-281., 2004. [6] L. Pedersen, D. Apostolopoulos, and W. Whittaker. Bayes networks on ice: Robotic search for antarctic meteorites. In T. K. Leen, T. G. Dietterich, and V. Tresp, editors, NIPS 2000, pages 988 994. MIT Press, 2000. [7] D. Poole and N. L. Zhang. Exploiting contextual independence in probabilistic inference. Journal of Artificial Intelligence Research, Vol.18, pp.263-313., 2003. [8] S. E. Shimony and C. Domshlak. Complexity of probabilistic reasoning in directed-path singly-connected bayes networks. Artificial Intelligence, Vol.151, No.1-2, pp.213-225., 2003. 19

A Primer izračuna Tu je podan izračun primera prenosa sprememb verjetnosti po Bayesovi mreži, ki smo ga podali v razdelku 2. Zanima nas, kako se bo ob dani spremembi pogojev, spremenila pogojna verjetnost prekomernega hranjenja P (H R = ne,f,k,rg= da). Izračunati moramo naslednja dva izraza: P (H = da R = ne,f,k,rg= da) = P (H = da, R = ne,f,k,rg= da) P (R = ne,f,k,rg= da) in P (H = ne R = ne,f,k,rg= da) = P (H = ne, R = ne,f,k,rg= da). P (R = ne,f,k,rg= da) Pravzaprav je dovolj, če izračunamo le števce v ulomkih in nato dobljene verjetnosti normiramo. Tu je prikazan izračun za prvega od njiju, saj je potek pri obeh enak. P (H = da, R = ne,f,k,rg= da) = = F,K P (H = da)p (F )P (R = ne F )P (K H = da, F )P (RG = da K) = =P (H = da)p (F = da)p (R = ne F = da)p (K = da H = da, F = da)p (RG = da K = da)+ +P (H = da)p (F = da)p (R = ne F = da)p (K = ne H = da, F = da)p (RG = da K = ne)+ +P (H = da)p (F = ne)p (R = ne F = ne)p (K = da H = da, F = ne)p (RG = da K = da)+ +P (H = da)p (F = ne)p (R = ne F = ne)p (K = ne H = da, F = ne)p (RG = da K = ne) = =0.0003564 + 0.0000012 + 0.032076 + 0.042768 = =0.0752016 Podobno izračunamo še drugi števec in ugotovimo da znaša 0.25776. Po normiranju števcev, sta iskani pogojni verjetnosti izračunani: P (H = da R = ne,f,k,rg= da). =0.23 P (H = ne R = ne,f,k,rg= da). =0.77 20