CIGRÉ ŠK D2-11 PODATKOVNO RUDARJENJE ALI SAMODEJNO NAPOVEDOVANJE V ENERGETIKI BORIS BIZJAK Univerza v Mariboru, FERI, Smetanova 17, 2000 Maribor E-mail: boris.bizjak@um.si, boris.bizjak57@gmail.com, tel. 041 327 348 Povzetek Predstavljamo 5 dnevno napoved za porabo električne energije za industrijski kompleks Ravne, ki ima posebnost napovednik elektro obločno peč. V zaključku dodajamo primer napovedi na borzi, napoved delnic AIG (American International Group Inc), kar je verjetno ekvivalentno napovedi na borzi za trgovanje z energenti. Za oba primera smo uporabili IT tehnologijo podatkovno rudarjenje (ang. Data mining). V deregulirani ekonomiji je za energetiko pomembno napovedovanje pretokov moči, porabe in napovedovanje na borzah. Podatkovno rudarjenje, kot tehnika napovedovanja, je interdisciplinarno področje računalniške znanosti, ki išče vzorce v velikih količinah podatkov z uporabo metod umetne inteligence, samodejnega strojnega učenja, statistike in podatkovnega skladišča. Osnovna ideja podatkovnega rudarjenja je, da algoritem avtomatsko izlušči karakteristični vzorec iz vzorčnih podatkov, vzorec nato uporabi za izračun napovedi. Napovedi na bazi časovnih vrst (ang. Time Series) temeljijo na predpostavki, da imajo podatki interno strukturo, kot so avtokorelacija, trend ali sezonsko variacijo. Uporabljena IT struktura je sestavljena iz komuniciranja z oddaljenim izvorom podatkov, skladiščenja v bazo podatkov in komunikacije s strežnikom za analize. Strežnik za analize za izvedbo napovedi uporablja metodologije ART (ang. Autoregressive Tree Models) in ARMA (ang. Autoregressive and Moving Average Models). Vizualizacijo podatkov smo izvedli z WEB strežnikom. Ključne besede: podatkovno rudarjenje, napovedovanje porabe, elektroobločna peč, napoved na borzi, napovedniki, časovne vrste A DATA MINING METHOD FOR LOAD FORECASTING IN POWER SYSTEMS Abstract We present a short-term 5 days load forecasting at industrial plant Industry Complex Ravne, Slovenia. Industry complex have more electric arc furnaces. Second, we demonstrate 5-days data mining American International Group Inc. at Market. We use the same Data Mining IT technology for both samples. Outliers can occur by forecasting, we discuss some worst-case scenario. We show forecasting quality factors for each forecasting model: CI (confidence intervals), MAPE, (mean absolute percentage error), MAE, RMSE and time series value at forecasting time. Data mining provides the means to make sense of tremendous volumes of data by automating the processes of categorizing and clustering common elements, identifying trends and anomalies in the data, and predicting what will happen given those factors. In this paper we discus Data Mining at ARMA (Autoregressive and Moving Average Models) and Data Mining at ART (Autoregressive Tree Models). It has many applications including energy purchasing and generation, load switching, contract evaluation, and infrastructure development. A large variety of statistical and artificial intelligence techniques have been developed for load forecasting: Similar-day approach, Regression methods, Fuzzy logic, Support vector machines and Time series. Time series methods are based on the assumption that the data have an internal structure, such as autocorrelation, trend, or seasonal variation. Time series forecasting methods detect and explore such a structure. Time series have been used for decades in such fields as economics, digital signal processing, as well as electric load forecasting. Keywords: data mining, load forecasting, power systems, market forecasting, outliers, worst-case scenario
UVOD Fenomen porabe električne energije industrijskega kompleksa ne moremo opisati z enostavno razumljivim strojnim modelom. V industrijskem kompleksu železarne Ravne se izvajajo meritve za spremljanje porabe in kvalitete električne energije [Slika 1]. Druga skupina dostopnih podatkov so produkcijski podatki [Slika 2]. Oboji se spremljajo v realnem času in se shranjujejo v podatkovnih skladiščih. Z analizo podatkov preteklosti smo izdelali modele napovedovanja porabe električne energije in ocenili njihovo uporabnost. Izvedli smo stohastično sintezo modelov napovedi, saj bi bili deterministični modeli prezapleteni. Absolutno točnega modela napovedovanja ni, je le napoved s točno določenim intervalom zaupanja. Zanima nas, kako je dnevna poraba el. energije industrijskega kompleksa (y) odvisna od kvalitete izdelkov (x 1), količine izdelkov (x 2) in sezone (x 3). Izkustveni (ang. empirični) model, ki ponazarja relacijo med odvisno spremenljivko y in neodvisnimi spremenljivkami x 1, x 2, x 3 je: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 (1) Osnovni model imenujemo regresijski model[1] in vsebuje našo inženirsko znanje o fenomenu, vendar ni razvit iz teoretskih mehanizmov. Slika 1: Poraba el. energije po dnevih za industrijski kompleks - Ravne leto 2008. Slika 2: Dnevna proizvodnja elektroobločne peči za 2008. Regresijska analiza je statistična tehnika za iskanje odvisnosti med dvema ali več spremenljivkami. Slika 3 prikazuje odvisnost dnevne porabe energije (y) v odvisnosti od števila sarž v obločni peči (x). Želimo položiti krivuljo premico v sredino množice točk. Govorimo o linearnem regresijskem modelu. Slika 3 kaže na težavo, da podatki niso idealni za napovedovanje z linearno regresijsko premico, saj so precej razsipani okrog namišljene premice med številom sarž elektroobločne peči[2] in porabljeno električno energijo železarskega kompleksa.
Slika 3: Odvisnost dnevne poraba el. energije od števila sarž peči - Ravne leto 2008. Kakorkoli, koeficiente regresijske premice določimo tako, da je suma vertikalnih odstopanj namišljene premice od izmerjenih vrednosti minimalna. To je metoda najmanjših kvadratov[1]. Vhodni podatki za regresijski model so podani na sliki 1 in sliki 2. Izbrana neodvisna spremenljivka je število sarž elektroobločne peči. Za industrijski kompleks Ravne, testno leto 2008, iščemo odvisnost med dnevnimi povprečji porabe el. energije in proizvodnjo podano kot število sarž. Podrobno smo izračun napovedi z linearno regresijo (in ARMA) predstavili na ERK 2009[4] in CIGRE 2011[3]. Stopnja zaupanja v izračunana korelacijska koeficienta, ki ju podaja t-test, znaša >99,9% za β, 1 in >99,9% za β. 0 Enačba empiričnega modela: [Poraba] = β 0 + β 1 [št. sarž] +ε (2) [Poraba] = 266.469,96 + 28822,85[št. sarž] +ε (3) Enačba (2,3) dobro napoveduje, ko elektroobločna peč obratuje, ko je število sarž»0«je napovedana poraba električne energije stalno enaka 266.469,96, kar je seveda približna napoved. Kadar obločna peč nekaj časa ne obratuje (remont) delamo napoved za industrijski kompleks brez velikega napovednika (ang. predictor). Krivulje porabe imajo takrat karakteristično obliko 5 dnevnega delovnega tedna. Za tak primer napovedi porabe lahko uporabimo sezonski model [3]. Zaključimo da je skupna poraba el. energije vsota porabe brez obločne peči in porabe el. energije peči z napovednikom število sarž, zato je verjetno smiselno ločiti napovedovanje porabe obločne peči od napovedovanja za ostali industrijski kompleks. Seveda taka izvedba napovedi organizacijsko in tehniško ni elegantna in verjetno je tudi zapletena. Mi smo se odločili za nelinearni skupni model napovedi, kot sledi v naslednjem poglavju. I. KRATKOROČNO NAPOVEDOVANJE ZA INDUSTRIJSKI KOMPLEKS Predstavljamo samodejno napoved porabe el. energije z uporabo podatkovnega rudarjenja. Linearni regresijski model in enostavno ARMA napoved iz [3][4] smo zamenjati s kompleksno nelinearno metodo napovedi. Nelinearni model napovedi smo realizirali po metodah ali metodologiji ART [7] (Autoregressive Tree Models) in ARMA[8][6] (Autoregressive and Moving Average Models). ART in ARMA metodologijo lahko pojasnimo na več načinov, tudi s teorijo digitalnih filtrov[9], torej sta tudi spektralni metodi ali z drugi besedami, v osnovi za dobro napoved ne potrebujeta dodatnih amplitudnih napovednikov k osnovni časovni vrsti[6]. Seveda je potrebno določiti optimalne parametre za izbrane metode napovedi. To smo zaupali strojnemu učenju. Vse podatke skladiščimo v bazi podatkov, uporabili smo strojno učenje in statistiko, tako smo zgradili strukturo, ki jo imenujemo podatkovno rudarjenje [5]. Slika 4: Blokovna ponazoritev procesa podatkovnega rudarjenja
Podatkovno rudarjenje je interdisciplinarno področje računalniške znanosti, ki išče vzorce v velikih količinah podatkov z uporabo metod umetne inteligence, strojnega učenja, statistike in podatkovnega skladišča. Glavni cilj podatkovnega rudarjenja je izluščiti informacije iz podatkov v razumljivo obliko primerno za kasnejšo uporabo. Osnovna ideja podatkovnega rudarjenja je, da algoritem avtomatsko izlušči karakteristični vzorec iz vzorčnih podatkov, vzorec nato uporabi za izračun npr. napovedi. Arhitekturo podatkovnega rudarjenja smo sestavili iz podatkovnega skladišča in pripadajočega strežnika za analize. Vizualizacijo podatkov smo izvedli z WEB strežnikom. Server za analize komunicira s podatkovnim strežnikom preko XMLA formata podatkov (ang. XML for Analysis). XMLA je industrijski standard za prenos podatkov v sistemih za analizo, kjer je format neodvisen od izvora ali prejemnika podatkov. II. REZULTATI - KRATKOROČNA IN DOLGOROČNA NAPOVED Linearno regresijsko metodo napovedi in ARMA napoved za opisano aplikacijo smo prvič publicirali na konferenci ERK 2009[4] in CIRED 2011[3], takrat smo projekt izvedli s programskim orodjem SPSS, kar pomeni ročno pripravo podatkov in napovedi za vsak korak. Tak način je za aplikativno vsakodnevno delo v modernem energetskem podjetju zamuden in tudi nepregleden in za današnji čas nekoliko zastarel. Tako smo naredili tehnološki preskok z najnovejšo IT tehnologijo in uporabili tehnologijo podatkovnega rudarjenja. Uporabljen IT sistem ima naslednjo strukturo: Avtomatske meritve in prenos podatkov v podatkovno skladišče. Kontrola formatov in komunikacijskega časa prenosa podatkov. Samodejno učenje modela napovedi. Strežnik za analize. Hranjenje vseh napovedi v podatkovni strežnik za on line analizo in kasnejšo prezentacijo. Simulacijo napovedi z avtomatskim preklopom v realni čas napovedi. WEB strežnik kot grafični vmesnik. Za izvedbo napovedi model napovedi učimo v drsnem režimu z npr. 160 historičnimi podatki. Poudarjamo način učenja, ker je prvi del leta (začetni interval učenja) obločna peč obratovala, nato smo z učenjem in napovedjo»padli«v režim, ko je bila obločna peč 3 tedne v remontu in na koncu spet v področje s polno proizvodnjo (Slika 1, Slika 2), kar bi lahko iz stališča napovedovanja predstavljalo problem, saj se empirični modeli napovedi za različne merilne točke (strukturno različni) razlikujejo, a smo bili podobno uspešni za vse obratovalne segmente. O tem pričajo cenilci kakovosti modelov napovedi (MAE - absolutni pogrešek napovedi, MAPE - relativni pogrešek napovedi, RMSE - standardna deviacija pogreškov napovedi). Napoved za dan +1 pomeni, napoved za en dan naprej. Napoved za dan +5, pomeni napoved za 5. dan naprej. Tabela 1: Kakovost modela napovedi porabe el. energije Strojno učenje in napovedi in se izvajajo avtomatsko, za primer urne kratkoročne napovedi vsako uro, za primer napovedi dnevnih (ekstremov) vrednosti 1 krat dnevno ob 23:45. Takrat preračunavamo tudi MAE, MAPE in RMSE (Tabela 1). Zapišimo nekaj najbolj zanimivih izsledkov iz dela. Prve 5 urne napovedi smo izvedli, kot se reče»na vroče«, brez simulacij, to je relativno enostavno, saj počakate nekaj ur in vidite rezultate. Kasneje smo izdelali simulacijski program za napredne urne, dnevne, mesečne in letne optimizacije. Osnovni algoritem simulacije poteka tako, da se pomikamo po bazi podatkov za en korak. Po vsakem pomiku po bazi izvedemo učenje, nato izvedemo napoved, rezultate napovedi pa shranimo v bazo podatkov, in tako naprej za vse historične
podatke, za katere želimo izvesti preverbo ideje modela napovedi. Z simulacijo ugotavljamo npr. kako ustrezno razporediti»uteži«za glajenje med ARMA, ART in ARMA sezonski. Sama stopnja ARMA in ART se določi avtomatsko s strojnim učenjem. V kolikor so rezultati simulacij dobri, enostavno izvršimo preklop na realni čas in dobimo WEB aplikacijo v realnem času. En takšen kompleten cikel simulacije za urne napovedi, za dva meseca, traja nekje 2 uri. Simulacijski program za dnevne urne ekstreme se za 6 mesecev izvaja samo 1 uro. Krajši čas simulacije smo dosegli tako, da smo procesirali samo časovno vrsto dnevnih urnih ekstremov, in ne vseh merilnih podatkov. Vsekakor je za nekaj dni naprej teže napovedati, kot pa nekaj ur potrebnega je več dela, več simulacij. Modeli za urne in dnevne napovedi so strukturno različni. Slika 5: Napoved z deviacijo in desno potek napovedi in meritev Eden večjih problem pri delu so lahko manjkajoči merilni podatki. Manjkajoče merilne podatke nadomeščamo s prejšnjim merilnim podatkom (ang. previous) ali s srednjo vrednostjo (ang. mean), a nadomeščanje dobro deluje do neke mere. Algoritmi strojnega učenja se sami odzovejo na»luknje«v merilnih podatkih. Za časovne vrste z manjkajočimi podatki modeli napovedi samodejno postanejo enostavnejši (npr. avtoregresijsko drevo je nižje stopnje), kar pomeni slabše napovedi. V velikih proizvodnih sistemih je težko izmeriti podatke za napovednike ali se dokopati do ustreznih baz podatkov, a stalno so na razpolago osnovne historične časovne vrste pojava. V našem primeru je zanimivo, da se napovedi z napovednikom število sarž in brez napovednika število sarž razlikujejo le za nekaj %. Rezultati s številom sarž so boljši, vendar ne drastično, in tako nima velikega smisla upoštevati napovednik števila sarž el. obločne peči. Slika 6: Ujemanje med meritvijo levo 1 dan naprej in desno 5 dni naprej
ZAKLJUČKI Napovedovanje je matematično udejanjenje starega ljudskega rekla»zgodovina se ponavlja«. V članku smo pokazali, da se zgodovina v energetiki ponavlja na uro (urni maksimumi), dan, 5 dni, 7 dni, mesec in leto. Seveda to ne trdimo kar tako s pomočjo»kavine šalčke«, ampak s pomočjo matematike, kjer napovemo najbolj verjetno vrednost in da se bo 75% vseh napovedanih vrednosti (Slika 5) populacije nahajalo v intervalu zgornje meje zaupanja (UCL) in spodnje meje zaupanja (LCL). AIG je največja zavarovalna družba v USA. Njihove delnice so stabilne in prinašajo dolgoročne zaslužke. V tabeli 2 predstavljamo našo napoved (z opisano IT tehnologijo) za delnico AIG, kar je verjetno lahko analogno napovedi na borzi energentov: Tabela 2: Ujemanje napovedi z dejanskim stanjem na borzi za delnico AIG REFERENCE: [1] Douglas C. Montgomery, George C. Runger, Applied Statistic and Probability for Engineers, Wiley, 2003. [2] Janez Bratina, Elektroobločna peč, Ravne na Koroškem, 1994. [3] Boris Bizjak, Jure Bizjak, Jože Voršič, Primeri kratkoročnega in dolgoročnega napovedovanja pretokov moči, CIGRE-CIRED 2011, Ljubljana [4] Boris Bizjak, Napovedovanje porabe električne energije za železarski kompleks, ERK 2009, Portorož [5] Jamie MacLennan, Zhao Hui Tang, Bogdan Crivat. Data mining with Microsoft SQL Server 2008, Wiley [6] GEORGE E. P. BOX GWILYM M. JENKINS GREGORY C. REINSEL. Time Series Analysis Forecasting and Control, Wiley [7] C.Meek, D.M. Chickering, D.Heckerman, Autoregresive Tree Models for Time-Series Analysis, Microsoft Research [8] Bo Thiesson, David Maxwell Chickering, David Heckerman, Christopher Meek, ARMA Time-Series Modeling with Graphical Models, Microsoft Research [9] Leland B. Jackson, Digital filters and Signal Processing, Kluwer academic publishers, 2002, Fifth Printing