OPTIMIZACIJSKE METODE skripta v pripravi

OPTIMIZACIJSKE METODE skripta v pripravi Vladimir Batagelj Ljubljana 17. december 2003

Kazalo Predgovor 5 1 Optimizacijske naloge 7 1.1 Osnovni pojmi........................... 7 1.2 Primeri optimizacijskih problemov................. 10 1.2.1 Reševanje sistema enačb.................. 11 1.2.2 Naloga linearnega programiranja.............. 11 1.2.3 Naloga nelinearnega programiranja............ 12 1.2.4 Izoperimetrična naloga................... 12 1.2.5 Naloge diskretne optimizacije............... 12 1.2.6 Naloga o minimalnem vpetem drevesu........... 13 1.2.7 Naloga o prirejanju..................... 13 1.2.8 Naloga o trgovskem potniku................ 14 2 Lastnosti 15 2.1 Podobne in enakovredne naloge.................. 15 2.2 O nepraznosti množice Min(Φ, P )................. 17 2.3 Globalni in lokalni minimumi................... 19 2.4 Konveksne množice in funkcije................... 29 2.4.1 Posplošena konveksnost.................. 29 2.4.2 Običajna konveksnost................... 35 3 Reševanje 43 3.1 Minimum funkcij na IR n...................... 43 3.2 Sedla................................ 45 3.3 Prirejene in dualne naloge..................... 48 3.4 Lagrangeova prirejenost...................... 50 3.5 Karush-Kuhn-Tuckerjev izrek................... 54 3.6 Numerični postopki......................... 60 3.6.1 Pokoordinatni spust in Hooke-Jeevesov postopek..... 61

4 KAZALO 3.6.2 Gradientni postopek.................... 62 3.7 Kazenske metode.......................... 63 3.7.1 Metoda zunanje točke................... 64 3.7.2 Metoda notranje točke................... 66 Literatura 201

Predgovor Ti zapiski vsebujejo snov spredavano pri predmetu Optimizacijske metode za študente računalništva. Ker knjiga še ni dokončana in ni primerne literature, ki bi vsebovala vso snov zbrano na enem ali dveh mestih, sem se odločil, da zapiske do izida knjige naredim dostopne v elektronski obliki. Nadaljnje razmnoževanje ali predelovanje ni dovoljeno! Ljubljana, 18. oktober 1998 Vladimir Batagelj

6 Predgovor

Poglavje 1 Optimizacijske naloge 1.1 Osnovni pojmi Naj bo na množici Φ dana funkcija P : Φ IR kjer je IR = IR {+, }. Množici Φ bomo rekli mnoˇzica dopustnih rešitev, funkciji P pa namenska ali kriterijska funkcija. Pogosto pri določitvi množice dopustnih rešitev Φ izhajamo iz širše mnoˇzice rešitev Ω, ki jo je enostavneje opisati. Množico dopustnih rešitev Φ tedaj sestavljajo tiste rešitve x Ω, ki zadoščajo predikatu dopustnosti ali omejitvam Φ(x) Postavimo Φ = (Ω, Φ) = {x Ω : Φ(x)} Min(Φ, P ) = {x Φ : y Φ : P (y) P (x)} Za vsak par x, y Min(Φ, P ) velja P (x) P (y) in P (y) P (x); torej je P (x) = P (y). To pomeni, da imajo vsi elementi množice Min(Φ, P ), če je ta neprazna, isto vrednost kriterijske funkcije P. Označimo jo z min(φ, P ) in jo razširimo na primer, ko je množica Min(Φ, P ) prazna, s predpisom: { infx Φ P (x) Φ min(φ, P ) = Φ = Tedaj lahko zapišemo tudi Min(Φ, P ) = {x Φ : P (x) = min(φ, P )} Na podoben način lahko vpeljemo tudi Max(Φ, P ) in max(φ, P ); ali pa z uporabo zvez:

8 Optimizacijske naloge Ext.1 Max(Φ, P ) = Min(Φ, P ) Ext.2 max(φ, P ) = min(φ, P ) Ti dve zvezi nam omogočata, da se omejimo samo na Min in min. Naštejmo nekaj njunih lastnosti. Za Φ, Ψ, Γ Ω velja: Ext.3 Ψ Φ min(ψ, P ) min(φ, P ) Ext.4 Ψ Φ Ψ Min(Φ, P ) min(ψ, P ) = min(φ, P ) Min(Ψ, P ) = Ψ Min(Φ, P ) Ext.5 Ψ, Γ Φ Min(Ψ, P ) Min(Γ, P ) min(ψ, P ) = min(γ, P ) Ext.6 Ψ Φ y Φ \ Ψ x Ψ : P (x) < P (y) Min(Ψ, P ) = Min(Φ, P ) Ext.7 Min(Ψ, P ) Min(Γ, P ) Min(Ψ Γ, P ) = Min(Min(Ψ, P ) Min(Γ, P ), P ) Pogosto zadostuje že nekoliko šibkejša oblika lastnosti Ext.6: Ext.6 Ψ Φ x Ψ y Φ \ Ψ : P (x) < P (y) Min(Ψ, P ) = Min(Φ, P ) Lastnost Ext.6 / Ext.6 nam omogoča zoženje iskanja minimalnih rešitev na podmnožico množice dopustnih rešitev podmnožice, ki vsebujejo same neobetavne rešitve lahko odvržemo. Lastnost Ext.7 pa omogoča uporabo načela deli in vladaj pri iskanju minimalnih rešitev. V ta namen jo zapišemo v obliki: Ext.7 Φ = k i=1 Φ i Min(Φ i, P ), i = 1,..., k Min(Φ, P ) = Min( k i=1 Min(Φ i, P ), P ) Za določitev optimizacijske naloge moramo, glede na značilnosti naloge, povedati še kdaj je naloga rešena. V strogi različici povemo to z množico sprejemljivih rešitev Σ torej je naloga natančno določena s trojico (Φ, P, Σ). Večkrat pa nekoliko popustimo in sprašujemo le po eni izmed sprejemljivih rešitev ali pa celo samo po njeni vrednosti. Poglejmo si nekaj pogostejših oblik optimizacijskih nalog: (Φ, P, Min) določi Σ = Min(Φ, P ) (Φ, P, Min) določi x Min(Φ, P ) (Φ, P, min) določi min(φ, P ) (Φ, P, lim) določi zaporedje (x i : x i Φ, i IN),

1.1 Osnovni pojmi 9 Slika 1.1: Kovanci na indeksu. tako da velja lim P (x i ) = min(φ, P ) i (Φ, P, δ < ε) določi x Φ, tako da bo (z dano verjetnostjo) razlika δ = P (x) min(φ, P ) zadosti majhna. (Φ, P, Φ) določi x Φ. Zaradi zvez Ext.1 in Ext.2 je naloga (Φ, P, Max) enakovredna nalogi (Φ, P, Min); in naloga (Φ, P, max) nalogi (Φ, P, min). V nadaljnjem se bomo v glavnem usmerili na stroge naloge minimizacije (Φ, P, Min) in popuščali le, kadar bo to potrebno. Množica optimizacijskih nalog sestavlja optimizacijski problem. Običajno združimo v optimizacijski problem med seboj podobne naloge, ki imajo enako obliko in se razlikujejo le po podatkih. Nalogi, ki pripada optimizacijskemu problemu, pravimo tudi primerek problema. PRIMER 1.1 Kovanci. Poskusimo zapisati kot optimizacijsko nalogo naslednje vprašanje: Koliko največ enakih kovancev lahko postavimo na indeks tako, da se ne prekrivajo in v celoti leže na indeksu? Recimo, da je polmer posameznega kovanca enak r in sta dolžini stranic indeksa a in b. Kaj so rešitve? Vzemimo za rešitve vse možne razmestitve kovancev v ravnini. Kako opišemo posamezno razmestitev? To je množica postavitev posameznih kovancev. Kako povemo, kam smo postavili kovanec? Tako, da povemo kam smo postavili njegovo središče njegovi koordinati (x, y). Izhodišče koordinatnega sistema postavimo v sredino indeksa, tako da je stranica a vzporedna osi x. Torej imajo rešitve obliko σ = {(x 1, y 1 ), (x 2, y 2 ),..., (x k, y k )}

10 Optimizacijske naloge kjer so x i, y i IR, i I = 1..k. Seveda vse take rešitve ne določajo pravilnih razmestitev na indeksu niso dopustne. Da bi bila rešitev σ = {(x i, y i )} i I dopustna, mora zadoščati naslednjim omejitvam: vsak kovanec je v celoti na indeksu: i I : (( x i a 2 r) ( y i b 2 r)) različna kovanca se ne prekrivata: i, j I : (i j (x i x j ) 2 + (y i y j ) 2 (2r) 2 ) Konjunkcija obeh pogojev sestavlja predikat dopustnosti Φ(σ). Kaj pa je kriterijska funkcija? Zanima nas največje število kovancev torej P (σ) = card σ. Povzemimo: vprašanje o postavitvi čimvečjega števila kovancev na indeks lahko zapišemo kot optimizacijsko nalogo (Φ, P, Max), kjer je Φ = { {(x i, y i )} i I : i I : (( x i a 2 r) ( y i b 2 r)) i, j I : (i j (x i x j ) 2 + (y i y j ) 2 (2r) 2 )} in je P (σ) = card σ. Na enak način bi zapisali tudi naloge o postavljanju: kovancev na knjigo, krožnikov na mizo, steklenic v zaboj spreminjajo se le količine a, b in r. Vse naloge sestavljajo primerke istega problema. Seveda je natančen zapis optimizacijske naloge šele prvi, a zelo pomemben, korak pri njenem reševanju. Če ne drugega, znamo za posamezno rešitev presoditi ali je dopustna in za vsak par dopustnih rešitev odločiti, katera je boljša. Formalni zapis problema je tudi izhodišče za načrtovanje postopka/programa za njegovo reševanje. 1.2 Primeri optimizacijskih problemov Z optimizacijskimi nalogami se v matematiki, predvsem pa pri njeni uporabi, srečujemo na vsakem koraku. Večkrat pa lahko tudi probleme, ki nimajo navidez z optimizacijo ničesar skupnega, zastavimo kot optimizacijske naloge. Poglejmo si nekaj primerov:

1.2 Primeri optimizacijskih problemov 11 1.2.1 Reševanje sistema enačb Nalogi: reši sistem enačb P k (x) = 0, k I, x IR n lahko priredimo optimizacijsko nalogo (IR n, P, Min), kjer je P (x) = Pk 2 (x) k I Sistem enačb je rešljiv natanko takrat, ko je min(ir n, P ) = 0 in je množica Min(IR n, P ) neprazna. Množica rešitev sistema je tedaj kar Min(IR n, P ). Če je min(ir n, P ) > 0, je sistem protisloven; elementi množice Min(IR n, P ), če je neprazna, pa nekako najbolje zadoščajo sicer protislovnim pogojem (enačbam). Fermat je na rob Diofantove knjige pripisal, da je našel preprost dokaz tega, da za n > 2 ne obstaja nobena rešitev enačbe x n + y n = z n v naravnih številih, a da je žal na robu premalo prostora. Dokaza ni zabeležil tudi nikjer drugje. Od tedaj matematiki še vedno poskušajo dokazati ali ovreči to trditev. Po opisanem postopku lahko Fermatov problem zastavimo kot optimizacijsko nalogo (Φ, P, min), kjer je Φ = {(x, y, z, n) (IN + ) 4, n 3} P (x, y, z, n) = (x n + y n z n ) 2 Fermatov problem je enakovreden vprašanju: ali je min(φ, P ) 0? 1.2.2 Naloga linearnega programiranja imenujemo nalogo (Φ, P, Min), kjer je Φ = {x IR n : Ax = b, x 0} in P (x) = c T x ter je A matrika reda m n in sta b IR m, c IR n. Kot naloge linearnega programiranja lahko zastavimo vrsto praktičnih optimizacijskih nalog. Zato in zaradi obstoja učinkovitih postopkov za njih reševanje, lahko štejemo linearno programiranje med najbolj rabljene optimizacijske metode.

12 Optimizacijske naloge 1.2.3 Naloga nelinearnega programiranja imenujmo nalogo (Φ, P, Min), kjer je Φ = {x IR n : P k (x) 0, k I} in so P : IR n IR in P k : IR n IR, k I dane funkcije. Običajno naložimo na funkcije P k in P še dodatne zahteve, kot sta zveznost in konveksnost. 1.2.4 Izoperimetrična naloga zahteva, da določimo sklenjeno ravninsko krivuljo K : r(t) = (x(t), y(t)), a t b dolžine d, ki omejuje lik največje ploščine. Nalogo lahko zastavimo kot optimizacijsko nalogo (Φ, P, Max), kjer je Φ = {K C 2 : K ṙṙdt = d} in P (K) = 1 2 K (xẏ yẋ) dt Že stari Grki so vedeli, da so rešitve te naloge krožnice z obsegom d. Danes se s podobnimi nalogami ukvarja posebna veja matematične analize variacijski račun. 1.2.5 Naloge diskretne optimizacije optimizacijska naloga je naloga diskretne optimizacije, če je moč množice Φ števna (končna ali števno neskončna). Med nalogami diskretne optimizacije so najpogostejše: celoštevilske: Φ Z n kombinatorične: Φ je podmnožica ene izmed množic kombinatoričnih konfiguracij (permutacije, kombinacije, razbitja,...) naloge na grafih: Φ je podmnožica množice podgrafov danega grafa G. Med naloge diskretne optimizacije sodijo tudi naslednje:

1.2 Primeri optimizacijskih problemov 13 1.2.6 Naloga o minimalnem vpetem drevesu Naj bo dan povezan graf G = (V, E) in preslikava v : E IR +, ki vsaki povezavi e E pripiše njeno vrednost v(e). Naloga o minimalnem vpetem drevesu imenujemo optimizacijsko nalogo (Φ, P, Min), kjer je in Φ = {H = (V, E ) : H je povezan vpet podgraf grafa G} P (H) = e E v(e) Nalogo imenujemo naloga o vpetem drevesu zato, ker velja 1.2.7 Naloga o prirejanju Min(Φ, P ) {H : H je vpeto drevo grafa G} n ljudi mora opraviti n opravil. Stroški, ki jih imamo, če človek i opravi opravilo j, naj bodo a ij. Ljudem moramo prirediti vsakemu po eno opravilo, tako da bodo skupni stroški najmanjši, pri čemer pa morajo biti opravljena vsa opravila. Zastavljeni problem lahko prevedemo na optimizacijsko nalogo (S n, P, Min), kjer je S n množica vseh permutacij števil od 1 do n in n P (π) = a i,π(i) i=1 Permutacijo π lahko opišemo tudi z dvojiško matriko x, določeno s predpisom x ij = { 1 j = π(i) 0 sicer Tedaj lahko nalogo o prirejanju zapišemo takole: (Φ, P, Min), kjer je I = 1..n, Φ = {x {0, 1} n2 : i I : x ij = 1, j I : x ij = 1} j I i I in P (x) = (i,j) I I a ij x ij Pogoji v opisu množice Φ zagotavljajo, da je x matrika neke permutacije. Iz tega zapisa naloge o prirejanju vidimo, da sodi med naloge (celoštevilskega) linearnega programiranja.

14 Optimizacijske naloge 1.2.8 Naloga o trgovskem potniku Trgovski potnik se je namenil, da bo obšel n mest tako, da se bo v vsakem mudil samo enkrat. Znane so razdalje d ij med posameznimi mesti. Kako naj potuje, da bo opravil čim krajšo pot? Pri formalizaciji naloge nadomestimo zemljevid z grafom povezanosti mest G = (V, E). Točke tega grafa so mesta, povezave pa predstavljajo prometne zveze med mesti. Vsaki povezavi je pripisana še pripadajoča razdalja. Obravnavo si precej poenostavimo, če problem obravnavamo nad polnim grafom, pri čemer vsem nepovezavam (glede na G) pripišemo kot razdaljo neko zelo veliko število. Vsakemu potovanju ustreza Hamiltonov cikel po grafu. Tega lahko popišemo z urejeno n-terko točk π, sestavljeno po pravilu j = π(i) točka j je v ciklu naslednik točke i Če naj π popisuje Hamiltonov cikel, mora biti ciklična permutacija. Tako dobimo nalogo (Γ n, P, Min), kjer je Γ n množica cikličnih permutacij števil od 1 do n in P (π) = i I d i,π(i) Najbrž ni potrebno posebej opozarjati na podobnost naloge o trgovskem potniku z nalogo o prirejanju. Vendar, kakor bomo videli, videz včasih vara.

Poglavje 2 Lastnosti 2.1 Podobne in enakovredne naloge Imejmo optimizacijski nalogi (Φ, P, Min) in (Ψ, Q, Min) ter relacijo τ Φ Ψ, ki zadošča pogoju: CS. x Min(Φ, P ) : τ(x) Potem je relacija τ: omejevalna ali lokalizator, če velja: Min(Ψ, Q) τ(min(φ, P )) izbiralna ali selektor, če velja: τ(min(φ, P )) Min(Ψ, Q) prevajalna ali translator, če velja: τ(min(φ, P )) = Min(Ψ, Q). OPOMBA: Določeno povezanost med nalogama bi si zagotovili že z nekoliko šibkejšo zahtevo: CW. Min(Φ, P ) τ(min(φ, P )) Očitno iz veljavnosti pogoja CS izhaja veljavnost pogoja CW. Strožjo zahtevo CS smo privzeli, ker za selektorje zahteva CW še ne zagotavlja veljavnosti naslednje trditve: IZREK 2.1 Pri kompoziciji dveh lokalizatorjev/selektorjev/translatorjev se tip relacije ohranja. Produkt relacij ohranja vrsto zveze. Definirajmo: Nalogi (Φ, P, Min) in (Ψ, Q, Min) sta si podobni, kar zapišemo (Φ, P, Min) (Ψ, Q, Min)

16 Lastnosti Φ τ Ψ τ(min(φ,p)) Min(Φ, P) Min(Ψ,Q) Slika 2.1: Selektor natanko takrat, ko zanju obstajata selektorja τ Φ Ψ in ϑ Ψ Φ. Če pa sta relaciji τ in ϑ translatorja, sta nalogi enakovredni, kar zapišemo (Φ, P, Min) (Ψ, Q, Min) Podobnost in enakovrednost razširimo na naloge maksimizacije s predpisoma: (Φ, P, Max) (Φ, P, Min) in (Φ, P, Max) (Φ, P, Min) Iz izreka izhaja, da sta in ekvivalenčni relaciji. Poleg tega je. Prva ugotovitev, ki jo lahko povemo o podobnih nalogah: IZREK 2.2 Za podobni nalogi (Φ, P, Min) in (Ψ, Q, Min) velja: Min(Φ, P ) = Min(Ψ, Q) = Dokaz: Predpostavimo nasprotno. Naj bo (zaradi simetrije je dovolj splošno) Min(Φ, P ) = in Min(Ψ, Q) ter ϑ Ψ Φ selektor. Potem je ϑ(min(ψ, Q)) Min(Φ, P ) = oziroma ϑ(min(ψ, Q)) =, kar pa je v protislovju s CW. Nalogi, ki zadoščata lastnosti Ext.6, sta enakovredni, saj sta relaciji: { {x} x Ψ τ(x) = x Φ \ Ψ in ϑ(u) = {u} selektorja. Označimo Φ(x) = {y Φ : P (y) P (x)}. neposredno izhaja: Tedaj iz lastnosti Ext.6

2.2 O nepraznosti množice Min(Φ, P ) 17 IZREK 2.3 Naj bo x Φ. Tedaj je (Φ, P, Min) (Φ(x), P, Min). IZREK 2.4 Naj bo preslikava ϕ : P (Φ) IR strogo narašˇcajoˇca. Tedaj je (Φ, P, Min) (Φ, ϕ P, Min). Naj bo preslikava ψ : P (Φ) IR strogo padajoˇca. Tedaj je (Φ, P, Min) (Φ, ψ P, Max). Primeri takih preslikav so na primer Q = αp + β, α > 0 in za P > 0 še preslikave Q = P 2, Q = P in Q = ln P. Optimizacijska problema sta podobna/enakovredna, če za vsako nalogo prvega problema obstaja podobna/enakovredna naloga drugega problema; in obratno. Pojem podobnih oziroma enakovrednih problemov nam omogoča, da vpeljemo standardne probleme, ki jih kar se da natančno razdelamo. Pri reševanju problemov/nalog pa jih najprej poskusimo prevesti na kakega od standardnih. 2.2 O nepraznosti množice Min(Φ, P ) O obstoju minimumov (rešljivosti optimizacijskih nalog) v splošnem ni mogoče veliko povedati. Očitno je množica Min(Φ, P ) neprazna, če je množica Φ končna. V tem primeru lahko množico Min(Φ, P ), vsaj teoretično, določimo s polnim preborom množice dopustnih rešitev Φ: P opt := ; forall x Φ do P x := P (x); if P x < P opt then P opt := P x; Min := {x} elseif P x = P opt then Min := Min {x} endif endfor Za diskretno optimizacijsko nalogo z neskončno množico dopustnih rešitev Φ lahko pogosto z uporabo lastnosti Ext.6 določimo enakovredno nalogo s končno množico dopustnih rešitev in s tem pokažemo njeno rešljivost. PRIMER 2.1 Naj bo G = (V, A) končen graf in d : A IR + dolˇzina povezav. Naloga o najkrajših poteh iz točke u v točko v grafa G imenujemo nalogo (Φ, P, Min), kjer je Φ = {σ : σ je sprehod iz u v v po G}

18 Lastnosti in, za sprehod σ = (u, a 1, v 1, a 2, v 2,..., v n 1, a n, v) P (σ) = a σ d(a) Množica dopustnih rešitev Φ je neprazna natanko takrat, ko je točka v dosegljiva iz točke u po grafu G. Pokažimo, da za vsak neosnoven sprehod σ Φ obstaja osnoven sprehod (pot) σ 0 Φ, za katerega je P (σ 0 ) < P (σ). Če sprehod σ ni osnoven, se v njem neka točka ponovi v i = v j, i < j. Označimo σ z = (u, a 1,..., v i ), σ s = (v i, a i+1,..., v j ) in σ k = (v j, a j+1,..., v). Tedaj je σ = σ z σ s σ k in je sprehod iz u v v tudi σ = σ z σ k. Velja še P (σ) = P (σ z ) + P (σ s ) + P (σ k ) > P (σ z ) + P (σ k ) = P (σ ) Če je σ pot, je trditev dokazana; sicer postopek ponovimo. Na ta način, zaradi končnosti sprehoda σ, v končno korakih pridemo do iskane poti σ 0. Torej množica Ψ = {σ : σ je pot iz u v v po G} zadošča pogojem iz lastnosti Ext.6. Množica Ψ je končna. Drug, zelo pomemben primer pa obravnava Bolzano-Weierstrassov izrek: IZREK 2.5 Naj bo P zvezna funkcija na kompaktni (zaprta in omejena) mnoˇzici Φ, tedaj je Min(Φ, P ). Dokaz: Naj bo m = min(φ, P ). Tedaj obstaja zaporedje (x k : k IN), tako da P (x k ) m. Ker je Φ kompaktna množica in P zvezna, obstaja K IN tako da x i x Φ za i K in velja m = lim P (x k ) = lim P (x i) = P (x ) k i,i K Ker je min(φ, P ) = P (x ) >, je x Min(Φ, P ). Večkrat nam pride prav tudi naslednja posledica Bolzano-Weierstrassovega izreka: IZREK 2.6 Naj bo Φ zaprta mnoˇzica, P : Φ IR zvezna funkcija in naj bo za nek x Φ mnoˇzica Φ(x) = {y Φ : P (y) P (x)} omejena. Tedaj je Min(Φ, P ). PRIMER 2.2 Vsak polinom sode stopnje s pozitivnim vodilnim koeficientom ima vsaj en minimum.

2.3 Globalni in lokalni minimumi 19 Večkrat lahko množico dopustnih rešitev Φ skrčimo na naslednji način. Recimo, da znamo vsaki rešitvi x Ω pripisati njeno velikost m(x), m : Ω IR + 0. Pravimo, da je kriterijska funkcija kotlasta, če zanjo velja x 0 Φ c > 0 x Φ : (m(x) > c P (x) > P (x 0 )) Iz lastnosti Ext.6 neposredno izhaja IZREK 2.7 Naj bo kriterijska funkcija P naloge (Φ, P, Min) kotlasta in tedaj je (Φ, P, Min) (Ψ, P, Min). Ψ = {x Φ : m(x) c} PRIMER 2.3 Poseben razred kotlastih funkcij dobimo takole. Naj za nalogo (Φ, P, Min) velja a. c IR + x Φ : m(x) > c b. m(x) P (x) Tedaj je funkcija P kotlasta. Uporabimo to za nalogo (IR 2, P, Min), kjer je P (x, y) = x 4 + y 4 3xy Postavimo m((x, y)) = max( x, y ). Lastnost a je izpolnjena, iz P (x, y) = (x 4 + y 4 )(1 3xy x 4 + y 4 ), x2 + y 2 > 0 pa izhaja še veljavnost lastnosti b. Ker je množica Ψ = {(x, y) IR 2 : x, y c} kompaktna in P zvezna, je po izreku 2.5 Min(IR 2, P ). 2.3 Globalni in lokalni minimumi Pogosto lahko v dani množici Ω definiramo relacijo sosednosti rešitev S Ω Ω, za katero zahtevamo le refleksivnost. PRIMER 2.4 Kadar je Ω = IR n, za dani ε > 0, običajno definiramo relacijo S(ε) s predpisom: xs(ε)y d(x, y) ε kjer je d izbrana razdalja. Množica S(ε, x) sosedov točke x je tedaj običajna ε okolica točke x. Velja: ε < η S(ε) S(η)

20 Lastnosti V diskretnih optimizacijskih nalogah običajno definiramo sosednost z lokalnimi transformacijami, ki prevedejo eno rešitev v drugo. Naj bo na Ω dana množica transformacij T. Tedaj je xsy τ T : τ(x) = y PRIMER 2.5 V množici IB n dvojiških vektorjev dolžine n navadno definiramo lokalno transformacijo s spremembo vrednosti na i-tem mestu: x i = 1 x i. PRIMER 2.6 Pri problemu trgovskega potnika se najpogosteje uporabljajo sosednosti r-opt, pri katerih so sosednje rešitve določene tako, da iz tekočega cikla odstranimo r povezav in jih nadomestimo z novimi, ki zopet sestavljajo cikel. Slika 2.2: Lokalna transformacija 2-OPT Na slikah 2.2 in 2.3 sta prikazani sosednosti 2-OPT in 3-OPT. Lin je s poskusi pokazal, da je sosednost 3-OPT veliko boljša kot sosednost 2-OPT, učinek sosednosti višjih redov pa ne upravičuje povečane porabe časa. PRIMER 2.7 postavimo: V primeru, ko je Ω = S n (permutacije n elementov), pa lahko πsσ π = σ p, q : σ = (pq)π PRIMER 2.8 Vpeto drevo izberemo tetivo, vključimo jo v novo drevo, iz pripadajočega cikla pa izločimo neko povezavo. Element x Φ je lokalni minumum glede na S natanko takrat, ko je x Min(Φ S(x), P ); ali drugače povedano, ko y Φ S(x) : P (x) P (y) Množico vseh lokalnih minimumov naloge (Φ, P, min) glede na sosednost S označimo LocMin(Φ, P, S). Zato, da bi poudarili razliko, pravimo elementom množice Min(Φ, P ) tudi globalni minimumi. Očitno je vsak globalni minimum tudi lokalni. Poleg tega velja še:

2.3 Globalni in lokalni minimumi 21 Slika 2.3: Lokalne transformacije 3-OPT

22 Lastnosti IZREK 2.8 Za vsako sosednost S je LocMin(Φ, P, Φ Φ) = Min(Φ, P ) LocMin(Φ, P, S) in, ˇce je Q S, tudi Trditev je posledica lastnosti LocMin(Φ, P, S) LocMin(Φ, P, Q) Ψ Φ x Ψ Min(Φ, P ) x Min(Ψ, P ) Relacija sosednosti nam ponuja za reševanje optimizacijskih nalog naslednji postopek lokalne optimizacije: izberi x Φ ; while y S(x) Φ : P (y) < P (x) do x := y; Če se postopek izteče v končno korakih, konča v lokalnem minimumu. V postopku lahko relacijo sosednosti tudi spreminjamo npr. zmanjšujemo ε. Pri razdelavi postopka lokalne optimizacije za dani optimizacijski problem moramo poiskati odgovore na naslednja vprašanja: a. določitev sosednosti S Ω Ω. Kot vemo, čim bogatejša je sosednost, tem verjetneje so lokalni minimumi tudi globalni. Po drugi strani pa pregledovanje obsežne soseščine zahteva precej časa. Pri izbiri sosednosti zato poskušamo uravnotežiti obe nasprotujoči si želji. b. izbira začetne rešitve. Lokalnim minimumom se poskušamo izogniti tako, da postopek lokalne optimizacije večkrat ponovimo pri različnih (naključnih) začetnih rešitvah in si zapomnimo najboljšo dobljeno rešitev. Izdelava poštenega generatorja naključnih dopustnih rešitev je lahko včasih sama zase zahtevna naloga. Pri večjem številu ponovitev se pokaže kot zelo dober prikaz zgradbe prostora rešitev (glede na izbrano sosednost) tabela desetih trenutno najboljših dobljenih rešitev. Zaželjeno je tudi, da lahko postopku lokalne optimizacije kot začetno rešitev podtaknemo rešitev, ki si jo izmisli uporabnik, ali rešitev, ki jo dobimo s kakim približnim postopkom. c. dokaz ustavljivosti postopka. Zaporedje vrednosti rešitev, ki nastopijo pri lokalni optimizaciji, je padajoče. Če pokažemo še, da je navzdol omejeno in se vsakič spremeni vsaj za δ > 0, se postopek po končno korakih izteče. Na končni množici Φ je to vselej res.

2.3 Globalni in lokalni minimumi 23 d. izbira naslednje rešitve. Pri končnih soseščinah običajno uporabljamo kar pregled vseh sosedov. Včasih pa lahko za določitev ustrezne rešitve uporabimo lastnosti kriterijske funkcije in omejitev (npr. gradientni postopek). Pogosto obstaja v soseščini več rešitev z manjšo vrednostjo. V teh primerih najpogosteje izberemo ali prvo tako rešitev, ki jo najdemo; ali pa rešitev, ki najbolj zmanjša vrednost kriterijske funkcije (najhitrejši spust). Poskusi kažejo, da glede končnih rezultatov ni značilnih razlik med obema pristopoma. Prvi porabi manj časa pri pregledovanju okolice, pa zato naredi več korakov. e. učinkovito preverjanje pogoja P (y) < P (x). Pogosto je kriterijska funkcija P sestavljena iz prispevkov posameznih sestavin rešitve. Zato se izkaže, da se splača pogoj P (y) < P (x) nadomestiti z enakovrednim pogojem P (x) P (y) > 0 ali P (x)/p (y) > 1 ali kakim drugim, ker je izraz, ki nastopa v tem pogoju precej enostavnejši kot sama kriterijska funkcija prispevki sestavin, ki pri lokalni transformaciji ne sodelujejo, se pokrajšajo. f. lokalna optimalnost rešitev. Lokalna optimizacija nam v splošnem ne zagotavlja, da bomo dobili globalni minimum. V naslednjem razdelku bomo zvedeli, da je za konveksne naloge postopek lokalne optimizacije točen dobljeni lokalni minimum je vselej globalni. V splošnem se moramo zadovoljiti z ugotovitvijo, da če je postopek generiranja naključnih začetnih rešitev vsaj nekoliko pošten (ustvari lahko vsako dopustno rešitev, čeprav ne nujno z enako verjetnostjo), s številom ponovitev postopka lokalne optimizacije narašča tudi verjetnost, da bo dobljeni najboljši lokalni minimum tudi globalni. V poglavju o diskretni optimizaciji si bomo ogledali nekatere poskuse izpopolnitve postopka lokalne optimizacije: postopke ohlajanja (simulated annealing) in postopke prepovedanih smeri (tabu search). g. povezanost sosednosti S. Pri navadni lokalni optimizaciji je povezanost grafa (Ω, S) le lepotnega pomena, pri izpopolnjenih postopkih pa postane zelo zaželjena. h. preverjanje postopka. Ko postopek sprogramiramo, se postavi vprašanje, kako preveriti njegovo pravilnost in kakovost. Zato je potrebno pripraviti zbirko nalog z znanimi rešitvami. Vir takih nalog so lahko tudi teoretični rezultati o problemu.

24 Lastnosti Slika 2.4: Veternica v letalskem motorju Rolls Royce RB211-535C [3]. PRIMER 2.9 Problem uravnotežanja turbin. Pri izdelavi turbin lahko mase posameznih lopatic nihajo tudi za do pet odstotkov okrog povprečne vrednosti. Običajno turbino sestavlja 14 do 18 lopatic [54, 8]. Pri nameščanju lopatic na os namestimo težišča lopatic v isti ravnini enakomerno po krožnici. Lopatice želimo namestiti v takem vrstnem redu, da bo težišče turbine čim bliže osi vrtenja. Označimo z n število lopatic, z m 1, m 2,..., m n mase lopatic in z M = m i skupno maso lopatic. Razmestitev lopatic okrog osi opišemo s permutacijo σ na p-to mesto postavimo lopatico σ(p). Naj bo še ϕ i = (i 1) 2π n, i = 1, 2,..., n kot, ki pripada i-temu mestu in r polmer krožnice. Tedaj je za razmestitev σ

2.3 Globalni in lokalni minimumi 25 Slika 2.5: Uravnotežena rešitev n = 14. težišče (x σ, y σ ) določeno z izrazoma: x σ = r M n m σ(i) cos ϕ i i=1 odmik d(σ) težišča od osi vrtenja pa z; d(σ) = y σ = r M x 2 σ + y 2 σ n m σ(i) sin ϕ i i=1 Nalogo uravnotežanja turbine lahko torej izrazimo kot optimizacijsko nalogo (S n, d(σ), Min). Krajši razmislek nam pove, da lahko pri razmeščanju eno maso pribijemo na izbrano mesto enakovrednost rešitev glede na zasuk. Poleg tega tudi zrcalni permutaciji določata enakovredni rešitvi. Torej bi morali pri polnem preboru rešitev pregledati 1 2 (n 1)! permutacij. 1 n 2 (n 1)! n 1 2 (n 1)! 10 181440 16 653837184000 11 1814400 17 10461394944000 12 19958400 18 177843714048000 13 239500800 20 60822550204416000 14 3113510400 25 310224200866619719680000 15 43589145600 30 4420880996869850977271808000000 Recimo, da program pri polnem preboru (na super-računalniku) pregleda milijon rešitev na sekundo. Tedaj bi pri n = 14 tekel 8.6 ur; pri n = 18 pa že 49401 ure oziroma 5.6 let.

26 Lastnosti k max := (n 1)(n 2)/2; k := k max ; določi naključno začetno razmestitev σ; izračunaj x, y, d 2 ; search : loop for p := 2 to n 1 do for q := p + 1 to n do x := x r M (m σ(p) m σ(q) )(cos ϕ p cos ϕ q ); ỹ := y r M (m σ(p) m σ(q) )(sin ϕ p sin ϕ q ); d 2 := x 2 + ỹ 2 if d 2 < d 2 then x := x; y := ỹ; d 2 := d 2 ; k := k max ; t := σ(p); σ(p) := σ(q); σ(q) := t; else k := k 1; if k 0 exit search endif endfor endfor endloop Slika 2.6: Postopek lokalne optimizacije za problem turbin.

2.3 Globalni in lokalni minimumi 27 Na sliki 2.6 je podan postopek lokalne optimizacije za problem turbin. Poglejmo posamezne odločitve. Če dobimo (a) razmestitev η iz razmestitve σ tako, da v njej premenjamo masi na p-tem in q-tem mestu (transpozicija), sta koordinati novega težišča (x η, y η ) takole povezani (e) s težiščem razmestitve σ: x η = x σ r M (m σ(p) m σ(q) )(cos ϕ p cos ϕ q ) y η = y σ r M (m σ(p) m σ(q) )(sin ϕ p sin ϕ q ) Za izbiro (b) začetne razmestitve uporabimo naslednji postopek za mešanje [41], ki je popolnoma pošten for i := n downto 2 do j := 1 + trunc(i random); t := σ[i]; σ[i] := σ[j]; σ[j] := t; endfor; Za prvo permutacijo lahko postavimo kar σ[i] = i, i = 1,..., n. Ker je vsaka permutacija produkt transpozicij, (g) je graf sosednosti povezan. V postopku smo se odločili (d) za premik v prvo boljšo rešitev. Pri preverjanju postopka (h) pride prav naslednji izrek [8] o celoštevilskem problemu uravnotežanja turbin, pri katerem je m i = i: Celoštevilski problem uravnotežanja turbin ima uravnoteženo rešitev d(σ) = 0 natanko takrat, ko n ni potenca nekega praštevila, n p k, k > 0. Na sliki 2.5 je prikazana uravnotežena rešitev za n = 14. V tabelah 2.1 in 2.2 pa sta za nalogo celoštevilskega uravnotežanja za n = 10 podani ( sledi lokalne optimizacije za začetni permutaciji ) 1 2 3 4 5 6 7 8 9 10 σ a = in 1 4 9 7 6 3 10 8 5 2 ( ) 1 2 3 4 5 6 7 8 9 10 σ b =. 6 5 7 3 1 10 9 8 4 2 Dobimo ( lokalna minimuma ) 1 2 3 4 5 6 7 8 9 10 σa =, d(σa 1 10 7 5 2 8 3 9 6 4 ) = 1.63945 in σ b = ( 1 2 3 4 5 6 7 8 9 10 6 9 8 3 2 5 10 7 4 1 ), d(σ b ) = 0 (globalni minimum).

28 Lastnosti Tabela 2.1: Sled lokalne optimizacije za σ a p q x y d 189.07613 30.50180 191.52060 2 3 143.62158 2.52286 143.64374 2 7 114.20278 18.85115 115.74818 3 4 80.49184 18.85115 82.66983 4 5 62.31002 32.06101 70.07458 4 9 51.07304 2.52286 51.13531 5 10 7.76456 45.27088 45.93192 6 7 13.06995 18.85115 22.93882 6 8 0.50662 1.55921 1.63945 Tabela 2.2: Sled lokalne optimizacije za σ b p q x y d 116.85547 88.01890 146.29603 2 3 98.67365 101.22876 141.36390 2 6 0.00000 69.16775 69.16775 3 6 47.60062 34.58387 58.83760 3 8 58.83760 0.00000 58.83760 4 5 40.65578 13.20986 42.74802 4 10 20.32789 14.76908 25.12665 2 7 9.09091 6.60493 11.23698 4 5 0.00000 0.00000 0.00000

2.4 Konveksne množice in funkcije 29 2.4 Konveksne množice in funkcije 2.4.1 Posplošena konveksnost Naj bo Ω množica in d : Ω Ω IR + 0 d1. d(x, x) = 0 d2. d(x, y) = d(y, x) Poleg tega bomo zahtevali, da zadošča vsaj še pogoju d3. d(x, y) = 0 z Ω : d(x, z) = d(y, z) Različnosti, ki zadošča tudi pogojema razliˇcnost na Ω zadošča pogojema: d3. d(x, y) = 0 x = y razločljivost d4. d(x, z) + d(z, y) d(x, y) trikotniška neenakost pravimo razdalja. Velja tudi d3 d3. Daljica v (Ω, d) s krajišˇcema x, y Ω imenujemo množico Postavimo [x, y] = {z Ω : d(x, z) + d(z, y) = d(x, y)} [x] = {z Ω : d(x, z) = 0} Velja d(x, y) = 0 [x] = [y]. Vpeljemo lahko še (x, y] = [x, y] \ [x] in (x, y) = [x, y] \ ([x] [y]). Če d zadošča d3, je [x] = {x}. Velja: {x, y} [x, y], [x] [x, y], [x, y] = [y, x] in d(x, z) = 0 [x, y] = [z, y]. Na stvar lahko pogledamo tudi takole. Naj bo relacija Ω Ω določena s predpisom x y d(x, y) = 0 je enakovrednost (ekvivalenčna relacija). Po d3 je funkcija d/ dobro definirana na Ω/ ; še več, je razdalja na Ω/. IZREK 2.9 (x, y) d(x, y) > 0 Dokaz: Naj bo z (x, y). Tedaj po definiciji množice (x, y) velja d(x, z) > 0 in d(z, y) > 0 in je zato tudi d(x, y) = d(x, z) + d(z, y) > 0. Množica Φ Ω je konveksna (izbočena) natanko takrat, ko velja x, y Φ : [x, y] Φ Kadar želimo posebej poudariti, da je množica konveksna glede na različnost d, rečemo, da je d-konveksna.

30 Lastnosti Slika 2.7: Konveksna in nekonveksna množica. IZREK 2.10 Presek konveksnih mnoˇzic je konveksna mnoˇzica. Dokaz: Vzemimo poljubno družino konveksnih množic {Φ i } i I. Bodita x, y i I Φ i. Po definiciji preseka je tedaj za vsak i I: x, y Φ i in dalje zaradi konveksnosti množice Φ i tudi [x, y] Φ i. Od tu pa zopet po definiciji preseka končno dobimo [x, y] i I Φ i. Presek je konveksna množica. Funkcija P : Φ IR na konveksni množici Φ je konveksna natanko takrat, ko velja: x, y Φ : (d(x, y) = 0 P (x) = P (y)) in x, y Φ z (x, y) : d(x, y)p (z) d(y, z)p (x) + d(x, z)p (y) Če v drugem pogoju velja strogi neenačaj <, je P strogo konveksna. Za razločljive različnosti je prvi pogoj vselej izpolnjen. Funkcija P : Φ IR na konveksni množici Φ je skoraj konveksna natanko takrat, ko velja: x, y Φ z (x, y) : P (z) max(p (x), P (y)) Če v pogoju velja strogi neenačaj <, je P strogo skoraj konveksna. Funkcija P : Φ IR na konveksni množici Φ je (strogo, skoraj) konkavna natanko takrat, ko je funkcija P (strogo, skoraj) konveksna. OPOMBA: O navadni konveksnosti govorimo v primeru, ko je Ω vektorski prostor s skalarnim produktom xy. Na primer Ω = IR n in xy = n i=1 x i y i. Tedaj definiramo razdaljo d(x, y) = (x y) 2. Zanjo je [x, y] = {z : z = λx + (1 λ)y, λ [0, 1]} pogoj za konveksnost funkcije pa zapišemo P (λx + (1 λ)y) λp (x) + (1 λ)p (y), λ (0, 1) Konveksna funkcija na odprti konveksni množici v IR n je zvezna.

2.4 Konveksne množice in funkcije 31 Slika 2.8: Konveksna funkcija. IZREK 2.11 funkcija. Vsaka (strogo) konveksna funkcija je tudi (strogo) skoraj konveksna Dokaz: Vzemimo poljuben par x, y Φ in katerikoli z (x, y). Po izreku 2.9 je d(x, y) > 0 in zato P (z) d(y, z)p (x) + d(x, z)p (y) d(x, y) = max(p (x), P (y)) d(y, z) + d(x, z) d(x, y) max(p (x), P (y)) Pri tem smo upoštevali, da je d(x, z) + d(z, y) = d(x, y). Če je funkcija P strogo konveksna, je prva neenakost stroga. IZREK 2.12 Naj bo P : Φ IR (strogo) konveksna funkcija na konveksni mnoˇzici Φ. Tedaj velja: a. λp (x) + µ, λ, µ IR, λ > 0 je (strogo) konveksna funkcija na Φ; b. naj bo še τ : Ψ IR, P (Φ) Ψ R, (strogo) narašˇcajoˇca konveksna funkcija na Ψ. Tedaj je funkcija τ P (strogo) konveksna na Φ. Dokaz: b. τ P (z) = τ(p (z)) d(y, z) d(x, z) τ( P (x) + d(x, y) d(x, y) P (y)) d(y, z) d(x, z) τ(p (x)) + τ(p (y)) d(x, y) d(x, y)

32 Lastnosti = d(y, z) d(x, z) τ P (x) + d(x, y) d(x, y) τ P (y) IZREK 2.13 Naj bodo P i : Φ IR, i I = 1..n konveksne funkcije na konveksni mnoˇzici Φ. Tedaj so konveksne tudi funkcije: a. i I λ i P i (x), λ i 0 b. max i I P i (x) c. max i I (0, P i (x)) IZREK 2.14 Naj P : Ω IR skoraj konveksna funkcija. Tedaj je mnoˇzica Φ = {x Ω : P (x) 0} konveksna. Dokaz: Pokazati moramo, da je za vsak par različnih točk x, y Φ tudi pripadajoča daljica [x, y] Φ; oziroma, da je za vsak z (x, y) : z Φ. Po definiciji množice Φ sta P (x) 0 in P (y) 0 in zato naprej, po definiciji skoraj konveksnosti P (z) max(p (x), P (y)) 0 Torej je res tudi z Φ. Opomba: na enak način pokažemo, da je tudi množica {x Ω : P (x) < 0} konveksna. Plast funkcije P : Φ IR na višini h imenujemo množico Lev (P, h) = {x Φ : P (x) h} IZREK 2.15 Naj bo Φ konveksna mnoˇzica. Tedaj je funkcija P : Φ IR skoraj konveksna natanko takrat, ko je za vsak h IR plast Lev (P, h) konveksna mnoˇzica. Dokaz: Naj bosta x, y Lev (P, h) poljubni, različni točki. Tedaj je P (x), P (y) h in dalje za vsak z (x, y) P (z) max(p (x), P (y)) h Torej je tudi z Lev (P, h) množica Lev (P, h) je konveksna. Pokažimo trditev še v nasprotno smer. Vzemimo poljubna x, y Φ in postavimo h = max(p (x), P (y)). Tedaj sta x, y Lev (P, h). Ker je po predpostavki množica Lev (P, h) konveksna, je tudi [x, y] Lev (P, h) torej velja z (x, y) : P (z) h = max(p (x), P (y))

2.4 Konveksne množice in funkcije 33 Funkcija P je skoraj konveksna. Sosednost S Ω Ω je dobra za konveksno množico Φ natanko takrat, ko velja x Φ y Φ \ S(x) z S(x) (x, y) Optimizacijska naloga (Φ, P, Min) je konveksna, če sta Φ in P konveksni. Pomen konveksnosti pri optimizaciji razkriva naslednji izrek: IZREK 2.16 globalni. Za dobro sosednost je vsak lokalni minimum konveksne naloge tudi Dokaz: Naj bo x lokalni minimum za neko dobro sosednost S. Tedaj je z S Φ : P (z) P (x). Če je S(x) Φ = Φ, trditev velja. Sicer vzemimo katerikoli drug y Φ \ S(x) in pokažimo, da je P (x) P (y). Predpostavimo nasprotno y Φ \ S(x) : P (x) > P (y). Ker je P (x) > P (y), je d(x, y) > 0. Naj bo z (x, y) S(x) element iz definicije dobre sosednosti. Tedaj je P (z) < d(y, z) d(x, z) P (x) + d(x, y) d(x, y) P (y) d(y, z) d(x, z) P (x) + P (x) = P (x) d(x, y) d(x, y) Stroga neenakost izhaja iz predpostavke P (y) < P (x) in d(x, z) > 0. Torej lahko vselej najdemo tak z (x, y) S(x), da je P (z) < P (x); kar pomeni, da x ni lokalni minimum protislovje. Ta izrek zagotavlja, da je za konveksne naloge postopek lokalne optimizacije, če se izteče v končno korakih, točen. IZREK 2.17 Naj bo funkcija P : Φ IR strogo skoraj konveksna nad konveksno mnoˇzico Φ in naj bo x lokalni minimum za dobro sosednost S Ω Ω. Tedaj je x Min(Φ, P ). Dokaz: Dokazujemo s protislovjem. Ker je x lokalni minimum, velja y S(x) Φ : P (x) P (y) Recimo, da x / Min(Φ, P ). Tedaj obstaja tak z Φ, da je P (z) < P (x). Ker je sosednost S dobra, obstaja vsaj en y (x, z) S(x), za katerega, ker je y S(x) Φ, velja P (x) P (y). Po drugi strani je zaradi stroge skoraj konveksnosti P (y) < max(p (z), P (x)) = P (x) kar da, če združimo obe neenakosti, protislovje P (y) < P (y).

34 Lastnosti IZREK 2.18 Naj bo funkcija P : Φ IR skoraj konveksna nad konveksno mnoˇzico Φ, tedaj je tudi mnoˇzica x Min(Φ, P ) konveksna. Dokaz: Vzemimo poljubna različna x, y Min(Φ, P ). Tedaj je P (x) = P (y) = min(φ, P ) in za vsak z (x, y) P (z) max(p (x), P (y)) = min(φ, P ) Torej je P (z) = min(φ, P ) oziroma z Min(Φ, P ). Naj bo Γ Ω. (Induktivna) konveksna ovojnica množice Γ imenujemo množico con Γ, ki je določena induktivno s praviloma: con 1. con 2. Γ con Γ x, y con Γ [x, y] con Γ Iz pravila con 2 izhaja, da je con Γ konveksna množica. Obratno, če je Γ konveksna množica, je con Γ = Γ. IZREK 2.19 Naj bo za neprazno mnoˇzico Γ Φ, con Γ Φ in P skoraj konveksna funkcija na Φ. Tedaj je z con Γ : P (z) sup P (w) w Γ Dokaz: Dokazujemo z induktivno posplošitvijo. Če je z Γ, je trditev očitna. Pokažimo še, da pravilo con 2 ohranja neenakost. Po induktivni predpostavki za x, y con Γ trditev velja P (x), P (y) sup P (w) w Γ Tedaj je po skoraj konveksnosti funkcije p tudi za vsak z [x, y] P (z) max(p (x), P (y)) sup P (w) w Γ Po induktivni posplošitvi neenakost velja za vsak z con Γ. Množica Γ Φ razpenja konveksno množico Φ natanko takrat, ko velja con Γ = Φ. Množica Γ Φ je neodvisna natanko takrat, ko zanjo velja x Γ : x / con (Γ \ {x}). Nedvisno množico B, ki razpenja množico Φ, imenujemo baza (osnova) množice Φ. Iz zadnjega izreka neposredno izhaja. IZREK 2.20 Naj bo B Φ baza konveksne mnoˇzice Φ in P : Φ IR skoraj konveksna funkcija. Teda je z Φ : P (z) sup P (w) w B

2.4 Konveksne množice in funkcije 35 Točka z Φ je robna točka konveksne množice Φ natanko takrat, ko velja x, y Φ : z (x, y). Vsaka baza množice Φ vsebuje vse njene robne točke. 2.4.2 Običajna konveksnost V tem razdelku si bomo ogledali nekatere posebnosti, ki veljajo za običajno konveksnost primer, ko je Ω vektorski prostor (npr. Ω = IR n ). Iz pogoja za običajno konveksnost množice Φ Ω izhaja: x, y Φ λ (0, 1) : λx + (1 λ)y Φ IZREK 2.21 Naj bo Φ konveksna mnoˇzica, x k Φ, λ k 0, k 1..n in λ k = 1. Tedaj je tudi λ k x k Φ. λk x k je konveksna ovojnica. IZREK 2.22 (Krein Milman) Kompaktna konveksna mnoˇzica v IR n je konveksna ovojnica svojih robnih toˇck. IZREK 2.23 Za konveksno mnoˇzico Φ je za vsak ε > 0 sosednost S(ε) dobra. Dokaz: Naj bo x Φ in y Φ\S(ε)(x). Tedaj je množica {z : z (x, y) 0 < d(x, z) < ε} vselej neprazna. PRIMER 2.10 n-razsežna krogla K s središčem c IR n in polmerom r K = {x IR n : x c r} je konveksna množica. Pokazati moramo: če sta x, y K, je tudi αx + βy K za vse α, β 0 in α + β = 1. Ker sta x, y K, je x c r in y c r. Naprej je račun kratek αx + βy c = α(x c) + β(y c) α x c + β y c r Torej je res tudi αx + βy K. Iz pogoja za konveksnost funkcije P : Φ IR na konveksni množici Φ: dobimo x, y Φ λ (0, 1) : P (λx + (1 λ)y) λp (x) + (1 λ)p (y)

36 Lastnosti IZREK 2.24 (Jensenova neenakost). Naj bo P konveksna funkcija na konveksni mnoˇzici Φ. Tedaj za poljubne λ i 0, i I = 1..n, i I λ i = 1 in x i Φ velja neenakost P ( λ i x i ) λ i P (x i ) i I i I Če je P strogo konveksna in so λ i > 0, velja enakost natanko takrat, ko so vsi x i med seboj enaki. PRIMER 2.11 Ker je funkcija ln x strogo konveksna in strogo padajoča na IR +, po Jensenovi neenakosti dobimo znamenito neenakost med aritmetično in geometrično sredino 1 a i n a i n i I kjer so a i IR +, i I. Enakost velja natanko takrat, ko so vsa števila a i enaka. PRIMER 2.12 Linearna funkcija P (x) = (a, x)+c, kjer so a, x IR n in c IR je konveksna funkcija. Naj bo α, β 0 in α + β = 1, tedaj je P (αx+βy) = (a, αx+βy)+c = α((a, x)+c)+β((a, y)+c) = αp (x)+βp (y) i I Funkcija P (x) je konveksna. Iz analize poznamo naslednje izreke o konveksnih funkcijah: IZREK 2.25 Če je funkcija P : IR n IR zvezno odvedljiva, je konveksna na Φ natanko takrat, ko velja: x, y Φ : P (y) P (x) + P T (x)(y x) P (x) kjer je P (x) = [ x i ] gradient funkcije P ; in ˇce je dvakrat zvezno odvedljiva, je konveksna natanko takrat, ko je Hessova matrika 2 2 P P (x) = H(P, x) = [ ] x i x j v vsaki toˇcki x Φ pozitivno semi-definitna y IR n : y T 2 P (x)y 0 Pri preverjanju pozitivne (semi-)definitnosti se opremo na Sylvesterov izrek:

2.4 Konveksne množice in funkcije 37 IZREK 2.26 Kvadratna simetriˇcna matrika A = [a i,j ] IR n n je pozitivno definitna natanko takrat, ko so vsi glavni minorji te matrike a 1,1 a 1,2 a 1,k a 2,1 a 2,2 a 2,k k =..... k = 1,..., n. a k,1 a k,2 a k,k pozitivni. Če so k > 0, k = 1, 2,..., n 1 in n = 0, je matrika A pozitivno semi-definitna. in izrek IZREK 2.27 Kvadratna simetriˇcna matrika A = [a i,j ] IR n n je a. pozitivno definitna natanko takrat, ko so vse njene lastne vrednosti pozitivne; b. pozitivno semi-definitna natanko takrat, ko so vse njene lastne vrednosti nenegativne; PRIMER 2.13 Pokažimo, da je funkcija P (x, y) = 4x 2 + y 2 2xy konveksna na IR 2. Pripadajoča Hessova matrika H(P, (x, y)) = [ 4 1 1 1 ] je konstantna. Glavna minorja 1 = 4 in 2 = 4 1 ( 1) ( 1) = 3 sta pozitivna v vsaki točki (x, y) IR 2. Torej je P res konveksna na IR 2. Vsota konveksnih funkcij je zopet konveksna funkcija. V nasprotno smer trditev velja le v posebnih primerih. IZREK 2.28 Naj bo funkcija P : Φ IR konveksna na konveksni mnoˇzici Φ IR n in naj se da zapisati v obliki P (x, y) = Q(x) + S(y), x IR m, y IR n m. Tedaj velja: ˇce je funkcija S(y) konveksna, je konveksna tudi funkcija Q(x). Dokaz: Predpostavimo nasprotno: Q(x) ni konveksna. Tedaj obstajajo x 1, x 2 in z = αx 1 + βx 2, α, β 0 in α + β = 1 tako, da je Q(z) > αq(x 1 ) + βq(x 2 )

38 Lastnosti Slika 2.9: Unimodalna funkcija. Poglejmo sedaj P (z, y) = P (α(x 1, y) + β(x 2, y)) αp (x 1, y) + βp (x 2, y) = = α(q(x 1 ) + S(y)) + β(q(x 2 ) + S(y)) < Q(z) + S(y) = P (z, y) Prišli smo do protislovja izrek velja. PRIMER 2.14 Unimodalne funkcije. Funkcija P : [a, b] IR je strogo unimodalna na intervalu [a, b], če obstaja c [a, b], tako da velja in x, y [a, c] : (x < y P (x) > P (y)) x, y [c, b] : (x < y P (x) < P (y)) Očitno za tako funkcijo velja Min([a, b], P ) = {c}. TRDITEV 2.29 Naj bo P strogo unimodalna na [a, b] in x, y [a, b], x < y. Tedaj velja P (x) P (y) c < y in P (x) P (y) c > y Dokaz: Pokažimo prvi del trditve. Prvi pogoj iz definicije stroge unimodalnosti y c P (x) > P (y), če upoštevamo p q q p, dobi iskano obliko P (x) P (y) c < y.

2.4 Konveksne množice in funkcije 39 Obstaja več postopkov iskanja minimuma strogo unimodalne funkcije P (x) na intervalu [a, b]. Večina jih temelji na naslednjem razmisleku. Izberimo znotraj intervala [a, b] še dve različni točki u in v, u < v in označimo z x rešitev naloge ([a, b], P, Min). Tedaj nastopijo po pravkar dokazani trditvi naslednje mošnosti oziroma a. P (u) < P (v) x < v b. P (u) > P (v) x > u c. P (u) = P (v) u < x < v a c. P (u) P (v) x [a, v] b. P (u) > P (v) x [u, b] Vsakič dobimo krajši interval s tremi točkami. Ali lahko v njem postavimo četrto točko tako, da ohranimo simetrijo skozi ves tek iskanja rešitve? d k 2 {}}{ x k x k 2 x k 1 }{{}}{{} d k d k 1 }{{} d k 1 Označimo z x 0, x 1, x 2,... x zaporedje točk, v katerih računamo funkcijske vrednosti. Če lahko postavljamo točke na željeni način, mora veljati d 0 = b a in d k 2 = d k 1 + d k, k > 1 kjer je d i širina intervala na i tem koraku. Privzemimo še, da je razmerje dolžin zaporednih intervalov stalno Tedaj mora ϕ zadoščati enačbi in je zato, ker mora biti ϕ > 1 d i 1 d i = ϕ, i > 0 ϕ 2 ϕ 1 = 0 ϕ = 1 2 (1 + 5) 1.618033989

40 Lastnosti CONST eps = 0.0001; FUNCTION P( x: real ): real; BEGIN P := ((x - 3)*x + 2)*x - 1 END; PROCEDURE golden_section( VAR a, b: real; VAR r: integer; eps: real ); VAR q, d, u, v, Pu, Pv : real; BEGIN q := (3-sqrt(5))/2; d := b-a; u := a + q*d; v := b - q*d; Pu := P(u); Pv := P(v); r := 0; WHILE d > eps DO BEGIN r := r+1; IF Pu > Pv THEN BEGIN a := u; u := v; Pu := Pv; d := b-a; v := b - q*d; Pv := P(v); END ELSE BEGIN b := v; v := u; Pv := Pu; d := b-a; u := a + q*d; Pu := P(u); END; END; END; { golden_section } a := 0; b := 3; golden_section( a, b, r, eps ); z := (a+b)/2; Pz := P(z); Slika 2.10: Postopek zlatega reza v Pascalu.

2.4 Konveksne množice in funkcije 41 Tabela 2.3: Potek iskanja minimuma funkcije. a u v b P (u) P (v) δ 0 0.00000 1.14590 1.85410 3.00000-1.14279-1.23104 3.00000 1 1.14590 1.85410 2.29180 3.00000-1.23104-0.13613 1.85410 2 1.14590 1.58359 1.85410 2.29180-1.38483-1.23104 1.14590 3 1.14590 1.41641 1.58359 1.85410-1.34420-1.38483 0.70820 4 1.41641 1.58359 1.68692 1.85410-1.38483-1.36279 0.43769 5 1.41641 1.51973 1.58359 1.68692-1.37934-1.38483 0.27051 6 1.51973 1.58359 1.62306 1.68692-1.38483-1.38119 0.16718 7 1.51973 1.55920 1.58359 1.62306-1.38434-1.38483 0.10333 8 1.55920 1.58359 1.59867 1.62306-1.38483-1.38410 0.06386 9 1.55920 1.57428 1.58359 1.59867-1.38488-1.38483 0.03947 10 1.55920 1.56852 1.57428 1.58359-1.38477-1.38488 0.02439 11 1.56852 1.57428 1.57783 1.58359-1.38488-1.38490 0.01507 12 1.57428 1.57783 1.58003 1.58359-1.38490-1.38489 0.00932 13 1.57428 1.57647 1.57783 1.58003-1.38490-1.38490 0.00576 14 1.57647 1.57783 1.57867 1.58003-1.38490-1.38490 0.00356 15 1.57647 1.57731 1.57783 1.57867-1.38490-1.38490 0.00220 16 1.57647 1.57699 1.57731 1.57783-1.38490-1.38490 0.00136 17 1.57699 1.57731 1.57751 1.57783-1.38490-1.38490 0.00084 18 1.57699 1.57719 1.57731 1.57751-1.38490-1.38490 0.00052 19 1.57719 1.57731 1.57739 1.57751-1.38490-1.38490 0.00032 20 1.57719 1.57727 1.57731 1.57739-1.38490-1.38490 0.00020 21 1.57727 1.57731 1.57734 1.57739-1.38490-1.38490 0.00012 22 1.57731 1.57734 1.57736 1.57739-1.38490-1.38490 0.00008 Dobljeno število ϕ je razmerje zlatega reza. Zato tudi temu postopku minimizacije pravimo postopek zlatega reza (glej sliko 2.10). Zanj velja d n = d 0 ϕ n Ker je ϕ 5 = 11.090, potrebuje postopek 5 korakov za eno decimalko. V tabeli 2.3 je prikazan potek določanja minimuma funkcije P (x) = x 3 3x 2 + 2x 1 po postopku zlatega reza. Dobimo x = 1.57735 in P (x ) = 1.38490.

42 Lastnosti

Poglavje 3 Reševanje 3.1 Minimum funkcij na IR n Naj bo P (x), x IR n v okolici točke x vsaj dvakrat zvezno odvedljiva. Razvijmo jo v Taylorjevo vrsto okoli x P (x + εy) = P (x ) + εy T P (x ) + 1 2 ε2 y T H(P, x )y + ε 2 O(εy) pri čemer je ε > 0 in y IR n. Kdaj ima funkcija P (x) v točki x minimum? V neki dovolj majhni okolici točke x funkcija P (x) nima vrednosti manjše od P (x ). Recimo, da bi obstajal tak y, da je y T P (x ) < 0 Tedaj, ker ε 2 gre hitreje proti 0 kot ε, je mogoče najti δ > 0 tako, da za vsak ε, 0 < ε δ velja P (x + εy) < P (x ) To pa pomeni, da točka x ni minimum protislovje. Torej je potreben pogoj za to, da je v točki x minimum y : y T P (x ) 0 Toda, ker mora ta neenakost veljati tudi za vektorja y in y, je to mogoče le, če je P (x ) = 0. Podoben sklep velja tudi za maksimum. Točkam, v katerih je P (x) = 0 pravimo stacionarne točke. Naj bo x stacionarna točka. Tedaj je P (x + εy) = P (x ) + 1 2 ε2 y T H(P, x )y + ε 2 O(εy)

44 Reševanje Če bi bil y T H(P, x )y < 0 za kak y IR n, bi zopet veljalo za dovolj majhne ε > 0 P (x + εy) < P (x ) kar pomeni, da točka x ni minimum pritislovje. Torej mora v minimumu veljati y IR n : y T H(P, x )y 0 Če v tem pogoju za vse y 0 velja strogi neenačaj, je točka x strogi minimum; sicer je potrebno stvar še preučiti. Povedano strnemo v naslednji izrek: IZREK 3.1 Potreben pogoj za to, da ima zvezna in dvakrat zvezno odvedljiva funkcija P naloge (IR n, P, Min) (lokalni) minimum v toˇcki x, je P (x ) = 0 in, da je Hessova matrika H(P, x ) pozitivno semi-definitna. definitna, je v toˇcki x strogi (lokalni) minimum. Če je pozitivno Pri dvakrat zvezno odvedljivih konveksnih funkcijah je drugi pogoj avtomatično izpolnjen. Zato zadostuje že prvi. PRIMER 3.1 Regresijska premica. Imamo n podatkov, meritev (x i, y i ), i = 1,..., n pri čemer imata vsaj dve točki različno absciso. Kako določiti premico y = ax+b, ki jih najbolje povzema? Običajno uporabljamo metodo najmanjših kvadratov. Premico določimo tako, da je vsota kvadratov napak odstopanj posameznih točk od premice najmanjša. Tako dobimo optimizacijsko nalogo (IR 2, P, Min), kjer je n P (a, b) = ((ax i + b) y i ) 2 i=1 Naloga zadošča pogojem izreka. Iz pogoja P = 0 dobimo enačbi z rešitvijo P a P b = = n 2((ax i + b) y i )x i = 0 i=1 n 2((ax i + b) y i ) = 0 i=1 a = n xy x y n x 2 ( x) 2, b = 1 n ( y a x)

3.2 Sedla 45 oziroma, če vpeljemo oznako z = 1 n z a = xy x y x 2 x 2, b = y ax Poglejmo še Hessovo matriko H = [ 2 P a 2 2 P b a 2 P a b 2 P b 2 ] = 2 [ x 2 ] x x n Ker je 1 = 2 x 2 > 0 in 2 = 4(n x 2 ( x) 2 ) = 2 (x i x j ) 2 > 0, je matrika H pozitivno definitna in zato funkcija P strogo konveksna. Torej je regresijska premica enolično določena. Kriterijska funkcija, ki meri napako po metodi najmanjših kvadratov je precej občutljiva na večje napake in tujke (outliers). Zato v takih primerih nekateri raje uporabljajo kriterijsko funkcijo, ki temelji na absolutnih napakah n P (a, b) = (ax i + b) y i i=1 Seveda pa te naloge ne moremo več ugnati z gornjimi sredstvi. 3.2 Sedla Točka (x, u ) Φ Ψ je minmax-sedlo funkcije G : Φ Ψ IR natanko takrat, ko velja: (x, u) Φ Ψ : G(x, u ) G(x, u ) G(x, u) in je maxmin-sedlo funkcije G natanko takrat, ko velja: (x, u) Φ Ψ : G(x, u ) G(x, u ) G(x, u) Če enega od pogojev za sedlo pomnožimo z 1 se neenakosti obrnejo dobimo drugi pogoj. Torej velja: IZREK 3.2 Funkciji G(x, u) in G(x, u) imata ista sedla, a nasprotnih vrst. Količino G(x, u ) imenujemo vrednost sedla (x, u ). Da je slednje smiselno, nam zagotavlja naslednja lastnost: IZREK 3.3 Vsa sedla iste vrste imajo enako vrednost.

46 Reševanje Dokaz: Zaradi simetrije bomo dokazovali samo za minmax-sedla. Bodita (x, u ) in ( x, ū) minmax-sedli. Potem po definiciji velja: G(x, ū) G( x, ū) G( x, u ) G(x, u ) G(x, ū) kar je mogoče le, če povsod velja enačaj. Torej je res G(x, u ) = G( x, ū). Iz gornjega dokaza je le še majhen korak do lastnosti: IZREK 3.4 Mnoˇzica sedel iste vrste funkcije G : Φ Ψ IR je oblike Φ s Ψ s, kjer sta Φ s Φ in Ψ s Ψ. Dokaz: Bodita (x, u ) in ( x, ū) minmax-sedli. Tedaj sta minmax sedli tudi (x, ū) in ( x, u ). Pokažimo, na primer, da je (x, ū) minmax-sedlo. Napišimo pogoja: za vsak (x, u) Φ Ψ velja: G(x, u ) G(x, u ) G(x, u) in G(x, ū) G( x, ū) G( x, u) Iz prejšnjega dokaza vemo G( x, u ) = G(x, u ) = G( x, ū) = G(x, ū). Torej je res tudi G(x, ū) G( x, ū) = G(x, ū) = G(x, u ) G(x, u) kar je bilo treba pokazati. Sedaj pa si oglejmo še najpomembnejši rezultat tega razdelka, ki daje potreben in zadosten pogoj za obstoj sedla. IZREK 3.5 Funkcija G : Φ Ψ IR ima minmax-sedlo natanko takrat, ko obstaja toˇcka (x, u ) Φ Ψ, tako da velja: min sup x Φ u Ψ G(x, u) = max u Ψ inf x Φ G(x, u) = G(x, u ) in ima maxmin-sedlo natanko takrat, ko obstaja toˇcka (x, u ) Φ Ψ, tako da velja: max inf G(x, u) = min sup G(x, u) = G(x, u ) x Φ u Ψ u Ψ x Φ Dokaz: Trditev bomo dokazali samo za minmax-sedlo. Najprej pokažimo sedlo pogoj. Naj bo (x, u ) Φ Ψ minmax-sedlo. Potem velja: (x, u) Φ Ψ : G(x, u) G(x, u ) G(x, u ) oziroma sup G(x, u) G(x, u ) inf G(x, u Ψ x Φ u )