D I P L O M S K A N A L O G A

Similar documents
Reševanje problemov in algoritmi

VAJE 2: Opisna statistika

Hipohamiltonovi grafi

TEORIJA GRAFOV IN LOGISTIKA

OPTIMIRANJE IZDELOVALNIH PROCESOV

matematika + biologija = sistemska biologija? Prof. Dr. Kristina Gruden Prof. Dr. Aleš Belič Doc. DDr. Jure Ačimovič

TOPLJENEC ASOCIIRA LE V VODNI FAZI

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. O neeksaknotsti eksaktnega binomskega intervala zaupanja

Iskanje najcenejše poti v grafih preko polkolobarjev

Problem umetnostne galerije

NIKJER-NIČELNI PRETOKI

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

Katastrofalno zaporedje okvar v medsebojno odvisnih omrežjih

Eulerjevi in Hamiltonovi grafi

ENAČBA STANJA VODE IN VODNE PARE

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kromatično število in kromatični indeks grafa

UMESTITEV EKOLOŠKIH RAZISKAV MED OSTALE VRSTE RAZISKAV

Analiza omrežij Zgradba omrežij:

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Attempt to prepare seasonal weather outlook for Slovenia

Statistika 2 z računalniško analizo podatkov

ENERGY AND MASS SPECTROSCOPY OF IONS AND NEUTRALS IN COLD PLASMA

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

Makroekonomija 1: 4. vaje. Igor Feketija

Ana Mlinar Fulereni. Delo diplomskega seminarja. Mentor: izred. prof. dr. Riste Škrekovski

Verodostojnost in kvaliteta spletno dostopnih informacij

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Verjetnostni algoritmi za testiranje praštevilskosti

Biološka ekvivalenca Statistične metode. Iztok Grabnar

Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA POLONA ŠENKINC REŠEVANJE LINEARNIH DIFERENCIALNIH ENAČB DRUGEGA REDA S POMOČJO POTENČNIH VRST DIPLOMSKO DELO

Matej Mislej HOMOMORFIZMI RAVNINSKIH GRAFOV Z VELIKIM NOTRANJIM OBSEGOM

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo DIPLOMSKO DELO.

AKSIOMATSKA KONSTRUKCIJA NARAVNIH

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

OMREŽJA IN DINAMIKA ŠIRJENJA INFEKCIJSKIH BOLEZNI

OA07 ANNEX 4: SCOPE OF ACCREDITATION IN CALIBRATION

modeli regresijske analize nominalnih spremenljivk

Domen Perc. Implementacija in eksperimentalna analiza tehnike razvrščanja podatkov s konsenzom

Hadamardove matrike in misija Mariner 9

Metode rangiranja spletnih strani

Jernej Azarija. Štetje vpetih dreves v grafih

Analiza variance in linearna regresija

UČNI NAČRT PREDMETA / COURSE SYLLABUS Predmet: Analiza 1 Course title: Analysis 1. Študijska smer Study field. Samost. delo Individ.

DOMINACIJSKO TEVILO GRAFA

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SAŠO ZUPANEC MAX-PLUS ALGEBRA DIPLOMSKO DELO

LISREL. Mels, G. (2006). LISREL for Windows: Getting Started Guide. Lincolnwood, IL: Scientific Software International, Inc.

Uvod v odkrivanje znanj iz podatkov (zapiski predavatelja, samo za interno uporabo)

APLIKACIJA ZA DELO Z GRAFI

UNIVERZA V MARIBORU EKONOMSKO-POSLOVNA FAKULTETA, MARIBOR

Preverjanje optimiziranosti spletnih strani

THE TOWNS AND THE TRAFFIC OF THEIR OUTSKIRTS IN SLOVENIA

KONFLIKTI MED ZAPOSLENIMI

Verifikacija napovedi padavin

STATISTIČNE METODE V PEDAGOŠKEM RAZISKOVANJU

SODOBNI NAČINI GEOGRAFSKEGA PROUČEVANJA ZNAČILNOSTI. Andrej Čcrne*

UNIVERZA V LJUBLJANI

UČNI NAČRT PREDMETA / COURSE SYLLABUS

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kvadratne forme nad končnimi obsegi

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

2A skupina zemeljskoalkalijske kovine

1) V diagramu sta prikazana plazemska koncentracijska profila po večkratnem intravenskem odmerjanju učinkovine v dveh različnih primerih (1 in 2).

Izbrana poglavja iz velikih omreºij 1. Zbornik seminarskih nalog iz velikih omreºij

Analogna elektronska vezja. Uvodna vaja

Linearne enačbe. Matrična algebra. Linearne enačbe. Linearne enačbe. Linearne enačbe. Linearne enačbe

UČNI NAČRT PREDMETA / COURSE SYLLABUS Numerical linear algebra. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Simetrije cirkulantnih grafov

Particija grafa, odkrivanje skupnosti in maksimalen prerez

RIS2000 merjenje spletne obiskanosti

Grafi, igre in še kaj

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

FRAKTALNA DIMENZIJA. Fakulteta za matematiko in fiziko Univerza v Ljubljani

DELOVANJA GRUP IN BLOKI NEPRIMITIVNOSTI

VODENJE IN PROBLEMATIKA

UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO ODDELEK ZA MATEMATIKO

USING SIMULATED SPECTRA TO TEST THE EFFICIENCY OF SPECTRAL PROCESSING SOFTWARE IN REDUCING THE NOISE IN AUGER ELECTRON SPECTRA

Minimizacija učne množice pri učenju odločitvenih dreves

Linearna regresija. Poglavje 4

Obisk iz rezultatov iskanj na iskalniku Google

POLDIREKTNI PRODUKT GRUP

ACTA BIOLOGICA SLOVENICA LJUBLJANA 2012 Vol. 55, [t. 1: 29 34

Bayesove verjetnostne mreže

Izmenični signali moč (17)

SLIKE CANTORJEVE PAHLJAµCE

Univerza v Ljubljani Fakulteta za matematiko in fiziko. Oddelek za fiziko. Seminar - 3. letnik, I. stopnja. Kvantni računalniki. Avtor: Tomaž Čegovnik

MATRIČNI POPULACIJSKI MODELI

OFF-LINE NALOGA NAJKRAJŠI SKUPNI NADNIZ

Izbrana poglavja iz algebrai ne teorije grafov. Zbornik seminarskih nalog iz algebrai ne teorije grafov

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo MAGISTRSKA NALOGA. Tina Lešnik

DISKRETNI SIR EPIDEMIČNI MODELI IN DINAMIKA VIRUSOV GRIPE

DIPLOMSKO DELO LASTNOSTI, SPOSOBNOSTI IN ZNANJA, KI JIH POTREBUJE VODJA, DA BI USPEŠNO VODIL TIM

STATISTIKA VODSTEV V EKIPNIH ŠPORTIH. Matija Peruš

Sistem za sledenje in analizo uporabe računalniških aplikacij

Analiza vpliva altruizma na življenjsko dobo entitet v navideznem svetu

PRIPRAVA PODATKOV V PROCESU PODATKOVNEGA RUDARJENJA

SIMETRIČNI BICIRKULANTI

Diskretna matematika 1 / Teorija grafov

Vpliv zadovoljstva zaposlenih na produktivnost v Tiskarni Novo mesto, d.d.

Srđan Mahmutović s.p., Osenjakova 14, 1000 Ljubljana Davčna št: SI TRR: w w w. s p l e t n i k.

Transcription:

FAKULTETA ZA INFORMACIJSKE ŠTUDIJE V NOVEM MESTU D I P L O M S K A N A L O G A UNIVERZITETNEGA ŠTUDIJSKEGA PROGRAMA PRVE STOPNJE ALEŠ HOČEVAR

FAKULTETA ZA INFORMACIJSKE ŠTUDIJE V NOVEM MESTU DIPLOMSKA NALOGA ANALIZA IN PRIMERJAVA STATIČNIH LASTNOSTI OMREŽIJ PRIJATELJSTEV V SPLETIŠČU FACEBOOK S TEORETIČNIMI Mentor: izr. prof. dr. Janez Povh Novo mesto, september 2012 Aleš Hočevar

IZJAVA O AVTORSTVU Podpisani Aleš Hočevar, študent FIŠ Novo mesto, v skladu z določili statuta FIŠ izjavljam: o da sem diplomsko nalogo pripravljal samostojno na podlagi virov, ki so navedeni v diplomski nalogi, o da dovoljujem objavo diplomske naloge v polnem tekstu, v prostem dostopu, na spletni strani FIŠ oziroma v digitalni knjižnici FIŠ: takoj, po preteku 12 mesecev po uspešnem zagovoru, ne dovoljujem objave na spletni strani oziroma v elektronski knjižnici FIŠ zaradi prepovedi organizacije, v sklopu katere je bil pripravljen empirični del naloge, o da je diplomska naloga, ki sem jo oddal v elektronski obliki, identična tiskani verziji, o da je diplomska naloga lektorirana. V Novem mestu, dne: Podpis avtorja:

POVZETEK Analiza omrežij spada med interdisciplinarne vede, saj vključuje matematične, računalniške in družboslovne raziskovalne metode. Po eni strani mora odkriti zakonitosti, po drugi pa razlage, zakaj do njih prihaja. Navkljub različnim oblikam realnih omrežij pa imajo pogosto ta omrežja nekatere skupne značilnosti. V tej nalogi bomo preverili domnevo, da izmerjene lastnosti vzorca podomrežij prijateljstev spletnega socialnega omrežja Facebook sledijo nekaterim teoretičnim predpostavkam: (i) velikost in premer omrežja (pregled literatura navaja predpostavko, da je premer omrežja šest povezav), (ii) število in velikost komponent (literatura navaja, da povprečno omrežje sestavljata ena velika komponenta in več manjših) ter (iii) porazdelitev stopnje točk sledi potenčnemu zakonu. Za to potrebujemo množico podomrežij, ki jih bomo analizirali v programskem okolju R za statistično analizo in grafiko. KLJUČNE BESEDE: analiza omrežij, realna omrežja, lastnosti realnih omrežij, programski jezik R ABSTRACT Network analysis is an interdisciplinary discipline since it involves methods from mathematics, computer and social sciences. On one hand, it discovers regularities in networks while on the other hand explains the reasons behind them. Despite the various forms of real networks, they have some common characteristics. In this BSc thesis we will try to confirm the hypothesis that the observed sample of Facebook subnetwork has properties that follow basic theoretical assumptions, such as (i) the size and the diameter of the network (theory suggest an assumption that the diameter of the network is six), (ii) number and size of components (theory indicates that average network consists of one large and several smaller component) and (iii) degree distribution follows the power law. All this needs a large number of individual sub-networks, which will be analyzed using program R for statistical computing and graphics... KEY WORDS: network analysis, real networks, properties of real networks, R programming language

KAZALO 1 UVOD...1 2 TEORIJA GRAFOV...2 3 ANALIZA OMREŽIJ...6 3.1 Analize omrežij skozi čas...8 3.2 Analiza omrežij danes...10 3.3 Realna omrežja...12 3.3.1 Lastnosti realnih omrežij...12 3.3.2 Porazdelitev stopnje točk in potenčni zakon...13 3.3.3 Velikost in premer omrežja...15 3.3.4 Število in velikost komponent...17 3.4 Spletna družabna omrežja...18 3.5 Socialna omrežja v Sloveniji...22 3.6 Facebook...23 4 CILJI DIPLOMSKEGA DELA IN RAZISKOVALNE DOMNEVE...24 4.1 Raziskovalne domneve...25 4.2 Glavni rezultati diplomskega dela...25 5 METODA...25 5.1 Opis parametrov vzorca...26 5.2 Vzorec...26 5.3 Postopek...28 5.3.1 Facebook Query Language (FQL)...28 5.3.2 Način pridobivanja podatkov...28 5.4 Analiza podatkov...28 5.5 Metode za obdelavo podatkov...29 5.5.1 Stoufferjeva metoda...29 5.5.2 Kolmogorov-Smirnov test...29 6 REZULTATI...29 6.1 Številske karakteristike...30 6.2 Premer omrežja...34 6.3 Velikost velike komponente...36 6.4 Porazdelitev stopenj vozlišč...37 7 ZAKLJUČEK...38 8 RAZPRAVA...38 9 LITERATURA... Napaka! Zaznamek ni definiran. 10 VIRI... Napaka! Zaznamek ni definiran. PRILOGE

KAZALO SLIK Slika 2.1: Enostaven usmerjen graf z eno komponento...2 Slika 2.2: Podgraf prejšnjega grafa...3 Slika 2.3: Graf z dvema šibko povezanima komponentama...3 Slika 2.4: Utežen graf...3 Slika 2.5: Primer okvirja z ročaji...5 Slika 3.1: Histogram porazdelitve stopenj točk v realnem omrežju...13 Slika 3.2: Binomska porazdelitev...14 Slika 3.3: Dendrogram drevo združevanja po minimalni metodi...18 Slika 3.4: Razvoj večjih spletnih socialnih omrežij skozi čas...21 Slika 6.1: Število vozlišč...31 Slika 6.2: Število povezav...31 Slika 6.3: Premer omrežja...32 Slika 6.4: Velikost glavne komponente...32 Slika 6.5: Povprečna stopnja točk...33 Slika 6.6: Število komponent...33 Slika 6.7: Gostota omrežja...34 Slika 6.8: Porazdelitev najkrajših razdalj...34 Slika 6.9: Cohenov koeficient...35 Slika 6.10: Odstotek vozlišč v glavni komponenti in število komponent...36 Slika 6.11: Porazdelitev povprečnih stopenj točk...38 KAZALO TABEL Tabela 5.1: Število pridobljenih datotek po državah uporabnikov...27 Tabela 6.1: Prikaz osnovnih opisnih karakteristik...30 Tabela 6.2: Prikaz osnovnih opisnih karakteristik glede na spol...30

1 UVOD Analiza socialnih omrežij je interdisciplinarno znanstveno področje in obsega računalniške ter informacijske znanosti, statistiko, uporabno matematiko, znanosti o življenju (npr. biologija, kemija, bioinformatika) ter družboslovne (npr. sociologija) in humanistične (npr. jezikoslovje) znanosti (Wasserman in Faust, 1994). V zadnjih letih uporaba analize socialnih omrežij močno narašča, čemur so vsekakor doprinesli tudi internet, socialna spletna omrežja in programi za analizo (velikih) podatkovij. Pred razcvetom interneta so analize izdelovali predvsem teoretično, praktično pa na majhnem številu enot. Več avtorjev navaja (Blatt 2011, Chakrabarti in Faloutsos 2006, Clauset, Shalizi in Newman 2009, Kadushin 2004, Leskovec in Horvitz 2007, Newman 2004, Travers in Milgram 1959, Watts 2004), da obstajajo nekatere teoretične lastnosti, ki so skupne mnogim realnim in naključnim omrežjem. V nadaljevanju bomo opisali tri takšne lastnosti oziroma značilnosti. Prva značilnost je, da je premer omrežja (najdaljša najkrajša razdalja med poljubnima točkama omrežja) šest. To pomeni, da obstaja velika verjetnost, da je v velikem omrežju, med poljubnima paroma točk najkrajša razdalja šest. Povedano drugače v povprečnem omrežju najbolj oddaljeni točki med seboj loči le pet vozlišč. Naslednja skupna lastnost je, da velika omrežja v večini primerov vsebujejo eno veliko komponento in več manjših. Skupna značilnost je tudi ta, da porazdelitev stopenj točk sledi potenčnemu zakonu. To pa pomeni, da ima mnogo vozlišč nizko stopnjo točk in da število točk z večanjem stopenj upada. Obstaja še nekaj skupnih značilnosti, katerih obravnava presega okvir tega dela. Bralec, ki ga bo problematika podrobneje zanimala, naj poseže po dodatni literaturi (npr. Sabidussi 1966, Ciglarič 2003, Leskovec 2008). Pregled empirične evidence kaže, da doslej ni še nihče analiziral te lastnosti na primeru prijateljstva v socialnem spletnem omrežju Facebook (v nadaljevanju FB). Naš osnovni raziskovalni cilj je zato raziskovalna (eksploratorna) analiza omrežja FB v luči prej naštetih lastnosti (premer omrežja, porazdelitev stopnje točk in število ter velikost komponent). 1

Pri raziskovanju odnosov med opazovanimi osebami je najnaravnejši način predstavitve le-teh z omrežji. Kot smo že omenili, socialna spletna omrežja ponujajo bogat vir podatkov, kjer opazovane osebe obravnavamo kot vozlišča, njihove odnose pa kot povezave. Tudi pridobivanje teh podatkov ni zapleteno. Eden od načinov je kupovanje podatkov, drugi je uporaba sekundarnih virov, lahko pa tudi sami zbiramo podatke, pri čemer udeležence prosimo, naj nam te podatke posredujejo. Primarnega zbiranja podatkov smo se lotili tudi sami. 2 TEORIJA GRAFOV Da bi v nadaljevanju sledili pojmom, je prav, da nekatere med njimi malo bolje spoznamo. Vseh pojmov je preveč, da bi jih zajeli v tej nalogi, omejili se bomo na tiste, ki jih bomo v raziskavi uporabili. Graf je množica točk in njihovih povezav v prostoru. Kadar graf nima zank (povezava, ki se začne in konča v isti točki) in večkratnih povezav (med dvema točkama je ena sama povezava), govorimo o enostavnem grafu, drugače pa o multigrafu. Pri usmerjenem grafu obstaja najmanj ena povezava, po kateri lahko pridemo iz točke A v točko B, iz točke B v točko A pa po isti povezavi ne moremo, smer povezave je pomembna. Drugače govorimo o neusmerjenem grafu. Slika 2.1: Enostaven usmerjen graf z eno komponento Vir: Lastni prikaz (2012) Podgraf je del grafa, kjer so točke iz podgrafa podmnožice točk iz grafa. Enako velja za povezave. Graf je povezan, če lahko iz poljubne točke pridemo do vsake druge točke v grafu, v nasprotnem primeru govorimo o nepovezanem grafu. Povezan graf ima eno samo komponento. Kadar graf ni povezan, govorimo o grafu z več komponentami. 2

Slika 2.2: Podgraf prejšnjega grafa Vir: Lastni prikaz (2012) Slika 2.3: Graf z dvema šibko povezanima komponentama Vir: Lastni prikaz (2012) Če lahko iz vsake točke skupine pridemo v vsako drugo točko te skupine in pri tem upoštevamo smer povezav, govorimo o krepko povezani komponenti, kadar pa smeri ne upoštevamo, govorimo o šibko povezani komponenti. Graf je neutežen, kadar ima vsaka povezava v grafu enako vrednost (primer grafa prijateljstva: si prijatelj, povezava obstaja, nisi prijatelj, povezava ne obstaja), v nasprotnem primeru (kadar merimo komunikacijo med prijatelji: poslano pošto, klepet itd) ima lahko vsaka povezava svojo vrednost in govorimo o uteženem grafu. Slika 2.4: Utežen graf Vir: Lastni prikaz (2012) 3

Omrežje je sistem povezanih enot (stvari ali ljudi), ki lahko med sabo komunicirajo. Omrežje je graf, obogaten s podatki. Običajno je omrežje utežen graf. Omrežje, sestavljeno iz dveh enot, imenujemo diada, iz treh pa triada. Stopnja točke nam pove število povezav, ki imajo točko za krajišče. Pri enostavnem grafu lahko rečemo, s koliko ostalimi točkami ima točka neposredno povezavo. Kadar omrežje naredimo sami z uporabo generatorja naključnih števil, največkrat s pomočjo računalnika, govorimo o naključnih, slučajnih omrežjih. Kadar pa omrežje nastaja spontano (recimo spletna socialna omrežja), govorimo o realnih omrežjih. Za premer omrežja je treba izračunati najkrajšo povezavo med pari točk, tj. za vsak par točk, koliko povezav potrebujemo, da pridemo iz ene točke do druge. Točki, ki sta po povezavah najbolj oddaljeni med seboj, določata premer omrežja. Premer omrežja seveda lahko izračunamo samo v eni komponenti (Povh 2011, Kastrin 2011). Gostota omrežja je razmerje med številom povezav in številom vseh možnih povezav. Torej več ko imamo povezav v omrežju, večja je gostota omrežja. V nadaljevanju bomo opisali srednje vrednosti (aritmetična sredina, harmonična sredina, geometrična sredina in mediana) (Wikipedia-5). Aritmetična sredina ali povprečje niza podatkov je v statistiki seštevek vseh vrednosti, razdeljen na skupno število teh vrednosti oziroma podatkov. Harmonična sredina je ponavadi primerna v primerih, ko je treba najti srednje vrednosti stopenj. Izračunamo jo tako, da število enot delimo z vsoto vseh obratnih vrednosti. Geometrična sredina je v matematiki n-ti koren zmnožka vseh elementov množice, kjer je n število elementov. Mediana je v matematiki srednja vrednost nekega zaporedja števil, ki razdeli števila, razvrščena po velikosti, na dve enaki polovici po številu elementov. Prednost mediane pred aritmetično sredino je ta, da osamelci (podatki, ki ekstremno odstopajo od ostalih podatkov) manj vplivajo na njeno vrednost. Za vse množice podatkov, ki vsebujejo vsaj en par neenakih vrednosti, je harmonična sredina vedno najmanjša, aritmetična sredina največja, geometrična sredina pa vmes. Če so vse vrednosti v neprazni množici podatkov enake, so sredine vedno enake med seboj (Wikipedia- 5). 4

Kvartili so vrednosti, ki razdelijo proučevane podatke populacije ali vzorca na štiri enake dele (Q1, Q2, Q3 in Q4). Seveda pa morajo biti podatki urejeni po velikosti (Wikipedia-6). Kvartili omogočajo prikaz strukture porazdelitve podatkov v obliki okvir z ročaji (box and whiskers plot, boxplot na kratko). Škatla sega od Q1 do Q3 in je predeljena v dva dela z mediano. Na obeh straneh škatli dodamo ročaja, daljici, ki segata od škatle do najmanjšega (največjega) podatka oziroma največ do 3/2kr. Ta nam pove velikost intervala, na katerem je zbrana osrednja polovica podatkov. Predstavlja eno izmed mer za razpršenost (raztros) podatkov. Kadar obstajajo podatki, ki so od škatle oddaljeni za več od 3kr/2 (kjer je kr = Q3 Q1 kvartilni razmik), te vrednosti imenujemo osamelci (outliners) in jih označimo npr. z majhnimi krožci (kot točke). Običajno preverimo, ali so vrednosti resnične, saj so tolikšna odstopanja izjemna in morda tudi posledica napak. Takšen strukturni prikaz s kvartili je ugoden za primerjavo porazdelitev statistične spremenljivke na različnih populacijah (npr. moški ženske) (Lešnjak, 2010). Slika 2.5: Primer okvirja z ročaji Najvišja vrednost Najnižja vrednost Vir: Lastni prikaz (2012) Ker je vedno bolj jasno, da rezultati statističnih testov ne povedo tistega, kar od njih želimo, nastajajo vedno nove mere, ki naj bi raziskovalcem pomagale pri ugotavljanju praktične pomembnosti razlik med vzorci. Mere povezanosti lahko interpretiramo kot stopnjo povezanosti med odvisno in neodvisno spremenljivko. Pri standardiziranih razlikah med aritmetičnimi sredinami gre za prikaz razdalj med aritmetičnimi sredinami vzorcev v enotah določene standardne deviacije. Najbolj znane med njimi so Hedgesov g koeficient, Glassov 5 in Cohenov d, ki ga izračunamo tako, da razliko aritmetičnih sredin (M 1 M 2 ) delimo s skupnim standardnim odklonom (SD SKUPNO ), ki ga izračunamo iz dosežkov v vseh vzorcih skupaj (Cankar in Bajec, 2003). 5

d ( = 2) M1 M SD SKUPNO Vrednosti d okoli 0,2 naj bi predstavljale majhen učinek, srednje velik učinek 0,5 in vrednosti okoli 0,8 velik učinek. Te vrednosti lahko interpretiramo na dva načina. Pri prvem načinu interpretiramo, na katerem centilu kontrolne skupine se nahaja aritmetična sredina eksperimentalne skupine. Pri vrednosti d = 0,2 je to 58. centil. Pri d = 0,5 je to 69. centil. Pri d = 0,8 je to 79. centil. Centili nam v tem primeru povedo, koliko odstotkov posameznikov kontrolne skupine se nahaja pod aritmetično sredino eksperimentalne skupine. Pri drugem načinu pojasnimo, kolikšen del porazdelitve eksperimentalne skupine se prekriva s porazdelitvijo rezultatov kontrolne skupine. Tako je pri vrednosti d=0,2 v eksperimentalni skupini 85,3 % enakih rezultatov kot v kontrolni skupini, pri vrednosti d=0,5 so enaki 67 % rezultatov, pri vrednosti 0,8 pa 52,6 % rezultatov (Cankar in Bajec, 2003). Statistični testi predpostavljajo, da ničelna hipoteza veljavno opisuje parametre ene ali več populacij (M, SD, korelacije ), nato pa ocenjujejo verjetnost rezultatov, dobljenih na vzorcih (vzorčne M, SD, korelacije ) ali bolj ekstremnih, glede na velikost vzorca ob predpostavki, da ta vzorec izhaja iz populacije, za katero drži ničelna hipoteza. Rezultat statističnega testa bo statistično pomemben, kadar bo verjetnost, da izhaja vzorec iz populacije, kjer ničelna hipoteza popolnoma drži, enaka ali manjša od poljubno izbrane stopnje tveganja (Cankar in Bajec, 2003). V nadaljevanju še dodajata, da je v strokovni literaturi najpogostejša meja za statistično pomembnost rezultatov 5-odstotna stopnja tveganja (0,05). 3 ANALIZA OMREŽIJ Področje analize omrežij združuje vrsto statističnih, matematičnih in drugih metod, ki se ukvarjajo z analizo relacijskih podatkovij, tj. odnosov med enotami v omrežju. Prednost analize omrežij pred klasičnim načinom analize značilnosti enot oziroma spremenljivk (npr. spol, starost ali izobrazba) je opazovanje odnosov med enotami omrežij (npr. obstoj prijateljskih odnosov, sorodstvenih odnosov ali izmenjava socialne opore). Podatki za analizo socialnih omrežij se zbirajo na različnih ravneh analize. Preučujemo lahko enote ali člane omrežja in njihove povezave, diade in triade (podskupine dveh ali treh enot in povezave med njimi), skupine enot ali pa celotno omrežje. Zbiranje podatkov se razlikuje tudi glede na popolno in egocentrično omrežje. O popolnem omrežju govorimo, ko v medsebojno 6

povezani skupini enot (oseb) opazujemo vse pripadajoče relacije (odnose) npr. prijateljski odnosi v srednješolskem razredu. O egocentričnem omrežju pa govorimo, ko opazujemo (slučajno) izbrane posamezne enote, ki jih imenujemo»egi«(angl. ego), in njihova osebna (lokalna ali egocentrična) omrežja, ki so sestavljena iz alterjev (angl. alters) npr. osebna omrežja starostnikov. Pri zbiranju podatkov o popolnih socialnih omrežjih navadno vsi anketiranci poročajo o svojih relacijah z drugimi člani omrežja. Če pa je raven raziskovanja egocentrično omrežje, potem anketiranci (egi) poročajo zase in za člane (alterje) svojega egocentričnega omrežja (Zemljič in Hlebec, 2002). Obvladovanje relacijskih podatkov služi tudi kot osnova drugim znanstvenim področjem. Naj naštejemo samo nekatera (Wasserman in drugi, 2006). Epidemiologi so ugotovili, da se epidemije po populaciji ne širijo enakomerno. Fiziki so razvili aplikacije, ki so odgovorile na vprašanja, o katerih so dolga leta razglabljali znanstveniki. Raziskave v telekomunikacijah so se začele z vpogledi telefonskih uporabnikov za namen odkrivanja prevar. Zaradi velike pozornosti medijev za teroristične mreže se je število metodologov za to področje izjemno povečalo. Hlebec in Kogovšek (2006) ugotavljata, da analiza omrežij sega od zaposlitvene mobilnosti v organizacijah, raziskav o razširjanju drog in nalezljivih bolezni do razširjanja informacij in inovacij v neposrednih ali računalniško posredovanih komunikacijah. V politologiji in sociologiji je moč raziskovati povezave med različnimi političnimi in/ali drugimi akterji, kako prek teh povezav poteka proces političnega odločanja. Podobno velja za ekonomiste, ki so se s politologi in sociologi povezali in analizirali omrežje pri preučevanju nacionalnih elit. Na organizacijskem področju je mogoče raziskovati strukturo povezav znotraj organizacij (Hlebec in Kogovšek, 2006). Omrežje lahko opredelimo kot skupek vozlišč ali enot in odnosov (ali ne) med njimi. Glede na raziskovalni problem omrežja analiziramo na različnih ravneh, ki vključujejo posamezna vozlišča, delna omrežja (diade, triade in druge sistemske sklope) in sistem popolnega omrežja (Bristor in Ryan, 1987). Raziskovalci so opisali tri vrste omrežij (Kadushin, 2004): egocentrično, sociocentrično in odprti sistem (open-system). Egocentrično omrežje je omrežje, ki je zgrajeno okoli enega vozlišča (npr. moji dobri prijatelji). Pomembno je, da mora omrežje poleg seznama vozlišč vsebovati tudi informacijo o povezavah med vozlišči, v nasprotnem primeru analiza ni možna. Sociocentrična omrežja, imenovana tudi osebna komunikacija, so nekakšna»omrežja v 7

škatli«(npr. komunikacija med učenci v razredu). Pri odprtih sistemih pa so meje omrežja zabrisane (npr. povezave med podjetji), kjer ne moremo jasno določiti meje. Tako recimo imamo povezavo med dvema podjetjema, kjer ima vsako od teh podjetij svoje povezave do drugih podjetij in spet te do naslednjih. Meje je tukaj nemogoče določiti. Po svoje so to najzanimivejša omrežja, a hkrati tudi najtežja za preučevanje (Kadushin, 2004). Čeprav lahko ljudje dolgo časa vzdržujejo tudi stike na daljše razdalje z ljudmi, ki so jih kdaj prej osebno srečali, je bilo do nedavnega razmeroma nenavadno, da bi se prijateljstvo razvilo med ljudmi, ki se niso nikoli srečali v živo. Za razvoj prijateljstva je bila nujno potrebna fizična prisotnost, vsaj v začetni fazi. S sodobno tehnologijo in z razvojem komunikacij ter transporta pa so se možnosti ohranjanja in celo vzpostavljanja prijateljstev zelo povečala (Adams, 1998). Eden od dejavnikov za razvoj prijateljstva je torej geografska bližina. Drugi bi lahko bil skupni interes. Ljudi, ki imajo enak hobi, interes, ponavadi druži posebno prijateljstvo. Znano sta prijateljstvo in solidarnost med lovci, ribiči ali železničarji. 3.1 Analize omrežij skozi čas Razvoj področja analize omrežij lahko razvrstimo v tri smeri (Scott, 1996): filozofska, antropološka in psihološka. Euler je leta 1736 razrešil problem, znan kot sedem mostov Koningsberga, ki ga je prevedel v matematični zapis kot točke in povezave, iz katerih je nato izpeljal nekaj dokazov. Njegovo idejo so nato mnogokrat povzeli tudi v drugih znanstvenih disciplinah. Zanimiv je tudi tako imenovani problem štirih barv, ki ga je leta 1852 prvi predstavil Guthrie, ko je ugotovil, da za barvanje grofij potrebujemo le štiri barve. Ugotovitev sta leta 1976, s pomočjo računalnika, dokazala Appel in Haken (1976). To je bil hkrati tudi eden prvih velikih teoremov z uporabo računalniške opreme. Pri samem dokazovanju tega problema pa so matematiki iznašli veliko osnovnih pojmov in zamisli s področja teorije grafov (Pisanski, 1981). Kohler in Koffko sta uveljavila novo smer v psihologiji, ki so jo poimenovali gestalt (smer, ki preučuje, kako deluje um v smislu dojemanja in strukture misli). Nekje v tem času so, pred vojno v Evropi, v ZDA prispeli tudi Heider, Lewin in Levy Moreno, ki so nadaljevali tradicijo gestalt (Scott, 1996). Moreno (Scott, 1996) je razvil metodo sociometrija. Učence je povpraševal, kdo so njihovi prijatelji, in raziskoval, kako jih relacija z drugimi omejuje oziroma bogati v njihovih 8

dejavnostih in kako vplivajo na njihovo vedenje. Tehniko zbiranja relacijskih podatkov je poimenoval sociogram diagram točk in linij, ki predstavljajo odnose med osebami. Sociogram je uporabljal za prepoznavanje pomembnih oseb v družbi in osamelce, asimetrijo in vzajemnost pri izbiri prijateljstva. Med drugim je opazil tudi sociometrično zvezdo posameznika, ki ga mnogo drugih izbere za prijatelja. Lewin (Scott, 1996) je preučeval skupine in obnašanje. Trdil je, da skupina in okolje medsebojno vplivata ena na drugo in da bi lastnosti lahko preučevali matematično z uporabo teorije vektorjev in topologije. Heider (Scott, 1996) je deloval na področju socialnih zaznav in razvil teorijo ravnovesja. Posameznik išče kognitivno ravnovesje tako, da zadrži tiste ideje, ki niso v nasprotju z drugimi, kar velja tudi v odnosu med ljudmi. Posebno pozornost je posvečal situaciji, kjer je ena oseba čustveno blizu drugima dvema, ki se med seboj ne marata. Napetost mora biti sproščena. Eden izmed načinov je izbira enega izmed njiju. Oseba, ki je čustveno blizu dvema, izbere enega izmed njiju. Harary in Cartwright (Scott, 1996) sta pokazala, da na koncu nujno privede do skupin, v katerih so vse vezi pozitivne, med skupinami pa so vezi negativne. V antropologiji je bil v prejšnjem stoletju največji poudarek na družbenih odnosih. Radcliffe- Brown je preučeval odnose med zaposlenimi v podjetju, kako socialni status vpliva na odnose med posamezniki. Dolgo je veljalo, da so v predindustrijski družbi sorodstveni odnosi izredno kompleksni in pomembni. Druga razmerja, kot recimo prijateljstvo, pa so v industrijski družbi ravno tako pomembni (Scott, 1996). Werner, Mayo, Roethlisberger in Dickson (Mayo, 1949) so sredi 20. let prejšnjega stoletja ugotavljali, kako izboljšanje delovnih pogojev (povečanje svetlobe, ogrevanje, počitek ) vpliva na storilnost. Ugotovili so, da se s povečanjem katerega koli dejavnika poveča tudi storilnost, zato so se zadeve lotili tudi antropološko. Gledali so zaposlene skozi cel čas proizvodnje in bili še posebej pozorni na odnose med delavci. Opisali so koncept neformalne organizacije v organizaciji, ki ima ravno takšen učinek na storilnost kot drugi dejavniki. V 50. letih so raziskovalci na univerzi v Manchesterju začeli preučevati konflikte v skupinah, kako odnosi med ljudmi vplivajo ne samo na posameznika, ampak tudi na družbo kot celoto (npr. svojo kohezivnost). Granovetter (Scott, 1996) je spraševal ljudi, kako so prišli do zaposlitve, ki jo imajo. Večina jo je dobila prek stikov in ne prek časopisnih oglasov. Med 9

tistimi, ki so dobili službo prek osebnih stikov, je bil majhen delež tistih, ki so jo dobili od svojih sorodnikov ali najbližjih prijateljev. Večina jih je službo dobila s pomočjo znancev. Ta fenomen je pojasnjen s teorijo razširjenosti informacije v socialnem omrežju. To je bil tudi začetek analize socialnega omrežja. Zanimiva raziskava je bila narejena leta 1969, ko so bili splavi nelegalni, torej oglaševanja o tem ni bilo. Da bi našle zdravnike, so ženske spraševale svoje prijateljice in znance. V povprečju so bile do zdravnika potrebne štiri povezave (ženska kontakt kontakt kontakt zdravnik) (Scott, 1996). Wasseman in Faust (Wasserman in Faust, 1994) omenjata prvo uporabo besedne zveze socialna omrežja v letu 1954. V nadaljevanju dodajata Morenov sociogram iz zgodnjih 30. let prejšnjega stoletja, ki je pomenil začetek sociometrije (predhodnica analize socialnega omrežja z močno socialno psihologijo). Prvi, ki so uporabljali matrike za preučevanja socialnih omrežij z izvirnimi metodami, so bili Forsyth in Katz leta 1946, Luce in Pery leta 1949, Bock in Husain leta 1950 ter Harary in Norman leta 1953. Tudi antropologi, posebno britanski, so v 50. letih prejšnjega stoletja spoznali, da tradicionalni pristop opisovanja družbenih oblik ni dovolj za razumevanje vedenja posameznikov v zapletenih družbah (Wasserman in Faust, 1994). 3.2 Analiza omrežij danes Socialna omrežja, omrežja metrojev, vozni redi, elektroomrežja, telekomunikacijska omrežja itd. so lahko oblikovana kot zelo veliki in kompleksni grafi, ki so lahko zelo zanimivi in uporabni na področju marketinga, varnosti, psihologije... Vse več zanimanja je za upravljanje in analiziranje podatkov ter podatkovno rudarjenje. Vendar pa z redkimi izjemami ti podatki ostajajo zaupne narave in je do njih težko priti. Pot do zbiranja podatkov pa je še vedno enostavna, zato je vprašanje varovanja osebnih podatkov še vedno pereč problem. Danes smo priča močnim središčem, ki razvijajo področje analize omrežij, med njimi so zlasti pomembni: oddelek matematične sociologije na American Sociological Association (ASA), ki se ukvarja s spodbujanjem raziskav, njihovo krepitvijo in skrbjo, poučevanjem in ostalim strokovnim delom na področju matematične sociologije za razvoj sociologije in v korist družbe; 10

Austrian Network for Social Network Analysis (ASNA) je omrežje ljudi, ki se ukvarja s socialnimi analizami omrežij za zainteresirane za uporabo sinergij, mreženja in medsebojne podpore; Kimmo Soramaki, ki se ukvarja z raziskavami in razvojem programskih orodij za finančne analize omrežij in finančno stabilnost, predvsem s centralnimi bankami; LINKS center (International center for research on social networks in business) na univerzi v Kentuckyju, posvečen študiju in optimizaciji socialnih omrežij v organizacijah na področju raziskav, izobraževanj, svetovanj in konferenc; NetWiki, ki se ukvarja z zbiranjem podatkov in sodelovanjem na področju raziskav o kompleksnih omrežjih in z aplikacijami znanstvenih omrežij; NodeXL (Network Overview, Discovery and Exploration for Excel). Skupina je razvila odprtokodni dodatek za Excel 2007 in 2010 za risanje grafov; Quintus-ential Solutions je specializiran za analizo omrežij in vizualizacijo, posebno velikih podatkovnih baz na področju javnega zdravja; MelNet, kjer so razvili program za izdelavo simulacije modela eksponentnega slučajnega grafa; The Nuffield Network of Network Researchers je mednarodno usmerjena fakulteta na univerzi v Oxfordu, specializirana za družbene znanosti. To je eden od vodilnih evropskih centrov za analizo omrežja. West Point Network Science Center združuje zaposlene, civiliste in kadete v raziskavah in razvoju pomembnih prispevkov pri študiju omrežij s področja fizičnih, bioloških in družbenih pojavov, s katerimi lahko predvidimo modele; Social Network Image Animator (SONIA) je program, zasnovan na osnovi Jave, ki so ga na Univerzi Stanford razvili za vizualizacijo dinamičnih podatkov (poleg vozlišč in vezi so prikazani tudi podatki, kdaj se ti odnosi pojavijo ali vsaj njihov vrstni red) (INSNA). 11

3.3 Realna omrežja Omrežje je sistem povezanih enot (stvari ali ljudi), ki lahko med sabo komunicirajo. Omrežje je graf, obogaten s podatki. Običajno je omrežje utežen graf. Poznamo realna in naključna omrežja. Realna so večinoma tista, ki se generirajo sama (spletna socialna omrežja so lep zgled realnih omrežij), slučajna omrežja pa so tista, ki jih generiramo sami z uporabo generatorjev naključnih števil (npr. vozlišča so med seboj povezana glede na verjetnost povezave). Modele naključnih omrežij lahko v grobem razdelimo v pet skupin (Chakrabarti in Faloutsos, 2006): naključni modeli omrežij (angl. random graph models) Omrežja generiramo z naključnim procesom. Ti modeli so zanimivi predvsem zaradi lepih matematičnih lastnosti. Kljub temu da ne modelirajo najbolje realnega sveta, so jih v preteklosti podrobno preučevali; modeli po načelu prednostne povezanosti (angl. preferential attachment models) Ti modeli temeljijo na načelu»bogati bogatijo«(the rich get richer) in s tem pripeljejo do potenčnih zakonov v omrežju. V to skupino spada danes nekaj najzanimivejših modelov; geografski modeli (angl. geographical models) Pri teh modelih se pri generiranju omrežja upošteva tudi geografska lokacija vozlišč. To je še zlasti pomembno pri generiranju komunikacijskih omrežij. Vpliv geografske lokacije se opazi tudi pri socialnih omrežjih; optimizacijski modeli (angl. optimization-based models) Optimizacijski modeli skušajo optimizirati neko mero modela z uporabo čim manjšega števila sredstev, kar naj bi prav tako privedlo do potenčnih zakonov; modeli, prilagojeni posebnostim interneta (angl. internet-specific models) Ti modeli so prilagojeni posebnim lastnostim internetnega omrežja. 3.3.1 Lastnosti realnih omrežij Kadar imamo enostavno usmerjeno omrežje, v katerem je n vozlišč, je število možnih povezav med vozlišči n ( n 1), kar pomeni, da je vsako vozlišče povezano z vsemi drugimi vozlišči (razen samo s seboj), kadar govorimo o neusmerjenem omrežju, pa je takih možnih 12

povezav za polovico manj (če obstaja povezava med vozliščema A in B, jo moramo šteti samo enkrat, bodisi povezave pri točki A bodisi pri točki B). Naključne grafe oziroma omrežja so raziskovalci podrobno preučevali in rezultati, tako približni kot eksaktni, so bili čvrsto dokazani. Zadnja leta pa je raziskovalce pritegnilo spoznanje, da večina omrežij realnega sveta ni podobna naključnim grafom. Realna omrežja so nenaključna in nekatera odkritja nakazujejo oba možna mehanizma, ki lahko tvorita omrežje. Obstaja nekaj značilnosti, ki se zdijo skupne različnim tipom realnih omrežij (Newman, 2004). 3.3.2 Porazdelitev stopnje točk in potenčni zakon Stopnja točke nam pove, koliko povezav kaže na točko oziroma gre iz te točke. Porazdelitev stopnje točk pa upošteva stopnje vseh točk v omrežju in jih razvrsti od najmanjše stopnje do največje po skupinah. Najmanjšo stopnjo točke imajo osamelci (otoki), ki nimajo povezav. Porazdelitev stopnje točk nam torej pove, koliko je takšnih točk, ki imajo stopnjo 0, koliko je takšnih, ki imajo stopnjo točk 1 Slika 3.6: Histogram porazdelitve stopenj točk v realnem omrežju število točk 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 stopnja točke Vir: Lastni prikaz (2012) Če pogledamo večje število histogramov realnih omrežij, ugotovimo, da so porazdelitve stopenj močno desno asimetrične in ne sledijo binomski porazdelitvi stopenj, ampak bolj potenčni porazdelitvi. 13

Slika 3.7: Binomska porazdelitev Vir: Lastni prikaz (2012) Potenčni zakon se pojavlja v mnogih primerih znanstvenega dela in ima pomembno vlogo pri razumevanje naravnih in umetnih pojavov. Na žalost pa je njegovo odkrivanje in raziskovanje zapleteno zaradi velikih nihanj, ki se pojavijo v repu porazdelitve. Poznamo zvezne porazdelitve, kjer so vrednosti izražene z realnimi števili, in diskretne porazdelitve, kjer so vrednosti lahko izražene običajno kot pozitivna cela števila (Clauset in drugi, 2009). Medtem ko je normalna porazdelitev v naravi zelo pogosta, obstaja mnogo primerov, kjer je verjetnost dogodkov bistveno višja kot po normalni porazdelitvi (pomaknjeno daleč v desno stran). Definicija 1: Dve spremenljivki (x in y) sta povezani s potenčnim zakonom, ko: y(x) = ax γ kjer sta a in γ pozitivni konstanti. Konstanto γ pogosto imenujemo eksponent potenčnega zakona. Definicija 2: Diskretna slučajna spremenljivka X se porazdeljuje potenčno, kadar gostota verjetnosti sledi potenčnemu zakonu: P(X = x) = p(x) = Ax γ, γ > 1, x x min Dodatek γ > 1 zagotavlja, da se funkcija p(x) normalizira. V naravi se γ < 1 pojavi zelo redko, če sploh kdaj. Asimetrična porazdelitev, kakršna je potenčni zakon, se pojavlja zelo pogosto (Chakrabarti in Faloutsos, 2006). Denimo, da s p k označimo delež vozlišč, ki imajo v omrežju stopnjo k. Torej je p k verjetnost, da bo slučajno izbrano vozlišče imelo stopnjo k. Diagram p k za katero koli omrežje se lahko nariše v obliki histograma stopenj točk. Ta histogram prikazuje porazdelitev stopenj vozlišč. V naključnem grafu je vsaka povezava prisotna ali odsotna z enako verjetnostjo. Posledično porazdelitev stopnje točk v slučajnem grafu sledi binomski porazdelitvi. Za večino realnih 14

omrežij pa je ugotovljeno, da se porazdelitev stopnje točk razlikuje od naključnih. Porazdelitve stopenj točk so močno razpotegnjene v desno, kar pomeni, da ima porazdelitev dolg rep vrednosti, ki so nad povprečjem (Newman, 2004). Merjenje tega repa je nekoliko zapleteno. V teoriji nekdo lahko naredi histogram stopenj točk, v praksi pa ima le redko dovolj meritev za dobro statistično obdelavo repa. Obstajata dva načina, kako zaobiti to težavo. Eden je, da se naredi histogram, v katerem rang velikosti narašča s stopnjo. Na primer prvih nekaj stopenj lahko pokriva stopnje 1, 2-3, 4-7, 8-15 in tako naprej. Število vzorcev v posameznem rangu nato delimo s širino ranga, da dobimo normalizirane vrednosti. Alternativa tej metodi je kumulativna porazdelitev k ' = k P k = p k ' ki je verjetnost, da je stopnja večja ali enaka k. Prednost te metode je, da so zastopani vsi originalni podatki (pri prejšnji metodi se zaradi rangov prvotni podatki porazgubijo, dobimo samo povprečje). Slabost pa je, da nam neposredno ne prikaže porazdelitvene stopnje in posamezne točke na prikazu niso dovolj neodvisne, kar povzroča zapleteno korektno interpretacijo (Newman, 2004). 3.3.3 Velikost in premer omrežja Eden izmed empiričnih fenomenov, ki ga s klasično teorijo ne moremo pojasniti, je dejstvo, da je razdalja v omrežju velikokrat manjša od pričakovanj. Ta fenomen je verjetno prvi opisal Frigyes Karinthy v kratki zgodbi, imenovani»verige«, v kateri teoretizira, da v sodobnem svetu razdalja med dvema osebama verjetno ni večja od petih oseb (Stam in Reijneveld, 2007). Ni presenetljivo, da so omrežja kompaktna (omrežja so majhne velikosti v linearnem smislu). Še več, razsežnosti te kompaktnosti so resnično osupljive. Termina small-worlds in smallworld-effect sta standardna v Milgramovi teoriji. Vzemimo navadno mrežo ali rešetko, kjer je vsako stičišče točka. Tukaj ni dvoma, kakšna je linearna velikost. Razdalja med dvema točkama v rešetki je Evklidska, torej lahko enostavno vzamemo merilo in izmerimo razdaljo. V omrežju so razdalje bolj kompleksne. Torej, kakšna je linearna velikost omrežja? (Dorogovtsev in Mendes, 2003). 15

Kot prvo, predpostavimo, da je omrežje neusmerjeno in da so vse povezave omrežja izražene v enotah. Tedaj je razdalja med dvema točkama omrežja enaka dolžini najkrajše poti med njima (geodezična razdalja med točkama). Razdalja l med paroma točk je izražena v funkciji P(l) kot verjetnost, da je najkrajša razdalja med dvema naključnima točkama enaka l. P(l) je ena glavnih strukturnih karakteristik omrežja in nam omogoča oceniti linearno velikost omrežja. Za hitro padajoče porazdelitve je značilna karakteristika povprečna (ali pričakovana) dolžina najkrajše poti: l Σ l l P(l ) Druga je dolžina najdaljše najkrajše poti, ki obstaja v omrežju (Dorogovtsev in Mendes, 2003). Milgram in Travers (1959) sta preizkusila domnevo o majhnem svetu. Izbrala sta 296 ljudi v Nebraski in Bostonu in jih prosila, naj s pomočjo svojih znancev ustvarijo poštno verigo do določene osebe v Massachutsettsu. Šestdeset pisem je prispelo na cilj, dovolj, da sta prišla do osupljivega podatka. Povprečno je pismo potovalo preko 5,2 osebe. Najenostavnejše vprašanje majhnega sveta je, kolikšna je verjetnost, da se poljubna dva državljana ZDA med seboj poznata? Bolj zanimiva formulacija vprašanja bi bila, da se ti dve osebi med seboj ne poznata neposredno, vendar pa imata skupne prijatelje. Še bolj splošno, ti dve osebi morda ne poznata istega prijatelja, ampak serijo vmesnih ljudi (Travers in Milgram, 1959). Če pogledamo neusmerjeno omrežje in definiramo l kot povprečno razdaljo med dvema točkama v omrežju, l = 1 1 n( n + 1) 2 d ij i j kjer je l povprečna razdalja v omrežju, d ij najkrajša razdalja med točkama i in j. Opazimo lahko, da smo uporabili tudi razdaljo točke do same sebe, kar je seveda 0, in jo uporabili v povprečju. Zato lahko l pomnožimo z (n+1)/(n-1). Ta definicija je problematična v omrežjih z več kot eno komponento. V teh primerih obstajajo pari točk, ki nimajo povezav. V tem primeru take rezultate ne vključujemo v povprečje (Newman, 2004). 16

Skorajda vsak izmed nas je prišel v situacijo, ko se je srečal z neznancem in začel pogovor, a sta nato nepričakovano ugotovila, da imata skupnega znanca. Ponavadi pravimo, da je ta svet res majhen (»It's a small world«). Ta»small world«fenomen je posplošena verzija omenjene situacije. Tudi v primeru, ko dve osebi nimata skupnih prijateljev, je med njima le kratka veriga posrednikov (Watts, 2004). Vedno pa lahko najdemo izjeme, odvisno od naloge, ki si jo zadamo. Povezanosti igralcev NBA lige je raziskoval Ben Blatt (Blatt 2004). Sestavil je bazo vseh igralcev, ki so kdaj koli v 62-letni zgodovini lige zaigrali v njej. Naredil je matriko igralcev, v kateri je z 1 označil pare igralcev, ki sta kadar koli igrala v isti ekipi, in z 0 tiste pare igralcev, ki nista nikoli zaigrala v isti ekipi. Nato je meril, kakšen je premer omrežja. Ugotovil je, da je največji premer 8. Kot razlog za to število je navedel, da je bilo potrebnih več prehodov od igralcev, ki so začeli igrati nedavno, do tistih, ki so igrali na začetku lige. Leta 2007 sta Leskovec in Horvitz (Leskovec in Horvitz, 2007) preučevala komunikacijo prek Microsoft Messaging sistema, v kateri sta zajela 240 milijonov ljudi s 30 milijardami komunikacij. Med drugim sta ugotovila tudi to, da je povprečna dolžina poti 6,6. Ta rezultat pomeni, da je naključni par vozlišč v omrežju Messenger na razdalji 6,6. Nekateri zaradi tega že govorijo o "the seven degrees of separation" (Wikipedia-1). 3.3.4 Število in velikost komponent Obstaja več različnih metod za odkrivanje števila in velikosti komponent. Hierarhično združevanje je ena idealnejših, saj deluje na povezovanju v skupine glede na podobnost elementov v skupini, kar pomeni, da lahko združujemo elemente v skupino po metodi najbolj podobnih ali najmanj podobnih (minimalna ali maksimalna Evklidska razdalja). Pri metodi najbolj podobnih (Slika 3.3) združimo dva najbolj podobna elementa v novo skupino, ki sedaj postane nov element. Vse elemente znova primerjamo med seboj in združimo dva najbolj podobna. Postopek ponavljamo do zadnjega para (Wasserman in Faust, 1994). 17

Slika 3.8: Dendrogram drevo združevanja po minimalni metodi Vir: Lastni prikaz (2012) Število in velikost komponent razberemo iz drevesa združevanja. Povezave, ki so najdaljše, pomenijo največjo razliko med elementi. In če povlečemo horizontalno črto v višino najdaljših povezav, vidimo, da seka štiri povezave. Naše omrežje lahko torej razdelimo v štiri komponente. Velikosti komponent dobimo tako, da preštejemo elemente, ki so pod določeno najdaljšo povezavo. V primeru na sliki 3.8 je omrežje sestavljeno iz ene večje komponente (na dendrogramu levo) in treh manjših. Newman (2004) podaja več vzrokov, zakaj bi se lahko omrežje razdelilo na več komponent, kot recimo skupni interes, starost, poklic in podobno. Vendar pa tehnike komponent ne smemo enačiti s tehniko združevanja podatkov, ki je način odkrivanja združevanj podatkov v visoko dimenzionalnih podatkovnih prostorih. Za način odkrivanja komponent pa tudi on izpostavlja dendrogram. 3.4 Spletna družabna omrežja Ljudje komuniciramo besedno (verbalno) in nebesedno (neverbalno). Strokovnjaki ocenjujejo (Pease, 1996), da ljudje pri komunikaciji v živo dojemamo samo 7 % prek verbalnih sporočil, ostala so neverbalna. Tudi znotraj verbalnega sporočila obstajajo neverbalna (jakost in ton glasu, premori, poudarki itd). Pri pisni komunikaciji, ki je primarno tudi verbalna, tudi obstajajo neverbalna sporočila (slike, grafi, barva in velikost črk, slog itd). Ker verbalno komuniciranje lažje obvladamo, so socialna spletna omrežja idealen prostor tudi za tiste, ki so v komunikaciji v živo nekoliko bolj zadržani. Kadar računalniško omrežje povezuje ljudi ali organizacije, govorimo o socialnem omrežju. Tako kot je računalniško omrežje skupek strojev, povezanih z nizom kablov, je socialno 18

omrežje množica ljudi (ali organizacij ali drugih družbenih subjektov), povezanih z vrsto socialnih odnosov, kot so prijateljstvo, sodelavci ali izmenjava informacij. Veliko raziskav se je osredotočalo na to, kakšna je povezava med ljudmi in njihovimi računalniki, kako dve osebi sodelujeta na spletu ali kako majhne skupine delujejo na spletu. Ko se je komunikacija prek računalnikov razširila, so analitiki morali preseči študije posameznih uporabnikov, dveh uporabnikov in njunih vezi. Analiza socialnih omrežij se osredotoča na odnose med ljudmi, organizacijami, državam itd. (Garton in drugi, 1997). Raziskovalci socialnih omrežij iščejo razlago za odnose v največji možni meri. Poskušajo odkriti vzorce v teh omrežjih, tok informacij (in drugih virov) in kakšne posledice imajo te povezave na ljudi in organizacije (Garton in drugi, 1997). Spletna socialna omrežja so večinoma namenjena vzdrževanju in širitvi prijateljstev, zato je prav, da besedo ali dve namenimo tudi pojmu prijateljstvo. Milivojević (2011) navaja, da sta pamet in ljubezen osnovna razloga, zaradi katerih je človeška vrsta zavladala našemu planetu. Zaradi ljubezni in čustvenega povezovanja so se lahko ljudje združevali v trdno povezane skupine. Skupina je bila velika evolucijska prednost, saj je bilo v njej mogoče doseči vse, česar posameznik ni zmogel. En sam človek ni mogel ubiti mamuta ali si zgraditi domovanja, skupina pa je to zmogla. Sile, ki so povezovale skupino, so bile različne oblike ljubezni. Poleg ljubezni, ki je obstajala med ljudmi v sorodu, je bila pri tem nadvse pomembna ljubezen, ki ji pravimo prijateljstvo. Prijateljstvo je zelo pomemben medčloveški odnos. Poleg partnerske ljubezni je to najtrdnejša čustvena vez, ki jo vzpostavimo z ljudmi, s katerimi nismo v sorodu. Prijateljstvo velja za osnovni odnos in model za širšo kategorijo odnosov, ki jim pravimo prijateljski odnosi. To pomeni, da za vzpostavitev prijateljskega odnosa ni nujno, da smo prijatelji, saj smo lahko v prijateljskem odnosu tudi z neznanci ali celo z ljudmi, ki jih sploh nismo spoznali v živo (Milivojević, 2011). Raziskovalci na Univerzi Stanford pod vodstvom Leskovca so razvili algoritem, s pomočjo katerega lahko napovedujejo časovni razvoj prijateljstev na spletnih socialnih omrežjih. Torej lahko sklepamo, da kdo bo naš naslednji prijatelj, ni tako naključno, kot si mislimo (Zeitler, 2011). Spletna socialna omrežja definiramo kot spletne storitve, ki omogočajo posameznikom, da: naredijo javen ali na pol javen profil v omrežju, izoblikujejo seznam uporabnikov, s katerimi si delijo povezavo, in 19

imajo pregled nad njihovim seznamom povezav, kakor tudi seznamom povezav drugih oseb v sistemu. Izraza spletno socialno omrežje in spletno socialno mreženje sta sopomenki (Boyd in Ellison, 2007). Na spletu je moč najti veliko spletnih omrežij, ki se razlikujejo po interesih, uporabi, možnostih itd., vsa pa imajo isti cilj spoznavati nove ljudi in ohranjati odnose z že poznanimi. Smisel obstoja spletnega omrežja se lahko tudi spremeni oziroma dopolni. Omrežje je bilo morda narejeno za določeno skupino ljudi (npr. študente iste fakultete), ki se kasneje razširi na celotno prebivalstvo. Po mojih lastnih izkušnjah imajo socialna spletna omrežja tako dobre kot slabe lastnosti. Dobra je predvsem ta, da je v večini primerov uporaba brezplačna, dostopnost in komunikacija raznolika in drugo. Največja slabost spletnih socialnih omrežij je zagotovo varnost podatkov. Obstaja tudi nevarnost zasvojenosti z uporabo določenih aplikacij. Morda je slabost tudi ta, da se spletno oglaševanje seli tudi na socialna spletna omrežja in z reklamnimi sporočili zasedajo velik del prostora na zaslonu, hkrati pa se podatke uporabnikov za primerno ceno posreduje organizacijam, ki nato izvedejo oglaševanje za ciljno populacijo. Verjetno podatkov nikoli ne izbrišejo. Nevarnost predstavljajo tudi znanci, sorodniki in prijatelji, ki brez odobritve objavljajo informacije in slike drugih oseb. Sicer pa vedno obstaja možnost, da prek spleta ne komuniciramo s tistim, za katerega mislimo, da je naš sogovornik, izjemi sta glasovni ali videoklepet. Svoj profil na socialnih spletnih omrežjih zelo težko izbrišemo. Ponavadi z opcijo izbris svoje podatke samo naredimo nedostopne, na strežniku pa še vedno obstajajo. Za popoln izbris je potrebno kontaktirati uradne predstavnike omrežja ali pa izpolniti poseben obrazec. Seveda pa slabost lahko postane prednost in obratno, odvisno od zornega kota, iz katerega gledamo nanj. Spletno socialno omrežje je spletna stran, ki omogoča komunikacijo med njenimi uporabniki. Med prva spletna mesta, ki so začele graditi spletno skupnost, sodi spletišče Classmates.com, ki je začelo s svojim delovanjem leta 1995. Prvo pravo omrežno storitev, ki je povezala določene kroge uporabnikov in začela graditi pravo socialno omrežje, je leta 2002 ponudilo spletišče Friendster. Spoznavanje novih prijateljev, izmenjava mnenj, objavljanje fotografij ter videoposnetkov so storitve, ki jih je uspešno nadgradila platforma Myspace. Primat spletnega socialnega omrežja z video vsebinami je prevzelo spletno socialno omrežje YouTube, ki ga dnevno obišče več kot dve milijardi uporabnikov. Tudi velikan Google se je 20

odločil vstopiti v svet socialnih omrežij z aplikacijo Google+, za katerega predvidevamo uspeh zaradi integracije z aplikacijama gmail in google chat. Trenutno je eno najpopularnejših socialnih spletnih omrežij Facebook, ki ga bomo opisali v nadaljevanju. Slika 3.9: Razvoj večjih spletnih socialnih omrežij skozi čas Vir: Boyd in Ellison (2007) Analiza socialnih omrežij se večinoma naslanja na lastne vire, podatke, zbrane s pomočjo intervjujev in vprašalnikov. Zbiranje takšnih podatkov je zamudno in drago, zato so raziskave omejene na majhno število ljudi (običajno manj kot 100). Pojav sodobnih spletnih aplikacij omogoča analizo velikega števila podatkov, ki so na voljo, vendar pa obstajajo nastavitve, ki nam otežujejo dostop do podatkov celotnega omrežja. Nekatere podatke pa je skorajda nemogoče zbrati (primer uporabe drog ali spolna usmerjenost posameznika). Take podatke se običajno zbira z opazovanjem (Leskovec in Myers, 2010). 21

Vse več socialnih spletnih omrežij zahteva resnične podatke (ime in priimek) in razvijajo načine za odkrivanje psevdonimov in lažnih imen. Mnogo kritik gre na ta račun, saj je v nekaterih državah nevarno izpostavljati stališča, ki so v nasprotju z večinskimi, vendar za sedaj lastnikov socialnih spletnih omrežij še niso prepričali. Nekateri uporabljajo zgolj zbiranje prijav drugih uporabnikov, medtem ko drugi razvijajo aplikacije, ki omogočajo preverjanje identitete. Eden izmed načinov je, da vpišete svojo mobilno številko, na katero vam pošljejo kodo, nato pa to kodo vpišete v potrditveni obrazec na spletu. Ko imajo potrjeno vašo mobilno številko, lahko prek spletnih imenikov preverjajo resničnost vaših podatkov, kot denimo ime in priimek ter naslov. Naslednji način je odkrivanje ponarejenih profilov s primerjanjem slik. Obstajajo aplikacije, kot je TinEye, ki je imela septembra 2011 v bazi več kot dve milijardi fotografij. Aplikacija je brezplačna, naložite sliko ali spletni naslov in z indeksiranjem poišče fotografije v svoji bazi. Zadetke potem preverite in vidite, če so res od osebe, ki se predstavlja, da je (www.tineye.com). Ni popolnoma jasno, kako zasebnost in zaupanje vplivata na socialno vzajemno delovanje s socialnimi mrežnimi stranmi. T.i. online anketa dveh razširjenih spletnih strani (Facebook in MySpace) glede dojemanja zaupanja in zasebnosti je zaskrbljujoča vsaj glede voljnosti delitve informacij in širitve novih poznanstev. Uporabniki Facebooka so izrazili večje zaupanje portalu in njegovim uporabnikom in so bili pripravljeni deliti več osebnih informacij. Uporabniki MySpacea pa so izkazali več izkušenj pri spoznavanju novih oseb. Ti rezultati so napeljevali na to, da zaupanje ni nujno za novo prijateljstvo, kot je to iz oči v oči. Pokazalo se je tudi, da zaupanje in voljnost razkrivanja osebnih podatkov ne pomenita avtomatično tudi sklepanja novih prijateljstev. Ta študija demonstrira, da se t.i. online odnos lahko razvije na strani, kjer je zaščita zasebnosti slaba (Dwyer in drugi, 2007). 3.5 Socialna omrežja v Sloveniji V Sloveniji nimamo tipičnih poslovno usmerjenih socialnih mrež, kot je LinkedIn. Kljub vsemu velja omeniti zaposlitveni portal MojeDelo.com. Po drugi strani je v Sloveniji veliko izjemno popularnih socialnih mrež, namenjenih zabavi in druženju. Kot recimo GlasujZame.com, FrendiInFlirt.24ur.com, Ona-on.net, Ona-on.com in www.zveze.net. 22