Statistică Aplicată. Iulian Stoleriu

Size: px
Start display at page:

Download "Statistică Aplicată. Iulian Stoleriu"

Transcription

1 32 Statistică Aplicată Iulia Stoleriu

2 Copyright 2017 Iulia Stoleriu

3 Cupris 1 Elemete itroductive de Statistică Populaţie statistică Variabile aleatoare Fucţia de repartiţie (sau fucţia de repartiţie cumulată) Parametrii populaţiei Statistici Exemple de statistici Legi limită î Teoria Probabilităţilor Legea tare a umerelor mari Teorema limită cetrală Geerarea î MATLAB a datelor statistice Geerarea de umere aleatoare î MATLAB Fucţia rad Fucţia rad Geerarea de umere aleatoare de o repartiţie cuoscută Simularea uui experimet aleator Simularea arucării uei moede Simularea î MATLAB a uei variabile aleatoare de tip discret Repartiţii probabilistice î MATLAB Exerciţii rezolvate Exerciţii propuse 32

4 3 Elemete de Statistică descriptivă Orgaizarea şi descrierea datelor Gruparea datelor Reprezetarea datelor statistice Reprezetare pri pucte Reprezetarea stem-ad-leaf Reprezetarea cu bare (bar charts) Histograme Reprezetare pri sectoare de disc (pie charts) Ogive Diagrama Q-Q sau diagrama P-P Măsuri descriptive ale datelor egrupate Măsuri descriptive ale datelor grupate Trasformări de date Fucţii MATLAB specifice petru măsurile descriptive Exerciţii rezolvate Exerciţii propuse 54 4 Noţiui de Teoria selecţiei statistice Cosideraţii geerale Exemple de statistici Statistici de ordie Selecţii aleatoare petru caracteristici ormale Exerciţii rezolvate Exerciţii propuse 71 5 Estimatori. Itervale de icredere Metode folosite petru estimarea parametrilor Metoda verosimilităţii maxime Metoda mometelor (K. Pearso) Estimarea parametrilor pri itervale de îcredere Iterval de îcredere petru medie, câd dispersia este cuoscută Iterval de îcredere petru medie, câd dispersia este ecuoscută Iterval de îcredere petru dispersie, câd media este cuoscută Iterval de îcredere petru dispersie, câd media este ecuoscută Iterval de îcredere petru proporţii îtr-o populaţie biomială Iterval de îcredere petru difereţa mediilor Iterval de îcredere petru raportul dispersiilor Iterval de îcredere petru difereţa proporţiilor îtr-o populaţie biomială Estimaţii pri MATLAB Exerciţii rezolvate Exerciţii propuse 93

5 6 Testarea ipotezelor statistice Puerea problemei Tipuri de teste statistice Etapele uei testări parametrice Teste parametrice Testul t petru medie Test petru dispersie Test petru proporţie îtr-o populaţie biomială Teste parametrice petru două populaţii Testul t petru difereţa mediilor a două selecţii Testul F petru raportul a două dispersii Testul petru egalitatea a două proporţii Teste parametrice î MATLAB Testul t petru o selecţie î MATLAB Testul t petru două selecţii Test petru dispersie î MATLAB Testul F î MATLAB Exerciţii rezolvate Exerciţii propuse Teste de cocordaţă Testul χ 2 de cocordaţă Cazul eparametric Cazul parametric Testul de cocordaţă Kolmogorov-Smirov Testul K-S petru o selecţie Testul K-S petru două selecţii Teste de cocordaţă î MATLAB Testarea tipului de date experimetale Test de idepedeţă folosid tabele de cotigeţă Testul exact al lui Fisher Exerciţii rezolvate Exerciţii propuse Teste eparametrice Testul semelor Testul semelor petru date perechi Testul seriilor petru caracterul aleator Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample rus test) Testul Wilcoxo bazat pe raguri cu sem (Wilcoxo Siged-Rak Test) Testul t petru date perechi Testul Wilcoxo petru date perechi Testul Wilcoxo bazat pe suma ragurilor (Wilcoxo rak-sum test) 146

6 8.8 Teste eparametrice î MATLAB Testul semelor î MATLAB Testul seriilor î MATLAB Testele Wilcoxo i MATLAB Exerciţii rezolvate Exerciţii propuse Teste de reeşatioare Teste de permutari Bootstrappig Metoda Mote Carlo Exerciţii rezolvate Exerciţii propuse Corelaţie şi regresie Itroducere Corelaţie şi coeficiet de corelaţie Test statistic petru coeficietul de corelaţie Coeficietul de corelaţie Spearma Probleme rezolvate Probleme propuse Regresie Puerea problemei Regresie liiară simplă Itervale de îcredere petru parametrii de regresie Test statistic petru β 1 (pata dreptei de regresie) Test statistic petru β Predicţie pri regresie Validitatea modelului de regresie liiara simpla Regresie liiara multipla Test statistic petru semificaţia coeficieţilor de regresie multiplă, β i Validitatea modelului de regresie liiară multiplă Alte tipuri de regresie Fucţii MATLAB specifice corelaţiei şi regresiei Probleme rezolvate Probleme propuse ANOVA Oe-way ANOVA Two-way ANOVA Exerciţii rezolvate Exemplu umeric petru oe-way ANOVA

7 Exemplu umeric petru two-way ANOVA Probleme propuse Aexe Scurtă itroducere î MATLAB Repartiţii probabilistice uzuale Exemple de repartiţii discrete Exemple de repartiţii cotiue Tabel cu itervale de îcredere Teste parametrice Tabele de valori critice Top Te Reasos To Become A Statisticia 245 Bibliografie Idex

8

9 9

10

11 1. Elemete itroductive de Statistică. [There are oly three kids of statisticias:. those that ca cout ad those that ca t.] 1.1 Populaţie statistică O populaţie (colectivitate) statistică este o mulţime de elemete ce posedă o trasatură comuă ce urmează a fi studiată. Aceasta poate fi fiită sau ifiită, reală sau imagiară. I acest material vom ota populatia statistica cu Ω. Di puct de vedere matematic, Ω este o multime evida. Elemetele ce costituie o colectivitate statistică se vor umi uităţi statistice sau idivizi. Vom ota cu ω o uitate statistică. Dacă populaţia este fiită, atuci umărul N al uităţilor statistice ce o compu (i.e., Ω ) îl vom umi volumul colectivităţii (sau volumul populaţiei). Caracteristica (variabila) uei populaţii statistice este o aumită proprietate urmărită la idivizii ei î procesul prelucrării statistice şi care costituie obiectul măsurării. Spre exemplu, ialtimea barbatilor ditr-o aumita tara, rata ifiltrarii apei i solul urba, media la Bacalaureat, altitudiea, culoarea fruzelor, atioalitatea participatilor la u cogres iteratioal etc. Di puct de vedere matematic, caracteristica este reprezetata pritr-o variabila aleatoare defiita pe Ω. Spre exemplu, daca populatia statistica este mulţimea tuturor studeţilor ditr-o uiversitate îrolaţi î aul îtâi de master, atuci o caracteristica a sa ar fi media la liceţă obţiută de fiecare ditre aceşti studeţi. Teoretic, mulţimea valorilor acestei caracteristici este itervalul [6, 10], iar aceasta variabila poate lua orice valoare di acest iterval. Caracteristicile pot fi: catitative (sau măsurabile sau umerice) (e.g., 2, 3, 5.75, 1/3,...) sau calitative (categoriale sau atribute) (e.g., albastru, foarte bie, germa etc). La râdul lor, variabilele catitative pot fi discrete (umărul de sosiri ale uui tramvai î staţie) sau cotiue (timpul de aşteptare ître două sosiri ale tramvaiului î staţie). Caracteristicile pot depide de uul sau mai multi parametri, parametrii fiid astfel caracteristici umerice ale colectivităţii.

12 12 Capitolul 1. Elemete itroductive de Statistică Vom umi date (sau date statistice) iformaţiile obţiute î urma observaţiei valorilor uei caracteristici a uei populatii statistice. I cazul metioat mai sus, datele sut mediile la liceţă observate. Î geeral, datele pot fi calitative (se mai umesc şi categoriale) sau catitative, după cum caracteristica (sau variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, catitativă (are o valoare umerica). Totodata, aceste date pot fi date de tip discret, dacă sut obţiute î urma observării uei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale carei posibile valori sut i umar fiit sau cel mult umarabil), sau date cotiue, dacă această caracteristică este cotiuă (o variabilă aleatoare de tip cotiuu, sau o variabila ce poate lua orice valoare ditr-u iterval sau chiar de pe axa reala). Î cazul di exemplul de mai sus, datele vor fi catitative şi cotiue. Datele calitative mai pot fi omiale sau ordiale. Variabilele omiale au ivele disticte, fara a avea o aumita ordie. De exemplu, culoarea parului, sau geul uei persoae. Pe de alta parte, valorile ordiale fac referita la ordiea lor. De exemplu: schimbarea starii uui paciet dupa u aumit tratame (aceasta poate fi: imbuatatire semificativa, imbuatatire moderata, icio schimbare, irautatire moderata, irautatire semificativa). Î Statistică, se obisuieste a se ota variabilele (caracteristicile) cu litere mari, X, Y, X,..., si valorile lor cu litere mici, x, y, x,... I geeral, volumul colectivitatii poate fi foarte mare sau chiar ifiit, astfel ca efectuarea uui recesamat (i.e., observarea caracteristicii de iteres petru toate elemetele ce compu colectivitatea) este fie foarte costisitoare sau imposibila. Petru a efectua o aaliza a caracteristicii de iteres sau chiar a repartitiei datelor observate, este suficieta aaliza uei selectii de volum suficiet de mare formata di observatii ale caracteristicii, urmad ca aceasta aaliza sa fie extrapolata (folosid metode statistice specifice) petru itreaga populatie. O selecţie (sau eşatio) este o colectivitate parţială de elemete extrase (la îtâmplare sau u) di colectivitatea geerală, î scopul cercetării lor di puctul de vedere al uei caracteristici. Dacă extragerea se face la îtâmplare, atuci spuem că am facut o selecţie îtâmplătoare. Numărul idivizilor di selecţia aleasă se va umi volumul selecţiei. Dacă se face o eumerare sau o listare a fiecărui elemet compoet al uei a populaţii statistice, atuci spuem că am facut u recesămât. Selecţia ar trebui să fie reprezetativă petru populaţia di care face parte. Numim o selecţie repetată (sau cu repetiţie) o selecţie î urma căreia idividul ales a fost reitrodus di ou î colectivitate. Altfel, avem o selecţie erepetată. Selecţia erepetată u prezită iteres dacă volumul colectivităţii este fiit, deoarece î acest caz probabilitatea ca u alt idivid să fie ales îtr-o extragere u este aceeaşi petru toţi idivizii colectivităţii. Pe de altă parte, dacă volumul îtregii populaţii statistice este mult mai mare decât cel al eşatioului extras, atuci putem presupue că selecţia efectuată este repetată, chiar dacă î mod practic ea este erepetată. Selecţiile aleatoare se pot realiza pri diverse metode, î fucţie de următorii factori: dispoibilitatea iformaţiilor ecesare, costul operaţiuii, ivelul de precizie al iformaţiilor etc. Câteva metode de selecţie: selecţie simplă, selecţie sistematică, selecţie stratificată, selecţie ciorchie, selecţia de tip experieţă, selecţie de coveieţă, selecţie de cotă etc. Parametrii sut masuri descriptive umerice ce reprezita populatia. Deoarece u avem acces la itreaga populatie, parametrii sut iste costate ecuoscute, ce urmeaza a fi explicate sau estimate pe baza datelor. Spre exemplu, petru variabilele catitative ale populatiei, putem avea: parametri care sa descrie tedita cetrala a populatiei (e.g., media, mediaa, momete), parametri care sa descrie dispersia datelor (e.g., dispersia, deviatia stadard, coeficiet de variatie), parametri de pozitie (e.g., cuatile), parametri ce descriu forma (e.g., skewess, kurtosis). Petru date bidimesioale, datele pot fi descrise de parametrii ce descriu legatura itre variabile: corelatia sau coeficietul de corelatie. Petru date calitative (categoriale), cei mai des utilizati parametri sut: π proportia di populatie ce are caracteristica de iteres (e.g., umarul de fumatori di tara), cote (sase teoretica petru observarea caracteristicii de iteres la itreaga populatie) (e.g., exista 70% sase sa ploua maie).

13 1.2 Variabile aleatoare 13 Pe baza uei selectii, putem costrui diversi idicatori statistici care sa estimeze parametrii ecuoscuti, obtiad descrieri umerice petru populatie. Astfel de idicatori se umesc statistici. Pri itermediul statisticilor putem trage cocluzii despre populaţia Ω, di care a proveit eşatioul observat. Teoria probabilităţilor e oferă procedee de determiare a repartiţiei asimptotice a uei statistici, sau chiar, i aumite cazuri, a statisticii exacte. Repartiţia exactă este acea repartiţie ce poate fi determiată petru orice volum al selecţiei. Î geeral, dacă se lucrează cu selecţii de volum redus ( < 30), atuci repartiţia exactă ar trebui să fie cuoscută a priori, dacă se doreşte luarea de decizii pri ifereţă. Repartiţia asimptotică este repartiţia limită a statisticii câd, iar utilizarea acesteia coduce la rezultate bue doar petru 30. I cocluzie, plecad de la o multime de date, Statistica isi propue sa extraga iformatii di acestea. Mai cocret, detie metodele ecesare de a realiza urmatoarele cerite: sa descrie cat mai fidel si sugestiv acele date (pri grafice sau idicatori statistici), sa estimeze aumiti parametri de iteres (e.g., media teoretica, deviatia stadard, asimetria ale caracteristicii), sa verifice pri ifereta ipotezele ce se pot face referitoare la aumiti parametri ai caracteristicii sau chiar la forma acesteia. 1.2 Variabile aleatoare Î geeral, rezultatul posibil al uui experimet aleator poate fi asociat uei valori reale, precizâd regula de asociere. O astfel de regulă de asociere se umeşte variabilă aleatoare (prescurtat, v.a.). Se umeşte variabilă deoarece poate lua valori diferite, se umeşte aleatoare deoarece valorile observate depid de rezultatele experimetului aleator, şi este "reală" deoarece valoarea umerică este u umăr real. Aşadar, di puct de vedere euristic, o variabilă aleatoare este o catitate ce poate avea orice valoare ditr-o multime data, fiecarei valori atribuidu-se o aumita podere (frecveta relativa). Î viaţă de zi cu zi îtâlim umeroase astfel de fucţii, e.g., umerele ce apar la extragerea loto, rezultatul masurarii fertilitatii solului i diverse locatii, umărul clieţilor deserviţi la u aumit ghişeu îtr-o aumită perioadă, timpul de aşteptare a uei persoae îtr-o staţie de autobuz pâă la sosirea acestuia, calificativele obţiute de elevii de clasa a IV-a la u test de matematică etc. De regula, variabilele aleatoare sut otate cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ,η, ζ etc. Exemplu 1.1 U exemplu simplu de variabila aleatoare este următorul. Cosiderăm experimetul aleator al arucării uei moede. Acest experimet poate avea doar două rezultate posibile, otate S (stema) şi B (baul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui experimet aleator îi putem ataşa variabila aleatoare reală X, care asociază feţei S valoarea 1 şi feţei B valoarea 0. Matematic, scriem astfel: X : Ω R, X(S) = 1, X(B) = 0. Astfel, valorile 1 şi 0 petru X vor idica faţa apărută la arucarea moedei. O astfel de variabilă aleatoare se umeşte variabilă aleatoare Beroulli şi poate fi ataşată oricărui eveimet aleator ce are doar două rezultate posibile, umite geeric succes şi eşec. Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau cotiue. Variabilele aleatoare discrete sut cele care pot lua o mulţime fiită sau cel mult umărabilă (adica, o multime care poate fi umarata) de valori. O variabilă aleatoare se umeşte variabilă aleatoare cotiuă (sau de tip cotiuu) dacă mulţimea tuturor valorilor sale este totalitatea umerelor ditr-u iterval real (posibil ifiit) sau toate umerele ditr-o reuiue disjuctă de astfel de itervale, cu precizarea că petru orice posibilă valoare c, P(X = c) = 0. Exemple de v.a. discrete: umărul feţei apărute la arucarea uui zar, umărul de apariţii ale uui tramvai îtr-o staţie îtr-u aumit iterval, umărul de isuccese apărute pâă la primul succes etc. Di clasa v.a. de tip cotiuu amitim: timpul de aşteptare la u ghişeu pâă la servire, preţul uui activ fiaciar îtr-o perioadă bie determiată. Petru a specifica o v.a. discretă, va trebui să eumerăm toate valorile posibile pe care aceasta

14 14 Capitolul 1. Elemete itroductive de Statistică le poate lua, împreuă cu probabilităţile corespuzatoare. Suma tuturor acestor probabilităţi va fi îtotdeaua egală cu 1, care este probabilitatea realizarii eveimetului sigur. Câd se face referire la repartiţia uei v.a. discrete, se îţelege modul î care probabilitatea totală 1 este distribuită ître toate posibilele valori ale variabilei aleatoare. Petru o scriere compactă, adeseori uei v.a. discrete i se atribuie următoarea reprezetare schematica: tabelul de repartiţie X x 1 x 2 x 3... x p k p 1 p 2 p 3... x (1.2.1) ude p k este probabilitatea cu care variabila X ia valoarea x k (matematic, scriem p k = P(X = x k )) şi suma tuturor probabilităţilor corespuzătoare variabilei discrete este egală cu 1, i.e. p i = 1. Exemplu 1.2 Presupuem că X este v.a. ce reprezită tabelul de repartiţie umărul de pucte ce apare la arucarea uui zar ideal. Această variabila o putem reprezeta X schematic ca i tabelul alaturat. p k 1/6 1/6 1/6 1/6 1/6 1/6 Dacă X este o v.a. discretă de forma (1.2.1), atuci defiim fucţia de probabilitate (de frecveţă) (e., probability mass fuctio) ataşată variabilei aleatoare discrete X ca fiid o fucţie ce ataseaza fiecarei realizari ale uei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca f (x i ) = p i, i {1, 2,..., }. Î cuvite, petru fiecare posibilă valoare a uei v.a. discrete, fucţia de probabilitate ataşează probabilitatea cu care X ia această valoare. Fucţia de probabilitate este petru o v.a. discreta ceea ce o desitate de repartiţie este petru o variabilă aleatoare cotiuă. Dupa cum am metioat aterior, o variabila aleatoare cotiua poate lua orice valoare itr-u iterval a chiar di R. Deoarece i aceste multimi exista o ifiitate de valori, u mai putem defii o variabila aleatoare cotiua la fel ca i cazul discret, precizadu-i fiecare valoare pe care o ia si poderea corespuzatoare. I schimb, petru o variabila aleatoare cotiua, putem preciza multimea i care aceasta ia valori si o fuctie care sa descrie repartizarea acestor valori. O astfel de fuctie se umeste fuctie de desitate a repartitiei, sau simplu, desitate de repartiţie (e., probability desity fuctio). Exemplu 1.3 Vom spue că o variabila aleatoare X are o repartitie (sau distributie) ormala de medie µ şi deviatie stadard σ (otam aceasta pri X N (µ, σ)) dacă X poate lua orice valoare reala si are desitatea de repartitie data de: f (x; µ, σ) = 1 σ (x µ) 2 2π e 2σ 2, petro orice x R. Aceasta repartitie se mai umeşte şi repartiţia gaussiaă sau distribuţia gaussiaă. Fucţia de probabilitate sau desitatea de repartiţie poate depide de uul sau mai mulţi parametri reali. Spre exemplu, repartitia ormala are doi parametri, µ si σ. 1.3 Fucţia de repartiţie (sau fucţia de repartiţie cumulată) Numim fucţie de repartiţie ataşată v.a reale X o fucţie F : R [0, 1], defiită pri F(x) = P(X x), petru orice x R.

15 1.4 Parametrii populaţiei 15 Termeul di egleză petru fucţia de repartiţie este cumulative distributio fuctio (cdf). Fuctia de repartitie asociaza fiecarei valori reale x probabilitatea cu care variabila X ia valori mai mici sau egale cu x. Ea este o fuctie crescatoare, care ia valori itre 0 si 1. Î cazul uei variabile aleatoare discrete, cu tabelul de repartiţie dat de (1.2.1), fucţia de repartiţie este: F(x) = {i;x i x} p i, (1.3.2) adică suma tuturor probabilităţilor corespuzătoare valorilor lui X care u-l depăşesc pe x. Dacă X este o variabilă aleatoare cotiuă şi f este desitatea sa de repartiţie, atuci fucţia de repartiţie este dată de formula: F(x) = x f (t)dt, x R. (1.3.3) Mai mult, F (x) = f (x), petru orice x R. 1.4 Parametrii populaţiei O colectivitate statistica poate fi descrisa folosid ua sau mai multe variabile. Petru fiecare ditre aceste variabile se pot determia aumite catitati sau calitati specifice, umite parametri. Astfel, acesti parametri sut iste trasaturi caracteristice colectivitatii, ce pot fi determiate sau estimate pe baza uor masuratori (observatii) ale variabilelor. I cotiuare vom prezeta cativa parametri umerici importati petru o variabila aleatoare, folositi i aaliza statistica. Vom deumi acesti parametri caracteristici umerice ale uei variabile aleatoare. Media (sau valoarea aşteptată) (e., expected value; fr., espérace; ger., Erwartugswert) Petru o variabila, media este o masura a teditei cetrale a valorilor sale. De remarcat faptul ca exista variabile (atat discrete cat si cotiue) care u admit o valoare medie. Dacă X este o v.a. discretă avâd tabelul de repartiţie (1.2.1), atuci media acestei v.a. (dacă există!) se defieşte pri: µ = x i p i. (1.4.4) Daca U(x) este o fuctie, atuci media petru variabila aleatoare U(X) se defieste pri E(U(X)) = U(x i )p i. Dacă X este o v.a. de tip cotiuu, cu desitatea de repartiţie f (x), atuci media (teoretică) acestei v.a., dacă există (!), se defieşte astfel: µ = x f (x)dz. (1.4.5) Daca U(x) este o fuctie, atuci media petru variabila aleatoare U(X) (dacă există!) se defieste pri E(U(X)) = U(x) f (x)dz.

16 16 Capitolul 1. Elemete itroductive de Statistică Notaţia 1.1 Î cazul î care poate fi pericol de cofuzie (spre exemplu, atuci câd lucrăm cu mai multe variabile î acelaşi timp), vom folosi otaţia µ X. Petru media teoretică a uei variabile aleatoare se mai folosesc şi otaţiile: m, M(X) sau E(X). Dispersia (sau variaţa) (e., variace) şi abaterea stadard (e., stadard deviatio) Cosideram X o variabilă aleatoare care admite medie fiita µ. Dorim sa stim i ce masura valorile aceste variabile sut imprastiate i jurul valorii medii. Variabila aleatoare X 0 = X µ (umită abaterea lui X de la media sa), atuci E(X 0 ) = 0. Aşadar, u putem măsură gradul de împrăştiere a valorilor lui X î jurul mediei sale doar calculâd X µ. Avem evoie de o altă măsură. Aceasta este dispersia variabilei aleatoare, otată pri σ 2 sau Var(X), defiită pri Var(X) = E[(X µ) 2 ]. Î cazul î care poate fi pericol de cofuzie (spre exemplu, atuci câd lucrăm cu mai multe variabile î acelaşi timp), vom folosi otaţia σ 2 X. σ 2 = (x i µ) 2 p i (i cazul uei v.a. discrete). σ 2 = (x µ) 2 f (x)dz (i cazul uei v.a. cotiue). Alte formule petru dispersie: σ 2 = E[X 2 ] µ 2 = x 2 i p i µ 2 x 2 f (x)dz µ 2, î cazul discret, î cazul cotiuu Numim abatere stadard (sau deviaţie stadard) catitatea σ = σ 2. Are avatajul ca uitatea sa de masura este aceeasi cu a variabilei X. Î coformitate cu teorema lui Cebâşev 1, petru orice variabila aleatoare X ce admite medie si orice a > 0, are loc iegalitatea: P({ X µ kσ}) 1 k 2. (1.4.6) Î cuvite, probabilitatea ca valorile variabilei X sa devieze de la medie cu mai mult de k deviatii stadard este mai mica decat 1 k 2. Î cazul particular k = 3, obţiem regula celor 3σ: sau P({ X µ 3σ}) P({µ 3σ < X < µ + 3σ}) 8 9, (1.4.7) semificâd că o mare parte di valorile posibile petru X se află î itervalul [µ 3σ, µ + 3σ]. Coeficietul de variaţie Este defiit pri CV = σ µ sau, sub forma de procete, CV = 100σ %. Este util i compararea variatiilor a doua sau mai multe seturi de date ce ti de aceeasi variabila. Daca variatiile µ sut 1 Pafuty Lvovich Chebyshev ( ), matematicia rus

17 1.4 Parametrii populaţiei 17 egale, atuci vom spue ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare. Stadardizarea uei variabile aleatoare Petru o variabila aleatoare X de medie µ şi dispersie σ 2, variabila aleatoare Y = X µ se σ umeşte variabila aleatoare stadardizată (sau ormată). Astfel, pri stadardizarea uei variabile, vom obtie urmatoarele proprietati ale sale: E(Y ) = 0, Var(Y ) = 1. Daca X este o variabila ormala (scriem asta pri X N (µ, σ)), atuci stadardizarea sa este o variabila ormala stadard, adica X µ σ N (0, 1). Momete cetrate Petru o v.a. X (discretă sau cotiuă), ce admite medie, mometele cetrate sut valorile aşteptate ale puterilor lui X µ. Defiim astfel µ k (X) = E((X µ) k ). I particular, µ k (X) = (x i µ) k p i ; (i cazul uei v.a. discrete). µ k (X) = (x µ) k f (x)dx; (i cazul uei v.a. cotiue). Momete speciale: µ 2 (X) = σ 2. Se observa ca al doilea momet cetrat este chiar dispersia. γ 1 = µ 3(X) este coeficietul de asimetrie (e., skewess); σ 3 Coeficietul γ 1 este al treilea momet cetrat stadardizat. O repartiţie este simetrică dacă γ 1 = 0. Vom spue că asimetria este pozitivă (sau la dreapta) dacă γ 1 > 0 şi egativă (sau la stâga) dacă γ 1 < 0. K = µ 4(X) 3 este excesul (coeficietul de aplatizare sau boltire) (e., kurtosis). σ 4 Este o măsură a boltirii distribuţiei (al patrulea momet stadardizat). Termeul ( 3) apare petru că idicele kurtosis al distribuţiei ormale să fie egal cu 0. Vom avea o repartiţie mezocurtică petru K = 0, leptocurtică petru K > 0 sau platocurtică petru K < 0. U idice K > 0 semifică faptul că, î veciătatea modului, curba desităţii de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Petru K < 0, î acea veciătate curba desităţii de repartiţie este mai plată decât curba lui Gauss. Cuatile Fie o v.a. X ce are fucţia de repartiţie F(x). Petru u α (0, 1), defiim cuatila de ordi α acea valoare reala x α R petru care F(x α ) = P(X x α ) = α. (1.4.8)

18 18 Capitolul 1. Elemete itroductive de Statistică (1) Cuatilele sut măsuri de poziţie, ce măsoară locaţia uei aumite observaţii faţă de restul datelor. Aşa cum se poate observa di Figura 1.1, valoarea x α este acel umăr real petru care aria haşurată este chiar α. (2) Î cazul î care X este o variabilă aleatoare discretă, atuci (1.4.8) u are soluţie petru orice α. Îsă, dacă există o soluţie a acestei ecuaţiei F(x) = α, atuci există o ifiitate de soluţii, şi aume itervalul ce separă două valori posibile. Figura 1.1: Cuatila de ordi α. (3) Cazuri particulare de cuatile: petru α = 1/2, obtiem mediaa. Astfel, F(Me) = 0.5. Mediaa (otata Me) este valoarea care imparte repartitia i doua parti i care variabila X ia valori cu probabilitati egale. Scriem asta astfel: P(X Me) = P(X > Me) = 0.5. Petru o variabila care u este simetrica, mediaa este u idicator mai bu decat media petru tedita cetrala a valorilor variabilei. petru α = i/4, i {1, 2, 3}, obtiem cuartilele. Prima cuartila, Q 1, este acea valoare petru care probabilitatea ca X sa ia o valoare la staga ei este Scriem asta astfel: P(X Q 1 ) = Cuartila a doua este chiar mediaa, deci Q 2 = Me. Cuartila a treia, Q 3, este acea valoare petru care probabilitatea ca X sa ia o valoare la staga ei este Scriem asta astfel: P(X Q 3 ) = petru α = j/10, j {1, 2,..., 9}, obtiem decilele. Prima decila este acea valoare petru care probabilitatea ca X sa ia o valoare la staga ei este 0.1. S.a.m.d. petru α = j/100, j {1, 2,..., 99}, obtiem cetilele. Prima cetila este acea valoare petru care probabilitatea ca X sa ia o valoare la staga ei este S.a.m.d. (4) Dacă X N (0, 1), atuci cuatilele de ordi α le vom ota pri z α. Modul (valoarea cea mai probabilă) Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvite, este acea valoare x petru care f (x ) (desitatea de repartiţie sau fucţia de probabilitate) este maximă. O repartiţie poate să u aibă iciu mod, sau poate avea mai multe module. Covariaţa şi coeficietul de corelaţie Coceptul de corelaţie (sau covariaţă) este legat de modul î care două variabile aleatoare tid să se modifice ua faţă de cealaltă; ele se pot modifica fie î aceeaşi direcţie (caz î care vom spue că X 1 şi X 2 sut direct <sau pozitiv> corelate) sau î direcţii opuse (X 1 şi X 2 sut ivers <sau egativ> corelate). Cosideram variabilele X 1, X 2 ce admit mediile, respectiv, µ 1, µ 2. Defiim corelaţia (sau covariaţa) variabilelor X 1 şi X 2, otată pri cov(x 1, X 2 ), catitatea cov(x 1, X 2 ) = E[(X 1 µ 1 )(X 2 µ 2 )]. Daca X 1 si X 2 coicid, sa spuem ca X 1 = X 2 = X, atuci cov(x, X) = σ 2 X. O relaţie liiară ître două variabile este acea relaţie ce poate fi reprezetată cel mai bie pritr-o

19 1.5 Statistici 19 liie. Corelaţia detectează doar depedeţe liiare ître două variabile aleatoare. Putem avea o corelaţie pozitivă, îsemâd că X 1 şi X 2 cresc sau descresc împreuă (vezi cazurile i care ρ = 0.85 sau ρ = 1 i Figura 10.2), sau o corelaţie egativă, îsemâd că X 1 şi X 2 se modifică î direcţii opuse (vezi cazul ρ = 0.98 i Figura 10.2). I cazul ρ = 0.16 di Figura 10.2, u se observa icio tedita, caz i car putem baui ca variabilele u sut corelate. O măsură a corelaţiei ditre două variabile este coeficietul de corelaţie. Acesta este foarte utilizat î ştiiţe ca fiid o măsură a depedeţei liiare ître două variabile. Se umeşte coeficiet de corelaţie al v.a. X 1 şi X 2 catitatea ρ = cov(x 1, X 2 ) σ 1 σ 2, ude σ 1 si σ 2 sut deviatiile stadard petru X 1, respectiv, X 2. Ueori se mai oteaza pri ρ(x 1, X 2 ) sau ρ X1,X 2. Coeficietul de corelatie ia valori itre 1 (perfect egativ corelate) si 1 (perfect pozitiv corelate) si masoara gradul de corelatie liiara ditre doua variabile. Figura 1.2: Reprezetare de date bidimesioale. 1.5 Statistici Cosiderăm o caracteristică de iteres X a uei populaţii statistice şi fie x 1, x 2,..., x u set de date observate petru această caracteristică. Fiecărei date observate x i i se poate asocia o variabilă aleatoare X i, astfel îcât x i devie o posibilă valoarea a variabilei X i. Variabilele aleatoare X 1, X 2,..., X se umesc variabile aleatoare de selecţie şi pot fi iterpretate ca fiid u set de observaţii idepedete asupra variabilei X. Toate aceste variabile de selectie sut idetic repartizate, repartiţia comuă fiid repartiţia variabilei X. Aşadar, X i este o observaţie a variabilei X şi x i este valoarea corespuzătoare observată. Se umeşte statistică (sau fucţie de selecţie) o fucţie de aceste variabile aleatoare de selecţie, i.e., o variabilă aleatoare de forma S (X) = g(x 1, X 2,..., X ), ude g este o fucţie g : R R măsurabilă. Ca o observaţie, umele de statistică este folosit î literatura de specialitate atât petru variabila

20 20 Capitolul 1. Elemete itroductive de Statistică aleatoare de mai sus, cât şi petru valoarea ei, îţelesul exact desprizâdu-se di cotext. Repartiţia uei statistici se mai umeşte şi repartiţia (distribuţia) de selecţie. Î literatură, statistica este otată cu ua ditre următoarele: Valoarea umerică S (X), S(X, ), S(X 1, X 2,..., X ). S (x) = g(x 1, x 2,..., x ) se umeşte valoarea fucţiei de selecţie petru u set dat de observaţii x 1, x 2,..., x. Pri itermediul statisticilor putem trage cocluzii despre populaţia di care a proveit eşatioul observat. Teoria probabilităţilor e oferă procedee de determiare atât a repartiţiei exacte a lui S (X), cât şi a repartiţiei asimptotice a lui S (X). Repartiţia exactă este acea repartiţie ce poate fi determiată petru orice volum al selecţiei. Î geeral, dacă se lucrează cu selecţii de volum redus ( < 30), atuci repartiţia exactă ar trebui să fie cuoscută a priori, dacă se doreşte luarea de decizii pri ifereţă. Repartiţia asimptotică este repartiţia limită a S (X) câd, iar utilizarea acesteia coduce la rezultate bue doar petru 30. De cele mai multe ori, o statistică este utilizată î următoarele cazuri: î probleme de estimare puctuală a parametrilor populaţiei; î obţierea itervalelor de îcredere petru u parametru ecuoscut; ca o statistică test petru verificarea ipotezelor statistice Exemple de statistici Media de selecţie Numim medie de selecţie (de volum ) statistica X = 1 X i. Valoarea mediei de selecţie petru valori ale acestor variabile aleatoare este media empirică: x = 1 x i. Dispersia de selecţie (sau variaţa selecţiei) Numim dispersie de selecţie (de volum ) statistica S 2 (sau SX 2, dacă avem mai multe variabile) defiită pri: S2 = 1 1 [X i X] 2. Valoarea dispersiei de selecţie petru valori ale acestor variabile aleatoare este dispersia (sau variaţia) empirică: simplitate, o vom ota cu s 2 (sau s 2 X, dacă avem mai multe variabile), iar valoarea acesteia petru o selecţie fixată este: s 2 = 1 1 [x i x] 2. î aumite situaţii, î locul lui S 2 se mai utilizează statistica S 2 (X), defiită pri: S 2 (X) = 1 [X i X] 2. Motivaţia petru cosiderarea statisticii S 2 î detrimetul lui S 2 este dată de faptul că prima statistică estimează variaţia teoretică σ 2 mai bie decât cea de-a doua. Aceste statistici satisfac următoarele proprietăţi: Deviaţia stadard de selecţie Numim deviaţie stadard de selecţie (de volum ) statistica S (sau S X, dacă avem mai multe variabile) defiită pri: S = S 2 1 = 1 [X i X] 2.

21 1.6 Legi limită î Teoria Probabilităţilor 21 Valoarea deviaţiei stadard de selecţie este otată cu s (sau s X, dacă avem mai multe variabile), iar valoarea acesteia petru o selecţie fixată este: 1 s = 1 [x i x] 2. Fucţia de repartiţie de selecţie Fie X 1, X 2,..., X variabile aleatoare de selecţie repetată de volum. Numim fucţie de repartiţie de selecţie (de volum ) fucţia F (x) = (x), x R, ude (x) = card {i, X i x} reprezită umărul de elemete di selecţie mai mici sau egale cu x. Relaţia di defiiţie poate fi scrisă şi sub forma: F (x) = 1 χ (,x] (X i ), x R, (1.5.9) ude χ A este fucţia idicatoare a mulţimii A. Petru u x R fixat, F este o variabilă aleatoare repartizată biomial B(, F(x)). Petru o selecţie fixată, F (x) este fucţia de repartiţie empirică, i.e., F (x) = card {i, x i x}. 1.6 Legi limită î Teoria Probabilităţilor Legea tare a umerelor mari Teoremele limită clasice descriu comportarea asimptotică a sumei S, potrivit ormalizată. Legea umerelor mari descrie comportametul asimptotic al uui sir de variabile aleatoare. Î cazul cel mai simplu (si cel mai utilizat i Statistica), i care variabilele aleatoare {X k } k 1 sut idepedete stochastic şi idetic repartizate, cu E(X ) = µ <, N, atuci legea tare a umerelor mari k=1 spue ca sirul {S } 1, cu S = X k satisface covergeta: S a.s. µ. Astfel, deşi variabilele aleatoare idepedete {X k } k 1 pot lua valori depărtate de mediile lor, media aritmetică a uui umăr suficiet de mare de astfel de variabile aleatoare ia valori î veciătatea lui m, cu o probabilitate foarte mare. I Statistica, acest şir de v.a. poate fi privit ca fiid u model petru repetiţii idepedete ale uui experimet aleator, efectuate î aceleasi codiţii. Deşi avem de-a face cu u şir de fucţii ce iau valori îtâmplătoare, suma uui umăr suficiet de mare de variabile aleatoare îşi pierde caracterul aleator. Legea tare a umerelor mari e foarte utilă î metode de simulare tip Mote Carlo Teorema limită cetrală Teorema limita cetrala este u rezultat foarte importat i Statistica. Ea e permite să aproximăm sume de variabile aleatoare idetic repartizate, avîd orice tip de repartiţii (atât timp cât variaţia lor e fiită), cu o variabila aleatoare ormală. Presupuem ca i urma uor masuratori am obtiut datele x 1, x 2,..., x si ca aceste date sut realizarile uor variabile X 1, X 2,..., X. Daca aceste variabile sut ormale, atuci suma acestora (S = i ) cat si media lor (X = X 1. X i ) sut tot variabile ormale, petru orice volum al selectiei,

22 22 Capitolul 1. Elemete itroductive de Statistică Matematic, teorema TLC e spue că, dacă avem u şir de v.a. idepedete stochastic şi idetic repartizate, atuci, petru suficiet de mare, repartiţia asimptotică a sumei S este o variabilă N (µ, σ ). Acest fapt este echivalet cu a spue că variabila aleatoare sumă stadardizată S = S µ σ = S µ S σ S (1.6.10) este o v.a. de repartiţie N (0, 1). Totodată, mai avem că distribuţia variabilei aleatoare medie de selecţie X = S = 1 σ aproximativ ormală N (µ, ). k=1 X k este Aşadar, Teorema limita cetrala spue ca, dacă variabilele X 1, X 2,..., X u sut eapărat ormal repartizate, atuci, petru u volum este suficiet de mare, repartitiile petru S si X tid sa fie tot ormale. Spuem astfel ca repartitiile asimptotice (la limita) petru S si X sut ormale. Cu cat volumul observatiilor este mai mare, cu atat suma sau media lor sut mai aproape de repartitia ormala. Mai mult, daca variabilele X i au aceeasi medie (µ) si aceeasi deviatie stadard σ, atuci media X este o variabila ormala de medie µ X = µ si deviatie stadard σ X = σ. Se observa ca, daca este foarte mare, atuci deviatia stadard a lui X scade, astfel ca valorile sale vor devei foarte apropiate de µ. R Se pue problema: Cât de mare ar trebui să fie petru ca, î practică, teorema limită cetrală să fie aplicabilă? Se pare că u umăr astfel îcât 30 ar fi suficiciet petru aproximarea cu repartiţia ormală deşi, dacă variabilele sut simetrice, aproximarea ar putea fi buă şi petru u umăr mai mic de 30.

23 2. Geerarea î MATLAB a datelor statistice. [Did you hear about the statisticia that could t get laid?. He decided that a simulatio was good eough.] Numerele geerate de MATLAB sut rezultatul compilării uui program deja existet î MAT- LAB, aşadar el vor fi pseudo-aleatoare. Putem face abstracţie de modul programat de geerare ale acestor umere şi să cosiderăm că acestea sut umere aleatoare. 2.1 Geerarea de umere aleatoare î MATLAB Fucţia rad Fucţia rad geerează u umăr aleator repartizat uiform î [0, 1]. De exemplu, comada X = (rad < 0.5) simulează arucarea uei moede ideale. Mai putem spue ca umărul X astfel geerat este u umăr aleator repartizat B(1, 0.5). De asemeea, umărul Y = sum(rad(10,1) < 0.5) urmează repartiţia B(10, 0.5) (simularea a 10 arucări ale uei moede ideale). rad(m, ) geerează o matrice aleatoare cu m compoete repartizate U (0, 1). Comada a + (b a) rad geerează u umăr pseudo-aleator repartizat uiform î [a, b]. Folosid comada s = rad('state'), i se atribuie variabilei s u vector de 35 de elemete, reprezetâd starea actuală a geeratorului de umere aleatoare uiform (distribuite). Petru a schimba starea curetă a geeratorului sau iiţializarea lui, putem folosi comada

24 24 Capitolul 2. Geerarea î MATLAB a datelor statistice Figura 2.1: Reprezetarea cu histograme a datelor uiforme. rad(method, s) ude method este metoda pri care umerele aleatoare sut geerate (aceasta poate fi 'state', 'seed' sau 'twister'), iar s este u umăr atural ître 0 şi , reprezetâd starea iiţializatorului. De exemplu, fucţia rad('state', 125) fixează geeratorul la starea 125. Observaţia 2.1 Pritr-o geerare de umere aleatoare uiform distribuite î itervalul (a, b) îţelegem umere aleatoare care au aceeaşi şasă de a fi oriude î (a, b), şi u umere la itervale egale. Figura 2.1 reprezită cu histograme date uiform distribuite î itervalul [ 2, 3], produse de comada MATLAB: hist(5*rad(1e4,1)-2,100) Fucţia rad Fucţia rad geerează u umăr aleator repartizat ormal N (0, 1). rad(m, ) geerează o matrice aleatoare cu m compoete repartizate N (0, 1). Petru a schimba metoda pri care sut geerate umerele aleatoare ormale sau starea geeratorului, folosim comada: rad(method, s) u umăr atural ître 0 şi , reprezetâd starea iiţializatorului. Comada m + σ rad geerează u umăr aleator repartizat ormal N (m, σ). De exemplu, codul următor produce Figura 2.2: x = 0:0.05:10; y = *rad(1e5,1); % date distribuite N (5, 1.1) hist(y,x) Geerarea de umere aleatoare de o repartiţie cuoscută Comezile MATLAB legerd(<param>, m, ) şi radom( lege, <param>, m, ).

25 2.1 Geerarea de umere aleatoare î MATLAB 25 Oricare ditre cele două comezi geerează o matrice aleatoare, cu m liii şi coloae, avâd compoete umere aleatoare ce urmează repartiţia lege. Î loc de lege putem scrie oricare ditre expresiile di Tabelul 2.1. De exemplu, ormrd (5, 0.2, 100, 10); geerează o matrice aleatoare cu compoete repartizate N (5, 0.2). radom ( poiss,0.01, 200, 50); geerează o matrice aleatoare cu compoete repartizate P(0.01). Utilizâd comada radtool putem reprezeta iteractiv selecţii aleatoare petru diverse repartiţii. Comada deschide o iterfaţă grafică ce reprezită pri histograme selecţiile dorite, petru parametrii doriţi (vezi Figura 2.3). Datele geerate de MATLAB pot fi exportate î fişierul Workspace cu umele dorit. De exemplu, folosid datele di Figura 2.3, am geerat o selecţie aleatoare de de umere ce urmează repartiţia logormală de parametri µ = 2 şi σ = 0.5 şi am salvat-o (folosid butoul Export) îtr-u vector L. Tabelul 2.1 coţie câteva repartiţii uzuale şi fucţiile corespuzătoare î MATLAB. repartiţii probabilistice discrete repartiţii probabilistice cotiue orm: repartiţia ormală N (µ, σ) bio: repartiţia biomială B(, p) uif: repartiţia uiformă cotiuă U (a,b) bi: repartiţia biomială egativă BN(, p) exp: repartiţia expoeţială exp(λ) poiss: repartiţia Poisso P(λ) gam: repartiţia Gamma Γ(a, λ) uid: repartiţia uiformă discretă U () beta: repartiţia Beta β(m,) geo: repartiţia geometrică G eo(p) log: repartiţia logormală logn (µ, σ) hyge: repartiţia hipergeometrică H (,a,b) chi2: repartiţia χ 2 () t: repartiţia studet t() f: repartiţia Fisher F (m, ) wbl: repartiţia Weibull W bl(k, λ) Figura 2.2: Reprezetarea cu histograme a datelor ormale.

26 26 Capitolul 2. Geerarea î MATLAB a datelor statistice Figura 2.3: Iterfaţă petru geerarea de umere aleatoare de o repartiţie dată. Tabela 2.1: Repartiţii uzuale î MATLAB 2.2 Simularea uui experimet aleator Simularea arucării uei moede Petru a simula arucarea uei moede ideale (fiecare faţă are şase egale de apariţie) î MATLAB, vom geera u umăr aleator uiform î (0, 1) şi vom verifica dacă acest umăr este mai mic decât 0.5. Dacă este, putem presupue că a apărut faţa cu stema, altfel a apărut baul. Astfel, comada MATLAB X = (rad < 0.5) simulează arucarea uei moede ideale. Paratezele rotude verifică valoarea de adevăr a propoziţiei di iterior. Rezultatul comezii va fi ori X = 0 (fals) ori X = 1 (adevărat), ceea ce putem presupue că va corespude apariţiei uei aumite feţe a moedei. Dacă X = 1, atuci umărul ales aleator este mai mic decât 0.5, deci a apărut stema, iar dacă X = 0, atuci umărul ales aleator este mai mare decât 0.5, deci a apărut baul. Numărul X astfel geerat este u umăr aleator repartizat Beroulli B(1, 0.5) (similar cu schema bilei reveite, î cazul î care o ură are bile albe şi egre î umăr egal şi extragem o bilă la îtâmplare). Dacă dorim să repetăm experieţa de u umăr de ori, atuci scriem X = sum (rad(,1)<0.5)

27 2.2 Simularea uui experimet aleator 27 Comada aceasta va afişa u umăr atural ître 0 şi, care reprezită umărul de steme apărute la arucarea repetată, î mod idepedet, a uei moede ideale. Numărul X astfel geerat este u umăr aleator repartizat biomial B(, 0.5). Această variabilă aleatoare mai poate fi simulată şi pri comada sau X = biord(,0.5,1,1) X = radom('bio',,0.5,1,1) Exerciţiu 2.1 Dacă experimetul aleator este arucarea uei moede ideale de = 30 de ori, atuci putem simula variabila aleatoare ce reprezită umărul de steme apărute astfel Y = sum (rad(30,1)<0.5) Aceasta urmează repartiţia B(30, 0.5) (simularea a 30 arucări idepedete ale uei moede ideale). Observaţia 2.2 Acelaşi experimet poate fi modelat şi pri comada roud(rad(30,1)) Petru a umăra câte feţe de u aumit tip au apărut, folosim sum(roud(rad(30,1))) Simularea î MATLAB a uei variabile aleatoare de tip discret Să cosiderăm o variabilă aleatoare ce poate avea doar 3 rezultate posibile, a, b şi c, cu probabilităţile de realizare 0.5, 0.2 şi, respectiv, 0.3. Tabloul de repartiţie asociat este: ( a b c X : Petru a modela această variabilă aleatoare î MATLAB, procedăm astfel: alegem uiform la îtâmplare u umăr x di itervalul [0, 1]. Dacă x < 0.5, atuci coveim că rezultatul a s-a realizat, dacă 0.5 < x < 0.7, atuci rezultatul b s-a realizat. Altfel, rezultatul variabilei aleatoare X este c. Dacă acest experimet se repetă de multe ori, atuci rezultatele pot fi folosite î estimarea probabilităţilor de realizare a variabilei aleatoare. Cu cât vom face mai multe experimete, cu atât vom aproxima mai bie valorile teoretice ale probabilităţilor, deci putem spue că am aproximat variabila aleatoare X. Î MATLAB, scriem: syms a b c % declaram a, b si c ca variabile simbolice r = rad; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7) Folosid această metodă, putem simula arucarea uui zar ideal. Avem 6 rezultate posibile, şi aume, apariţia uei feţe cu 1, 2, 3, 4, 5 sau 6 pucte. Petru a simula acest experimet, modificăm î mod coveabil problema. Vom cosidera că puctele di itervalul [0, 1] formează mulţimea tuturor cazurilor posibile şi împărţim itervalul [0, 1] î 6 subitervale de lugimi egale: ), {(0, 16 ), (16, 26 ), (26, 36 ), (36, 46 ), (46, 56 ), (56, 1) }.

28 28 Capitolul 2. Geerarea î MATLAB a datelor statistice corespuzătoare, respectiv, celor şase feţe, să zicem î ordiea crescătoare a puctelor de pe ele. Vom vedea mai târziu (vezi metoda Mote Carlo) ca alegerea acestor itervale cu capete îchise, deschise sau mixte u are efect practic asupra calculului probabilităţii dorite. Acum, dacă dorim să simulăm î MATLAB apariţia feţei cu 3 pucte la arucarea uui zar ideal, vom alege (comada rad) u umăr "la îtâmplare" di itervalul [0, 1] şi verificăm dacă acesta se află î itervalul ( 2 6, 3 6 ). Aşadar, comada MATLAB u = rad; (u < 3/6 & u > 2/6) simulează arucarea uui zar ideal. Ca o observaţie, deoarece cele 6 feţe sut idetice, putem simplifica această comada şi scrie (rad < 1/6). Fucţiile floor, ceil, roud, fix Sut fucţii folosite petru geerarea de umere aleatoare îtregi. De exemplu, fucţia floor(x) este partea îtreagă a lui x. Astfel, comezile floor(11*rad(20,1)); ceil(11*rad(20,1)); geerează fiecare câte 20 de umere îtregi ître 0 şi 10, distribuite uiform discret. Difereţa ditre cele două fucţii este ca floor(x) face rotujirea la umărul îtreg aflat la stâga lui x, pe câd ceil(x) face rotujirea la umărul îtreg aflat la dreapta lui x. Fucţiile roud(x) şi fix(x) rotujesc umărul real x la cel mai apropiat umăr îtreg, î direcţia lui ±, respectiv, î direcţia lui zero. Petru geerarea de umere îtregi î MATLAB, mai putem folosi următoarele comezi: radsample(populatie, k) radsample(, k) radsample(populatie, k, replace) Prima comadă geerează o selecţie uiformă (discretă) erepetată de k umere aturale alese aleator di vectorul populatie. Dacă î locul vectorului populatie este (comada a doua), atuci se realizează o selecţie uiformă erepetată de k umere di mulţimea {1, 2,..., }. A treia comadă e dă posibilitatea să cotrolăm dacă selecţia este sau u este repetată. Dacă variabila replace este true sau 1, atuci selecţia obţiută este ua repetată, iar dacă variabila replace este false sau 0, atuci selecţia obţiută este ua erepetată. De exemplu, comada radsample([50:2:100], 10, 0) geerează o selecţie erepetată de 10 umere pare ître 50 şi 100: Vectorul X dat de X = radperm() este o permutare aleatoare a elemetelor mulţimii {1, 2,..., }.

29 2.3 Repartiţii probabilistice î MATLAB Repartiţii probabilistice î MATLAB Fucţia de probabilitate (petru v.a. discrete) şi desitatea de repartiţie (petru v.a. cotiue) (ambele otate aterior pri f (x)) se itroduc î MATLAB cu ajutorul comezii pdf, astfel: pdf('lege', x, <param>) sau LEGEpdf(x, <param>) Fucţia de repartiţie F(x) a uei variabile aleatoare se poate itroduce î MATLAB cu ajutorul comezii cdf, astfel: cdf('lege', x, <param>) sau LEGEcdf(x, <param>) Iversa fucţiei de repartiţie petru repartiţii cotiue, F 1 (y), se itroduce cu comada icdf, astfel: icdf('lege', y, <param>) sau LEGEiv(y, <param>) Î comezile de mai sus, LEGE poate fi oricare ditre legile de repartiţie di Tabelul 2.1, x este u scalar sau vector petru care se calculează f (x) sau F(x), y este u scalar sau vector petru care se calculează F 1 (y), iar <param> este u scalar sau u vector ce reprezită parametrul (parametrii) repartiţiei cosiderate. Observaţia 2.3 Fie X o variabilă aleatoare şi F(x, θ) fucţia sa de repartiţie, θ fiid parametrul repartiţiei. Petru u x R, relaţia matematică o putem scrie astfel î MATLAB: P(X x) = F(x) cdf('umele repartiµiei lui X',x,θ). (2.3.1) Problema poate aparea la evaluarea î MATLAB a probabilităţii P(X < x). Dacă repartiţia cosiderată este ua cotiuă, atuci corespodetul î MATLAB este tot (2.3.1), deoarece î acest caz P(X x) = P(X < x) + P(X = x) = P(X < x). De exemplu, dacă X N (5, 2), atuci Dacă X este de tip discret, atuci P(X < x) = { P(X [x]) P(X < 4) = cdf('orm', 4, 5, 2)., x u e îtreg P(X m 1), x = m Z, ude [x] este partea îtreagă a lui x. De exemplu, dacă X B(10, 0.3), atuci P(X < 5) = P(X 4) = cdf('bio', 4, 10, 0.3) =

30 30 Capitolul 2. Geerarea î MATLAB a datelor statistice 2.4 Exerciţii rezolvate Exerciţiu 2.2 U sodaj prelimiar a determiat că 42% ditre persoaele cu drept de vot ditr-o aumită ţară ar vota cadidatul C petru preşediţie. Alegem la îtâmplare 200 de votaţi. Care este probabilitatea ca u procet ditre aceştia, situat ître 40% şi 50%, îl vor vota pe C la preşediţie? Soluţie: Să otăm cu p = 0.42 şi cu X variabila aleatoare ce reprezită umărul de votaţi ce au ales cadidatul C, di selecţia aleatoare de volum = 200 cosiderată. Este clar că X B(, p). Se cere probabilitatea P(80 X 100) (deoarece 40% di 200 îseamă 80 etc). Deoarece X este o variabilă aleatoare discretă, avem că: P = P(80 X 100) = P(X 100) P(X < 80) = F X (100) F X (79), ude F X este fucţia de repartiţie a lui X. Î MATLAB: P = biocdf(100, 200, 0.42) - biocdf(79, 200, 0.42) = Exerciţiu 2.3 Ditre spectatorii prezeţi pe u aumit stadio la u meci de fotbal, u procet de 20% sut femei. La o tombola orgaizată petru spectatori, u computer alege la îtâmplare umerele a 7 bilete de itrare şi se premiază posesorii. (i) Care este probabilitatea ca măcar 3 ditre spectatorii premiaţi să fie femei? (ii) Care este probabilitatea ca icio femeie să u câştige la tombolă? (iii) Dacă selecţia biletelor câştigătoare ar fi fost realizată pri alegerea a 7 spectatori ce erau aşezaţi î şir, pe u acelaşi râd ales la îtâmplare, argumetaţi dacă probabilităţile găsite la (i) si (ii) rămâ aceleaşi. Soluţie: Experimetul aleator cosiderat este alegerea uui bilet de itrare. Acest experimet se repeta i aceleasi coditii, i mod idepedet, de 7 ori. Desi extragerile se fac fara ca biletul ales sa fie reitrodus i ura, putem cosidera ca extragerile se fac cu repetitie, datorita faptului ca umarul de extrageri (7) este mult mai mic decat umarul de spectatori de pe stadio (ecuoscut i problema, dar cu sigurata este mult mai mare decat 7). Aceasta covetie este des italita i Statistica, atuci cad volumul esatioului cosiderat () este mult mai mic decat volumul populatiei di care se extrage esatioul, N. Scriem i acest caz ca N. I practica, aceasta are loc atuci cad < 0.05N. Asadar, coveid ca extragerile se fac cu repetitie, putem cosidera ca sutem i cazul schemei bilei reveite. Eveimetul aleator de iteres (legat de experimetul aleator) este ca biletul ales la itamplare sa fie i posesia uei femei. Di ipoteza, probabilitatea ca itr-o proba eveimetul sa se realizeze itr-o sigura proba este p = 0.2. Notam cu X variabila ce reprezită umărul de femei ce apar la alegerea la îtâmplare a 7 spectatori. (i) I limbajul cu bile si ura, eveimetul compus măcar 3 ditre spectatorii premiaţi să fie femei este echivalet cu aparitia a cel puti 3 bile albe di 7 extrageri cu repetitie, stiid ca probabilitatea de a aparitie a uei bile albe la o sigura extragere este p = 0.2. Astfel, probabilitatea exeimetului este: P(X 3) = 1 P(X < 3) = 1 P(X 2) = (i MATLAB, biocdf(3,7,0.2) ) (ii) Eveimetul cerut este scris simbolic {X = 0} si are probabilitatea P(X = 0) = C 0 7 p 0 (1 p) 7 = (i MATLAB, biopdf(0,7,0.2) )

31 2.4 Exerciţii rezolvate 31 (iii) Î acest caz, probabil ca probabilitatile de mai sus u mai sut aceleasi, deoarece alegerea spectatorilor u mai este aleatorie (spectatorii aşezaţi alături pot fi cuoştite, prietei etc.). Exerciţiu 2.4 O compaie idepedetă de evaluări statistice a estimat ca u aumit cadidat are 25% şase să câştige alegerile locale. Dorim să efectuăm u alt sodaj de opiie care să verifice rezultatul compaiei. Determiaţi care ar trebui să fie volumul miim de selecţie petru ca, cu o probabilitate de cel puţi 0.97, procetul de alegători ce iteţioează să-l voteze pe respectivul cadidat se îcadrează ître valorile 20% şi 30%. Determiaţi volumul miim folosid două metode: teorema lui Cebâşev şi teorema limită cetrală. Soluţie: Să otăm cu ν umărul de votaţi (di aleşi aleator) care votează cu respectivul cadidat. Se cere cel mai mic N petru care ( P 0.2 ν ) , echivalet cu ( ν ) P (i) Observăm că variabila aleatoare ν B(, 0.25), de ude E(ν ) = 4 şi Var(ν ) = Aşadar, E( ν ) = 0.25, Var(ν ) = Folosim iegalitatea lui Cebâşev petru X = ν, a = Găsim că: ( ν ) P Var ( ν ) = Impuem codiţia , de ude obţiem că (ii) Căutăm astfel îcât ( P 0.05 ν ) = (2.4.2) Ne aşteptăm ca valoarea lui să fie mare, deci putem aplica Teorema limită cetrală. Aplicâd TLC, scriem că variabila aleatoare stadardizată ν E(ν ) σ(ν ) Folosid aceasta, rescriem egalitatea (2.4.2) astfel: ( 0.97 = P 0.05 ν ) ( = P ( ) ( ) = Θ 0.2 Θ ( ) [ ( = Θ Θ = 4 ν N (0, 1). 3 4ν )] ( = 2Θ 0.2 ) 3 3 ) 1 de ude Θ ( 0.2 3) = şi = z (cuatila de ordi petru repartiţia ormală stadard). Di ultima egalitate găsim că Î MATLAB, calculăm astfel:

32 32 Capitolul 2. Geerarea î MATLAB a datelor statistice = 3*(ormiv(0.985,0,1)/0.2)^2 Aşadar, petru ca relaţia di euţ să aibă loc, va trebui ca 354. Observăm, di ou, că această valoare este mult mai mică decât cea găsită aterior. Exerciţiu 2.5 U cetăţea turmetat pleacă de la bar spre casă. Să presupuem că puctul de plecare este puctul O de pe axa orizotală şi se mişcă doar pe această axă astfel: î fiecare uitate de timp, acesta ori face u pas la stâga, cu probabilitatea 0.5, ori face u pas la dreapta, cu probabilitatea 0.5, idepedet de paşii ateriori. Folosid Teorema limită cetrală, estimaţi probabilitatea ca, după 100 de paşi, acesta u a ajus la mai mult de doi paşi de puctul de plecare. Soluţie: Fie X i variabila aleatoare ce reprezită pasul pe care cetăţeaul îl face la mometul i (i N). Să atribuim X = 1, dacă face u pas la stâga, şi X = 1, dacă face u pas la dreapta. Aşadar, X este o variabilă aleatoare discretă ce poate lua doar două valori, 1 şi 1, ambele cu probabilitatea 0.5. Se calculează cu uşuriţă, E(X) = 0 şi D 2 (X) = 1. Sutem iteresaţi să aflăm ce se îtâmplă după 100 de paşi. Cosiderăm mai îtâi S = E(S ) = E(X i ) = 0 şi D 2 (S ) = X i. Atuci, D 2 (X i ) =, deoarece {X i }, sut idepedete. Petru 30, Teorema limită cetrală spue că S N (0, ). Petru = 100, S 100 N (0, 10). Probabilitatea cerută este: P( S 100 2) = P( 2 S 100 2) = F S100 (2) F S100 ( 2) = ormcdf(2,0,10)-ormcdf(-2,0,10) = Folosid următorul cod, putem simula î MATLAB mişcarea aleatorie (vezi Figura 2.4): N = iput('n = '); X = 2*(rad(N,1)<0.5)-1; S = cumsum(x); plot(1:n, S, '-') Z=legth(fid(S == 0)) % umar de pasi % simuleaza pasii la fiecare momet % simuleaza ude a ajus dupa fiecare pas % reprezita miscarea % umarul de reitoarceri la bar 2.5 Exerciţii propuse Exerciţiu 2.6 Temperatura T ( 0 C) ditr-u aumit proces chimic are repartiţia U ( 5, 5). Calculaţi P(T < 0); P( 2.5 < T < 2.5); P( 2 T 3). Exerciţiu 2.7 Temperatura de topire a uui aumit material este o v.a. cu media de 120 o C şi deviaţia stadard de 2 o C. Determiaţi temperatura medie şi deviaţia stadard î o F, ştiid că o F = 1.8 o C Exerciţiu 2.8 Dacă Z N (0, 1), calculaţi: P(Z 1.35); P(0 Z 1); P(1 Z); P( Z > 1.5). Exerciţiu 2.9 Calculaţi cuartilele repartiţiei N (0, 1). De asemeea, calculaţi z 0.95 şi z Exerciţiu 2.10 O pereche de zaruri ideale este arucată de 200 de ori. Care este probabilitatea să obţiem o sumă de 7 î cel puţi 20% ditre cazuri?

33 2.5 Exerciţii propuse 33 Figura 2.4: Mişcare aleatoare (browiaă) 1D. Exerciţiu 2.11 Simulaţi î MATLAB variabila aleatoare discretă X ce are tabloul de distribuţie: ( X : 1 4 Găsiţi şi reprezetaţi grafic fucţia de repartiţie F(x) a variabilei aleatoare X. Calculaţi F( 1 2 ). Exerciţiu 2.12 O compaie de asigurări oferă agajaţilor săi diverse poliţe de asigurare. Petru u asigurat ales aleator, otăm cu X umărul de lui scurs ître două plăţi succesive. Fucţia de repartiţie a lui X este: 0,x < 1; ). 0.3,1 x < 3; 0.4,3 x < 4; F(x) = 0.45,4 x < 6; 0.65,6 x < 12; 1,12 x. (a) Determiaţi fucţia de probabilitate a lui X. (b) Calculaţi P(3 X 6) şi P(4 X). Exerciţiu 2.13 Petru evaluarea rezultatelor obtiute la teza de Matematica de catre elevii uei aumite scoli, se face u sodaj de volum 35 pritre elevii scolii, iar otele lor sut sumarizate i Tabelul 2.2. ote frecveta Tabela 2.2: Medii geerale si frecvete (i) Sa se scrie si sa se reprezite grafic fuctia de repartitie petru aceasta selectie; (ii) Notam cu X variabila aleatoare care guvereaza populatia. Utilizad selectia de mai sus, sa se aproximeze probabilitatea P(6 X 8).

34 34 Capitolul 2. Geerarea î MATLAB a datelor statistice Exerciţiu 2.14 Datele di tabelul de mai jos reprezită procetul de şomeri ditr-o aumită regiue a ţării, petru aumite categorii de vârstă. Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65) Procet Folosid MATLAB, geeraţi o selecţie aleatoare de volum 275, ţiâd cot de repartiţia datelor.

35 3. Elemete de Statistică descriptivă. [Statistics is like a bikii; what is revealed. is iterestig, but what is cocealed is crucial.] Statistica descriptivă este acea ramură a Statisticii care se preocupă de descrierea datelor statistice, pri gruparea, reprezetarea grafică şi calcularea uor măsuri empirice ale formei sau tediţei datelor. Este primul pas pe care il face u statisticia ce urmareste sa extragă iformatii ditr-u set de date. Daca datele statistice sut egrupate, atuci se prefera o grupare a lor i clase, petru o mai bua observare a lor. Dupa gruparea i clase (care este la latitudiea statisticiaului), datele sut asezate i tabele de frecvete. Aceste tabele pot cotie, pe laga clasele costruite, frecvete absolute, frecvete relative, frecvete cumulate, frotierele claselor, valorile de mijloc. Ueori doar u sigur tip de frecvete este suficiet petru a cotiua aaliza datelor. U exemplu de tabel de frecvete este Tabelul 5.1. Exista mai multe optiui petru reprezetarea grafica a datelor, i fuctie de tipul de date pe care le avem. Spre exemplu, petru date discrete sut preferate reprezetarile cu bare sau cu sectoare de disc. Dupa caz, mai pot fi folosite reprezetari cu pucte sau stem&leaf. Petru date cotiue se folosesc histograme sau sectoare de disc. 3.1 Orgaizarea şi descrierea datelor Presupuem că avem o colectivitate statistică, căreia i se urmăreşte o aumită caracteristică (sau variabila). Spre exemplu, colectivitatea este mulţimea tuturor studeţilor ditr-o uiversitate îrolaţi î aul îtâi de master, iar caracteristica este media la liceţă obţiută de fiecare ditre aceşti studeţi. Teoretic, mulţimea valorilor acestei caracteristici este itervalul [6, 10], iar aceasta variabila poate lua orice valoare di acest iterval. Vom umi date (sau date statistice) iformaţiile obţiute î urma observarii valorilor acestei caracteristici. I cazul metioat mai sus, datele sut mediile la liceţă observate. Î geeral,

36 36 Capitolul 3. Elemete de Statistică descriptivă datele pot fi calitative (se mai umesc şi categoriale) sau catitative, după cum caracteristica (sau variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, catitativă (are o valoare umerica). Totodata, aceste date pot fi date de tip discret, dacă sut obţiute î urma observării uei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale carei posibile valori sut i umar fiit sau cel mult umarabil), sau date cotiue, dacă această caracteristică este cotiuă (o variabilă aleatoare de tip cotiuu, sau o variabila ce poate lua orice valoare ditr-u iterval sau chiar de pe axa reala). Î cazul di exemplul de mai sus, datele vor fi catitative şi cotiue. Î Statistică se obisuieste a se ota variabilele (caracteristicile) cu litere mari, X, Y, Z,..., si valorile lor cu litere mici, x, y, z,... I mare parte di acest curs vom folosi otatia Z petru variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca i exemplul de mai sus otam cu Z variabila medie la liceta, atuci u aume z observat va fi media la liceta petru u studet di colectivitate ales aleator. Primul pas î aaliza datelor empirice observate este o aaliza descriptiva, ce costa i ordoarea şi reprezetarea grafica a datelor, dar şi î calcularea aumitor caracteristici umerice petru acestea. Datele îaite de prelucrare, adică exact aşa cum au fost culese, se umesc date egrupate. U exemplu de date egrupate (de tip cotiuu) sut cele observate i Tabelul 3.1, reprezetâd timpi (î mi.sec) de aşteptare petru primii 100 de clieţi care au aşteptat la u ghişeu pâă au fost serviţi Tabela 3.1: Date statistice egrupate De cele mai multe ori, eumerarea tuturor datelor culese este dificil de realizat, de aceea se urmăreşte a se grupa datele, petru o mai uşoară gestioare. Imagiaţi-vă că eumerăm toate voturile uei selecţii îtâmplătoare de de votaţi, abia ieşiţi de la vot. Mai degrabă, ar fi mai util şi practic să grupăm datele după umele cadidaţilor, precizâd umărul de voturi ce l-a primit fiecare. Asadar, petru o mai bua descriere a datelor, este ecesara gruparea lor i clase de iteres Gruparea datelor Datele prezetate sub formă de tabel (sau tablou) de frecveţe se umesc date grupate. Datele de selecţie obţiute pot fi date discrete sau date cotiue, după cum caracteristicile studiate sut variabile aleatoare discrete sau, respectiv, cotiue. (1) Date de tip discret: Dacă datele de selecţie sut discrete (e.g., {z 1, z 2,..., z }), este posibil ca multe ditre ele sa se repete. Presupuem ca valorile disticte ale acestor date sut z 1, z 2,..., z r, r. Atuci, putem grupa datele îtr-u aşa-umit tabel de frecveţe (vezi exemplul di Tabelul 6.4). Alterativ, putem orgaiza datele egrupate îtr-u tabel de frecveţe, după cum urmează: data z 1 z 2... z r frecveta f 1 f 2... f r (3.1.1)

37 3.1 Orgaizarea şi descrierea datelor 37 ota frecveţa absolută frecveţa cumulată frecveţa relativă frecveţa relativă cumulată % 2.22% % 6.66% % 15.55% % 32.22% % 52.22% % 71.11% % 87.78% % 95.56% % 100% Total % - Tabela 3.2: Tabel cu frecveţe petru date discrete. ude f i este frecveţa apariţiei valorii z i, (i = 1, 2,..., r), şi se va umi distribuţia empirică de selecţie a lui Z. Aceste frecveţe pot fi absolute sau de relative. U tabel de frecveţe (sau o distribuţie de frecveţe) coţie cel puţi două coloae: o coloaă ce reprezită datele observate (grupate î clase) şi o coloaă de frecveţe. Î prima coloaă apar clasele, adică toate valorile disticte observate. Datele di această coloaă u se repetă. Pri frecveţa absolută a clasei îţelegem umărul de elemete ce aparţie fiecărei clase î parte. De asemeea, u tabel de frecveţe mai poate coţie frecveţe relative sau cumulate. O frecveţă relativă se obţie pri împărţirea frecveţei absolute a uei categorii la suma tuturor frecveţelor di tabel. Astfel, suma tuturor frecveţelor relative este egală cu 1. Frecveţa (absolută) cumulată a uei clase se obţie pri cumularea tuturor frecveţelor absolute pâă la (iclusiv) clasa respectivă. Frecveţa relativă cumulată a uei clase se obţie pri cumularea tuturor frecveţelor relative pâă la (iclusiv) clasa respectivă. Aşadar, elemetele uui tabel de frecveţe pot fi: clasele (ce coţi valori petru variabile), frecveţe absolute, frecveţe relative sau cumulate. Îtr-u tabel, u este obligatoriu să apară toate coloaele cu frecveţe sau ele să apară î această ordie. Vom umi o serie de timpi (sau serie diamică ori croologică) u set de date culese la momete diferite de timp. O putem reprezeta sub forma uui tablou de forma data : ( z1 z 2... z t 1 t 2... t ), ude z i sut valorile caracteristicii, iar t i momete de timp (e.g., răspusurile citite de u electrocardiograf). Î Tabelul 6.4, sut prezetate otele studeţilor di aul al III-lea la exameul de Statistică. Acesta este exemplu de tabel ce reprezetă o caracteristică discretă. (o glumă povestită de G. Pólya, 1 despre cum NU ar trebui iterpretată frecveţa relativă) U idivid suferid merge la medic. Medicul îl examiează îdelug şi, balasâd dezamăgit capul, îi spue pacietului: "Offf... dragă domule paciet, am două veşti: ua foarte proastă şi ua buă. Mai îtâi vă aduc la cuoştiţă vestea proastă: suferiţi de o boală groazică. Statistic vorbid, di zece pacieţi ce cotractează această boală, doar uul scapă." Pacietul, deja î culmea disperării, este totuşi cosolat de doctor cu vestea cea buă: "Dar, fiţi pe pace! Dumeavoastră aţi veit la mie, şi asta vă face tare orocos", cotiuă optimist doctorul. "Am avut deja ouă pacieţi ce au avut aceeaşi boală şi toţi au murit, aşa că... veţi supravieţui!" 1 György Pólya ( ), matematicia ugur

38 38 Capitolul 3. Elemete de Statistică descriptivă (2) Date de tip cotiuu: Dacă datele statistice sut realizări ale uei variabile Z de tip cotiuu, atuci se obişuieste să se facă o grupare a datelor de selecţie î clase. Datele de tip cotiuu pot fi grupate îtr-u tablou de distribuţie sau sub forma uui tabel de distribuţie, dupa cum urmeaza: clasa frecveţa valoare medie [a 0,a 1 ) f 1 z 1 [a 1,a 2 ) f 2 z 2 data [a 0,a 1 ) [a 1,a 2 )... [a r 1,a r ) frecveta f 1 f 2... f r... [a r 1,a r ) f r z r Tabela 3.3: Tabel cu frecveţe petru date de tip cotiuu. Î particular, putem grupa datele de tip cotiuu di Tabelul 3.1 î tabloul de distribuţie următor: data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) frecveta Aceasta grupare u este uica; itervalele ce reprezita clasele pot fi modificate dupa cum doreste utilizatorul. Ueori, tabelul de distribuţie petru o caracteristică de tip cotiuu mai poate fi scris şi sub forma uui tabel ca i (3.1.1), ude z i = a i 1 + a i 2 este elemetul de mijloc al clasei [a i 1, a i ); f i este frecveţa apariţiei valorilor di [a i 1, a i ), (i = 1, 2,..., r), r f i =. Petru defiirea clas elor uui tabel de frecveţe, u există o regulă precisă. Fiecare utilizator de date îşi poate crea propriul tabel de frecveţe. Scopul fial este ca acest tabel să scoată î evideţă caracteristicele datelor, cum ar fi: existeţa uor grupe (clase) aturale, variabilitatea datelor îtr-u aumit grup (clasă), iformaţii legate de existeţa uor aumite date statistice care u au fost observate i selecţia dată etc. Î geeral, aceste caracteristici u ar putea fi observate privid direct setul de date egrupate. Totuşi, petru crearea tabelelor de frecveţe, se recomadă următorii paşi: 1. Determiarea umărului de clase (disjucte). Este recomadat ca umărul claselor să fie ître 5 şi 20. Dacă volumul datelor este mic (e.g., < 30), se recomadă costituirea a 5 sau 6 clase. De asemeea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezetată de cel puţi 5 valori (petru u umăr mic de clase). Dacă umărul claselor este mai mare, putem avea şi mai puţie date îtr-o clasă, dar u mai puţi de 3. O clasă cu prea puţie valori (0, 1 sau 2) poate să u fie reprezetativă. 2. Determiarea lăţimii claselor. Dacă este posibil, ar fi bie dacă toate clasele ar avea aceeaşi lăţime. Acest pas depide, î mare măsură, de alegerea di pasul aterior. 3. Determiarea frotierelor claselor. Frotierele claselor sut costruite astfel îcât fiecare dată statistică să aparţie uei sigure clase. Î practică, u tabel de frecveţe se realizează pri îcercări, pâă avem covigerea că gruparea făcută poate surpride cât mai fidel datele observate. Aşadar, dacă e este dată o îşiruire de date ale uei caracteristici discrete sau cotiue, atuci le putem grupa imediat î tabele sau tablouri de frecveţe. Ivers (avem tabelul sau tabloul de repartiţie şi vrem să eumerăm datele) u este posibil, decât doar î cazul uei caracteristici de tip discret. De exemplu, dacă i se dă Tabelul 5.1, ce reprezită rata somajului îtr-o aumită regiue a ţării pe categorii de vârste, u am putea şti cu exactitate vârsta exactă a persoaelor care au fost selecţioate petru studiu. Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom umi valoare de mijloc petru o clasă, valoarea obţiută pri media valorilor extreme ale clasei. Î cazul

39 3.2 Reprezetarea datelor statistice 39 vârsta frecveţa frecveţa relativă frecveţa cumulată vârsta medie [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 3.4: Tabel cu frecveţe petru rata somajului. Tabelului 5.1, valorile de mijloc sut scrise î coloaa cu vârsta medie. Frecveţa cumulată a uei clase este suma frecveţelor tuturor claselor cu valori mai mici. 3.2 Reprezetarea datelor statistice U tabel de frecveţe sau o distribuţie de frecveţe (absolute sau relative) sut de cele mai multe ori baza uor reprezetări grafice, petru o mai buă vizualizare a datelor. Aceste reprezetări pot fi făcute î diferite moduri, ditre care amitim pe cele mai uzuale Reprezetare pri pucte Reprezetarea pri pucte (e., dot plot) este folosită, de regula, petru selecţii de date de tip discret de dimesiui mici. Sut reprezetate pucte aşezate uul peste celalalt, reprezetâd umărul de apariţii ale uei valori petru caracteristica dată. U astfel de grafic este reprezetat î Figura 3.1. Aceste reprezetări sut utile atuci câd se doreşte scoaterea î evideţă a aumitor pâlcuri de date (e., clusters) sau chiar lipsa uor date (goluri). Au avatajul de a coserva valoarea umerică a datelor reprezetate. Figura 3.1: Reprezetarea cu pucte Reprezetarea stem-ad-leaf Este folosita, de asemeea, petru date de tip discret, de selectii de volum relativ mic. Următorul set de date egrupate reprezita puctajele (di 100 de pucte) obţiute de cei 20 de elevi ai uui a de studiu la o testare semestrială: Tabelul 3.3 reprezită aceste date sub forma stem-ad-leaf (ramură-fruză). Se observă că acest tabel arată atât cum sut repartizate datele, cât şi forma repartiţiei lor (a se privi graficul că avâd pe OY drept axa absciselor şi OX pe cea a ordoatelor). Aşadar, 7 5 semifică u puctaj de 75. Petru u volum prea mare de date, această reprezetare u este cea mai buă metodă de vizualizare a datelor. Î secţiuile următoare vom prezeta şi alte metode utile.

40 40 Capitolul 3. Elemete de Statistică descriptivă stem leaf Figura 3.2: Reprezetarea datelor discrete. Figura 3.3: Tabel stem-ad-leaf reprezetâd puctajele studeţilor Reprezetarea cu bare (bar charts) Este utilă petru reprezetarea variabilelor discrete cu u umăr mic de valori diferite. Barele sut dreptughiuri ce reprezită frecveţele şi u sut uite ître ele. Fiecare dreptughi reprezită o sigură valoare. Îtr-o reprezetare cu bare, categoriile sut plasate, de regulă, pe orizotală iar frecveţele pe verticală. Î Figura sut reprezetate datele di tabelul cu ote. Se poate schimba orietarea categoriilor şi a claselor; î acest caz barele vor apărea pe orizotală (vezi Figura ). Figura 3.4: Reprezetări cu bare verticale sau orizotale. Figura 3.5 cotie o reprezetare de date folosid bare 3D.

41 3.2 Reprezetarea datelor statistice 41 Figura 3.5: Reprezetare 3D pri bare Histograme Cuvâtul "histogramă" a fost itrodus petru prima oară de Karl Pearso 2 î Acesta derivă di cuvitele greceşti histos (gr., ridicat î sus) şi gramma (gr., dese, îregistrare). O histogramă este o formă pictorială a uui tabel de frecveţe, foarte utilă petru selecţii mari de date de tip cotiuu. Se aseamăă cu reprezetarea pri bare, cu următoarele două difereţe: u există spaţii ître bare (deşi, pot apărea bare de îalţime zero ce arată a fi spaţiu liber) şi ariile barelor sut proporţioale cu frecveţele corespuzătoare. Numărul de dreptughiuri este egal cu umărul de clase, lăţimea dreptughiului este itervalul clasei, iar îălţimea este aşa îcât aria fiecărui dreptughi reprezită frecveţa. Aria totală a tuturor dreptughiurilor este egală cu umărul total de observaţii. Dacă barele uei histograme au toate aceeaşi lăţime, atuci îălţimile lor sut proporţioale cu frecveţele. Îălţimile barelor uei histogramei se mai umesc şi desităţi de frecveţă. Î cazul î care lăţimile barelor u sut toate egale, atuci îălţimile lor satisfac: îălţimea = k frecveţa lăţimea clasei, k = factor de proporţioalitate. Să presupuem că am fi grupat datele di Tabelul 3.5 îtr-o altă maieră, î care clasele u sut echidistate (vezi Tabelul 3.7). Î Tabelul 3.7, datele di ultimele două clase au fost cumulate îtr-o sigură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă di Tabelul 3.5 u avea suficiete date. Histograma ce reprezită datele di Tabelul 3.7 este cea di Figura 3.8. Coform cu regula proporţioalităţii ariilor cu frecveţele, se poate observa că primele patru bare au îălţimi egale cu frecveţele corespuzătoare, pe câd îălţimea ultimei bare este jumătate di valoarea frecveţei corespuzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte. 2 Karl Pearso ( ), statisticia, avocat şi eugeist britaic

42 42 Capitolul 3. Elemete de Statistică descriptivă Îălţimea (î cm) frecveţa [0, 5) 5 [5, 10) 13 [10, 15) 23 [15, 20) 17 [20, 25) 10 [25, 30) 2 Tabela 3.5: Tabel cu îălţimile platelor. Tabela 3.6: Histograme petru datele di Tabelul 3.5. Î geeral, petru a costrui o histogramă, vom avea î vedere următoarele: datele vor fi împărţite (ude este posibil) î clase de lugimi egale. Ueori aceste divizări sut aturale, alteori va trebui să le fabricăm. umărul de clase este, î geeral, ître 5 şi 20. îregistraţi umărul de date ce cad î fiecare clasă (umite frecveţe). figura ce coţie histograma va avea clasele pe orizotală şi frecveţele pe verticală. Figura 3.6: Histogramă 3D. Îălţimea (î cm) frecveţa [0, 5) 5 [5, 10) 13 [10, 15) 23 [15, 20) 17 [20, 30) 12 Tabela 3.7: Tabel cu îălţimile platelor. Tabela 3.8: Histograme petru datele di Tabelul 3.7. Observaţia 3.1 (1) Dacă lugimea uei clase este ifiită (e.g., ultima clasă di Tabelul 3.7 este [20, )), atuci se obişuieşte ca lăţimea ultimului iterval să fie luată drept dublul lăţimii itervalului precedet. (2) Î multe situaţii, capetele itervalelor claselor sut işte aproximări, iar î locul acestora vom putea utiliza alte valori. Spre exemplu, să cosiderăm clasa [15, 20). Această clasă reprezită clasa acelor plate ce au îălţimea cuprisă ître 15cm şi 20cm. Deoarece valorile îălţimilor sut valori reale, valorile 15 şi 20 sut, de fapt, aproximările acestor valori la cel mai apropiat îtreg. Aşadar,

43 3.2 Reprezetarea datelor statistice 43 îălţimea (î cm) frotierele lăţimea frecveţa desitatea de frecveţă [18, 25) [25, 35) [35, 45) [45, 55) [55, 65) Tabela 3.9: Tabel cu frotierele claselor. este posibil ca această clasă să coţiă acele plate ce au îălţimile situate ître 14.5cm (iclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiid valorile reale ale clasei, umite frotierele clasei. Î cazul î care am determiat frotierele clasei, lăţimea uei clase se defieşte ca fiid difereţa ître frotierele ce-i corespud. Î cocluzie, î cazul clasei [15, 20), aceasta are frotierele , lăţimea 6 şi frecveţa Petru exemplificare, î Tabelul 3.9 am prezetat frotierele claselor, lăţimile lor şi desităţile de frecveţă petru datele di Tabelul Reprezetare pri sectoare de disc (pie charts) Se poate reprezeta distribuţia uei caracteristici şi folosid sectoare de disc (diagrame circulare) (e., pie charts), fiecare sector de disc reprezetâd câte o frecveţă relativă. Această variată este utilă î special la reprezetarea datelor calitative. Există şi posibilitatea de a reprezeta datele pri sectoare 3 dimesioale. Î Figura 3.8 am reprezetat datele di Tabelul 5.1. Figura 3.7: Reprezetarea pe disc a frecveţelor relative ale otelor di tabelul cu ote Figura 3.8: Reprezetare pe disc 3D

44 44 Capitolul 3. Elemete de Statistică descriptivă Ogive Petru frecvetele cumulate pot fi folosite ogive. O ogivă reprezită graficul uei frecveţe cumulate (absolută sau relativă). X = [ ]; plot(2:10, cumsum(x), '*-') Figura 3.9: Ogiva petru frecveţele absolute cumulate di Tabelul 6.4

45 3.3 Măsuri descriptive ale datelor egrupate Diagrama Q-Q sau diagrama P-P Q-Q plot (diagrama cuatila-cuatila) si P-P plot (diagrama probabilitate-probabilitate) sut utilizate i a determia apropierea ditre doua seturi de date (repartitii). Daca datele provi ditr-o acceasi repartitie, atuci ele se aliiaza dupa o dreapta deseata i figura. Diagrama Q-Q este bazata pe ragurile valorilor, iar diagrama P-P este bazata pe fuctiile de repartitie empirice. Figura 3.10: Exemplu de diagrama Q-Q plot Să cosiderăm o populaţie statistică de volum N şi o caracteristică a sa, X, ce are fucţia de repartiţie F. Asupra acestei caracteristici facem observaţii, î urma cărora culegem u set de date statistice. După cum am văzut aterior, datele statistice pot fi prezetate îtr-o formă grupată (descrise pri tabele de frecveţe) sau pot fi egrupate, exact aşa cum au fost culese î urma observărilor. Petru aaliza acestora, pot fi utilizate diverse tehici de orgaizare şi reprezetare grafică a datelor statistice îsă, de cele mai multe ori, aceste metode u sut suficiete petru o aaliză detaliată. Sutem iteresaţi î a atribui acestor date aumite valori umerice reprezetative. Pot fi defiite mai multe tipuri de astfel de valori umerice, e.g., măsuri ale tediţei cetrale (media, modul, mediaa), măsuri ale dispersiei (dispersia, deviaţia stadard), măsuri de poziţie (cuatile, distaţa itercuatilică) etc. Î acest capitol, vom itroduce diverse măsuri descriptive umerice, atât petru datele grupate, cât şi petru cele egrupate. 3.3 Măsuri descriptive ale datelor egrupate Cosiderăm u set de date statistice egrupate, x 1, x 2,..., x (x i R, i = 1, 2...,, N), ce corespud uor observaţii făcute asupra variabilei X. Pe baza acestor observatii, defiim următoarele măsuri descriptive ale datelor, i scopul de a estima parametrii reali ai caracteristicilor populatiei. Deoarece ele se bazeaza doar pe observatiile culese, aceste masuri se mai umesc si masuri empirice. Valoarea medie Este o măsură a tediţei cetrale a datelor. Petru o selecţie {x 1, x 2,..., x }, defiim: x = 1 x i,

46 46 Capitolul 3. Elemete de Statistică descriptivă ca fiid media datelor observate. Aceasta medie empirica este u estimator petru media teoretica, µ = EX, daca aceasta exista. Petru fiecare i, catitatea d i = x i x se umeşte deviaţia valorii x i de la medie. Aceasta u poate fi defiită ca o măsură a gradului de împrăştiere a datelor, deoarece (x i x) = 0. Mometele Petru k N, mometele de ordi k se defiesc astfel: α k = 1 Petru fiecare k N, mometele cetrate de ordi k se defiesc astfel: µ k = 1 x k i. (x i x) k. Dispersia Aceasta este o măsură a gradului de împrăştiere a datelor î jurul valorii medii. Petru o selecţie {x 1, x 2,..., x }, defiim dispersia astfel: ( ) s 2 = µ 2 = 1 1 (x i x) 2 = 1 1 [ xi 2 ( x) 2 ]. Deviaţia stadard Este tot o măsură a împrăştierii datelor î jurul valorii medii. Petru o selecţie {x 1, x 2,..., x }, defiim deviaţia stadard: 1 s = 1 (x i x) 2. Coeficietul de variaţie (sau de dispersie) Acest coeficiet (de obicei, exprimat î procete) este util atuci câd comparăm două repartiţii avâd uităţi de măsură diferite. Nu este folosit atuci câd x sau µ este foarte mic. Petru doua populatii care au aceeasi deviatie stadard, gradul de variatie a datelor este mai mare petru populatie ce are media mai mica. CV = s x, coeficiet de variaţie, Amplitudiea (plaja de valori, rage) Petru u set de date, amplitudiea (e., rage) este defiită ca fiid difereţa ditre valoarea cea mai mare şi valoarea cea mai mică a datelor, i.e., x max x mi. Scorul z Este umărul deviaţiilor stadard pe care o aumită observaţie, x, le are sub sau deasupra mediei. Petru o selecţie {x 1, x 2,..., x }, scorul X este defiit astfel: x = x x. s Corelaţia (covariaţa) Dacă avem perechi de observaţii, (x 1, y 1 ), (x 2, y 2 ),..., (x, y ), defiim corelaţia (covariaţa): cov sel = 1 1 (x i x)(y i ȳ). (3.3.2)

47 3.3 Măsuri descriptive ale datelor egrupate 47 Coeficietul de corelaţie r sel = cov sel s x s y, coeficiet de corelaţie, Fucţia de repartiţie empirică Se umeşte fucţie de repartiţie empirică asociată uei variabile aleatoare X şi uei selecţii {x 1, x 2,..., x }, fucţia F : R [0, 1], defiită pri F (x) = card{i; x i x}. (3.3.3) Propoziţia de mai jos arată că fucţia de repartiţie empirică aproximează fucţia de repartiţie teoretică (vezi Figura 3.11). Propoziţie Fie Ω o colectivitate statistică şi X o caracteristică a sa, ce se doreşte a fi studiată. Notez cu F(x) fucţia de repartiţie (teoretica) a lui X. Petru o selecţie de valori ale lui X, {x 1, x 2,..., x }, costruim fucţia de repartiţie empirică, F (x). Atuci: F (x) prob F(x), câd, x R. Figura 3.11: Fucţia de repartiţie empirică şi fucţia de repartiţie teoretică petru distribuţia ormală. Coeficietul de asimetrie (e., skewess) este al treilea momet stadardizat, care se defieşte pri γ 1 = µ 3 µ 3/2 = µ 1 3 s 3 = (x i x) 3 [ (x i x) 2] 3/2. O repartiţie este simetrică dacă γ 1 = 0. Vom spue că asimetria este pozitivă (sau la dreapta) dacă γ 1 > 0 şi egativă (sau la stâga) dacă γ 1 < 0. Excesul (coeficietul de aplatizare sau boltire) (e., kurtosis) se defieşte pri K = µ 4 µ = µ 1 4 s 4 3 = (x i x) 4 ( 1 (x i x) 2) 2 3.

48 48 Capitolul 3. Elemete de Statistică descriptivă Este o măsură a boltirii distribuţiei (al patrulea momet stadardizat). Termeul ( 3) apare petru că idicele kurtosis al distribuţiei ormale să fie egal cu 0. Vom avea o repartiţie mezocurtică petru K = 0, leptocurtică petru K > 0 sau platocurtică petru K < 0. U idice K > 0 semifică faptul că, î veciătatea modului, curba desităţii de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Petru K < 0, î acea veciătate curba desităţii de repartiţie este mai plată decât curba lui Gauss. Cuatile Cuatilele (de ordi q) sut valori ale uei variabile aleatoare care separă repartiţia ordoată î q părţi egale. Petru q = 2, cuatila x q se umeşte mediaă, otată pri x 0.5 sau Me. Presupuem că observaţiile sut ordoate, x 1 < x 2 < < x. Petru această ordie, defiim valoarea mediaă: { x x 0.5 = (+1)/2, dacă = impar; (x /2 + x /2+1 )/2, dacă = par; Petru q = 4, cuatilele se umesc cuartile (sut î umăr de 3). Prima cuartilă, otată x 0.25 sau Q 1, se umeşte cuartila iferioară, a doua cuartilă este mediaa, iar ultima cuartilă, otată x 0.75 sau Q 3, se umeşte cuartila superioară. Difereţa Q 3 Q 1 se umeşte distaţa itercuartilică. Petru q = 10 se umesc decile (sut î umăr de 9), petru q = 100 se umesc percetile (sut î umăr de 99), petru q = 1000 se umesc permile (sut î umăr de 999). Sut măsuri de poziţie, ce măsoară locaţia uei aumite observaţii faţă de restul datelor. Modul Modul (sau valoarea modală) este acea valoare x di setul de date care apare cel mai des. U set de date poate avea mai multe module. Dacă apar două astfel de valori, atuci vom spue că setul de date este bimodal, petru trei astfel de valori avem u set de date trimodal etc. Î cazul î care toate valorile au aceeaşi frecveţă de apariţie, atuci spuem că u există mod. De exemplu, setul de date u admite valoare modală. Nu există u simbol care să oteze distictiv modul uui set de date. Valori aberate (e. outliers) Valorile aberate sut valori statistice observate care sut îdepărtate de marea majoritate a celorlalte observaţii. Ele pot apărea di cauza uor măsurători defectuoase sau î urma uor erori de măsurare. De cele mai multe ori, ele vor fi excluse di aaliza statistică. Di puct de vedere matematic, valorile aberate sut valorile ce u aparţi itervalului următor. [Q 1 1.5(Q 3 Q 1 ), Q (Q 3 Q 1 )] Siteza pri cele cici valori statistice (five umber summary) Reprezită cici măsuri statistice empirice caracteristice uui set de date statistice. Acestea sut (î ordie crescătoare): cea mai mică valoare observată (mi{x i }), prima cuartilă (Q 1 ), i mediaa (Me), a treia cuartilă (Q 3 ) şi cea mai mare valoare observată (max{x i }). Aceste cici umere pot fi reprezetate grafic îtr-o diagramă umită box-ad-whisker plot. Î figurile de mai jos sut deseate astfel de diagrame. Datele di Tabelul 5.1 sut reprezetate î prima figură de mai jos pri două diagrame box-ad-whiskers. Î prima diagramă (umerotată cu 1) am geerat uiform datele di tabel, păstrâd clasele; î a doua diagramă am folosit reprezetarea datelor di acelaşi tabel pri cetrele claselor. Reprezetările sut i

49 3.4 Măsuri descriptive ale datelor grupate 49 cele clasice, cu dreptughiuri. Valorile aberate sut reprezetate pri pucte î diagrama box-ad-whisker plot. vârsta f. abs. f. rel. f. cum. mijlocul clasei [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 3.10: Tabel cu frecveţe. Figura 3.12: Box-a-whisker plot petru datele di Tabelul 5.1 Î Figura 3.13, am reprezetat cu box-adwhisker u set de date discrete ce coţie două valori aberate. Aici dreptughiul a fost crestat (otched box-ad whisker plot); lugimea crestăturii oferid u iterval de îcredere petru mediaă. Valorile aberate sut reprezetate i figura pri pucte i afata rage-ului datelor. Figura 3.13: Box-a-whisker plot petru u set de date discrete. Q: What did the box-a-whisker plot say to the outlier?. A: "Do t you dare get close to my whisker!!" 3.4 Măsuri descriptive ale datelor grupate Cosiderăm u set de date statistice grupate (de volum ), ce reprezita observaţii asupra variabilei X. Petru o selecţie cu valorile de mijloc {x 1, x 2,..., x r } şi frecveţele absolute corespuzătoare,

50 50 Capitolul 3. Elemete de Statistică descriptivă { f 1, f 2,..., f r }, cu x f = 1 s 2 = 1 1 r r f i =, defiim: r x i f i, media (empirică) de selecţie, (sau, media poderată) ( ) r xi 2 f i x 2 f, dispersia (variaţa) empirică, f i (x i x f ) 2 = 1 1 s = s 2, deviaţia empirică stadard. Formule similare se pot da şi petru măsurile descriptive ale îtregii populaţii. Mediaa petru u set de date grupate este acea valoare ce separă toate datele î două părţi egale. Se determiă mai îtâi clasa ce coţie mediaa (umită clasă mediaă), apoi presupuem că î iteriorul fiecărei clase datele sut uiform distribuite. O formulă după care se calculează mediaa este: 2 Me = l + F Me c, f Me ude: l este limita iferioară a clasei mediae, este volumul selecţiei, F Me este suma frecveţelor pâă la (exclusiv) clasa mediaă, f Me este frecveţa clasei mediae şi c este lăţimea clasei. Similar, formulele petru cuartile sut: Q 1 = l F 3 Q 1 4 c şi Q 3 = l 3 + F Q 3, f Q1 f Q3 ude l 1 si l 3 sut valorile iferioare ale itervalelor i care se gasesc cuartilele respective, iar F Q este suma frecveţelor pâă la (exclusiv) clasa ce cotie cuartila, f Q este frecveţa clasei ude se gaseste cuartila. Petru a afla modul uui set de date grupate, determiăm mai îtâi clasa ce coţie această valoare (clasă modală), iar modul va fi calculat după formula: Mod = l + d 1 d 1 + d 2 c, ude d 1 şi d 2 sut frecveţa clasei modale mius frecveţa clasei aterioare şi, respectiv, frecveţa clasei modale mius frecveţa clasei posterioare, l este limita iferioară a clasei modale şi c este lăţimea clasei modale. 3.5 Trasformări de date Ueori valorile masurate u sut ormale si este ecesara o trasformare a lor petru a obtie valori apropiate de ormalitate. Trasformarile uzuale sut: logaritmarea valorilor observate (folosid fuctiile l sau log 10, daca valorile sut toate pozitive), radacia patrata a valorilor, trasformarea logit, radacii de ordi superior etc. I Tabelul 3.11 am sugerat tipul de trasformare ce poate fi utilizat i fuctie de coeficietul de skewess γ 1. Î ce codiţii... skewess formula date aproape simetrice 0.5 < γ 1 < 0.5 icio trasformare skewess moderat pozitiv, date eegative 0.5 γ 1 < 1 y i = x i skewess moderat pozitiv, exista date < γ 1 < 1 y i = x i +C skewess moderat egativ 1 < γ y i = C x i skewess mare egativ γ 1 1 y i = l(c x i ) skewess mare pozitiv, date pozitive γ 1 1 y i = lx i skewess mare pozitiv, exista date 0 γ 1 1 y i = l(x i +C)

51 3.5 Trasformări de date 51 Tabela 3.11: Exemple de trasformari de date statistice Aici, C > 0 este o costata ce poate fi determiata astfel icat datele trasformate sa aiba u skewess cat mai aproape de 0. Aceasta costata va fi aleasa astfel icat fuctia ce face trasformarea este defiita. Î loc de fucţia l se poate folosi şi logaritmul î altă bază, e.g., fucţia log 10. De exemplu, presupuem ca datele observate sut x 1, x 2,..., x si acestea u sut toate pozitive, cu u coeficiet de asimetrie (skewess) γ 1 = Ne uitam la valoarea miima a datelor; aceasta este x mi = Petru a obtie u set de valori pozitive, vom adauga valoarea 1 la toate datele observate. Apoi, logaritmam valorile obtiute. Cele doua procedee cumulate sut echivalete cu folosirea directa a formulei l(1 + x i ) (aduad valoarea 1, am facut toate argumetele logaritmului pozitive). Obtiem astfel u ou set de date, si aume y 1, y 2,..., y, ude y i = l(1 + x i ). U exemplu este cel di Figura Se observa ca datele logaritmate sut aproape ormale. O aaliza statistica poate fi codusa petru datele y i, urmad ca, evetual, la fial sa aplicam trasformarea iversa x i = e y i 1 petru a trasforma rezultatele petru datele iitiale. Figura 3.14: Datele itiale si datele logaritmate Dupa trasformarea datelor si aaliza datelor trasformate (de exemplu, prezicerea valorilor i puctele eselectate), de multe ori este ecesara trasformarea iversa a datelor, petru a determia proprietatile datelor origiale. De aceea, ar fi potrivit de a exprima idicatorii statistici atat petru datele trasformate, cat si petru datele origiale. U exemplu este cel di Tabelul Idicatorul datele origiale datele traformate x i y i = l(1 + x i ) Miimum Maximum Media Cuartila Q Mediaa Cuartila Q Deviatia stadard Dispersia Skewess Kurtosis Numarul de observatii χ 2 petru testul de ormalitate (cu 7 grade de libertate)

52 52 Capitolul 3. Elemete de Statistică descriptivă Tabela 3.12: Exemplu de idicatori petru datele origiale si petru datele trasformate Fucţii MATLAB specifice petru măsurile descriptive. mea(x) % media valorilor elemetelor lui x; geomea(x) % media geometrică a elemetelor lui x; harmmea(x) % media armoică a elemetelor lui x; quatile(x,alpha) % cuatila de ordi α a vectorului x; iqr(x) % distaţa itercuatilică, x 0.75 x 0.25 ; media(x) % valoarea mediaă a lui x; std(x), var(x) % deviaţia stadard şi dispersia valorilor lui x; rage(x) % amplitudiea (rage) vectorului x; mode(x) % modul lui x; zscore(x) % realizează scorul elemetelor lui x; momet(x,k) % mometul de ordi k al lui x; sort(x) % sorteaza crescator elemetele vectorului x; max(x), mi(x) % maximum şi miimum petru elemetele lui x; skewess(x) % skewess petru elemetele lui x; kurtosis(x) % kurtosis petru elemetele lui x; prctile(x,p) % percetilele de ordi p ale lui x; cdfplot(x) % reprezită grafic fucţia de repartiţie empirică a lui x; cov(x,y) % covariaţa ditre x şi y; corrcoef(x,y) % coeficietul de corelaţie ditre x şi y; LEGEstat(<param>) % afişează media şi dispersia petru LEGE(<param>); Tabela 3.13: Fucţii MATLAB specifice petru măsuri descriptive.

53 3.6 Exerciţii rezolvate Exerciţii rezolvate Exerciţiu 3.1 Următorul set de date reprezită preţurile (î mii de euro) a 20 de case, vâdute îtr-o aumită regiue a uui oraş: (a) Determiaţi amplitudiea, media, mediaa, modul, deviatia stadard, cuartilele şi distaţa itercuartilică petru aceste date. Care valoare este cea mai reprezetativă? (b) Deseaţi diagrama box-ad-whiskers şi cometaţi-o. Exista valori aberate? (c) Calculaţi coeficietii de asimetrie si de aplatizare. Soluţie: Rearajăm datele î ordie crescătoare: Amplitudiea este = 475, media lor este , mediaa este = , 2 modul este 100, cuartila iferioară este Q 1 = = 84, Q 2 = Me, cuartila superioară este Q 3 = = 140 şi distaţa itercuartilică este d = Q 3 Q 1 = 56. Mediaa este valoarea cea mai reprezetativă î acest caz, deoarece cele mai mari trei preţuri, aume 340.5, 475.5, 525, măresc media şi o fac mai puţi reprezetativă petru celelalte date. Î cazul î care setul de date u este simetric, valoarea mediaă este cea mai reprezetativă valoare a datelor. Figura 3.15: Box-a-whisker plot petru datele di Exerciţiul Deviatia stadard este s = 1 (x i x) 2 = Folosid formulele, gasim ca γ 1 = (asimetrie la dreapta) si K = (boltire proutata). Valorile aberate sut cele ce se afla i afara itervalului [Q 1 1.5(Q 3 Q 1 ), Q (Q 3 Q 1 )] = [0, 178]. Se observa ca valorile 340.5,475.5 şi 525 sut valori aberate, reprezetate pri pucte i figura. Î MATLAB, X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = rage(x); m = mea(x); Me = media(x); Mo = mode(x); boxplot(x) Q1 = quatile(x,0.25); Q2 = quatile(x,0.5); Q3 = quatile(x,0.75); d = Q3 - Q1; g1 = skewess(x); K = kurtosis(x);

54 54 Capitolul 3. Elemete de Statistică descriptivă Exerciţiu 3.2 Cosiderăm datele di Tabelul 3.5. (a) Determiaţi amplitudiea, media, mediaa, modul, dispersia si distata itercuartilică petru aceste date. (b) Deseaţi diagrama box-ad-whiskers şi cometaţi-o. Exista valori aberate? Soluţie: Amplitudiea este a = 30. Folosid cetrele claselor, media este x = (x f ) Dispersia este: = 1 ( ) = s 2 1 = 1 ( (x 2 f ) x 2 ) = 1 69 ( ) = Clasa mediaă este clasa [10, 15). Deoarece î clasele aterioare ([0, 5) şi [5, 10)) se află deja = 18 date mai mici decât mediaa, petru a afla valoarea mediaă a platelor (i.e., acea valoare care este mai mare decât alte 35 de valori la staga ei şi mai mică decât alte 35 de plate de la dreapta sa), va trebui să determiăm acea valoare di clasa mediaă ce este mai mare decât alte 17 valori di această clasă. Aşadar, avem evoie de a determia o fracţie ditre valorile clasei mediae. Î cocluzie, valoarea mediaă este Me = = Clasa modală este [10, 15), iar modul este Mo = = Calculăm acum prima cuartilă dupa formula Q 1 = l 1 + F Q 1. Clasa i care se gaseste prima cuartila este [5, 10) (o valoare di acest iterval va avea la staga sa 70/4 ditre valorile observate). Avem: F Q1 = 5, f Q1 = 13, c = 5, de ude Q 1 = Similar, clasa i care se gaseste a treia cuartila este [15, 20) (o valoare di acest iterval va avea la dreapta sa 70/4 ditre valori. Avem: F Q3 = 41, f Q3 = 10, c = 5, de ude Q 3 = Folosid MATLAB: f Q1 X = [5*rad(1,5), 5+5*rad(1,13),10+5*rad(1,23), 15+5*rad(1,17), *rad(1,10), 25+5*rad(1,2)]; % datele x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % cetrele claselor f = [5; 13; 23; 17; 10; 2]; % frecvetele = 70; m = sum(x.*f)/; s2 = (sum(x.^2.*f) - *m^2)/(-1); Q1 = quatile(x,0.25); Me = media(x); Q2 = quatile(x,0.75); Exerciţiu 3.3 O compaie de asigurări a îregistrat umărul de accidete pe săptămâă ce au avut loc îtr-u aumit sat, î decurs de u a (52 de săptămâi). Acestea sut, î ordie: 1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2 (a) Costruiţi u tabel de frecveţe care să coţiă umărul de accidete, frecveţele absolute şi relative.

55 3.7 Exerciţii propuse 55 (b) Găsiţi media empirică, mediaa şi deviaţia stadard empirică. (c) Reprezetaţi pri bare rezultatele di tabelul de frecveţe. (d) Găsiţi şi reprezetaţi grafic (cdfplot) fucţia de repartiţie empirică a umărului de accidete. Soluţie: (a) Tabelul de frecveţe este Tabelul (b) Avem: umărul frecv. abs frecv. rel Tabela 3.14: Tabel de frecveţe petru Exerciţiu 3.3 x = x i = , s = (x i x) 2 = , Me = 2. (c) Reprezetarea pri bare a umărului de accidete şi graficul lui F (x) sut reprezetate î Figura (d) Fucţia de repartiţie empirică este: 0, dacă x < 0; F (x) = , dacă x [0, 1);, dacă x [1, 2);, dacă x [2, 3); 52, dacă x [3, 4); 1, dacă x 4. Figura 3.16: Reprezetarea umărului de accidete Codul MATLAB petru calcule şi grafice este: Y = [zeros(7,1);oes(9,1);2*oes(14,1);3*oes(12,1);4*oes(10,1)]; m = mea(y); s = std(y); Me = media(y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(y) % graficul fuctiei de repartitie empirice 3.7 Exerciţii propuse Exerciţiu 3.4 Petru u set de 5 valori, media empirică este x = 50 şi dispersia empirică este s 2 = 4. Dacă trei ditre valori sut 48, 51, 52, determiaţi şi celelalte două valori. Exerciţiu 3.5 Se cosideră următoarea selecţie de ote obţiute de elevii uei şcoli la teza de Matematică.

56 56 Capitolul 3. Elemete de Statistică descriptivă 5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7 6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6 (a) Determiaţi media, deviaţia stadard şi mediaa petru această selecţie. (b) Grupaţi datele şi scrieţi fucţia de repartiţie empirică. (c) Reprezetaţi u box-ad-whisker plot petru date. Exerciţiu 3.6 Petru evaluarea rezultatelor obţiute la proba de Matematică a exameului de Bacalaureat de către elevii uei şcoli, s-a făcut u sodaj de volum 30 pritre elevii şcolii, otele fiid următoarele: (a) Descrieţi datele folosid o reprezetare stem&leaf. (b) Calculaţi media, dispersia şi mediaa petru selecţia cosiderată, precizâd formulele folosite. (c) Determiaţi cele cici măsuri statistice di five umber summary (d) Reprezetaţi u box-ad-whisker plot petru date. (e) Ioel a obţiut ota 8.45 la exame. Determiaţi scorul său. Exerciţiu 3.7 Tabelul de mai jos coţie otele la Matematică a 10 elevi ditr-o aumită şcoală obţiute la: testul de simulare a exameului de Bacalaureat (T) şi la exameul Bacalaureat (B). T B (a) (b) (c) Reprezetaţi cele două seturi de date pri câte u box-ad-whisker plot, î aceeaşi figură. Reprezetaţi datele di tabel pritr-o diagramă scatter. Calculaţi coeficietul de corelaţie empirică ître otele la cele două teste.

57 4. Noţiui de Teoria selecţiei statistice. [A statistical fact: 50% of marriages ed i divorce.. Thus, if you do t file for divorce, your wife will.] 4.1 Cosideraţii geerale Defiiţia Numim colectivitate statistică (sau populaţie) o mulţime evidă Ω de elemete care este cercetată di puct de vedere al ueia sau mai multor caracteristici. Elemetele colectivităţii le vom umi idivizi (sau uităţi statistice). Vom ota cu ω o uitate statistică. Dacă populaţia este fiită, atuci umărul al uităţilor statistice ce o compu (i.e., card(ω)) îl vom umi volumul colectivităţii (sau volumul populaţiei). Cosiderăm o populaţie (colectivitate statistică) Ω. Studiem populaţia Ω di puctul de vedere al uei caracteristici a sale, X. Această caracteristică este o aumită proprietate urmărită la idivizii ei î procesul prelucrării statistice şi o vom asimila cu o variabilă aleatoare defiită pe Ω. Problema eseţială a Statisticii Matematice este de a stabili legea de probabilitate pe care o urmează caracteristica X. Petru a găsi această lege (repartiţie), avem evoie mai îtâi de u umăr reprezetativ de observaţii (o selec ctie) asupra colectivităţii Ω. Pe baza acestor observaţii, vom determia pri ifereţă o lege care să reprezite variabila X. Defiiţia Vom umi selecţie (sau sodaj) o subcolectivitate a colectivităţii cercetate Ω. Numărul elemetelor selecţiei poartă umele de volumul selecţiei (sodajului). Selecţiile pot fi repetate sau erepetate. O selecţie se umeşte repetată (sau beroulliaă) dacă după examiarea idividului acesta se reitroduce î colectivitate; î caz cotrar avem o selecţie erepetată. Î practică, volumul colectivităţii Ω este mult mai mare decât volumul selecţiei. Î aceste cazuri, selecţia erepetată poate fi cosiderată ca fiid selecţie repetată. Selecţiile pe care le vom cosidera î cotiuare sut umai selecţii repetate di colectivitatea statistică. Dorim acum să itroducem u cadru matematic abstract petru aceste selecţii repetate (petru o

58 58 Capitolul 4. Noţiui de Teoria selecţiei statistice abordare mai detaliată, se poate cosulta [eciu]). Cosiderăm spaţiul măsurabil (Ω, F ), ude F este u corp borelia de părţi ale lui Ω. Caracteristica X urmărită poate fi reprezetată de o variabilă aleatoare defiită pe (Ω, F ). Dorim să defiim matematic o selecţie repetată de volum. Euristic, ideea este următoarea: a efectua sodaje repetate ditr-o mulţime Ω, este echivalet cu a cosidera o sigură selecţie ditr-o populaţie de geul "Ω multiplicat de ori". Costruim astfel: Ω () = Ω Ω Ω, F () = F F F, produs cartezia de ori. U elemet al lui Ω () va fi ω () = (ω 1, ω 2,..., ω ), umită selecţie repetată de volum. Cuplul (Ω (), F () ) se umeşte spaţiul selecţiilor repetate de volum. Cosiderăm variabilele aleatoare X i : Ω () R, X i (ω () ) = X(ω i ), i = 1,. Acestea sut variabile aleatoare defiite pe (Ω (), F () ), sut idepedete stochastic (petru că v.a. {X(ω i )}, sut idepedete) şi sut idetic repartizate, cu fucţia de repartiţie comuă F X (se verifică usor că F Xi = F X, i = 1, ). Vom umi X i, i = 1,, variabile aleatoare de selecţie repetată de volum. Vom umi vector de selecţie repetată de volum, vectorul Y, astfel îcât: Y : Ω () R, Y (ω () ) = (X 1 (ω () ), X 2 (ω () ),..., X (ω () )). Petru u ω () fixat, compoetele vectorului Y (ω () ) se umesc valori de selecţie repetată de volum. Vom ota cu L = Y (Ω () ) R, şi-l vom umi spaţiul valorilor de selecţie repetată de volum. Elemetele lui L le vom ota pri x = (x 1, x 2,..., x ), (x i = X i (ω () ), petru ω () fixat, i = 1, 2,..., ). Defiiţia Vom umi statistică (sau fucţie de selecţie) variabila aleatoare S (X) = g(x 1, X 2,..., X ), ude g este o fucţie g : R R măsurabilă. Ca o observaţie, umele de "statistică" este folosit î literatura de specialitate atât petru variabila aleatoare de mai sus, cât şi petru valoarea ei, îţelesul exact desprizâdu-se di cotext. Repartiţia uei statistici se mai umeşte şi repartiţia (distribuţia) de selecţie. Notaţia 4.1 Î literatură, statistica este otată cu ua ditre următoarele: S (X), S(X, ω () ), S(X, ), S(X 1, X 2,..., X ). Statisticile medie de selecţie şi variaţa selecţiei au otaţii aparte, şi aume X, respectiv S 2 X (sau, dacă u este pericol de cofuzie, S 2 ). Valoarea umerică S (x) = g(x 1, x 2,..., x ) se umeşte valoarea fucţiei de selecţie petru u ω () fixat.

59 4.2 Exemple de statistici 59 Observaţia 4.1 Aşadar, o statistică este o fucţie de variabilele aleatoare de selecţie. Pri itermeiul statisticilor putem trage cocluzii despre populaţia Ω, di care a proveit eşatioul ω (). Teoria probabilităţilor e oferă procedee de determiare atât a repartiţiei exacte a lui S (X) (dacă este posibil), cât şi a repartiţiei asimptotice a lui S (X). Repartiţia exactă este acea repartiţie ce poate fi determiată petru orice volum al selecţiei. Î geeral, dacă se lucrează cu selecţii de volum redus ( < 30), atuci repartiţia exactă ar trebui să fie cuoscută a priori, dacă se doreşte luarea de decizii pri ifereţă. Repartiţia asimptotică este repartiţia limită a S (X) câd, iar utilizarea acesteia coduce la rezultate bue doar petru 30. De cele mai multe ori, o statistică este utilizată î următoarele cazuri: î probleme de estimare puctuală a parametrilor; î obţierea itervalelor de îcredere petru u parametru ecuoscut; ca o statistică test petru verificarea ipotezelor statistice. 4.2 Exemple de statistici Fie (Ω, F ) o colectivitate statistică şi X o caracteristică cercetată a sa. Să otăm cu f (x) şi F(x) desitatea de repartiţie (sau fucţia de probabilitate), respectiv, fucţia de repartiţie petru X. Acestea pot fi cuoscute sau ecuoscute a priori şi le vom umi fucţii teoretice (desitate de repartiţie teoretică sau fucţie de probabilitate teoretică petru f şi fucţie de repartiţie teoretică petu F). Dacă se cuoaşte f (x), atuci putem determia µ = E(X) şi σ 2 = Var(X), dacă acestea există, şi le vom umi medie teoretică şi dispersie teoretică. Î cazul î care ua sau mai multe caracteristici teoretice corespuzătoare lui X u e sut a priori cuoscute, vom căuta să le determiăm pri ifereţă, adică pri extragerea uor selecţii de date di colectivitate, calculâd caracteristicile respective petru selecţiile cosiderate şi apoi extrapolâd (î aumite codiţii şi după aumite criterii) la îtreaga colectivitate. Să cosiderăm ω () o selecţie repetată de volum di colectivitatea dată şi X i, i = 1,, variabilele aleatoare de selecţie. Cu ajutorul acestora, putem costrui diverse fucţii de selecţie. Mai jos discutăm câteva ditre acestea. Defiiţia Media de selecţie: Numim medie de selecţie (de volum ), statistica X = 1 Valoarea mediei de selecţie petru valori ale acestor variabile aleatoare este media empirică (media valorilor observate): x = 1 Propoziţie Petru o variabilă aleatoare de medie µ şi deviaţie stadard σ, media de selecţie X corespuzătoare lui X satisface următoarele proprietăţi: X i. x i. [1] E(X) = µ; Var(X) = σ 2 ; std(x) = σ [2] X a.s. µ ( ). Covergeţa de la [2] spue că media de selecţie X se apropie mult de media teoretică a populaţiei atuci câd volumul selecţiei este mare. Observaţia 4.2 (1) Î uele situaţii vom ota pri µ X şi pri σ X media de selecţie, respectiv, deviaţia stadard de selecţie a lui X. (2) Propoziţia precizează care este repartiţia mediei de selecţie petru variabile aleatoare de selecţie ditr-o colectivitate ormală, iar Propoziţia precizează care este repartiţia asimptotică

60 60 Capitolul 4. Noţiui de Teoria selecţiei statistice a mediei de selecţie petru variabile de selecţie de volum mare selectate ditr-o colectivitate oarecare. (3) Dacă selecţia se face fără reveire ditr-o populaţie de volum mic, cu volumul selecţiei comparativ cu volumul populaţiei N ( > 0.05N) şi X u este eapărat ormal repartizată, atuci putem spue doar că E(X) = µ şi std(x) = σ N N 1, fără a putea preciza care este repartiţia asimptotică a lui X. Defiiţia Dispersie de selecţie (sau variaţa selecţiei): Numim dispersie de selecţie (de volum ), statistica S 2 (sau SX 2, dacă avem mai multe variabile) defiită pri: S 2 = 1 1 [X i X] 2. Valoarea dispersiei de selecţie petru valori ale variabilelor aleatoare de selecţie este dispersia (sau variaţia) empirică, pe care o vom ota cu s 2 (sau s 2 X, dacă avem mai multe variabile). Aceasta este s 2 = 1 1 [x i x] 2. Î aumite situaţii, î locul lui S 2 se mai utilizează statistica S 2 (X), defiită pri: S 2 = 1 [X i X] 2. Motivaţia petru cosiderarea statisticii S 2 î detrimetul lui S 2 este dată de faptul că prima statistică estimează variaţia teoretică σ 2 mai bie decât cea de-a doua. Aceste statistici satisfac următoarele proprietăţi: Propoziţie Petru o variabilă aleatoare de medie µ şi deviaţie stadard σ, dispersiile de selecţie S 2 şi S 2 corespuzătoare lui X satisface următoarele proprietăţi: [1] E(S 2 ) = σ 2 E(S 2 ) = 1 [2] S 2 prob σ 2 ( ) Observaţia 4.3 (1) Dacă media teoretică a colectivităţii este cuoscută a priori, E(X) = µ R, atuci se mai poate defii dispersia de selecţie d 2 ) pri formula: d 2 = 1 [X i µ] 2. (4.2.1) (2) După cum vom vedea î capitolul următor, primele două relaţii arată că statistica S 2 este u estimator edeplasat petru dispersia teoretică σ 2, pe câd S 2 este estimator deplasat petru σ 2. Propoziţiile şi precizează repartiţiilor dispersiilor de selecţie petru colectivităţi ormale. Defiiţia Fucţia de repartiţie de selecţie Fie X 1, X 2,..., X variabile aleatoare de selecţie repetată de volum petru caracteristica X ce are fucţia de repartiţie F(x). Numim fucţie de repartiţie de selecţie (de volum ), fucţia F : R Ω () [0, 1] defiită pri F (x,ω () ) = (x), x R, σ 2 ;

61 4.3 Statistici de ordie 61 ude (x) = card {i, X i (ω () ) x} reprezită umărul de elemete di selecţie mai mici sau egale cu x. Relaţia di defiiţie poate fi scrisă şi sub forma: F (x) = 1 χ (,x] (X i ), x R, (4.2.2) ude χ A este fucţia idicatoare a mulţimii A. Petru u x R fixat, F este o variabilă aleatoare repartizată biomial B(, F(x)). Petru o selecţie ω () fixată, F (x) ia valorile: (x) = card {i, x i x}, F (i.e., este fucţia de repartiţie empirică). Propoziţie Fucţia de repartiţie de selecţie satisface următoarele proprietăţi: [1] E(F (x)) = F(x), x R; [2] Var(F (x)) = 1 [F(x)(1 F(x))], x R. Observaţia 4.4 Î Statistică, există o serie de criterii care permit să se aprecieze apropierea lui F (x) de F(x). Mai jos, amitim doar două ditre ele. (1) Fucţia de repartiţie de selecţie satisface covergeţa F a.s. (x) F(x), x fixat î R. Acest rezultat este o coseciţă directă a legii tari a umerelor mari. Îtr-adevăr, deoarece F (x) se poate scrie sub forma (4.2.2) (i.e., o sumă de variabile aleatoare idetic repartizate şi idepedete stochastic), LTNM implică F a.s. (x) E(χ (,x] (X i )) = P(X x) = F(x), x fixat î R. (2) Petru N suficiet de mare, fucţia de repartiţie de selecţie satisface proprietatea (F (x) F(x)) N (0, F(x)(1 F(x))), x fixat î R. 4.3 Statistici de ordie Defiiţia Dacă variabilele aleatoare di selecţia {X 1, X 2,..., X } le rearajăm î ordiea mărimii lor şi scriem X (1) X (2) X (), atuci vom umi variabila aleatoare X (i) statistica de ordie de ordi i, petru orice i = 1, 2,...,. Petru o selecţie dată, valoarea statisticii de ordie de ordi i o vom ota pri x (i), petru orice i = 1, 2,...,. Statistica X (1) se umeşte prima statistică de ordie şi este îtotdeaua miimumul selecţiei, i.e., X (1) = mi{x 1, X 2,..., X }. Statistica X () se umeşte ultima statistică de ordie şi este îtotdeaua maximumul selecţiei, i.e., X () = max{x 1, X 2,..., X }.

62 62 Capitolul 4. Noţiui de Teoria selecţiei statistice De exemplu, dacă avem valorile de selecţie atuci x 1 = 8, x 2 = 7, x 3 = 9, x 4 = 5, x 5 = 3, x (1) = 3, x (2) = 5, x (3) = 7, x (4) = 8, x (5) = 9. Dacă = 2m + 1, atuci X (m) = X ( +1 2 ) = Me X, adică mediaa de selecţie este o statistică de ordie î acest caz. Dacă = 2m, atuci avem două valori de mijloc, X (m) şi X (m+1). Deoarece Me X = 1 2 (X (m) + X (m+1) ), mediaa de selecţie u este statistică de ordie petru par. Defiim amplitudiea (rage) selecţiei ca fiid statistica A = X () X (1). Statisticile X () Me X şi X (1) Me X se umesc deviaţiile extreme ale selecţiei. Deşi variabilele aleatoare de selecţie sut idepedete, totuşi statisticile de ordie sut depedete. Să presupuem că F(x) este fucţia de repartiţie a selecţiei date şi f (x) desitatea de repartiţie. Următoarea propoziţie stabileşte fucţiile de repartiţie petru statisticile de ordie. Propoziţie Petru u k 1, fixat, fucţia de repartiţie petru X (k) este: F X(k) (x) = Demostraţie. Avem succesiv: j=k F X(k) (x) = P(X (k) x) C j F(x) j [1 F(x)] j, petru orice x R. = P({cel puţi k v.a. di cele u depăşesc pe x}) = P({cel puţi k succese î îcercări}) = = j=k j=k C j [P(X x)] j [1 P(X x)] j C j F(x) j [1 F(x)] j, petru orice x R. Î particular, petru k = 1, obţiem că fucţia de repartiţie a celui mai mic elemet al selecţiei: F X(1) (x) = 1 [1 F(x)], petru orice x R. Fucţia de repartiţie a celui mai mare elemet al selecţiei este: F X() (x) = [F(x)], petru orice x R. Exemplu 4.1 La fiala de 100m viteză masculi di cadrul campioatelor modiale de atletism î aer liber, timpii de sosire ai celor 8 sportivi calificaţi sut variabile aleatoare idepedete stochastic, idetic repartizate U (9.5s, 10.5s). Calculaţi următoarele probabilităţi: (1) Probabilitatea ca recordul modial de 9.58s să cadă; (2) Probabilitatea ca toţi cadidaţii să termie cursa cu timpi de sosire pâă î 10s. (3) Probabilitatea ca măcar 3 atleţi să termie cursa sub 9.7s. 0, dacă x 9.5 Soluţie: Deoarece T U (9.5s, 10.5s), atuci F T (x) = x 9.5, dacă 9.5 < x < , dacă x 10.5

63 4.4 Selecţii aleatoare petru caracteristici ormale 63 Atuci: P 1 = P(T (1) 9.58) = F T(1) (9.58) = 1 [1 F(9.58)] 8 = = P 2 = P(T (8) 10) = F T(8) (10) = [F(10)] 8 = = P 3 = P(T (3) 9.7) = F T(3) (9.7) = 8 j=3 C j 8 F(9.7) j [1 F(9.7)] 8 j = Selecţii aleatoare petru caracteristici ormale Să cosiderăm Ω o colectivitate statistică şi X o caracteristică a sa, ce urmează a fi studiată di puct de vedere statistic. Fie {X 1, X 2,..., X } variabile aleatoare de selecţie repetată de volum. Î cele mai multe cazuri practice, X urmează o repartiţie ormală (gaussiaă). De regulă, dacă volumul populaţiei este mic ( < 30), atuci cosiderăm doar caracteristici ormale, iar petru o repartiţie aproape simetrică cu > 30 putem cosidera orice tip de repartiţie petru caracteristică. Prezetăm î cotiuare câteva rezultate utile referitoare la selecţii aleatoare petru caracteristici ormale (gaussiee). Propoziţie Dacă ξ i N (µ i, σ i ) sut variabile aleatoare idepedete stochastic şi a i R, i = 1,, atuci variabila aleatoare ξ = ξ N a i ξ i satisface proprietatea: ( a i µ i, a 2 i σ i 2 Propoziţie (repartiţia mediei de selecţie petru o variabilă gaussiaă) Dacă X N (µ, σ) şi X i, i = 1, sut variabilele aleatoare de selecţie, atuci statistica X satisface: ( σ X N µ, ). ( N ) O coseciţă directă a acestei propoziţii este următoarea: Propoziţie Dacă X i N (µ, σ), i = 1, 2,..., sut variabile aleatoare de selecţie, atuci Z = X µ σ N (0, 1). Observaţia 4.5 Aceasta propoziţie va fi folosită petru verificarea ipotezelor statistice, î problema testării mediei teoretice µ (testul Z) câd dispersia teoretică este cuoscută a priori. Propoziţie (repartiţia mediei de selecţie petru o variabilă oarecare) Dacă {X 1, X 2,..., X }, variabile aleatoare de selecţie repetată de volum, ce urmează o repartiţie dată, atuci petru u volum suficiet de mare, statistica X satisface: X N ( µ, ) σ ). ( > 30) Observaţia 4.6 (1) Dacă este suficiet de mare, atuci cocluzia Propoziţiei ramâe valabilă şi î cazul î care avem o selecţie repetată de volum petru o caracteristică ce u este eapărat gaussiaă..

64 64 Capitolul 4. Noţiui de Teoria selecţiei statistice (2) Câd selecţia se face fără reveire ditr-o populaţie de volum mic şi X u este eapărat ormal repartizată, atuci putem spue doar că E(X) = µ şi Var(X) = σ N N 1, fără a putea preciza care este repartiţia lui X. Aici N este volumul populaţiei Ω, > 0.05N. Propoziţie Dacă X N (0, 1) şi {X 1, X 2,..., X }, variabile aleatoare de selecţie repetată de volum, atuci variabila aleatoare H 2 = X 2 i χ 2 (). Observaţia 4.7 O coseciţă imediată a acestei propoziţii este că, dacă X N (0, 1), atuci v.a. X 2 χ 2 (1). Următoarea propoziţie este tot o coseciţă directă a Propoziţiei Propoziţie (repartiţia dispersiei de selecţie câd media caracteristicii este cuoscută) Dacă X N (µ, σ), atuci variabila aleatoare H 2 = 1 σ 2 (X i µ) 2 χ 2 (). Propoziţie Fie X N (µ, σ) caracteristica uei populaţii statistice. Atuci statistica χ 2 = 1 σ 2 (X i X) 2 χ 2 ( 1). Observaţia 4.8 Cocluzia propoziţiei se poate rescrie astfel: 1 σ 2 S 2 χ 2 ( 1), (4.4.3) ude S 2 este dispersia de selecţie. Acest rezultat stabileşte repartiţia dispersiei de selecţie S 2 petru o caracteristică ormală, atuci câd media caracteristicii u este cuoscută. Propoziţie Dacă X N (µ, σ) este caracteristica uei colectivităţi statistice, atuci statistica t = X µ S 1 t( 1). (Aici, t( 1) este repartiţia Studet cu ( 1) grade de libertate). Observaţia 4.9 Aceasta propoziţie va fi folosită petru verificarea ipotezelor statistice, î problema testării mediei teoretice µ (testul t) câd dispersia teoretică este ecuoscută a priori. Propoziţie Fie ξ i N (µ i, σ i ) variabile aleatoare idepedete stochastic şi a i R, i = 1,. Petru fiecare caracteristică ξ i cosiderăm câte o selecţie repetată de volum i, şi otăm cu ξ i media de selecţie corespuzătoare fiecărei selecţii. Atuci statistica Y = a 1 ξ 1 + a 2 ξ a ξ satisface proprietatea: Y N ( a i µ i, a 2 i Următoarea propoziţie este u caz particular al Propoziţiei 4.4.9, cu = 2, ξ 1 = X, ξ 2 = Y şi a 1 = 1, a 2 = 1. σ 2 i i ).

65 4.4 Selecţii aleatoare petru caracteristici ormale 65 Propoziţie (repartiţia difereţei mediilor de selecţie petru caracteristici gaussiee, câd dispersiile sut cuoscute) Cosiderăm o selecţie de volum 1 petu o variabilă ormală X N (µ 1, σ 1 ) şi o selecţie de volum 2 petru o variabilă ormală Y N (µ 2, σ 2 ), cele două selecţii fiid alese idepedet ua de cealaltă. Notăm cu X şi, respectiv, Y mediile de selecţie corespuzătoare selecţiilor alese. Atuci statistica X Y N µ 1 µ 2, σ σ Observaţia 4.10 (1) Cocluzia propoziţiei aterioare se mai poate scrie astfel: Z = (X Y ) (µ 1 µ 2 ) σ σ N (0, 1). (2) Să cosiderăm două variabile ormale X şi Y, ce urmează a fi studiate. De exemplu, X şi Y sut masele pieselor produse de două struguri îtr-o zi de lucru. Să mai presupuem că deviaţiile stadard ale variabilelor cosiderate (σ X şi σ Y ) sut cuoscute (i.e., deviaţiile sut date deja î cartea tehică a celor două struguri). Petru fiecare ditre cele două caracteristici, cosiderăm câte o selecţie repetată, de volume 1, respectiv, 2 (adică, vom selecta 1 ditre piesele produse de strugul îtâi şi 2 piese produse de cel de-al doilea strug). Să otăm cu X 1, respectiv, Y 2 mediile de selecţie corespuzătoare. Propoziţia aterioară precizează care este repartiţia difereţei stadardizate a celor două medii de selecţie. Aceasta e va fi deosebit de utilă, spre exemplu, î verificarea ipotezei că masele medii µ 1 şi µ 2 ale pieselor produse de cele două struguri coicid. Propoziţie (repartiţia difereţei mediilor de selecţie câd dispersiile sut ecuoscute, egale) Cosiderăm o selecţie de volum 1 petu o variabilă ormală X N (µ 1, σ 1 ) şi o selecţie de volum 2 petru o variabilă ormală Y N (µ 2, σ 2 ), cele două selecţii fiid alese idepedet ua de cealaltă. Notăm cu X, Y şi S1 2 = S2 (X), S2 2 = S(Y ) mediile de selecţie şi, respectiv, dispersiile de selecţie corespuzătoare selecţiilor alese. Î plus, presupuem că dispersiile teoretice petru X şi Y sut egale, i.e., σ1 2 = σ 2 2 = σ 2. Atuci statistica T = (X Y ) (µ 1 µ 2 ) ( 1 1)S1 2 + ( 2 1)S t( ). 2 Propoziţie (repartiţia difereţei mediilor de selecţie câd dispersiile sut ecuoscute şi diferite) Cosiderăm o selecţie de volum 1 petu o variabilă ormală X N (µ 1, σ 1 ) şi o selecţie de volum 2 petru o variabilă ormală Y N (µ 2, σ 2 ), cele două selecţii fiid alese idepedet ua de cealaltă. Notăm cu X, Y şi S1 2 = S2 (X), S2 2 = S2 (Y ) mediile de selecţie şi, respectiv, dispersiile de selecţie corespuzătoare selecţiilor alese. Presupuem că dispersiile teoretice petru X şi Y sut diferite, i.e., σ1 2 σ 2 2. Atuci statistica T = (X Y ) (µ 1 µ 2 ) S1 2 + S t(n), (4.4.4) ude ( ) S S N = ( ) S 2 2 ( ) 1 1 S (4.4.5)

66 66 Capitolul 4. Noţiui de Teoria selecţiei statistice Observaţia 4.11 Î practică, îaite de a testa egalitatea mediilor teoretice a două caracteristici, se foloseşte mai îtâi u test statistic petru testarea egalităţii variaţiilor (dispersiilor) celor două caracteristici. Î fucţie de rezultatul acestui test, se va alege statistica potrivită petru a testa egalitatea mediilor. Următoarele două propoziţii vor fi folosite petru verificarea ipotezelor statistice, î problema testării egalităţii variaţiilor teoretice σ1 2 = σ 2 2 (testul F) câd mediile teoretice corespuzătoare sut ecuoscute a priori (Propoziţia ) sau cuoscute a priori (Propoziţia ). Propoziţie (repartiţia raportului dispersiilor petru caracteristici gaussiee) Fie X N (µ 1, σ 1 ) şi Y N (µ 2, σ 2 ) două caracteristici ale uei populaţii statistice. Petru fiecare caracteristică cosiderăm câte o selecţie repetată, de volum 1, respectiv, 2. Fie S 2 1 = S2 (X) şi S 2 2 = S2 (Y ) dispersiile de selecţie corespuzătoare celor două selecţii repetate. Atuci statistica F = σ 2 2 σ 2 1 S1 2 S2 2 F ( 1 1, 2 1). Propoziţie (repartiţia raportului dispersiilor petru caracteristici gaussiee) Sutem î codiţiile Propoziţiei , cu meţiuea că mediile teoretice µ 1 şi µ 2 sut cuoscute a priori. Atuci ude d1 2 şi d2 2 sut date de: F 1 = σ 2 2 σ 2 1 d1 2 d2 2 F ( 1, 2 ), χ 2 1 = 1 σ (X 1i µ 1 ) 2 χ 2 ( 1 ), χ 2 2 = 1 σ j=1 (X 2 j µ 2 ) 2 χ 2 ( 2 ).

67 4.5 Exerciţii rezolvate Exerciţii rezolvate Exerciţiu 4.1 Presupuem că masa medie a uor batoae de ciocolată produse de o maşiă este o caracteristică X N (100, 0.65). Î vederea verificării parametrilor maşiii, ditre batoaele primite îtr-u depozit s-au ales la îtâmplare 1000 de bucăţi. (i) Calculaţi media şi deviaţia stadard ale mediei de selecţie, X. (ii) Calculaţi P(98 < X < 102). (iii) U bato este declarat rebut dacă masa sa este sub 98 de grame sau peste 102 de grame. Calculaţi procetul de rebuturi avute. Soluţie: (i) Ştim că media de selecţie X urmează repartiţia N (100, 0.65/ 1000). Aşadar, µ X = 100, σ X (ii) Probabilitatea P 1 = P(98 < X < 102) este P 1 = P(X < 102) P(X 98) = F X (102) F X (98) 1. (iii) Probabilitatea de a avea u rebut este: ( P 2 = P {X < 98} ) {X > 102} = P(X < 98) + P(X > 102) = F X (98) + 1 F X (102), de ude, procetul de rebuturi este adică aproximativ 2 rebuturi la 1000 de batoae. Î MATLAB, acestea pot fi calculate astfel: r = P 2 100% %, mu = 100; sigma = 0.65; =1000; % = volumul selectiei X = ormrd(mu, sigma,,); % am geerat selectia de volum Xbar = mea(x); S = sigma/sqrt(); % Xbar = media de selectie m = mea(xbar); s = std(xbar); % media si deviatia stadard P1 = ormcdf(102, mu, S) - ormdf(98, mu, S); P2 = ormcdf(98,mu,sigma) ormcdf(102,mu,sigma); rebut = P2*100; Exerciţiu 4.2 Şampoul marca FAIRHAIR se vide acum î supermarket î trei mărimi (volume): 250ml, 500ml şi 1 litru. Treizeci la sută ditre cumpărătorii acestui produs cumpără flacoul de 250ml, 50% pe cel de 500ml, iar restul pe cel de 1 litru. Notăm cu X volumul uui flaco de FAIRHAIR. Fie X 1 şi X 2 volumele flacoaelor cumpărate de doi ditre clieţi, aleşi la îtâmplare. (a) Determiaţi repartiţia mediei de selecţie X. Calculaţi media E(X) şi comparaţi-o cu µ = E(X). (b) Calculaţi D(X) şi comparaţi-o cu σ = D(X). (c) Calculaţi probabilitatea P(X 500). (d) Care ar trebui să fie volumul miim de cumpărători petru ca media de selecţie să satisfacă relaţia P(X 500) > 0.75? Soluţie: Fie v.a. X ce reprezită volumul ales de u cumpărător. Atuci distribuţia lui X este: x p(x)

68 68 Capitolul 4. Noţiui de Teoria selecţiei statistice Deoarece X 1 şi X 2 sut variabile aleatoare de selecţie, ele sut idepedete ac si au aceeaşi repartiţie ca X. Avem că µ = E(X) = 525 şi σ = D(X) = (a) Media de selecţie este X = (X 1 + X 2 )/2. Repartiţia sa este: x p(x) Media este µ X = E(X) = E(X) = µ = 525. (b) σ X = σ 109 = < σ. (c) P(X 500) = 0.25 ( ) = σ (d) Î geeral, X N µ,, de ude găsim că X µ σ 0.75 < P(X 500) = 1 P(X 500) = 1 P ( ) = 1 Θ, 109 N (0, 1) Aşadar, ( ) ( X µ 500 µ = 1 Θ σ σ ) 500 µ σ de( ude ) Θ < 0.25 şi < Θ 1 (0.25) = z 0.25 = , de ude > 109 z Exerciţiu 4.3 Î vederea studierii uei caracteristici X ce are desitatea de repartiţie { 2x, x (0, 1); f (x) = 0, x (0, 1). s-a efectuat o selecţie repetată de volum = 100. P(X < 0.65), ude X este media de selecţie. Se cere să se determie probabilitatea Soluţie: Se observă cu uşuriţă că f (x) îdeplieşte codiţiile uei fucţii de repartiţie, adică este măsurabilă, eegativă şi 1 f (x)dx = 2xdx = 1. R 0 Petru a calcula probabilitatea cerută, avem evoie de E(X) şi D 2 (X). Avem: Aşadar, repartiţia mediei de selecţie X este 1 E(X) = x f (x)dx = 2x 2 dx = 2 R 0 3, D 2 (X) = E(X 2 ) (E(X)) 2 = x 2 f (x)dx 4 9 = R X N ( 2 3, ). Putem acum calcula probabilitatea cerută. Ea este: P(X < 0.65) = F X (0.65) = ormcdf(0.65, 2/3, 1/(30*sqrt(2))) =

69 4.5 Exerciţii rezolvate 69 Exerciţiu 4.4 Notăm cu P 1, P 2,..., P 9 preţurile oferite de 9 ofertaţi la o licitaţie publică petru viderea uui aumit tablou. Presupuem că acestea sut variabile aleatoare repartizate uiform U (1000, 2000). Obiectul se va vide celui care vie cu oferta cea mai mare. Determiaţi valoarea aşteptată a preţului obţiut petru acest tablou. Soluţie: Deoarece P U (1000, 2000), atuci { 1 f (x) = 1000, dacă 1000 < x < , dacă x 1000 şi F(x) = x , dacă 1000 < x < , dacă x (1000, 2000) 1, dacă x 2000 Fucţia de repartiţie a statisticii de ordie M = P (9) = max{p 1, P 2,..., P 9 } este F T(9) (x) = [F(x)] 9, x R. Desitatea de repartiţie a statisticii de ordie M este f T(9) (x) = F T (9) (x) = 9[F(x)] 8 f (x), x R. Preţul de vâzare aşteptat este media variabilei aleatoare M, E(M) = x f Y (x)dx = ( ) x x dx = Exerciţiu 4.5 Două avioae zboară î aceeaşi direcţie pe două coridoare paralele. La mometul t = 0, primul avio are u avas de 6km î faţa celui de-al doilea. Presupuem că viteza primului avio (măsurată î km/h) este o v.a. repartizată ormal, cu media 510 şi deviaţia stadard 10, iar viteza celui de-al doilea avio este ormal repartizată, cu media 500 şi deviaţia stadard 10. (a) Care este probabilitatea ca, după 4 ore de zbor, al doilea avio să u îl fi ajus pe primul? (b) Determiaţi probabilitatea ca, după 4 ore de zbor, distaţa ditre cele două avioae să fie de cel mult 5km. Soluţie: Notăm cu v 1 şi v 2 cele două viteze. Avem că v 1 N (510,10) şi v 2 N (500,10). După 4 ore de zbor (adică avem câte o selecţie de volum 4 petru fiecare v.a.), mediile de selecţie for satisface: v 1 N (510,5) şi v 2 N (500,5). Difereţa mediilor de selecţie este o v.a. repartizată astfel: v 1 v 2 N (10,5 2). (a) Eveimetul ca, după 4 ore de zbor, al doilea avio să u îl fi ajus pe primul este {4v 1 4v > 0}. Probabilitatea acestui eveimet este: P({4v 1 4v > 0}) = P({v 1 v 2 > 3 2 }) = 1 P({v 1 v }) = 1 F v 1 v 2 ( 3 2 ) = 1 - ormcdf(-3/2,10,5*sqrt(2)) =

70 70 Capitolul 4. Noţiui de Teoria selecţiei statistice (b) Eveimetul ca, după 4 ore de zbor, distaţa ditre cele două avioae să fie de cel mult 5km este { 4v 1 4v }. Probabilitatea acestui eveimet este: ( P({ 4v 1 4v }) = P 11 4 v 1 v 2 1 ) 4 ( = F v1 v 2 1 ) ( F v1 v2 11 ) 4 4 = Î MATLAB, putem calcula astfel: ormcdf(-1/4,10,5*sqrt(2)) - ormcdf(-11/4,10,5*sqrt(2)) Exerciţiu 4.6 Becurile produse de u maufacturier A au timpul mediu de fucţioare de 1400 ore, cu deviaţia stadard de 200 ore, î timp ce timpul mediu de fucţioare ale becurilor produse de u maufacturier B au timpul mediu de fucţioare de 1200 ore, cu deviaţia stadard de 100 ore. Se face o selecţie de 125 becuri di fiecare tip şi se testează becurile alese. Petru selecţiile date, care este probabilitatea ca becurile produse de A au u timp mediu de viaţă mai mare cu (a) 160 de ore; (b) 250 de ore; mai mare decât timpul mediu de fucţioare ale becurilor produse de B? (c) Care este probabilitatea ca timpul mediu de fucţioare al becurilor selectate di tipul A să fie cupris ître 1375 de ore şi 1425 de ore? (d) Presupuem că timpul mediu de fucţioare ale becurilor produse de A este o v.a. ormală. Alegem la îtâmplare u bec de tipul A. Care este probabilitatea ca timpul să mediu de fucţioare să fie cupris ître 1375 de ore şi 1425 de ore? Soluţie: Notăm cu T 1 şi T 2 cele două timpuri de fucţioare. Avem că µ T1 = 1400, σ T1 = 200 şi µ T2 = 1200, σ T2 = 100. Petru o selecţie de volum = 125 (vom cosidera că selecţia este repetată, deoarece volumul selecţiei este mult mai mic decât umărul becurilor produse de fiecare maufacturir), avem că: T 1 N (1400, ) şi T 2 N (1200, ). Difereţa mediilor de selecţie este o v.a. repartizată astfel: (a) (b) (c) Probabilitatea cerută este: P(T 1 T 2 > 160) = 1 F T1 T 2 (160) Probabilitatea cerută este: T 1 T 2 N (200,20). = 1 - ormcdf(160,200,20) = P(T 1 T 2 > 250) = 1 F T1 T 2 (250) Probabilitatea cerută este: = 1 - ormcdf(250,200,20) = P(1375 T ) = F T1 (1425) F T1 (1375) = ormcdf(1425,1400,8*sqrt(5))-ormcdf(1375,1400,8*sqrt(5)) =

71 4.6 Exerciţii propuse 71 (c) Probabilitatea cerută este: P(1375 T ) = F T1 (1425) F T1 (1375) = ormcdf(1425,1400,200) - ormcdf(1375,1400,200) = Exerciţii propuse Exerciţiu 4.7 Catitatea de apă cosumată de Aa î fiecare zi se presupue a fi o v.a. ormală cu media 2l şi deviaţia stadard 300ml, idepedetă de zi. Aa a cumpărat azi u bax de 6 sticle a câte 2.5 litri de apă fiecare. Presupuâd că Aa bea doar di apa cumpărată azi, care este probabilitatea ca ea să mai aibă apă di acest stoc şi după o săptămâă (7 zile, iclusiv cea de azi)? Exerciţiu 4.8 Masa medie a uui bagaj ce trece pe la serviciul de check-i al aeroportului di Iaşi petru cursa de Viea este o v.a. cu media 21kg şi deviaţia stadard 3.5kg petru pasagerii de la clasa ecoomic şi o v.a. cu media 12kg şi deviaţia stadard 4.5kg petru pasagerii de la clasa busiess. Presupuem că aceste valori sut ale uor variabile aleatoare idepedete de la u pasager la altul, idiferet de clasă. (a) Îtr-o aumită cursă se află 16 pasageri la clasa busiess şi 81 pasageri la clasa ecoomic. Care este valoarea aşteptată şi deviaţia stadard a masei totale de bagaje ale pasagerilor di acel avio? (b) Care este probabilitatea ca masa totală de bagaje ale celor 97 de pasageri petru această cursă să u depăşească 2000kg? (c) Se aleg la îtâmplare bagajele a 6 pasageri de la clasa ecoomic şi a 10 pasageri de la clasa busiess şi se câtăresc. Care este probabilitatea ca difereţa maselor bagajelor ditre cele două clase să fie mai mică de 20kg? Exerciţiu 4.9 Batoaele de ciocolată produse de o aumită firmă câtăresc fiecare 50 g, cu deviaţia stadard 0.02 g. Se aleg la îtâmplare două loturi de batoae de ciocolată, fiecare avâd 100 de bucăţi. Care este probabilitatea ca difereţa ditre masele totale ale celor două loturi să u fie mai mare de 5 g? Exerciţiu 4.10 Presupuem că timpul de aşteptare a autobuzului î staţie este o v.a. repartizată U (0, 10) petru orele dimieţii, iar timpul de aşteptare a autobuzului î staţie la orele serii este o v.a. repartizată U (0, 8). Toţi timpii sut idepedeţi ître ei. (a) Dacă îtr-o aumită săptămâă luaţi autobuzul î fiecare zi (5 zile lucrătoare), care este timpul total mediu pe care vă aşteptaţi să-l petreceţi î staţia de autobuz î îtreaga săptămâă? (b) Care este abaterea stadard a timpului total petrecut î staţia de autobuz î îtreaga săptămâă? (c) Determiaţi valoarea medie şi abaterea stadard a difereţei ditre timpul total petrecut dimieaţa şi timpul total petrecut seara î staţia de autobuz î îtreaga săptămâă? Exerciţiu 4.11 Presupuem că timpul ecesar pescuirii uui peşte ditr-u aumit iaz este o variabilă aleatoare repartizată exp(10mi). La u cocurs, şapte pescari se îtrec î a pride câte u peşte, câştigâd cel care l-a pris primul. (i) Care este probabilitatea ca primul peşte să fie pris î mai puţi de 7 miute? (ii) Care este probabilitatea ca toţi cei 7 pescari să fi pris câte u peşte î mai puţi de 15 miute? Exerciţiu 4.12 U aumit compoet electric, care este strict ecesar pe u satelit ce orbitează Pămâtul, are durata medie de fucţioare cotiuă de 10 zile. (a) Care este probabilitatea ca durata de fucţioare cotiuă a uui astfel de compoet să depăşească 10 zile? (se cosideră că timpul de fucţioare este o v.a. expoeţială). (b) De îdată ce se defectează, acest compoet va trebui îlocuit imediat cu uul ou, idetic. Care este umărul miim de compoete de acest tip ce trebuie luate la plecarea îtr-o misiue de u a, petru ca probabilitatea ca satelitul să deviă ioperativ di cauza epuizării tuturor rezervelor fucţioabile să fie mai mică de 0.02?

72 72 Capitolul 4. Noţiui de Teoria selecţiei statistice

73 5. Estimatori. Itervale de icredere. Q: How may statisticias does it take to chage a lightbulb?. A: 1 to 3. (α = 0.05) Ua ditre problemele de care se preocupa Statistica este estimarea parametrilor uei populatii. Cosideram o populatie statistica de volum N (fiit sau ifiit) si X o caracteristica (variabila aleatoare) a sa. Pe baza uor observatii asupra lui X, x 1, x 2,..., x, dorim sa estimam parametrii µ = EX, σ 2 = D 2 (X). I cotiuare, vom preciza atat estimatori puctuali petru acesti parametri, cat si itervale de icredere. Deoarece setul de valori observate poate sa difere de la u esatio la altul, vom cosidera i locul lor variabilele aleatoare de selecţie repetată de volum, {X 1, X 2,..., X }. Cu alte cuvite, x i este o posibila valoare a variabilei X i (i = 1, 2,,..., ). Aceste variabile sut idepedete si repartitia lor comua este repartiţia lui X. O fuctie f (X 1, X 2,..., X ) ce depide de aceste variabile se va umi geeric statistică. I caz ca u este pericol de cofuzie, valoarea statisticii petru u esatio, f (x 1, x 2,..., x ), se umeste tot statistică. Se umeşte estimator al lui θ o statistică ˆθ = ˆθ(X 1, X 2,..., X ), cu ajutorul căreia dorim să îl aproximăm pe θ. Î acest caz, e-am dori să ştim î ce ses şi cât de bie este această aproximaţie. Dacă {x 1, x 2,..., x } sut date observate, atuci ˆθ = ˆθ(x 1, x 2,..., x ) se umeşte estimaţie a lui θ. Aşadar, o estimaţie petru u parametru ecuoscut este valoarea estimatorului petru selecţia observată. Pri abuz de otaţie, vom ota atât estimatorul cât şi estimaţia cu ˆθ şi vom face difereţa ître ele pri precizarea variabilelor de care depid. Deoarece estimarile sut bazate doar pe valorile uei submultimi di colectivitate, ele u pot fi exacte. Apar astfel erori de aproximare. Ne-am dori să ştim î ce ses şi cât de bie u estimator aproximeaza (se apropie) de valoarea estimata. Petru aceasta, avem evoie de aumite catitati care sa cuatifice erorile de aproximare. I acest ses, vom discuta aici despre: deplasare, eroarea

74 74 Capitolul 5. Estimatori. Itervale de icredere medie patratica si eroarea stadard. U estimator ˆθ se umeste estimator edeplasat (e., ubiased estimator) petru parametrul θ dacă media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic, scriem astfel: E( ˆθ) = θ. Altfel, spuem că ˆθ este u estimator deplasat petru θ, iar deplasarea (distorsiuea) se defieşte pri: b( ˆθ, θ) = E( ˆθ) θ. Catitatea b( ˆθ, θ) este o măsură a erorii pe care o facem î estimarea lui θ pri ˆθ. O alta masura a icertitudiii cu care u estimator aproximeaza parametrul este eroarea stadard (e., stadard error), otata aici pri σ( ˆθ) sau σ ˆθ. Spre exemplu, daca estimatorul ˆθ este X, atuci σ X = σ, ude σ este deviatia stadard a uei sigure observatii. Se observa de aici ca σ X va tide la 0 daca creste emargiit. Astfel, daca umarul de masuratori creste, media acestor masuratori se apropie mult de valoarea parametrului µ. U estimator petru eroarea stadard (e., estimated stadard error), otata aici pri σ( ˆθ) sau σ ˆθ sau s ˆθ. Spre exemplu, daca estimatorul ˆθ este X, atuci u estimator petru eroarea stadard este s X = s, ude s este estimatorul edeplasat petru deviatia stadard. Numim eroare medie pătratică a uui estimator ˆθ petru θ (e., mea squared error) catitatea MSE( ˆθ, θ) = E( [ ˆθ θ ] 2 ). Aceasta catitate e va idica valoarea medie a patratului diferetei ditre estimator si valoarea parametrului estimat. Petru u estimator edeplasat, MSE este chiar dispersia estimatorului, σ 2ˆθ. Exemple de estimatori: 1. Media de selecţie X = 1 X i este u estimator edeplasat petru parametrul µ (media teoretică). 2. Dispersia de selecţie modificată S 2 = 1 1 [X i X] 2 este u estimator edeplasat petru dispersia teoretică petru parametrul σ dispersia de selecţie S 2 = 1 [X i X] 2 este u estimator deplasat petru parametrul σ 2, deplasarea fiid b(s 2, σ 2 ) = σ 2.

75 5.1 Metode folosite petru estimarea parametrilor 75 U estimator edeplasat ˆθ petru θ, θ Θ, se umeşte estimator edeplasat uiform de dispersie miimă (e., Uiformly Miimum Variace Ubiased Estimator - UMVUE) dacă petru orice alt estimator edeplasat petru θ, otat cu ˆθ, avem Var( ˆθ) Var( ˆθ ), petru orice valoarea a parametrului θ. Estimatorul ˆθ petru θ este u estimator cosistet dacă ˆθ(X 1, X 2,..., X ) prob θ, câd. Î acest caz, valoarea umerică a estimatorului, ˆθ(x 1, x 2,..., x ), se umeşte estimaţie cosistetă petru θ. Petru u aumit parametru pot exista mai mulţi estimatori edeplasati. De exemplu, petru parametrul λ di repartiţia Poisso P(λ) există următorii estimatori: X şi S 2. Ditre doi estimatori petru u parametru, este de preferat acel estimator care are dispersia miima. I exemplul aterior il vom alege pe X. Dacă ˆθ este u estimator petru θ este u estimator obţiut pri metoda verosimilităţii maxime şi h(x) este o fucţie bijectivă, atuci ĥ(θ) = h( θ). Î cazul î care h(x) u este bijectivă, atuci relaţia aterioară u este eapărat valabilă, după cum arată exemplul următor. Exemplu 5.1 Fie ˆθ u estimator petru θ. Pătratul acestui estimator, ˆθ 2 u este, î geeral, estimatorul petru θ 2. Aici, h(x) = x 2. De exemplu, să presupuem că X N (0, 1) şi avem următoarele 30 de observaţii asupra lui X: ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; U estimator absolut corect petru media teoretică a lui X, i.e., petru µ X = 0, este X. (petru selecţia dată, X = ). Variabila aleatoare X 2 urmează repartiţia χ 2 (1) şi are media µ X 2 = 1 (vezi repartiţia χ 2 ). U estimator absolut corect petru µ X 2 este X 2. Pe de altă parte, petru selecţia dată avem că X iar ( X ) 2 = Metode folosite petru estimarea parametrilor metoda verosimilităţii maxime; metoda mometelor; metoda miimului lui χ 2 ; metoda celor mai mici pătrate; metoda itervalelor de îcredere Metoda verosimilităţii maxime Fie caracteristica X studiată, care are fucţia de probabilitate f (x; θ) (ude θ = (θ 1,θ 2,..., θ p ) sut parametri ecuoscuţi). Să presupuem că avem observaţii asupra caracteristicii X, adică am ales o selecţie de date, x 1, x 2,..., x. Fie {X 1, X 2,..., X } variabilele aleatoare de selecţie repetată de volum.

76 76 Capitolul 5. Estimatori. Itervale de icredere Defiiţia (1) Numim estimator de verosimilitate maximă (maximum likelihood estimator) petru θ o statistică ˆθ = ˆθ(X 1, X 2,..., X ) petru care se obţie maximumul fucţiei de verosimilitate, L (X; θ) = k=1 f (X k, θ). (2) Valoarea uei astfel de statistici petru o observaţie dată se umeşte estimaţie de verosimilitate maximă petru θ. Observaţia 5.1 Aceasta metodă estimează "valoarea cea mai verosimilă" petru parametrul θ. Nu este ecesar ca L să existe petru ca estimatorul de verosimilitate maximă să fie calculat. θ Dacă aceasta există, atuci acest estimator se obţie ca soluţia ˆθ a sistemului de ecuaţii: L (X; θ) θ k = 0, k = 1, 2,..., p, (5.1.1) care este echivalet cu următorul sistem: ll (X; θ) = θ k l f (X i ; θ) θ k = 0, k = 1, 2,..., p. (5.1.2) Exemplu 5.2 Estimaţi pri metoda verosimilităţii maxime parametrii uei caracteristici X N (µ, σ). Soluţie: Legea de probabilitate petru X N (µ, σ) este f (x, µ, σ) = 1 σ (x µ) 2 2π e 2σ 2, x R. Alegem o selecţie repetată de volum, pe care o vom ota (X k ) k=1,. Parametrii caracteristicii X sut θ = (µ, σ) şi fucţia de verosimilitate asociată selecţiei este Astfel, L (X; µ, σ) = f (X k, µ, σ) k=1 = 1 e σ (2π) 2 k=1 (X k µ) 2 2σ 2. ( 1 ll (X; µ, σ) = l σ (2π) 2 ) 1 2σ 2 k=1 (X k µ) 2. Aşadar, petru a găsi estimatorii de verosimilitate maximă petru µ şi σ, avem de rezolvat sistemul: L µ = 1 σ 2 k=1 L σ = σ + 1 σ 3 (X k µ) = 0; k=1 (X k µ) 2 = 0. Se observă cu usuriţă că soluţia sistemului ce covie (ţiem cot că σ > 0) este ˆµ = 1 k=1 X k = X, ˆσ = 1 k=1 (X k X) 2 = d(x). (5.1.3)

77 5.1 Metode folosite petru estimarea parametrilor 77 Verificăm acum dacă valorile găsite sut valori de maxim. Petru aceasta, matricea hessiaă calculată petru valorile obţiute trebuie să fie egativ defiită. Mai îtâi, calculăm matricea hessiaă. Aceasta este: H(µ, σ) = 2 L µ σ = Acum calculăm H( ˆµ, ˆσ). 2 σ 3 H( ˆµ, ˆσ) = 2 L µ σ µ= ˆµ,σ= ˆσ = k=1 k=1 σ 2 2 ( σ 3 (X k µ) σ σ 2 ṋ σ ˆσ 2 (X k µ) k=1 (X k µ) 2 ) care este o matrice egativ defiită, deoarece valorile sale proprii, adică rădăciile poliomului caracteristic det(h( ˆµ, ˆσ) λ I 2 ) = 0, sut, λ 1 = ṋ σ 2 < 0 şi λ 2 = 2 ˆσ 2 < 0. Deci, estimatorii ˆµ şi ˆσ obţiuţi pri metoda verosimilităţii maxime sut µ = X şi σ = d(x). Observaţia 5.2 De remarcat faptul că estimatorul d(x) obţiut pri metoda verosimilităţii maxime u este absolut corect, ci doar corect Metoda mometelor (K. Pearso) Î aumite cazuri, valorile critice petru fucţia de verosimilitate sut dificil de calculat. De aceea, e evoie de alte metode petru a găsi estimatori petru parametri. Fie caracteristica X care are fucţia de probabilitate f (x; θ) (ude θ = (θ 1,θ 2,..., θ p ) sut parametri ecuoscuţi) ce admite momete pâă la ordiul p (adică, α p = E(X p ) < ). Dorim să găsim estimatori (estimaţii) puctuale ale parametrilor ecuoscuţi. Petru aceasta, efectuăm observaţii asupra caracteristicii, adică alegem o selecţie de date, x 1, x 2,..., x. Fie {X 1, X 2,..., X } variabilele aleatoare de selecţie repetată de volum. Metoda mometelor costă î estimarea parametrilor ecuoscuţi di codiţiile ca mometele iiţiale de selecţie să fie egale cu mometele iiţiale teoretice respective, ale lui X. Aceasta îseamă că avem de rezolvat u sistem de ecuaţii î care ecuoscutele sut parametrii ce urmează a fi estimaţi. Defiiţia Numim estimator (puctual) petru θ obţiut pri metoda mometelor soluţia ˆθ = ( ˆθ 1, ˆθ 2,..., ˆθ p ) (aici ˆθ k = ˆθ k (X 1, X 2,..., X ), k = 1, p) a sistemului: α 1 (X 1, X 2,..., X ) = α 1 (X), (5.1.4) α 2 (X 1, X 2,..., X ) = α 2 (X), α p (X 1, X 2,..., X ) = α p (X),.

78 78 Capitolul 5. Estimatori. Itervale de icredere ude α k (X 1, X 2,..., X ) sut mometele de selecţie de ordi k petru X, α k (X 1, X 2,..., X ) = 1 X k i, şi α k (X) sut mometele teoretice petru X (care depid de θ), adică: α k = E(X k ), k = 1, 2,..., p. O estimaţie (puctuală) petru θ va fi o realizare a estimatorului ˆθ = ( ˆθ 1, ˆθ 2,..., ˆθ p ), ude compoetele sut ˆθ k = ˆθ k (x 1, x 2,..., x ), k = 1, p). Observaţia 5.3 Aceasta metodă este fudametată teoretic pe faptul că mometele de selecţie sut estimatori absolut corecţi petru mometele teoretice corespuzătoare. Metoda u poate fi aplicată repartiţiilor care u admit medie (e.g., repartiţia Cauchy). Exemplu 5.3 Fie X U (a, b) caracteristica uei populaţii, ude a < b sut umere reale. Utilizâd metoda mometelor, determiaţi estimatori petru capetele itervalului. Soluţie: Dacă X U (a, b), atuci de ude E(X) = a + b 2 (b a)2, Var(X) =, 12 E(X 2 ) = Var(X) + [E(X)] 2 = a2 + ab + b 2. 3 Sistemul (5.1.4) se scrie astfel î acest caz: ude α 1 (X 1, X 2,..., X ) = E(X) (5.1.5) α 2 (X 1, X 2,..., X ) = E(X 2 ), α 1 = 1 i, α 2 = X 1 X 2 i. Ilocuid î relaţiile (5.1.5), avem de găsit soluţia (â, ˆb) a următorului sistem: a + b = 2α 1 a b = 4α 2 1 3α 2. Aceasta este: â = α 1 3 α 2 α 2 1; ˆb = α α 2 α 2 1. Făcâd calculele şi ţiâd cot că α 1 = X, obţiem estimatorii petru a şi, respectiv, b: ude X = 1 â = X 3S; ˆb = X + 3S, X i şi S = 1 Estimaţiile puctuale petru a şi b sut: â = 1 3 x i i x) (x 2, ˆb = 1 (X i X) 2. x i + 3 (x i x) 2

79 5.2 Estimarea parametrilor pri itervale de îcredere Estimarea parametrilor pri itervale de îcredere După cum am văzut aterior, putem determia estimaţii puctuale petru parametrii uei populatii îsă, o estimaţie puctuală, u precizează cât de aproape se găseşte estimaţia ˆθ(x 1, x 2,..., x ) faţă de valoarea reală a parametrului θ. De exemplu, dacă dorim să estimăm masa medie a uor produse alimetare fabricate de o aumită maşiă, atuci putem găsi u estimator puctual (e.g., media de selecţie) care să e idice că aceasta este de 500 de grame. Ideal ar fi dacă această iformaţie ar fi prezetată sub forma: masa medie este 500g±10g. Putem obţie astfel de iformaţii dacă vom costrui u iterval î care, cu o probabilitate destul de mare, să găsim valoarea reală a lui θ. Să cosiderăm o selecţie repetată de volum, X 1, X 2,..., X, ce urmează repartiţia lui X. Dorim să găsim u iterval aleator care să acopere cu o probabilitate mare (e.g., 0.95, 0.98, 0.99 etc) valoarea posibilă a parametrului ecuoscut. Petru u α (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim iterval de îcredere (e., cofidece iterval (C.I.)) petru parametrul θ, cu probabilitatea de îcredere 1 α, u iterval aleator (θ, θ) astfel îcât P(θ < θ < θ) = 1 α, (5.2.6) ude θ(x 1, X 2,..., X ) şi θ(x 1, X 2,..., X ) sut statistici. Spre exemplu, u iterval de îcredere cu semificaţia 0.95 (e., a 95% C.I.) este u iterval aleator ce acoperă valoarea reală a parametrului θ cu probabilitatea Probabilitatea 0.95 este asociată itervalului şi u parametrului de estimat, θ. Cu alte cuvite, î cazul uui iterval de îcredere cu îcrederea de 95%, este greşită afirmaţia că probabilitatea ca parametrul estimat să se afle î acest iterval este de Itervalul este aleator iar parametrul de estimat este o costată. Petru o observaţie fixată, capetele itervalului (aleator) de îcredere vor fi fucţii de valorile de selecţie. De exemplu, petru datele observate, x 1, x 2,..., x, itervalul ( θ(x1, x 2,..., x ), θ(x 1, x 2,..., x ) ) se umeşte valoare a itervalului de îcredere petru θ. Petru simplitate îsă, vom folosi termeul de "iterval de îcredere" atât petru itervalul propriu-zis, cât şi petru valoarea acestuia, îţelesul desprizâdu-se di cotext. Valoarea α se umeşte ivel de semificaţie sau probabilitate de risc. Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şasa (care este (1 α) 100%) ca valoarea reală a parametrului θ să se găsească î itervalul găsit este mai mare. Deşi şasele 99% sau 99.99% par a fi foarte apropiate şi ar da rezultate asemăătoare, sut cazuri î care fiecare sutime cotează. De exemplu, să presupuem că îtr-u a caledaristic u eveimet are şasa de 99% de a se realiza, î orice zi a aului, idepedet de celelalte zile. Atuci, şasa ca acest eveimet să se realizeze î fiecare zi a aului î tot decursului acestui a este de %. Dacă şasa de realizare î fiecare zi ar fi fost de 99.99%, atuci rezultatul ar fi fost 96.42%, ceea ce îseamă o difereţă foarte mare geerată de o difereţă iiţială foarte mică. Itervalul de îcredere petru valoarea reală a uui parametru u este uic. Dacă i se dau codiţii suplimetare (e.g., fixarea uui capăt), atuci putem obţie itervale ifiite la u capăt şi fiite la celălalt capăt. Î cotiuare, vom preciza itervale de îcredere petru parametrii uor caracteristici ormale. Tabelul 13.2 sumarizează itervalele de îcredere prezetate mai jos. Î fiecare caz, ivelul de semificaţie este α.

80 80 Capitolul 5. Estimatori. Itervale de icredere O sigură populaţie statistică Iterval de îcredere petru medie, câd dispersia este cuoscută Itervalul de icredere petru medie poate fi bilateral (daca u exista alte iformatii suplimetare despre iterval, atuci il alegem cetrat) sau uilateral (daca u exista limita superioara sau iferioara petru medie). Vom ota cu pri z α cuatila de ordi α petru repartitia N (0, 1). (1) Itervalul de îcredere bilateral petru media teoretică µ câd σ este cuoscut este: ) σ σ (µ, µ) = (x z 1 α2, x + z 1 α2. (5.2.7) (2) Dacă petru media teoretică u se precizează o limită superioară, atuci itervalul de îcredere este: ( ) σ (µ, ) = x z 1 α,. (3) Dacă petru media teoretică u se precizează o limită iferioară, atuci itervalul de îcredere este: ) σ (, µ) = (, x + z 1 α. Î cazul î care volumul selecţiei este mare (de cele mai multe ori î practică, aceasta îseamă 30) metoda de determiare a uui iterval de îcredere prezetată mai sus se poate aplica şi petru selecţii ditr-o colectivitate ce u este eapărat ormală. Aceasta este o coseciţă faptului că, petru mare, statistica X urmează repartiţia N (0, 1) petru orice formă a repartiţiei caracteristicii X (coform teoremei limită cetrală). Itervalele de îcredere determiate mai sus sut valide petru selecţia (repetată sau erepetată) ditr-o populaţie ifiită, sau petru selecţii repetate ditr-o populaţie fiită. Î cazul selecţiilor erepetate di colectivităţi fiite, î estimarea itervalelor de îcredere vom ţie cot şi de volumul N al populaţiei. Spre exemplu, dacă selecţia de volum se face ditr-o populaţie fiită de volum N şi 0.05N, atuci u iteval de îcredere cetrat petru media populaţiei este: (µ, µ) = ( x z 1 α 2 σ N N 1, x + z 1 α 2 ) σ N. (5.2.8) N Iterval de îcredere petru medie, câd dispersia este ecuoscută Ne aflăm î codiţiile di secţiuea precedetă (i.e., o caracteristică ormală, X N (µ, σ)), mai puţi faptul că σ este cuoscut. Dacă deviaţia stadard σ u este cuoscută, atuci ea va trebui estimată. Ştim deja că o estimaţie absolut corectă petru σ este statistica s, dată pri 1 s = 1 (x i x) 2. Itervalele de icredere sut: (1) Dacă u se cuoaşte o altă iformaţie suplimetară despre µ, atuci itervalul de îcredere petru media teoretică µ câd σ este ecuoscut este: ( s (µ, µ) = x t 1 α 2 ; 1, x +t 1 α 2 ; 1 s ). (5.2.9)

81 5.2 Estimarea parametrilor pri itervale de îcredere 81 (2) Dacă petru media teoretică u se precizează o limită superioară, atuci itervalul de îcredere este: ( ) s (µ, ) = x t 1 α; 1,. (3) Dacă petru media teoretică u se precizează o limită iferioară, atuci itervalul de îcredere este: ( s (, µ) =, x t α; 1 ). Aici, pri t α; 1 am otat cuatila de ordi α petru repartiţia t cu ( 1) grade de libertate. Formulele di această secţiue sut practice atuci câd selecţia se face ditr-o colectivitate gaussiaă de volum mic. Câd este mare, atuci va fi o difereţă foarte mică ître valorile z 1 α 2 şi t 1 α 2 ; 1, de aceea am putea folosi z 1 α 2 î locul valorii t 1 α 2 ; 1. Mai mult, petru u mare ( 30), itervalele de îcredere obţiute mai sus rămâ aceleaşi petru orice formă a repartiţiei caracteristicii X, u eapărat petru ua gaussiaă. Aşadar, petru o selecţie de volum mare ditr-o colectivitate oarecare, u iterval de îcredere petru media populaţiei, câd dispersia u este cuoscută, este: (µ, µ) = ( x z 1 α 2 s s, x + z 1 α 2 ). (5.2.10) Iterval de îcredere petru dispersie, câd media este cuoscută Petru estimarea puctuală a lui σ 2 câd media este cuoscută folosim statistica s 2 defiită pri s 2 = 1 [x i µ] 2. Î fucţie de faptul dacă avem sau u iformaţii suplimetare despre dispersie (aalog ca aterior), găsim că itervalul de îcredere petru σ 2, după cum urmează: (1) u avem iformaţii suplimetare despre dispersie: (σ 2, σ 2 ) = ( s 2 χ 2 1 α 2 ;, s 2 χ 2 α 2 ; (2) avem iformaţii că dispersia este emărgiită superior: ( ) (σ 2, σ 2 ) = s 2 χ 2 1 α;, + ) ; (5.2.11) ; (5.2.12) (3) avem iformaţii că dispersia este emărgiită iferior: ( (σ 2, σ 2 s 2 ) ) = 0,, (5.2.13) χ 2 α; ude pri χ 2 α; am otat cuatila de ordi α petru repartiţia χ 2 cu grade de libertate Iterval de îcredere petru dispersie, câd media este ecuoscută Petru estimarea puctuală a lui σ 2 câd media este ecuoscută folosim statistica s 2 defiită pri s 2 = 1 1 [x i x] 2. Î fucţie de faptul dacă avem sau u iformaţii suplimetare despre dispersie, găsim că itervalul de îcredere petru σ 2 este:

82 82 Capitolul 5. Estimatori. Itervale de icredere (1) u avem iformaţii suplimetare despre dispersie: (σ 2, σ 2 ) = ( ( 1)s 2 χ 2 1 α 2 ; 1, ) ( 1)s 2 χ 2, (5.2.14) α 2 ; 1 ude pri χα; 1 2 am otat cuatila de ordi α petru repartiţia χ2 cu ( 1) grade de libertate. (2) avem iformaţii că dispersia este emărgiită superior: ( ) (σ 2, σ 2 ( 1)s 2 ) = χ1 α; 1 2, + ; (5.2.15) (3) avem iformaţii că dispersia este emărgiită iferior: ( ) (σ 2, σ 2 ( 1)s 2 ) = 0, χα; 1 2. (5.2.16) Itervale de îcredere petru deviaţia stadard se obţi pri extragerea rădăciii pătrate di capetele de la itervalele de îcredere petru dispersie Iterval de îcredere petru proporţii îtr-o populaţie biomială Petru o populaţie statistică, pri proporţie a populaţiei vom îţelege procetul di îtreaga colectivitate ce satisface o aumită proprietate (sau are o aumită caracteristică) (e.g., proporţia de studeţi itegralişti ditr-o aumită facultate). Pe de altă parte, pri proporţie de selecţie îţelegem procetajul di valorile de selecţie ce satisfac o aumită proprietate (e.g., proporţia de studeţi itegralişti ditr-o selecţie aleatoare de 40 de studeţi ai uei facultăţi). Proporţia uei populaţii este u parametru (pe care îl vom ota cu p), iar proporţia de selecţie este o statistică (pe care o otăm aici pri p). Fie X o caracteristică biomială a uei colectivităţi, cu probabilitatea de succes p (e.g., umărul de steme apărute la arucarea uei moede ideale, caz î care p = 0.5). Dorim să costruim u iterval de îcredere petru proporţia populaţiei, p. Petru aceasta, avem evoie de selecţii de volum mare di această colectivitate. U estimator potrivit petru p este proporţia de selecţie, adică p = p = X. Pritr-u "volum mare" vom îţelege u ce satisface: 30, p > 5 şi (1 p) > 5. Media variabilei aleatoare X este E(X) = p, iar dispersia este Var(X) = p(1 p). Putem scrie pe X ca fiid X = X i, ude X i sut variabile aleatoare Beroulli B(1, p). Petru u volum mare, variabila aleatoare X satisface (coform teoremei limită cetrală aplicată şirului {X i } i ): X X p = p p(1 p) p(1 p) = p p p(1 p) N (0, 1). Pe baza acestui rezultat, putem costrui u iterval de îcredere petru p, de forma: ( ) p(1 p) p(1 p) p z 1 α 2, p + z 1 α 2. (5.2.17)

83 5.2 Estimarea parametrilor pri itervale de îcredere 83 Deoarece p u este a priori cuoscut, p a fost îlocuit sub radical cu estimatorul său. Valoarea E = z 1 α 2 p(1 p) (5.2.18) se umeşte eroarea stadard a proporţiei. E este eroarea care se face pri estimarea lui p pri itervalul de îcredere dat de (5.2.17). Acest iterval de îcredere este valabil petru selecţie ditr-o populaţie ifiită (sau N, de regulă < 0.05N) sau petru selecţia cu repetiţie ditr-o populaţie fiită. Dacă selecţia se realizează fără repetiţie ditr-o populaţie fiită (cu N astfel îât 0.05N), atuci itervalul de îcredere este: ( p(1 p) N p z 1 α 2 N 1, p + z 1 α 2 p(1 p) ) N. (5.2.19) N 1 Observaţia 5.4 [1] Dacă se doreşte estimarea volumului selecţiei petru care se obţie estimarea proporţiei p pritr-u iterval de îcredere cu o eroare maximă E, atuci folosim formula (5.2.18). Dacă am putea ghici proporţia populaţiei, p, atuci găsim următoarea estimare a volumului selecţiei: = p(1 p)( z1 α 2 E ) 2, (5.2.20) ude [ ] este partea îtreagă. Dacă p u poate fi ghicit, atuci folosim faptul că p(1 p) este maxim petru p = 0.5 şi estimăm pe pri = 1 4 ( z1 α 2 E [2] Există şi alte metode de a determia itervale de îcredere petru proporţie. Spre exemplu, itervalul următor, obţiut de E. B. Wilso î 1927, este o îmbuătăţire a itervalului (5.2.17), care oferă rezultate foarte bue chiar şi petru u mic sau petru valori extreme ale lui p z2 1 α 2 [ ) 2. ˆp z2 1 α ± z 2 1 α 2 ˆp(1 ˆp) z2 1 α 2 ] (5.2.21) Două populaţii statistice Iterval de îcredere petru difereţa mediilor Fie X 1 şi X 2 caracteristicile a două populaţii. Presupuem ca aceste variabile sut ormale, N (µ 1, σ 1 ), respectiv, N (µ 1, σ 1 ). Itervalul de icredere petru difereta mediilor este bazat pe cate o selectie aleatoare petru fiecare variabila. Alegem di prima populaţie o selecţie repetată de volum 1, otată pri (X 1k ) k=1,1, ce urmează repartiţia lui X 1, iar di a doua populaţie alegem o selecţie repetată de volum 2, otată pri (X 2k ) k=1,2, ce urmează repartiţia lui X 2. Fixăm ivelul de semificaţie α. Fie (x 1k ) k=1,1 si (x 2k ) k=1,2 realizarile variabilelor corespuzatoare. Să otăm dispersiile de selecţie petru fiecare caracteristică pri s 2 1 = (x 1k x 1 ) 2 şi s 2 2 = (x 2k x 2 ) 2.

84 84 Capitolul 5. Estimatori. Itervale de icredere U estimator puctual petru µ 1 µ 2 este x 1 x 2. Deviaţia stadard a acestui estimator depide de iformaţia ce o avem despre dispersii. Ele pot fi: cuoscute, ecuoscute şi egale, ecuoscute şi diferite. Tipic, itervalul de îcredere petru difereţa mediilor se va scrie sub forma (x 1 x 2 q 1 α2 s x1 x 2, x 1 x 2 + q 1 α2 s x1 x 2 ), ude q 1 α 2 este cuatila de ordi 1 α 2 specifică fiecărui caz. Distigem următoarele trei cazuri: (1) dispersiile σ1 2 şi σ 2 2 sut cuoscute a priori. Atuci, u iterval de îcredere petru difereţa mediilor este: σ1 x 2 1 x 2 z 1 α 2 + σ 2 2 σ1 2, x 1 x 2 + z 1 1 α 2 + σ (2) dispersiile σ1 2 = σ 2 2 = σ 2 şi ecuoscute. I acest caz, u iterval de îcredere petru µ 1 µ 2 este: x 1 x 2 t 1 α 2 ; ( 1 1)s ( 2 1)s 2 2 ( x 1 x 2 +t 1 α 2 ; ( ( 1 1)s ( 2 1)s 2 2 ) , 2 ) (3) dispersiile σ1 2 σ 2 2, ecuoscute. Atuci, u iterval de îcredere petru µ 1 µ 2 la ivelul de semificaţie α este: ude x 1 x 2 t 1 α 2 ; m m = ( s s s2 2 2, ( s s ) 2 ( 1 s x 1 x 2 +t 1 α 2 ; m ) 2 2 ) s s2 2, 1 Petru u volum de selecţie mare ( 30), itervalele de îcredere obţiute mai sus rămâ aceleaşi petru orice formă a repartiţiei caracteristicii X, u eapărat petru ua gaussiaă Iterval de îcredere petru raportul dispersiilor Fie X 1 şi X 2 caracteristicile a două populaţii ormale, N (µ 1, σ 1 ), respectiv, N (µ 2, σ 2 ), petru care u se cuosc mediile şi dispersiile teoretice. Alegem di prima populaţie o selecţie repetată de volum 1 ce urmează repartiţia lui X 1, iar di a doua populaţie alegem o selecţie repetată de volum 2 ce urmează repartiţia lui X 2. Fixăm ivelul de semificaţie α. U iterval de îcredere petru raportul dispersiilor, σ 2 1 / σ 2 2 este: ( s 2 1 s 2 f α 2, 1 1, 2 1, 2 s 2 1 s 2 f 1 α 2, 1 1, ), (5.2.22) ude f,m;α reprezită cuatila de ordi α petru repartiţia Fisher cu (, m) grade de libertate.

85 5.3 Estimaţii pri MATLAB Iterval de îcredere petru difereţa proporţiilor îtr-o populaţie biomială Fie X 1 şi X 2 două caracteristici biomiale idepedete ale uei populaţii, cu volumele şi probabilităţile de succes 1, p 1 şi, respectiv, 2, p 2. Dorim să aflăm u iterval de îcredere petru difereţa proporţiilor, p 1 p 2. Petru a reuşi aceasta, avem evoie de selecţii de volum mare. Codiţiile tpetru ca itervalul să fie valid sut: 1 30, 2 30, 1 p 1 > 5, 2 p 2 > 5, 1 (1 p 1 ) > 5, 2 (1 p 2 ) > 5. U estimator puctual petru p 1 p 2 este p 1 p 2. Deviaţia stadard a acestui estimator este s p1 p 2 = p1 (1 p 1 ) 1 + p 2 (1 p 2 ) 2. La u ivel de semificaţie α, u iterval de îcredere petru p 1 p 2 este: ( ) p 1 p 2 z 1 α2 s p1 p 2, p 1 p 2 + z 1 α2 s p1 p 2 (5.2.23) Tabelul 13.2 sumarizează itervalele de îcredere prezetate pâă acum. Î fiecare caz, ivelul de semificaţie este α. 5.3 Estimaţii pri MATLAB Estimarea parametrilor pri metoda verosimilităţii maxime poate fi realizată î MATLAB folosid fucţia mle. Formatul geeral al fucţiei este: [p, pci] = mle(x,'distributio','lege','ume_1','val_1','ume_2','val_2',...) ude: p este parametrul (sau parametrii) (sau vectorul de parametri) ce urmează a fi estimat puctual; pci este variabila de memorie petru itervalul (itervalele) de îcredere ce va fi estimat; X este u vector ce coţie datele ce urmează a fi aalizate; distributio este parte di formatul comezii iar lege poate fi oricare ditre legile di Tabelul 2.1; ume_i/val_i sut perechi opţioale de argumete/valori, ditre care amitim: alpha reprezită ivelul de cofideţă petru itervalul de îcredere. Valoarea implicită î Matlab este α = 0.005; trials (utilizată doar petru repartiţia biomială, reprezită umărul de repetiţii ale experimetului. Dacă urmărim să estimăm parametrii uei caracteristici gaussiee, atuci putem folosi comada simplificată: [p, pci] = mle(x) fără a mai preciza legea de distribuţie. vârsta frecveţa frecveţa relativă frecveţa cumulată vârsta medie [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 5.1: Tabel cu frecveţe petru rata somajului. De exemplu, să luăm drept obiect de lucru datele di Tabelul 5.1. O estimare a parametrilor µ şi σ

86 86 Capitolul 5. Estimatori. Itervale de icredere pri metoda verosimilităţii maxime este X=[7*rad(34,1)+18;10*rad(76,1)+25;10*rad(124,1)+35;10*rad(87,1)+45;10*rad(64,1)+55] [p, pci] = mle(x) şi obţiem estimările: p = % estimari puctuale petru µ si σ pci = % itervale de icredere ude prima coloaă reprezită estimarea puctuală şi u iterval de îcredere petru µ, iar a doua coloaă estimarea puctuală şi u iterval de îcredere petru σ. Estimări puctuale şi cu itervale de îcredere mai putem obţie şi utilizâd fucţia LEGEfit(X,alpha) ude, î locul cuvâtului LEGE puem o lege de probabilitate ca î Tabelul 2.1, X reprezită observaţiile şi alpha este ivelul de cofideţă. (Exemple: ormfit, biofit, poissfit, expfit etc). Exemplu 5.4 Cosiderăm u vector ale cărui compoete sut: X = 2*rad(1e6,1) - 1; Dacă presupuem că aceste observaţii au fost obţiute urmărid valorile uei v.a. ormale N (µ, σ), atuci estimăm parametrii săi astfel: Găsim estimările [mu, sigma] = ormfit(x) mu = sigma = Dacă presupuem că aceste observaţii au fost obţiute urmărid valorile uei v.a. uiforme cotiuu U (a, b), atuci estimăm parametrii săi astfel: [a, b] = uifit(x) a = b = Exerciţii rezolvate Exerciţiu 5.1 Aa dactilografiază u articol de 60 de pagii. La recitirea articolului, Aa a descoperit pe fiecare pagiă de articol următoarele umere de greşeli:

87 5.4 Exerciţii rezolvate Să presupuem că umărul de greşeli apărute pe fiecare pagia dactilografiată de Aa este o variabilă aleatoare repartizată Poisso. (1) Să se estimeze umărul mediu de greşeli făcute de Aa pe fiecare pagiă dactilografiată; (2) Să se estimeze umărul mediu de greşeli făcute de Aa la dactilografierea uei cărţi de 280 de pagii, presupuâd că ar lucra î exact aceleaşi codiţii şi cu aceeaşi îdemâare. (3) Cu ce probabilitate va avea Aa mai puţi de 2000 de greşeli petru toată cartea? Soluţie: Să presupuem că Y este vectorul ce are drept compoete umerele di euţ. Dacă X este variabila aleatoare ale cărei valori reprezită umărul de greşeli apărute la o pagiă dactilografiată şi X P(), atuci E(X) = D 2 (X) =. Dacă otăm cu X k, k = 1, 280, variabilele aleatoare ale căror valori reprezită umărul de greşeli de dactilografie facute pe fiecare pagiă a cărţii (respectiv), atuci 280 X k P(280 ), k=1 deoarece X k sut v.a. idepedete stochastic şi idetic repartizate. Probabilitatea este 280 P = P( X k 2000) = F(2000), k=1 ude F(x) este fucţia de repartiţie petru 280 k=1 X k, adică a uei v.a. repartizată P(280 ). Estimăm parametrul repartiţiei Poisso folosid comada mle di MATLAB. Codul ce rezolvă problema este următorul [,CI] = mle(y,'distributio','poiss','alpha',0.1) % petru (1) N = 280*; Rulâd codul, obţiem rezultatele: = CI = % estimarea puctuala a lui % itervalul de icredere Aşadar, să coveim că Aa face î medie = 7 greşeli petru fiecare pagiă dactilografiată. Atuci, petru toată cartea va face î medie N = = 1960 greşeli. Probabilitatea este: P = poisscdf(2000,n) adică P Exerciţiu 5.2 O maşiă de îgheţată umple cupe cu îgheţată. Se doreşte ca îgheţată di cupe să aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g de îgheţată. Presupuem că masa coţiutului di cupă este o variabilă aleatoare repartizată ormal, cu masa ecuoscută şi dispersia cuoscută, σ = 3g. Petru a verifica dacă maşia este ajustată bie, se aleg la îtâmplare 30 de îghetate şi se câtăreşte coţiutul fiecăreia. Obţiem astfel o selecţie repetată, x 1, x 2,..., x 30 după cum urmează:

88 88 Capitolul 5. Estimatori. Itervale de icredere z 1 α2 x + z 1 α2 U estimator edeplasat petru masa medie este media de selecţie, X = (a) Se cere să se găsească u iterval de îcredere petru µ, cu ivelul de cofideţă (b) Să se găsească u iterval de îcredere petru masa medie î cazul î care abaterea stadard σ u mai este cuoscută. Soluţie: (a) U iterval de îcredere petru µ câd σ este cuoscut este: (µ, µ) = (x σ, ) σ. Următorul cod MATLAB furizează u iterval de îcredere bazat pe datele de selecţie observate. =30; sigma=3; alpha = 0.01; x=[ ]; z = icdf('orm',1-alpha/2,0,1); % cuatila de ordi 1-alpha/2 petru ormala m1 = mea(x)-z*sigma/sqrt(); m2 = mea(x)+z*sigma/sqrt();% capetele itervalului fpritf('(m1,m2)=(%6.3f,%6.3f)\',m1,m2); % afiseaza itervalul dupa modul dorit Rulâd codul, obţiem itervalul de îcredere petru µ câd σ este cuoscut: (µ, µ) = ( , ). (b) U iterval de îcredere petru µ câd σ este ecuoscut este: ( d (X) d (µ, µ) = x t 1 α 2 ; 1 (X), x +t 1 α 2 ; 1 ). Următorul cod MATLAB furizează u iterval de îcredere bazat pe datele de selecţie observate. =30; alpha = 0.01; x=[ ]; dev = std(x); % deviatia stadard de selectie t = icdf('t',1-alpha/2,-1); % cuatila de ordi 1-alpha/2 petru t(-1) m1 = mea(x)-t*dev/sqrt(); m2 = mea(x)+t*dev/sqrt(); % capetele itervalului fpritf('(m1,m2)=(%6.3f,%6.3f)\',m1,m2); % afiseaza itervalul dupa modul dorit Rulâd codul, obţiem itervalul de îcredere petru µ câd σ este cuoscut: (µ, µ) = ( , ). Observaţia 5.5 [1] Itervalul de îcredere petru medie câd σ este cuoscut este mai mic decât î cazul î care σ este ecuoscut. Iformaţia î plus despre date ajută la găsirea uei estimări mai bue petru parametrul căutat. [2] Dorim să folosim MATLAB petru a obţie o estimaţie pritr-u iterval de îcredere petru µ câd σ u este cuoscută. Folosid fucţia ormfit obţiem chiar mai mult decât e propuem, şi aume: estimaţii puctuale petru µ şi σ şi câte u iterval de îcredere petru ambele. Rulâd fucţia, adică

89 5.4 Exerciţii rezolvate 89 Figura 5.1: Itervalul de îcredere petru Exerciţiu 5.2. [m,s,mci,sci] = ormfit(x,0.01) Observăm că valorile furizate petru itervalul de îcredere petru µ, (mci), sut exact aceleaşi ca cele obţiute î exerciţiul precedet. m = s = mci = sci = Observaţia 5.6 Să presupuem că facem 50 de selecţii repetate de volum 30 (adică alegem î 50 de zile diferite câte o selecţie de 30 de îgheţate) şi aflăm itervalele de îcredere (toate cu ivelul de cofideţă α = 0.01) petru masa medie a coţiutului. Figura 5.2 reprezită grafic cele 50 de itervale. După cum se observă di figură, se poate îtâmpla ca u iterval de îcredere geerat să u coţiă valoarea pe care acesta ar trebui să o estimeze. Aceasta u cotrazice teoria, deoarece probabilitatea cu care valoarea estimată este acoperită de itervalul de îcredere este ( ) P µ < µ < µ = 1 α = 0.99, deci există şase de a greşi î estimare, î cazul de faţă de 1%. Exerciţiu 5.3 Îtr-u istitut politehic, s-a determiat că ditr-o selecţie aleatoare de 100 de studeţi îscrişi, doar 67 au termiat studiile, obţiâd o diplomă. Găsiţi u iterval de îcredere care, cu o cofideţă de 95% să determie procetul de studeţi absolveţi ditre toţi studeţii ce au fost îscrişi. Soluţie: Mai îtâi, observăm că α = 0.05, > 30, p = = 0.67, p = 67 > 5 şi (1 p) = 33 > 5. Deoarece u i se dă vreo iformaţie despre N (umărul total de studeţi îscrişi), putem

90 90 Capitolul 5. Estimatori. Itervale de icredere Figura 5.2: 50 de realizări ale itervalului de îcredere petru µ presupue că < 0.005N şi putem aplica formula (5.2.17). Găsim că itervalul de îcredere căutat este: ( ) 0.67(1 0.67) 0.67(1 0.67) 0.67 z 0.975, z = (59.27%, 74.73%) Exerciţiu 5.4 Ditr-o selecţie de 200 de elevi ai uei şcoli cu 1276 de elevi, 65% afirmă că deţi cel puţi u telefo mobil. Să se găsească u iterval de îcredere petru procetul de copii di respectiva şcoală ce deţi cel puţi u telefo mobil, la ivelul de semificaţie α = Soluţie: Avem: = 200, N = 1276, p = Deoarece 0.05N, folosid (5.2.19) şi găsim că u iterval de îcredere la ivelul de semificaţie 0.05 este ( 0.65(1 0.65) (1 0.65) , ) = (58.93%, 71.07%). Exerciţiu 5.5 U studiu susţie că ître 35% şi 40% ditre elevii de liceu di ţară fumează. Cât de mare ar trebui să fie volumul uei selecţii ditre elevii de liceu petru a estima procetul real de elevi ce fumează, cu o eroare de estimare maximă de 0.5%. Se va alege ivelul de semificaţie α = 0.1. Soluţie: Folosim formula (5.2.20), petru p = 0.4 (se alege valoarea 40%, cea mai apropiată de 50%). Cuatila este z 0.95 = Găsim că o estimaţie petru este: [ ( ) ] = 0.4(1 0.4) = Exerciţiu 5.6 O fabrică produce batoae de ciocolată câtărid 100g fiecare. Petru a se estima abaterea masei de la această valoare, s-a făcut o selecţie de 35 de batoae, obţiâdu-se valorile:

91 5.4 Exerciţii rezolvate ; 99.92; 100.1; 99.89; ; 99.88; ; 99.90; 99.97; 99.89; ; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; ; 99.76; 100.1; 99.24; 98.19; ; 100.5; 99.79; 98.95; ; 99.89; 99.89; 100.2; ; 98.63; 99.03; 100.3; Găsiţi u iterval de îcredere (cu α = 0.05) petru deviaţia stadard masei batoaelor produse de respectiva fabrică. Soluţie: Mai îtâi, calculăm d 2 (x). Avem: d 2 (x) = [X i 100] 2 = 0.3. Di tabele, sau utilizâd MATLAB, găsim cuatilele: χ0.975;35 2 = ; χ0.025;35 2 = Î MATLAB, cuatilele se calculează astfel: icdf('chi2',0.975, 35); icdf('chi2',0.025, 35) Itervalul de îcredere petru dispersie este (folosid formula (5.2.11)): (σ 2, σ 2 ) = (0.20, 0.51). Petru variaţia stadard, itervalul de îcredere este: (σ, σ) = ( 0.2, 0.51) = (0.44, 0.71). Exerciţiu 5.7 Găsiţi u iterval de îcredere (cu α = 0.05) petru deviaţia stadard a coţiutului de icotiă a uui aumit tip de ţigări, dacă o selecţie de 24 de bucăţi are deviaţia stadard a coţiutului de icotiă de 1.6mg. Soluţie: Mai îtâi, s = d (x) = 1.6. Di tabele, sau utilizâd MATLAB, găsim: χ ;24 = ; χ ;24 = Itervalul de îcredere petru dispersie este (folosid formula (5.2.14)): (σ 2, σ 2 ) = (1.56, 4.95). Petru variaţia stadard, itervalul de îcredere este: ( , ) = (1.25, 2.22). Exerciţiu 5.8 Două struguri sut potrivite să producă piese idetice petru o comadă. Petru a estima dacă abaterile diametrelor pieselor produse de cele două maşii sut sesibil egale, s-au luat la îtamplare două seturi de volume 1 = 7 şi 2 = 10 de piese di cele două loturi. Măsurătorile au codus la următoarele rezultate: Lotul Lotul

92 92 Capitolul 5. Estimatori. Itervale de icredere Să se determie u iterval de îcredere petru raportul dispersiilor diametrelor pieselor produse de cele două loturi (α = 0.1). Se va presupue că diametrele pieselor urmează o repartiţie ormală. Soluţie: Folosim (5.2.22). Determiăm mai îtâi dispersiile empirice. Acestea sut: 7 s 2 1 = 1 1i L 1i ) 6 (L 2 = şi s 2 2 = j=1 (L 2 j L 2 j ) 2 = Cuatilele sut: f 0.05,6,9 = şi f 0.95,6,9 = Folosid MATLAB, putem calcula cuatilele astfel: f1 = fiv(0.05, 6, 9); f2 = fiv(0.95, 6, 9); Găsim itervalul de îcredere: ( f 1, f 2 ) (0.25, 3.4). Exerciţiu 5.9 Ditr-o selecţie de 45 de baieţi ai uei şcoli, 21 au spus că le place Matematica, iar ditr-o selecţie de 65 de fete ale aceleiaşi şcoli, 37 au susţiut că le place această discipliă. Costruiţi u iterval de îcredere la ivelul de semificaţie α = 0.02 petru difereţa proporţiilor de baieţi şi fete di respectiva şcoală cărora le place Matematica. Soluţie: Folosim formula (5.2.23). Mai îtâi, p 1 = 23 45, p 2 = şi z Itervalul căutat este: , = ( , ). 65 Exerciţiu 5.10 O selecţie aleatoare de volum = 25 cu media se selecţie x = 50 se ia ditr-o populaţie de volum N = 1000, ce are deviaţia stadard σ = 2. (a) Dacă presupuem că populaţia este ormală, găsiţi u iterval de îcredere petru media populaţiei, cu α = (b) Găsiţi u iterval de îcredere petru media populaţiei (α = 0.05) î cazul î care populaţia u este ormală. Soluţie: (a) Folosim formula (5.2.7). Găsim itervalul de îcredere ( ) 2 2 (µ, µ) = 50 z 0.975, 50 + z = (48.4, 51.6) (b) Deoarece populaţia u este ormal distribuită şi ici volumul populaţiei u este mare ( < 30), vom estima itervalul de îcredere bazâdu-e pe iegalitatea lui Cebâşev. Aceasta spue că, dacă X este o variabilă aleatoare ce admite medie (µ) şi dispersie (σ 2 ), atuci are loc iegalitatea P({(X µ) 2 a}) σ 2, petru orice a > 0, a2

93 5.5 Exerciţii propuse 93 Aplicăm iegalitatea lui Cebâşev petru variabila X. Luâd a = kσ, găsim că probabilitatea ca valorile lui X să fie aproximate pri µ X = µ cu o eroare de cel mult k deviaţii stadard este: P({ X µ X < kσ X }) 1 1 k 2. Luâd 1 1 k 2 = 0.95, găsim k = 20. Astfel, u iterval de îcredere petru media populaţiei va fi (µ, µ) = (x k σ, x + k σ ) ( = , ) = (46.42, 53.58) Am folosit faptul că σ 2 X = D2 (X) = σ 2. Observăm că acest iterval este mai mare decât cel găsit aterior, de aceea iegalitatea lui Cebîşev este rar folosită petru a determia itervale de îcredere. Totuşi, î acest caz u aveam o altă alterativă de calcul. Dacă se doreşte o precizie mai buă, ar fi idicat ca volumul selecţiei să fie de cel puţi 30, caz î care putem folosi aproximarea cu repartiţia ormală. 5.5 Exerciţii propuse Exerciţiu 5.11 Îtr-o şcoală sut 200 de elevi de clasa a XII-a care au susţiut teză la Matematică. Tabelul următor coţie o selecţie aleatoare de 36 de ote la această teză: ote frecveţa [1] Estimaţi puctual media, dispersia şi mediaa populaţiei di care provie această selecţie, precizâd formulele folosite. [2] Determiati u iterval de icredere petru media populatiei la ivelul α = [3] Scrieţi fucţia de repartiţie empirică şi deseaţi graficul acesteia. [4] Estimaţi pritr-u iterval de îcredere procetul otelor de trecere obţiute de elevii de clasa a XII-a di acea şcoală (α = 0.04). Exerciţiu 5.12 Tabelul următor coţie preţurile la Bezi 95 petru o selecţie de 64 de beziării di ţară. preţul (6.10, 6.15] (6.15, 6.20] (6.20, 6.25] (6.25, 6.30] (6.30, 6.35] (6.35, 6.40] frecveţa [1] Estimaţi puctual media, dispersia şi mediaa populaţiei di care provie această selecţie, precizâd formulele folosite. [2] Reprezetati datele pri histograme. [3] Determiaţi u iterval de îcredere petru preţul mediu al beziei î ţară (α = 0.04). Exerciţiu 5.13 Î urma arucării uei moede de 4050 de ori, s-a observat că faţa cu stema a apărut de 2052 ori. Determiaţi u iterval de îcredere petru probabilitatea de apariţie a feţei cu stema la arucarea respectivei moede. Se va lua ivelul de semificaţie α = Exerciţiu 5.14 La u cotrol de calitate, ditr-u lot de 150 de piese, 5 au fost găsite defecte. Determiaţi u iterval de îcredere cu α = 0.01 petru probabilitatea ca o piesă luată la îtâmplare să fie defectă. Exerciţiu 5.15 Cât de mare ar trebui să fie volumul selecţiei, petru a estima proporţia de fumători di ţară cu o eroare de cel mult 2%, şi o probabilitate de îcredere de 0.95?

94 94 Capitolul 5. Estimatori. Itervale de icredere Exerciţiu 5.16 U studiu recet arată că ditre 120 de accidete rutiere ce s-au soldat cu victime, 56 era datorate cosumului de alcool. Găsiţi u iterval de îcredere care să estimeze cu o probabilitate de risc α = 0.05 procetul real al accidetelor rutiere cauzate de cosumul de alcool. Exerciţiu 5.17 Petru selecţia următoare să se estimeze variaţa populaţiei di care provie această selecţie. Exerciţiu 5.18 Fie X 1, X 2,..., X o selecţie repetată de volum mare, luată ditr-o caracteristică ce are media µ ecuoscută şi dispersia 4. Determiaţi volumul selecţiei petru care, cu o probabilitate de 99% putem estima pe µ cu o eroare de o zecime. Exerciţiu 5.19 U agajat la Serviciu Forţelor de Mucă doreşte să facă u sodaj pri care să determie procetul de persoae ditr-o regiue a ţării ce lucrează la egru. El doreşte să fie 98% sigur că rezultatul găsit estimează procetul real cu o eroare de cel mult 2%. Ditr-u sodaj recet, la care au participat 1500 de persoae agajate, 273 au declarat că u li s-au făcut carte de mucă. (a) Cât de mare ar trebui să fie volumul selecţiei petru a realiza estimarea dorită? (b) Dacă u ar avea acces la acel sodajul recet, cât de mare ar trebui să fie volumul selecţiei petru a realiza estimarea dorită? Exerciţiu 5.20 Timpul ecesar uui studet de a rezolva testul la Statistică (T, exprimat î miute) este o v.a. cu desitatea de repartiţie f : R [0, 1], { x e x f (x, θ) = θ 2 θ, x > 0; 0, x 0. (a) Petru ce valori ale parametrului θ fucţia de mai sus este o fucţie de repartiţie? Fixăm θ = 30. (b) Determiaţi timpul mediu ecesar rezolvării testului. (c) Calculaţi probabilitatea ca u studet (ales la îtâmplare) să aibă evoie de mai mult de o oră şi jumătate petru a rezolva testul? Exerciţiu 5.21 Păcală îl ademeeşte pe Tâdală la u joc de barbut. Păcală a cofecţioat următoarele trei zaruri, petru care umărul de pucte de pe fiecare faţă sut modificate: zarul 1: zarul 2: zarul 3: Petru fiecare zar, toate feţele au aceeaşi şasă de apariţie. Fiecare jucător alege u zar şi îl păstrează petru restul competiţiei. U joc costă î arucarea zarului ales, iar cel care obţie u umăr mai mare de pucte va câştiga jocul. U astfel de joc poate fi repetat de mai multe ori, î codiţii idetice şi idepedete. (a) Păcală, politicos fiid, îl ivită pe Tâdală să fie primul care îşi alege zarul. Arătaţi că, orice zar ar alege Tâdală, Păcală are posibilitatea de a alege u zar mai bu ditre cele rămase. (b) La fiecare joc, cel care obţie u umăr mai mare de pucte primeşte de la celălalt jucător 1 RON. Determiaţi câştigul mediu pe care îl poate avea Păcală după 60 de jocuri (arucări). (c) Calculaţi probabilitatea ca, după 60 de jocuri, Păcală să aibă cel puţi 10 RON. (d) Determiaţi umărul miim de jocuri ce trebuie efectuate, după care Păcală va fi aproape sigur (cu probabilitate cel puţi egală cu 0.99) că va avea cel puţi 10 RON. Exerciţiu 5.22 Aţi observat că umărul de picioare petru marea majoritate a oameilor ţară este mai mare decât media pe ţară? Care ar fi explicaţia? Este media u estimator de luat î seamă î acest caz?

95 6. Testarea ipotezelor statistice. [Should you torture the data log eough,. it will evetually cofess.] 6.1 Puerea problemei Testarea ipotezelor statistice este o metodă pri care se iau decizii statistice, utilizâd datele experimetale culese. Testele prezetate mai jos au la bază oţiui di teoria probabilităţilor. Aceste teste e permit ca, plecâd de la u aumit set sau aumite seturi de date culese experimetal, să se putem valida aumite estimări de parametri ai uei repartiţii sau chiar putem prezice forma legii de repartiţie a caracteristicii cosiderate. Presupuem că X este variabila de iteres a uei populaţii statistice şi că legea sa de probabilitate este dată de depide de u parametru θ. I geeral, o repartitie poate depide de mai multi parametri, isa aici vom discuta doar cazul uui sigur parametru. De asemeea, să presupuem că (x k ) k=1, sut datele observate relativ la caracteristica X. Numim ipoteză statistică o presupuere relativă la valorile parametului θ sau chiar referitoare la tipul legii caracteristicii. O ipoteză eparametrică este o presupuere relativă la repartitia lui X. De exemplu, o ipoteză de geul X Normală. Numim ipoteză parametrică o presupuere făcută asupra valorii parametrilor uei repartiţii. Dacă mulţimea la care se presupue că aparţie parametrul ecuoscut este formată ditr-u sigur elemet, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză parametrică compusă. O ipoteză ulă este acea ipoteză pe care o ituim a fi cea mai apropiată de realitate şi o presupuem a priori a fi adevărată. Cu alte cuvite, ipoteza ulă este ceea ce doreşti să crezi, î cazul î care u există suficiete evideţe care să sugereze cotrariul. U exemplu de ipoteză ulă este următoarul: "presupus eviovat, pâă se găsesc dovezi care să ateste o viă". O ipoteză alterativă este orice altă ipoteză admisibilă cu care poate fi cofrutată

96 96 Capitolul 6. Testarea ipotezelor statistice ipoteza ulă. A testa o ipoteză statistică (e., statistical iferece) îseamă a lua ua ditre deciziile: ipoteza ulă se respige (caz i care ipoteza alterativa este admisa) ipoteza ulă se admite (sau, u sut motive petru respigerea ei) Î Statistică, u rezultat se umeşte semificativ di puct de vedere statistic dacă este improbabil ca el să se fi realizat datorită şasei. Ître două valori există o difereţă semificativă dacă există suficiete dovezi statistice petru a dovedi difereţa, şi u datorită faptului că difereţa ar fi mare. Numim ivel de semificaţie probabilitatea de a respige ipoteza ulă câd, de fapt, aceasta este adevărată. Î geeral, ivelul de semificaţie este o valoare pozitiva apropiata de 0, e.g., ua ditre valorile: α = 0.01, 0.02, 0.05 etc. Itr-o aaliza statistica sau soft statistic, valoarea implicita petru α este Î urma uui test statistic pot aparea două tipuri de erori: 1. eroarea de speţa (I) sau riscul furizorului (e., false positive) este eroarea care se poate comite respigâd o ipoteză (î realitate) adevărată. Se mai umeşte şi risc de geul (I). Probabilitatea acestei erori este egala chiar ivelul de semificaţie α, adică: α = P(H 0 se respige H 0 este adevărată). 2. eroarea de speţa a (II)-a sau riscul beeficiarului (e., false egative) este eroarea care se poate comite acceptâd o ipoteză (î realitate) falsă. Se mai umeşte şi risc de geul al (II)-lea. Probabilitatea acestei erori este β = P(H 0 se admite H 0 este falsă). Gravitatea comiterii celor două erori depide de problema studiată. De exemplu, riscul de geul (I) este mai grav decât riscul de geul al (II)-lea dacă verificăm calitatea uui articol de îmbracămite, iar riscul de geul al (II)-lea este mai grav decât riscul de geul (I) dacă verificăm cocetraţia uui medicamet. Deumim valoare P sau P valoare sau ivel de semificaţie observat (e., P-value) probabilitatea de a obţie u rezultat cel puţi la fel de extrem precum cel observat, presupuâd că ipoteza ulă este adevărată. Valoarea P este cea mai mică valoare a ivelului de semificaţie α petru care ipoteza (H 0 ) ar fi respisă, bazâdu-e pe observaţiile culese. Dacă P v α, atuci respigem ipoteza ulă la ivelul de semificaţie α, iar dacă P v > α, atuci admitem (H 0 ). Cu cât P v este mai mică, cu atât mai mari şase ca ipoteza ulă să fie respisă. De exemplu, dacă valoarea P este P v = atuci, bazâdu-e pe observaţiile culese, vom respige ipoteza (H 0 ) la u ivel de semificaţie α = 0.05 sau α = 0.1, dar u o putem respige la u ivel de semificaţie α = Dacă e raportăm la P valoare, decizia îtr-u test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât ivelul de semificaţie α, atuci ipoteza ulă este respisă, iar dacă P value este mai mare decât α, atuci ipoteza ulă u poate fi respisă. U exemplu simplu de test este testul de sarciă. Acest test este, de fapt, o procedură statistică ce e dă dreptul să decidem dacă există sau u suficiete evideţe să cocluzioăm că o sarciă este prezetă. Ipoteza ulă ar fi lipsa sarciii. Majoritatea oameilor î acest caz vor cădea de acord cum că u false egative este mai grav decât u false positive. Să presupuem că sutem îtr-o sală de judecată şi că judecătorul trebuie să decidă dacă u iculpat este sau u viovat. Are astfel de testat următoarele ipoteze: { (H 0 ) iculpatul este eviovat; (H 1 ) iculpatul este viovat. Posibilele stări reale (asupra cărora u avem cotrol) sut:

97 6.2 Tipuri de teste statistice 97 [1] iculpatul este eviovat (H 0 este adevărată şi H 1 este falsă); [2] iculpatul este viovat (H 0 este falsă şi H 1 este adevărată) Deciziile posibile (asupra cărora avem cotrol putem lua o decizie corectă sau ua falsă) sut: [i] H 0 se respige (dovezi suficiete petru a îcrimia iculpatul); [ii] H 0 u se respige (dovezi isuficiete petru a îcrimia iculpatul); Î realitate, avem următoarele posibilităţi, sumarizate î Tabelul 6.1: Situaţie reală Decizii H 0 - adevărată H 0 - falsă Respige H 0 [1]&[i] [2]&[i] Acceptă H 0 [1]&[ii] [2]&[ii] Tabela 6.1: Posibilităţi decizioale. Iterpretările datelor di Tabelul 6.1 se găsesc î Tabelul 6.2. Situaţie reală Decizii H 0 - adevărată H 0 - falsă Respige H 0 îchide o persoaa eviovată îchide o persoaa viovată Accepta H 0 eliberează o persoaa eviovată eliberează o persoaa viovată Tabela 6.2: Decizii posibile. Erorile posibile ce pot aparea sut cele di Tabelul 6.3. Situaţie reală Decizii H 0 - adevărată H 0 - falsă Respige H 0 α judecată corectă Accepta H 0 judecată corectă β Tabela 6.3: Erori decizioale. 6.2 Tipuri de teste statistice Tipul uui test statistic este determiat de ipoteza alterativă (H 1 ). Avem astfel: test uilateral stâga, atuci câd ipoteza alterativă este θ < θ 0 (vezi Figura 6.1 (a)); test uilateral dreapta, atuci câd ipoteza alterativă este θ > θ 0 (vezi Figura 6.1 (b)); test bilateral, atuci câd ipoteza alterativă este θ θ 0 (vezi Figura 6.2); Aşadar, petru a costrui u test statistic vom avea evoie de o regiue critică. Petru a costrui această regiue critică vom utiliza metoda itervalelor de îcredere. Dacă valoarea observată se află î regiuea critică (adică î afara itervalului de îcredere), atuci respigem ipoteza ulă.

98 98 Capitolul 6. Testarea ipotezelor statistice Figura 6.1: Regiue critică petru test (a) uilateral stâga, (b) uilateral dreapta. Figura 6.2: Regiue critică petru test bilateral Etapele uei testări parametrice Cosiderăm o selecţie îtâmplătoare x 1, x 2,..., x de observaţii asupra caracteristicii de iteres. De multe ori, această selecţie provie ditr-o repartiţie ormală. Î caz cotrar, va trebui ca volumul selecţiei să fie mare, de regula 30. Fie X 1, X 2,..., X variabile aleatoare de selecţie; Alegem o statistică (criteriu) S(X 1, X 2,..., X ) care, după acceptarea ipotezei (H 0 ), această are o repartiţie cuoscută, idepedetă de parametrul testat; Alegem u ivel de semificaţie α apropiat de 0. De regulă, α = 0.01, 0.02, Găsim regiuea critică U ; Calculăm valoarea s 0 a statisticii S(X 1, X 2,..., X ) petru selecţia cosiderată; Luăm decizia: Dacă s 0 U, atuci ipoteza ulă, (H 0 ), se respige; Dacă s 0 U, atuci ipoteza ulă, (H 0 ), se admite (mai bie zis, u avem motive să o respigem şi o admitem pâă la efectuarea evetuală a uui test mai puteric).

99 6.3 Teste parametrice Teste parametrice Testul t petru medie Testul t petru medie se foloseşte petru selecţii ormale de volum mic, de regulă < 30, câd dispersia populaţiei este ecuoscută a priori. Fie caracteristica X ce urmează legea ormală N (µ, σ) cu µ ecuoscut şi σ > 0 ecuoscut. Vrem să verificăm ipoteza ulă (H 0 ) : µ = µ 0 versus ipoteza alterativă (H 1 ) : µ µ 0, cu probabilitatea de risc α. Metoda I: Etapele testului sut urmatoarele: Obtiem o multime de masuratori asupra variabilei X: x 1, x 2,..., x. Pe baza acestor masuratori putem calcula media si deviatia stadard: x = 1 1 x i si s = 1 (x i x) 2. Calculam statistica t 0 = x µ 0 s. (6.3.1) Decizia se ia astfel: dacă t 0 < t 1 α 2 ; 1, atuci admitem (H 0 ). dacă t 0 t 1 α 2 ; 1, atuci respigem (H 0 ). Observaţia 6.1 Regiuea critică este complemetara itervalului de îcredere. Decizia se ia astfel: dacă t 0 = x µ ( ) 0 s t 1 α 2 ; 1, t 1 α 2 ; 1 (echivalet, t 0 U ), atuci admitem (H 0 ). dacă t 0 = x µ 0 s ( ) t 1 α 2 ; 1, t 1 α 2 ; 1 (echivalet, t 0 U ), atuci respigem (H 0 ). Metoda a II-a: O altă modalitate de testare a uei ipoteze statistice parametrice este pri itermediul P valorii, P v. Reamitim, P valoarea este probabilitatea de a obţie u rezultat cel puţi la fel de extrem ca cel observat, presupuâd că ipoteza ulă este adevărată. Aceasta valoare este afisata de orice soft statistic folosit i testarea ipotezelor. Daca S este statistica test, atuci P v = P( S > s 0 ) = P(S > s 0 ) + P(S < s 0 ), (6.3.2) ude S este statistica folosită î testare şi s 0 este valoarea acestei statistici petru selecţia dată (respectiv, selecţiile date, î cazul testării cu două selecţii). Petru testul uilateral stâga, P valoarea se poate calcula după formula: P v = P(S < s 0 ), (6.3.3) iar petru testul uilateral dreapta, P valoarea este dată de: P v = P(S > s 0 ), (6.3.4) Utilizâd P valoarea, testarea se face astfel: Ipoteza ulă va fi respisă dacă P v < α şi va fi admisă dacă P v α. Aşadar, cu cât P v este mai mic, cu atât mai multe dovezi de respigere a ipotezei ule.

100 100 Capitolul 6. Testarea ipotezelor statistice Test petru dispersie Petru variabila X ca mai sus dorim sa testam ipoteza: (H 0 ) : σ 2 = σ 2 0 vs. ipoteza alterativă (H 1 ) : σ 2 σ 2 0, cu probabilitatea de risc α. Etapele testului sut urmatoarele: Obtiem o multime de masuratori asupra variabilei X: x 1, x 2,..., x. Pe baza acestor masuratori putem calcula media si deviatia stadard: x = 1 1 x i si s = 1 (x i x) 2. Calculam statistica χ0 2 = 1 σ0 2 s 2, (6.3.5) Luarea deciziei se face astfel: ) dacă χ0 2 (χ 2 α2 ; 1, χ2 1 α2 ; 1, atuci admitem (H 0 ) (i.e., σ 2 = σ0 2 ) ); dacă χ0 2 (χ 2 α2 ; 1, χ2 1 α2 ; 1, atuci respigem (H 0 ) (i.e., σ 2 σ0 2). Observaţia 6.2 Decizia testului putea fi luată şi pe baza P valorii. Valoarea ei petru testul uilateral stâga (resp., dreapta) este P v = P(χ 2 < χ 2 0 ) (resp., P v = P(χ 2 > χ 2 0 )). Petru testul bilateral este dublul celei mai mici valori ditre cele două de mai sus Test petru proporţie îtr-o populaţie biomială Fie X o caracteristică biomială a uei colectivităţi, cu probabilitatea de succes p. Pe baza uor selecţii ale populaţiei, dorim să testăm următoarea ipoteză asupra lui p: (H 0 ) : p = p 0 vs. (H 1 ) : p p 0. De asemeea, putem cosidera şi ipoteze alterative uilaterale: (H 1 ) s : p < p 0 sau (H 1 ) d : p > p 0. Petru a putea testa acestă ipoteză, e vom folosi de rezultatele di cursul precedet. Să presupuem că volumul populaţiei (N) este mult mai mare posibil ifiit) decât volumul al selecţiilor cosiderate. Fixăm u ivel de semificaţie α. Vom costrui testul petru proporţia populaţiei pe baza itervalului de îcredere (5.2.17). Etapele testului sut: Pe baza selecţiei, calculăm proporţia de selecţie p, care este o estimare a proporţiei populaţiei, p; Calculăm valoarea p p 0 P 0 = ; p0 (1 p 0 ) Calculăm cuatila z 1 α 2 ; Dacă ) P 0 ( z 1 α2, z 1 α2, atuci admitem ipoteza ulă la acest ivel de semificaţie. Altfel, o respigem. Regiuea critică este complemetara itervalului de îcredere.

101 6.4 Teste parametrice petru două populaţii Teste parametrice petru două populaţii Vom discuta mai jos trei teste statistice: testul t petru difereta mediilor, testul petru egalitatea a două variaţe si testul petru egalitatea a două proporţii. Fie X 1 şi X 2 caracteristicile (idepedete) a două populaţii ormale, N (µ 1, σ 1 ), respectiv, N (µ 2, σ 2 ), petru care u se cuosc mediile teoretice. Alegem di prima populaţie o selecţie repetată de volum 1, x 1 = {x 11, x 12,..., x 11 }, ce urmează repartiţia lui X 1, iar di a două populaţie alegem o selecţie repetată de volum 2, x 2 = {x 21, x 22,..., x 22 }, ce urmează repartiţia lui X 2. Fie (X 1i ),1 şi (X 2 j ) j=1,2 aleatoare de selecţie corespuzătoare fiecărei selecţii. Fixăm pragul de semificaţie α Testul t petru difereţa mediilor a două selecţii Testul t petru difereţa mediilor se foloseşte petru selecţii ormale idepedete de volum mic ( < 30), atuci câd dispersiile populaţiilor cosiderate sut ecuoscute a priori. Dorim să testăm ipoteza ulă că mediile sut egale vs. ipoteza alterativă (H 0 ) : µ 1 = µ 2 (H 1 ) : µ 1 µ 2. Petru testul t petru difereţa mediilor distigem doua cazuri: (1) σ 1 σ 2 sut ecuoscute; (2) σ 1 = σ 2 şi sut ecuoscute. Etapele testul t petru difereţa mediilor (1) Se dau: {x 11, x 12,..., x 11 }, {x 21, x 22,..., x 22 } (date ormale), µ 0, α; (2) Calculam x 1, x 2, s 1 si s 2 dupa formulele uzuale; (3) Determiăm valoarea t 1 α 2 ; m (ude m = N, dacă σ 1 σ 2 sau m = , dacă σ 1 = σ 2 ) astfel îcât fucţia de repartiţie petru repartiţia Studet t(m), ) F m (t 1 α 2 ; m = 1 α 2. Aici, N = ( s 2 1 (4) Calculez valoarea x 1 x 2, dacă σ 1 σ 2 s s2 2 t 0 = 1 2 x 1 x ( 1 1)s ( 2 1)s , dacă σ 1 = σ 2 2 (5) Dacă: 1 (i) t 0 < t 1 α 2 ; m, atuci µ 1 = µ 2 ; (ii) t 0 t 1 α 2 ; m, atuci µ 1 µ 2. ) 2 ( s s ) 2 ( 1 s ) Observaţia 6.3 (1) Î practică, u putem şti a priori dacă dispersiile teoretice a celor două populaţii ce urmează a fi testate sut egale sau u. De aceea, petru a şti ce test să folosim, va trebui să testăm mai îtâi ipoteza că cele două dispersii sut egale, vs. ipoteza ca ele diferă. Petru aceasta, va trebui să utilizăm u test petru raportul dispersiilor. După ce acest prim test a fost 2.

102 102 Capitolul 6. Testarea ipotezelor statistice realizat, putem decide ce variata folosim î testarea egalităţii mediilor. (2) Testul t petru două selecţii, bilateral sau uilateral, poate fi aplicat cu succes şi petru populaţii o-ormale, dacă volumele selecţiilor observate sut 1 30, (3) Petru testul t, P valoarea se poate calcula după următoarele formule: P v = P( T > t 0 ) = 1 F m ( t 0 ) + F m ( t 0 ) (petru testul T bilateral); (6.4.6) P v = P(T < t 0 ) = F m (t 0 ) (petru testul T uilateral stâga); (6.4.7) P v = P(T > t 0 ) = 1 F m (t 0 ) (petru testul T uilateral dreapta). (6.4.8) ude m = N sau m = , după caz Testul F petru raportul a două dispersii Dorim să testăm ipoteza ulă că dispersiile teoretice σ 1 si σ 2 sut egale (H 0 ) : σ 2 1 = σ 2 2 vs. ipoteza alterativă Calculam statistica: (H 1 ) : σ 2 1 σ 2 2. f 0 = σ 2 2 σ 2 1 s 2 1 s 2 2. (6.4.9) Calculam cuatilele petru repartitia Fisher cu ( 1 1, 2 1) grade de libertate: f α 2 ; 1 1, 2 1 si f 1 α 2 ; 1 1, 2 1. Regula de decizie ( este: ) dacă f 0 f α 2 ; 1 1, 2 1, f 1 α 2 ; 1 1, 2 1, atuci admitem (H 0 ) (i.e., σ 1 = σ 2 ); ( ) dacă f 0 f α 2 ; 1 1, 2 1, f 1 α 2 ; 1 1, 2 1, atuci respigem (H 0 ) (i.e., σ 1 σ 2 ) Testul petru egalitatea a două proporţii Fie X 1 şi X 2 două caracteristici biomiale idepedete ale uei populaţii, cu volumele şi probabilităţile de succes 1, p 1 şi, respectiv, 2, p 2. Pe baza uor selecţii, dorim să testăm ipotezele: (H 0 ) : p 1 = p 2 vs. (H 1 ) : p 1 p 2. De asemeea, putem cosidera şi ipoteze alterative uilaterale: (H 1 ) s : p 1 < p 2 sau (H 1 ) d : p 1 > p 2. Petru a putea testa acestă ipoteză, e vom folosi de rezultatele di cursul precedet. Să presupuem că volumul populaţiei (N) este mult mai mare (posibil ifiit) decât volumele selecţiilor cosiderate. Fixăm u ivel de semificaţie α. Dacă ipoteza ulă este admisă, atuci p 1 = p 2 = p. U estimator petru p este frecveţa relativă a umărului de succese cumulate î cele două selecţii, i.e., p = 1 p p Etapele testului sut: Calculăm proporţiile de selecţie p 1 şi p 2, care sut estimări petru p 1, respectiv, p 2 ;

103 6.5 Teste parametrice î MATLAB 103 Calculăm valoarea Calculăm cuatila z 1 α 2 ; Dacă p 1 p 2 P 0 = ( ) ; p (1 p ) ) P 0 ( z 1 α2, z 1 α2, atuci admitem ipoteza ulă la acest ivel de semificaţie. Altfel, o respigem. Regiuea critică este complemetara itervalului de îcredere. 6.5 Teste parametrice î MATLAB Testul t petru o selecţie î MATLAB Testul t poate fi simulat î MATLAB utilizâd comada geerală [h, p, ci, stats] = ttest(x,m0,alpha,tail) ude: h este rezultatul testului. Dacă h = 1, atuci ipoteza ulă se respige, dacă h = 0, atuci ipoteza ulă u poate fi respisă pe baza observaţiilor facute (adică, se admite, pâă la u test mai puteric); p este valoarea P (P value); ci este u iterval de îcredere petru µ, la ivelul de semificaţie α; m0 = µ 0, valoarea testată; alpha este ivelul de semificaţie; tail poate fi uul ditre următoarele şiruri de caractere: 'both', petru u test bilateral (poate să u fie specificată, se subîţelege implicit); 'left', petru u test uilateral stâga (µ < µ 0 ); 'right', petru u test uilateral dreapta (µ > µ 0 ); variabila stats îmagaziează următoarele date: tstat - este valoarea statisticii T petru observaţia cosiderată; df - umărul gradelor de libertate ale testului; sd - deviaţia stadard de selecţie; Petru exercitiul 6.1, codul MATLAB este: = 90; alpha = 0.05; m0 = 6.5; x=2:10; f=[ ]; xbar = x*f'/; s = sqrt(sum(f.*(x-xbar).^2)/(-1)); t0 = (xbar-m0)/(s/sqrt()); t = tiv(1-alpha/2,-1); if (abs(t0)< t); disp('(h0)') else disp('(h1)') ed Sau, folosid fuctia ttest: = 90; alpha = 0.05; m0 = 6.5; X = [2*oes(1,2), 3*oes(1,4), 4*oes(1,8), 5*oes(1,15), 6*oes(1,18),...

104 104 Capitolul 6. Testarea ipotezelor statistice 7*oes(1,17), 8*oes(1,15), 9*oes(1,7), 10*oes(1,4)]; [h, p, ci, stats] = ttest(x,m0,alpha,'both')"} afiseaza: h = p = ci = stats = tstat: df: 89 sd: Testul t petru două selecţii Testul t petru egalitatea a două medii poate fi simulat î MATLAB utilizâd comada [h, p, ci, stats] = ttest2(x, Y, alpha, tail, vartype) ude: h, p, ci, alpha, stats şi tail sut la fel ca mai sus; X şi Y sut vectori sau o matrice, coţiâd observaţiile culese. Dacă ele sut matrice, atuci mai multe teste Z sut efectuate, de-alugul fiecărei coloae; vartype ia valoarea equal dacă dispersiile teoretice sut egale sau uequal petru dispersii iegale Test petru dispersie î MATLAB Testul petru dispersie (variaţă) poate fi simulat î MATLAB utilizâd comada [h, p, ci, stats] = vartest(x,var,alpha,tail) ude: h, p, ci, m0, alpha, stats, tail sut la fel ca î fucţia ttest; var este valoarea testată a dispersiei; Petru exercitiul 6.2, codul MATLAB este alpha = 0.1; = 11; sig0 = 0.003; x = [ ]; f = [ ]; xbar = x*f'/; s2 = sum(f.*(x-xbar).^2)/(-1); c0 = (-1)*s2/sig0; c1 = chi2iv(alpha/2,-1); c2 = chi2iv(1-alpha/2,-1); if (c1 < c0 & c0 < c2); disp('(h0)') else disp('(h1)') ed Sau, folosid fuctia vartest:

105 6.5 Teste parametrice î MATLAB 105 = 11; alpha = 0.1; sig0 = 0.003; X = [10.5*oes(1,2), 10.55*oes(1,3), 10.6*oes(1,5), 10.65]; [h, p, ci, stats] = vartest(x,sig0,alpha,'both') afiseaza: h = p = ci = stats = tstat: df: Testul F î MATLAB Testul raportului dispersiilor poate fi simulat î MATLAB utilizâd comada [h, p, ci, stats] = vartest2(x, Y, alpha, tail) ude variabilele sut la fel ca î fucţia ttest2. Exemplu 6.1 Reveim la Exerciţiul 6.4 şi verificăm dacă cele două selecţii de ote (Tabelul 6.5) provi di populaţii cu dispersii egale. Aşadar, avem de testat (la ivelul de semificaţie α = 0.01) (H 0 ) σ 2 1 = σ 2 2 vs. (H 1 ) σ 2 1 σ 2 2. Soluţie: Utilizâd otaţiile di Exerciţiul 6.4, comada MATLAB care rezolvă acest test este: [h, p, CI, stats] = vartest2(u, v, 0.01, 'both') (petru teste uilaterale, folosim 'left' sau 'right' î locul lui 'both'.) Rezultatul comezii aterioare este: h = p = CI = stats = fstat: df1: 24 df2: 29 Deoarece h = 0, decidem că dispersiile teoretice ale celor două populaţii pot fi cosiderate a fi egale la ivelul de semificaţie α = Observaţia 6.4 Decizia testului poate fi luată şi pe baza ispecţiei valorii P, observâd că aceasta este mai mare decât α. Aceasta este: P v = 1 F 1 1, 2 1( f 0 ) + F 1 1, 2 1( f 0 ) = 1 F 1 1, 2 1( f 0 ). Î MATLAB, calculăm astfel: f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),1-1,2-1)

106 106 Capitolul 6. Testarea ipotezelor statistice 6.6 Exerciţii rezolvate Exerciţiu 6.1 Petru a determia media otelor la teza de Matematica a elevilor ditr-u aumit oras, s-a facut u sodaj aleator de volum = 90 pritre elevii di oras. ota frecv Tabela 6.4: Tabel cu otele la teza Notele observate i urma sodajului sut grupate i Tabelul 6.4. Dorim să testăm, la ivelul de semificaţie α = 0.05, dacă media tuturor otelor la teza de Matematică a elevilor di oras este µ = 6.5. Soluţie: Aşadar, avem de testat (H 0 ) µ = 6.5 vs. (H 1 ) µ 6.5. Media si deviatia stadard a otelor di tabel sut: x = , s = Valoarea statisticii t 0 si pragul teoretic de referita (cuatila) sut: t 0 = x µ 0 s = , t 1 α 2 ; 1 = t 0.975; 89 = Deoarece t 0 < t 0.975; 89, luam decizia ca ipoteza (H 0 ) este admisa la acest ivel de semificatie. Metoda a II-a: Decizia testului putea fi luată şi pe baza P valorii. Aceasta poate fi calculata de u soft statistic, valoarea ei fiid P v = P( T > t 0 ) = , care este mai mare decat valoarea lui α. Astfel, ipoteza ula este admisa i acest caz. Exerciţiu 6.2 Se cercetează caracteristica X, ce reprezită diametrul pieselor (î mm) produse de u strug. Presupuem ca valorile observate urmeaza o repartitie ormala. Petru o selecţie de piese de volum = 11 şi obţiem distribuţia empirică: ( Să se testeze (cu α = 0.1) ipoteza ulă versus ipoteza alterativă ). (H 0 ) : σ 2 = 0.003, (H 1 ) : σ Soluţie: Folosim testul petru dispersie. Calculam mai itai s 2 si apoi valoarea statisticii test. Obtiem s 2 = si, astfel, χ0 2 = = Cuatilele sut: χ 2 α 2 ; 1 = ; χ2 1 α 2 ; 1 = Astfel, itervalul teoretic de referita este ) χ0 2 (χ 2 α2 ; 1, χ2 1 α2 ; 1 = (3.9403, ). Cum valoarea χ0 2 = se afla i acest iterval, tragem cocluzia ca ipoteza ula u poate fi respisa. (o acceptam).

107 6.6 Exerciţii rezolvate 107 Metoda a II-a: Decizia testului putea fi luată şi pe baza P valorii. Deoarece P(χ 2 < ) = şi P(χ 2 > ) = , valoarea ei petru testul bilateral este P v = 2P(χ 2 < χ 2 0 ) = 2 chi2cdf(7.2727,10) = , care este mai mare decat valoarea lui α. Astfel, ipoteza ula este admisa i acest caz. Exerciţiu 6.3 Îtr-u sodaj aţioal de opiie, 5000 de persoae au fost rugate să răspudă la o îtrebare legată de aparteeţa religioasă. La îtrebarea "Suteţi creştii?", răspusul a fost afirmativ î 4893 ditre cazuri. Rezultatul acestui sodaj este utilizat î estimarea procetului de creştii di ţară. Să otăm cu p acest procet. La ivelul de semificaţie α = 0.05, testaţi dacă p este de 95% sau mai mare. Soluţie: Avem de testat ipoteza (H 0 ) : p = 0.95 vs. (H 1 ) : p > Procetul de selecţie este p = = , cuatila este z 1 α = şi valoarea statisticii este P 0 = (1 0.95) 5000 = [1.6449, ), aşadar ipoteza ulă este respisă la acest ivel de semificaţie. Admitem că p > Aceeaşi cocluzie poate fi dedusă şi pri ispecţia P valorii. Aceasta este P v = P(Z > P 0 ) = 1 P(Z P 0 ) = 1 Θ(9.2791) 0 < α = Aşadar, ipoteza ulă va fi respisă la toate ivele de semificaţie practice. Exerciţiu 6.4 Caracteristicile X 1 şi X 2 reprezită otele obţiute de studeţii de la Master MF 08, respectiv, MF 09 la exameul de Statistică Aplicată. Coducerea uiversităţii recomadă ca aceste ote să urmeze repartiţia ormală şi examiatorul se coformează doriţei de sus. Presupuem că X 1 N (µ 1, σ 1 ) şi X 2 N (µ 2, σ 2 ), cu σ 1 σ 2, ecuoscute a priori. Petru a verifica modul cum s-au prezetat studeţii la acest exame î doi ai cosecutivi, selectăm aleator otele a 25 de studeţi di prima grupă şi 30 de ote di a doua grupă. distribuctii de frecveţe ale otelor sut cele di Tabelul 6.5. (i) Verificaţi dacă ambele seturi de date provi ditr-o repartiţie ormală; (ii) Găsiţi u iterval de îcredere petru difereţa mediilor, la ivelul de semificaţie α = 0.05; (ii) Să se testeze (cu α = 0.01) ipoteza ulă (H 0 ) : µ 1 = µ 2, (î medie, studeţii sut la fel de bui) versus ipoteza alterativă (H 1 ) : µ 1 < µ 2, (î medie, studeţii au ote di ce î ce mai mari) Nota obţiută Frecveţa absolută Grupa MF 08 Grupa MF

108 108 Capitolul 6. Testarea ipotezelor statistice Tabela 6.5: Tabel cu ote. Soluţie: (i) h = chi2gof(u) % h = 0, deci u N k = chi2gof(v) % k = 0, deci v N (u şi v sut vectorii di codul MATLAB de mai jos) (ii) U iterval de îcredere la acest ivel de semificaţie se obţie apelâd fucţia MATLAB Acesta este: [h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'uequal') ( , ) Altfel, se calculează itervalul de îcredere (vezi Tabelul 13.2) s x x 2 t 1 α 2 ; N + s2 2, x 1 x 2 +t 1 1 α 2 ; N 2 s s Codul MATLAB: 1=25; 2=30; alpha = 0.05; u = [5*oes(3,1);6*oes(4,1);7*oes(9,1);8*oes(7,1);9*oes(2,1)]; v = [5*oes(5,1);6*oes(6,1);7*oes(8,1);8*oes(6,1);9*oes(3,1);10*oes(2,1)]; s1 = var(u); s2 = var(v); N = (s1/1+s2/2)^2/((s1/1)^2/(1-1)+(s2/2)^2/(2-1))-2; t = tiv(1-alpha/2,n); m1 = mea(u)-mea(v)-t*sqrt(s1/1+s2/2); m2 = mea(u)-mea(v)+t*sqrt(s1/1+s2/2); fpritf('(m1,m2)=(%6.3f,%6.3f)\',m1,m2); (iii) Comada MATLAB este: [h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'uequal') Î urma rulării comezii, obţiem: h = p = ci = stats = If tstat: df: sd: 2x1 double Observaţia 6.5 Valoarea P poate fi calculată şi cu formula: P v = P(T < t 0 ) = F N 1 (t 0 ) = Î MATLAB, t0 = (mea(u)-mea(v))/sqrt(d1/1+d2/2); Pv = tcdf(t0, N-1) Exerciţiu 6.5 Reveim la Exemplul 5.9. Să se testeze, la ivelul de semificaţie α = 0.02 dacă există difereţe semificative ître proporţiile de baieţi şi fete di respectiva şcoală cărora le place

109 6.7 Exerciţii propuse 109 Matematica. Soluţie: Avem: p 1 = 23 45, p 2 = 37 65, p = = 6 11 şi z Valoarea statisticii este: P 0 = ( )( ) = [ , ], deci ipoteza ulă u poate fi respisă la acest ivel de semificaţie. Aceeaşi cocluzie o putem lua dacă verificăm P valoarea. Aceasta este: P v = P( Z > P 0 ) = 1 P(Z < P 0 ) + P(Z < P 0 ) = > 0.02 = α. 6.7 Exerciţii propuse Exerciţiu 6.6 Î clasa a-ix-a a uui liceu sut 160 de elevi. Reprezetarea stem&leaf de mai jos coţie puctajele a 40 ditre aceştia, obţiute la testul iiţial de Matematică (puctajul maxim este 100 de pucte). (1) Calculaţi media, dispersia şi modul petru selecţia dată. (2) Estimaţi pritr-u iterval de îcredere puctajul mediu la Matematică petru elevii di acea şcoală (α = 0.06). (3) Estimaţi pritr-u iterval de îcredere procetul elevilor di şcoală care au obţiut mai puţi de 50 de pucte la testul iiţial la Matematică (α = 0.06). (4) Testaţi ipoteza că 18% ditre elevii di acea şcoală au puctaje sub 50 (α = 0.06). Exerciţiu 6.7 Tabelul alăturat coţie repartiţia pe grupe de vârstă şi ge a uei selecţii aleatoare de 385 de şomeri ditr-o aumită regiue a ţării. [1] Calculaţi vârsta medie si deviaţia stadard petru selecţia dată. [2] Estimaţi pritr-u iterval de îcredere vârsta medie a şomerilor di acea regiue (α = 0.04). [3] Testaţi ipoteza că vârsta medie a şomerilor este 42 de ai (α = 0.04). [4] Testaţi ipoteza că vârsta şomerilor este o variabilă aleatoare ormală (α = 0.04). stem leaf vârsta frecveţa [18, 25) 34 [25, 35) 76 [35, 45) 124 [45, 55) 87 [55, 65) 64 Exerciţiu 6.8 Caracteristica X reprezită cheltuielile luare petru covorbirile telefoice ale uei familii. Î urma uui sodaj la care au participat 100 de familii, am obţiut datele (repartiţia de frecveţe): ( ) [50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300) (a) Să se verifice, cu ivelul de semificaţie α = 0.02, ipoteza că media acestor cheltuieli luare petru o sigură familie este de 140RON, ştiid că abaterea stadard este 35RON. (b) Să se verifice aceeaşi ipoteză, î cazul î care abaterea stadard u este cuoscută a priori.

110 110 Capitolul 6. Testarea ipotezelor statistice Exerciţiu 6.9 La u exame aţioal, se cotabilizează ota x obţiută de fiecare examiat î parte. Petru o aaliza statistică, se aleg la îtâmplare 200 de cadidaţi. S-a găsit că suma otelor alese este 200 x i = şi suma pătratelor acestor ote este 200 x 2 i = Se cer: (a) Găsiţi u iterval de îcredere petru media µ a tuturor otelor participaţilor la exame, la ivelul de semificaţie α = (b) Testaţi ipoteza ulă (H 0 ) : µ = 6.75, vs. ipoteza alterativă (H 1 ) : µ 6.75, la ivelul α = Argumetaţi statistica folosită î testare. Exerciţiu 6.10 U patro susţie că firma sa u face discrimiare sexuală la agajare (i.e., atât bărbaţii, cât şi femeile au aceeaşi şasă de a se agaja î respectiva firmă). Se aleg 500 de agajaţi şi se găsesc 267 de bărbaţi. Testaţi la ivelul de semificaţie 0.05 dacă patroul firmei spue adevărul sau u. Exerciţiu 6.11 Ditre toate îregistrările vitezelor vehiculelor ce trec pri dreptul radarului fix aşezat î faţa uiversităţii, se aleg 10 date la îtâmplare. Acestea sut (î km/h): Presupuem că selecţia face parte ditr-o populaţie ormală. (a) Găsiţi u iterval de îcredere cu îcrederea de 98% petru viteza medie a vehiculelor ce trec pri dreptul radarului. (b) Testaţi dacă viteza medie cu care se circulă pri faţa acestui radar este de 45km/h sau u, cosiderâdu-se u ivel de semificaţie α = 0.02 ; (c) Estimaţi probabilitatea ca viteza legală de 50km/h să fi fost depăşită, folosid datele selecţiei cosiderate. Exerciţiu 6.12 Iformaţiile di tabelul de mai jos sut date despre două selecţii idepedete ce au fost extrase di două populaţii statistice. Selecţia Volumul selecţiei media de selecţie deviaţia stadard de selecţie Se cer: (a) Estimaţi puctual şi pritr-u iterval de îcredere (α = 0.01) valoarea µ 1 µ 2 ; (b) Testaţi (α = 0.01) ipoteza (H 0 ) : µ 1 = µ 2 vs. (H 1 ) : µ 1 µ 2 Exerciţiu 6.13 O selecţie de 700 de salarii pe oră di Româia arată că media salariului pe oră este x = 11.42RON şi s = 9.3. Putem decide, pe baza acestui sodaj, că media salariului pe oră este, de fapt, µ > 9.78RON, valoare stabilită de guverul româ? Se va folosi α = Exerciţiu 6.14 Se arucă o moedă de 250 de ori, obţiâdu-se 138 de apariţii ale stemei. La u ivel de semificaţie α = 0.05, să se decidă dacă avem suficiete dovezi de a afirma că acestă moedă este falsă. Exerciţiu 6.15 U patro susţie că firma sa u face discrimiare sexuală la agajare (i.e., atât bărbaţii, cât şi femeile au aceeaşi şasă de a se agaja î respectiva firmă). Se aleg 500 de agajaţi şi se găsesc 267 de bărbaţi. Testaţi la ivelul de semificaţie 0.05 dacă patroul firmei spue adevărul sau u.

111 7. Teste de cocordaţă. [You should take Poisso oly o rare occasios] Î geeral, testele de cocordaţă (e., goodess-of-fit tests) realizează cocordaţa ître repartiţia empirică (repartiţia datelor observate) şi o repartiţie teoretică sau testează dacă două seturi de date observate provi ditr-o aceeaşi repartiţie. Două ditre cele mai des utilizate teste de cocordaţă sut: testul χ 2 de cocordaţă (petru a testa cocordaţa ître repartiţia datelor obsevate şi o repartiţie teoretică dată) şi testul Kolmogorov-Smirov (petru a testa a testa cocordaţa ître repartiţia datelor obsevate şi o repartiţie teoretică dată (oe-sample test) sau petru a testa dacă două seturi de date observate provi ditr-o aceeaşi repartiţie (two-sample test). 7.1 Testul χ 2 de cocordaţă Acest test de cocordaţă poate fi utilizat ca u criteriu de verificare a ipotezei potrivit căreia u asamblu de observaţii urmează o repartiţie dată. Se aplică la verificarea ormalităţii, a expoeţialităţii, a caracterului Poisso, a caracterului Weibull etc. Testul mai este umit şi testul χ 2 al lui Pearso sau testul χ 2 al celei mai bue potriviri (e., goodess of fit test). Acest test poate fi aplicat petru orice tip de date petru care fucţia de repartiţie empirică poate fi calculată Cazul eparametric Să cosiderăm o caracteristică X a uei populaţii statistice Ω. Repartiţia variabilei aleatoare X este ecuoscută a priori, îsă ituim (sau avem aumite iformaţii) cum că aceasta ar fi dată de legea de probabilitate complet specificată f (x, θ) (e.g., f (x) = e 2 2 x x!, x N (X P(2)) sau f (x) = 1 3 e (x 5)2 18 (X N (5, 3) )). 2π

112 112 Capitolul 7. Teste de cocordaţă Deoarece legea de probabilitate ipotetică este complet specificată, θ este cuoscut şi vom omite să mai puem î evideţă depedeţa lui f de acesta î decursul aceste secţiui. Petru a verifica ipoteza făcută asupra repartiţiei lui X, cosiderăm u set de observaţii asupra lui X şi testăm cocordaţa ditre repartiţia empirică a datelor observate cu legea teoretică dată de f (x). Fie x 1, x 2,..., x setul de date observate. Să otăm cu F(x) fucţia de repartiţie teoretică, i.e., F = f. Î cele ce urmează, urmărim să aplicăm testul χ 2 de cocordaţă, ale cărui etape sut: Descompuem î clase mulţimea observaţiilor făcute asupra lui X, astfel îcât fiecare elemet al mulţimii aparţie uei sigure clase. Scriem aşadar, {x 1, x 2,..., x } = k O i, O i O j =, i j. Determiăm frecveţele empirice absolute, i.e., umerele i de observaţii ce aparţi fiecărei clase O i. Î mod evidet, va trebui să avem că k i =. Î geeral, se doreşte ca 30 şi i 5, petru ca testul să fie cocludet. Î cazul î care umărul de apariţii îtr-o aumită clasă u depăşeşte valoarea 5, atuci se vor cumula două sau mai multe clase, astfel îcât î oua clasă să fie respectată codiţia. Deşi, dacă avem cel puţi 5 clase, atuci sut suficiete cel puţi 3 valori î fiecare clasă. Î ambele cazuri, trebuie ţiut cot de modificarea umărului de clase, iar umărul k trebuie modificat corespuzător (îl îlocuim cu oul umăr, otat aici tot cu k). Petru fiecare i {1, 2,..., k}, determiăm probabilitatea teoretică p i ca u elemet al populaţiei să se afle î clasa O i. Această probabilitate este obţiută cu ajutorul fucţiei f (x). Astfel, frecveţele teoretice absolute sut p i, i {1, 2,..., k}. Altfel spus, p i este umărul estimat de valori ale repartiţiei cercetate ce ar cădea î clasa O i. Formulăm ipoteza ulă, Aceasta este echivaletă cu (H 0 ) : Fucţia de repartiţie a lui X este F(x). (H 0 ) : probabilitatea uei observaţii de a aparţie clasei O i este p i. (i = 1, 2,..., k). Ipoteza alterativă este egaţia ipotezei ule. Deviaţia ître cele două situaţii (empirică şi teoretică) este măsurată de statistica χ 2 = k ( i p i ) 2 p i. (7.1.1) (Fiecare ditre termeii ( i p i ) 2 poate fi privit ca fiid o eroare relativă de aproximare a p i valorilor aşteptate ale repartiţiei cu valorile observate.) Statistica χ 2 urmează repartiţia χ 2 (k 1). Ueori, statistica χ = χ 2 se umeşte discrepaţă. Alegem ivelul de semificaţie α, de regulă, foarte apropiat de zero. Alegem regiuea critică, ca fiid regiuea petru care valoarea χ 2 0 a acestei statistici petru observaţiile date satisface χ 2 0 > χ2 1 α; k 1, ude χ 2 1 α; k 1 este cuatila de ordi 1 α petru repartiţia χ2 (k 1). Dacă e aflăm î regiuea critică, atuci datele observate sut semificativ diferite de datele aşteptate (calculate teoretic). Î coseciţă, ipoteza ulă (H 0 ) se respige la ivelul de semificaţie α. Altfel, u sut dovezi statistice suficiete să se respigă.

113 7.2 Testul de cocordaţă Kolmogorov-Smirov Cazul parametric Câd probabilităţile teoretice p i u sut a priori cuoscute, atuci ele vor trebui estimate. Acest caz apare atuci câd legea de probabilitate f (x, θ) u este complet specificată, ci doar specificată (ştim forma lui f, dar u ştim uul sau, evetual, mai mulţi parametri ai săi). Folosid datele observate, va trebui să estimăm parametrii ecuoscuţi ai repartiţiei ipotetice. Fiecare estimare e va costa u grad de libertate. Cu alte cuvite, dacă avem de estimat u sigur parametru, atuci pierdem u grad de libertate, petru doi parametri, pierdem două grade etc. Să presupuem că legea de probabilitate a lui X de mai sus este f (x, θ), ude θ = (θ 1, θ 2,..., θ p ) Θ R p sut parametri ecuoscuţi. Petru a aproxima aceşti parametri, folosim observaţiile culese asupra lui X. O metodă la îdemâă petru estimări parametrice este metoda verosimilităţii maxime. După ce am estimat parametrii repartiţiei teoretice ipotetice, determiăm probabilităţile estimate. Stabilim apoi ipoteza ulă: (H 0 ) : p i = ˆp i, (i = 1, 2,..., k), ude p i este probabilitatea uei observaţii de a aparţie clasei i şi ˆp i sut valorile estimate. Di acest momet, etapele testului χ 2 cazul parametric sut asemăătoare cu cele di cazul eparametric, cu deosebirea că statistica χ 2 dată pri (7.1.1) urmează repartiţia χ 2 cu (k p 1) grade de libertate. Aceasta este urmare a faptului că se pierd p grade de libertate di cauza folosirii observaţiilor date petru estimarea celor p parametri ecuoscuţi. Etapele aplicării testului χ 2 de cocordaţă (eparametric sau parametric) Se dau: α, x 1, x 2,..., x. Ituim F(x; θ 1, θ 2,..., θ p ); Formulăm ipotezele statistice: (H 0 ) fucţia de repartiţie teoretică a variabilei aleatoare X este F(x; θ 1, θ 2,..., θ p ) (H 1 ) ipoteza ulă u este adevărată. Dacă θ 1, θ 2,..., θ k (k p) u sut parametri cuoscuţi, atuci determiăm estimările de verosimilitate maximă ˆθ 1, ˆθ 2,..., ˆθ k petru aceştia (doar î cazul parametric; altfel sărim peste acest pas); Scriem distribuţia empirică de selecţie (tabloul de frecveţe), ( clasa Oi ) k i,,k i =, i 5; Se calculează probabilitatea p i, ca u elemet luat la îtâmplare să se afle î clasa O i. Dacă O i = [a i 1, a i ), atuci ( i p i ) 2 ; p i Determiăm valoarea χ, care este Se calculează χ 2 0 = k χ = { χ 2 1 α; k 1 χ 2 1 α; k p 1 p i = F(a i ; θ) F(a i 1 ; θ), î cazul eparametric; p i = F(a i ; ˆθ) F(a i 1 ; ˆθ), î cazul parametric., î cazul eparametric,, î cazul parametric, ude χ 2 α; este cuatila de ordi α petru repartiţia χ 2 (); Dacă χ 2 0 < χ, atuci acceptăm (H 0 ), altfel o respigem. 7.2 Testul de cocordaţă Kolmogorov-Smirov Testul de cocordaţă Kolmogorov-Smirov poate fi utilizat î compararea uor observaţii date cu o repartiţie cuoscută (testul K-S cu o selecţie) sau î compararea a două selecţii (testul K-S petru

114 114 Capitolul 7. Teste de cocordaţă două selecţii). Spre deosebire de criteriul χ 2 al lui Pearso, care foloseşte desitatea de repartiţie, criteriul Kolmogorov-Smirov utilizează fucţia de repartiţie empirică, F (x). Î cazul uei sigure selecţii, este calculată distaţa ditre fucţia de repartiţie empirică a selecţiei şi fucţia de repartiţie teoretica petru repartiţia testată, iar petru două selecţii este măsurată distaţa ître două fucţii empirice de repartiţie. Î fiecare caz, repartiţiile cosiderate î ipoteza ulă sut repartiţii de tip cotiuu. Testul Kolmogorov-Smirov este bazat pe rezultatul teoremei urmatoare: Teorema (Kolmogorov) Fie caracteristica X de tip cotiuu, care are fucţia de repartiţie teoretică F şi fie fucţia de repartiţie de selecţie F. Atuci, distata d = sup F (x) F(x) satisface relatia: lim P( d < x) = K(x) = k= x R ( 1) k e 2k2 x 2, x > 0. (7.2.2) Testul K-S petru o selecţie Î cazul î care ipotezele testului sut satisfăcute, acest test este mai puteric decât testul χ 2. Avem u set de date statistice idepedete, pe care le ordoăm crescator, x 1 < x 2 < < x. Aceste observaţii idepedete provi di aceeaşi populaţie caracterizată de variabila aleatoare X, petru care urmărim să îi stabilim repartiţia. Mai îtâi, cautăm să stabilim ipoteza ulă. De exemplu, dacă ituim că fucţia de repartiţie teoretică a lui X ar fi F(x), atuci stabilim: (H 0 ) : fucţia de repartiţie teoretică a variabilei aleatoare X este F(x). Ipoteza alterativă (H 1 ) este, de regulă, ipoteza ce afirmă că (H 0 ) u este adevărată. Alegem u ivel de semificaţie α 1. Î criteriul K-S petru o sigură selecţie, se compară fucţia F(x) ituită a priori cu fucţia de repartiţie empirică, F (x). Reamitim, F (x) = card{i; x i x}. Studiid fucţia empirică de repartiţie a acestui set de date, Kolmogorov a găsit că distaţa d = sup F (x) F(x) satisface relaţia (7.2.2), ude K(λ), λ > 0, este fucţia lui Kolmogorov x R (tabelată). Î testul K-S, măsura d caracterizează cocordaţa ditre F(x) şi F (x). Dacă ipoteza (H 0 ) este adevărată, atuci difereţele d u vor depăşi aumite valori. Etapele aplicării testului Kolmogorov-Smirov petru o selecţie: Se dau α şi x 1 < x 2 < < x. Cosiderăm cuoscută (ituim) F(x); Ipotezele statistice sut: (H 0 ) fucţia de repartiţie teoretică a variabilei aleatoare X este F(x) (H 1 ) ipoteza ulă u este adevărată. Calculăm λ 1 α, cuatila de ordi 1 α petru fucţia lui Kolmogorov. Aceasta cuatila verifica relatia K(λ 1 α ) = 1 α. Se calculează d = max F x (x) F(x) ; Dacă d satisface iegalitatea d < λ 1 α, atuci admitem ipoteza (H 0 ), altfel o respigem Testul K-S petru două selecţii Î cazul î care avem de comparat două repartiţii, procedăm astfel. Să presupuem că F m(x) este fucţia de repartiţie empirică petru o selecţie de volum m ditr-o populaţie ce are fucţia teoretică de repartiţie F(x) şi că G (x) este fucţia de repartiţie empirică petru o selecţie de volum ditr-o

115 7.3 Teste de cocordaţă î MATLAB 115 populaţie ce are fucţia teoretică de repartiţie G(x). Dorim să testăm (H 0 ) : F = G versus (H 1 ) : F G. (evetual, î (H 1 ) putem cosidera F > G sau F < G.) Cosiderăm statistica d m, = sup Fm(x) G (x), x ce reprezită difereţa maximă ître cele două fucţii. Etapele testului urmează îdeaproape pe cele di testul K-S cu o sigură selecţie. Decizia se face pe baza criteriului m m + d m, < q α. Testul Kolmogorov-Smirov petru două selecţii este uul ditre cele mai utile teste de cotigeţă petru compararea a două selecţii. Acest test u poate specifica atura celor două repartiţii. Etapele aplicării testului Kolmogorov-Smirov petru două selecţii: Se dau α, x 1 < x 2 < < x m şi y 1 < y 2 < < y. Cosiderăm cuoscute (ituim) F(x) şi G(x); Ipotezele statistice sut: (H 0 ) F = G vs. (H 1 ) F G. Determiam pragul teoretic q α corespuzator valorii α di tabelul urmator: α q α Se calculează d m, = sup Fm(x) G (x). x Dacă d m, satisface iegalitatea m m+ d m, < q α, atuci admitem ipoteza (H 0 ), altfel ipoteza ulă este respisă la acest prag de semificaţie. Observaţia 7.1 Petru ipoteza alterativă F > G (sau F < G), se va cosidera statistica d m, = sup[fm(x) G (x)] (respectiv, d m, = sup[g (x) Fm(x)]). x x 7.3 Teste de cocordaţă î MATLAB (1) Fucţia chi2gof(x) testează (folosid testul χ 2 al lui Pearso) dacă vectorul x provie ditr-o repartiţie ormală, cu media şi dispersia estimate folosid x. Î cazul î care datele sut egrupate, atuci rezultatul testului de ormalitate se obţie di [h,p,stats] = chi2gof(x) Î cazul î care datele sut grupate, deci au aumite particularităţi observate, va trebui să ţiem cot de aceste particularităţi. Aceasta se poate face apelâd la forma geerală a fucţiei MATLAB este: [h,p,stats] = chi2gof(x,ame1,val1,ame2,val2,...) ude: h, p sut la fel ca î exemplele aterioare; perechile amei/valuei sut opţioale. Variabilele amei pot fi: umărul de clase, 'bis', u vector de valori cetrale ale itervalelor ce defiesc clasele, 'ctrs', sau u vector cu capetele claselor, 'edges'. Alte variabile ce pot fi utilizate: 'cdf', 'expected', 'params', 'emi', 'frequecy', 'alpha'. variabila de memorie stats afişează: chi2stat - statistica χ 2, df - gradele de libertate,

116 116 Capitolul 7. Teste de cocordaţă edges - u vector cu capetele itervalelor claselor după triere, O - umărul de valori observate î fiecare clasă, E - umărul de valori aşteptate î fiecare clasă. Testul Kolmogorov i MATLAB (o sigura selectie) Petru testul Kolmogorov-Smirov petru o selecţie, fucţia MATLAB este: [h, p, ksstat] = kstest(x, F, alpha, type) Î plus, faţă de fucţiile aterioare, avem opţiuea 'type'. Aceasta se referă la cum se compară cele două fucţii de repartiţie, şi poate fi ua ditre următoarele: 'uequal', 'larger', 'smaller'. 7.4 Testarea tipului de date experimetale Petru a putea efectua u test statistic î mod corect, este ecesar să ştim care este tipul (tipurile) de date pe care le avem la dispoziţie. Petru aumite teste statistice (e.g., testul Z sau testul t, datele testate trebuie să fie ormal distribuite şi idepedete. De multe ori, chiar şi ipoteza ca datele să fie ormal repartizate trebuie verificată. De aceea, se pue problema realizării uei legături ître fucţia de repartiţia empirică şi cea teoretică (teste de cocordaţă). Vom discuta mai pe larg aceste teste de cocordaţă îtr-o secţiue următoare. Î MATLAB sut deja implemetate uele fucţii ce testează dacă datele sut ormal repartizate. Fucţia ormplot(x) reprezită grafic datele di vectorul X versus o repartiţie ormală. Scopul acestei fucţii este de a determia grafic dacă datele di observate sut ormal distribuite. Dacă aceste date sut selectate ditr-o repartiţie ormală, atuci acest grafic va fi liiar, dacă u, atuci va fi u grafic curbat. De exemplu, să reprezetăm cu ormplot vectorii X şi Y de mai jos. Graficele sut cele di Figura 7.1. X = ormrd(100,2,200,1); subplot(1,2,1); ormplot(x) Y = exprd(5,200,1); subplot(1,2,2); ormplot(y) Figura 7.1: Reprezetarea ormală a datelor.

117 7.4 Testarea tipului de date experimetale 117 Observăm că primul grafic este aproape liiar, pe câd al doilea u este. Putem astfel să cocluzioăm că datele date de X sut ormal repartizate (fapt cofirmat şi de modul cum le-am geerat), iar datele di Y u sut ormal repartizate. Fucţia chi2gof determiă, î urma uui test χ 2, dacă datele observate sut ormal repartizate, la u ivel de semificaţie α = Astfel, comada h = chi2gof(x) e va furiza rezultatul h = 1, dacă datele u sut ormal repartizate (i.e., ipoteza alterativă (H 1 ) este admisă), sau h = 0, dacă u putem respige ipoteza că datele observate sut ormal distribuite (i.e., ipoteza ulă (H 0 ) este admisă). Aplicâd testul petru X şi Y de mai sus, obţiem h = 0, respectiv, h = 1. De asemeea, putem verifica dacă datele statistice ar putea provei şi di alte repartiţii decât cea ormală. De exemplu, fucţia probplot(distributio,y) crează u grafic ce compară repartiţia datelor di vectorul Y cu repartiţia dată de distributio. Pritre repartiţiile ce pot fi comparate folosid această comadă meţioăm: 'ormal', 'expoetial', 'weibull' şi 'logormal'. Trebuie avut grijă ca valorile vectorului Y să fie pozitive petru compararea cu oricare ditre ultimele trei repartiţii. Comada simplificată este probplot(y), care presupue î mod implicit că distributio = 'ormal'. O altă comadă utilă este wblplot(y) care este echivaletă cu comada probplot(weibull,y). Î cotiuare, prezetăm u exemplu de utilizare a acestor comezi. Figura 7.2, verificăm dacă fiecare ditre cele două selecţii geerate, ua expoeţială şi cealaltă ormală, ar putea provei ditr-o repartiţie expoeţială. x = exprd(0.5, 250,1); % selectie expoetiala y = ormrd(3, 1, 250,1); % selectie ormala probplot('expoetial',[x y]) leged('selectie expoetiala','selectie ormala','locatio','se') Următoarea fucţie MATLAB compară u set de date cu o repartiţie precizată. Fucţia histfit(x,, 'tip_repartitie') reprezită datele di vectorul X pritr-o histogramă ce are umărul de bare egal cu. Dacă opţiuea 'tip_repartitie' apare (valabilă doar petru lucrul cu Statistics Toolbox!), atuci peste histogramă se va desea desitatea de repartiţie a repartiţiei precizate (e.g., expoetial, gamma, logormal etc). Î caz î care opţiuea u apare, se cosideră implicit că repartiţia cu care se compară datele este cea ormală. Exemplul de mai jos produce graficul di Figura 7.3. X = biord(1e3, 0.1, 1e4, 1); histfit(x, 100)

118 118 Capitolul 7. Teste de cocordaţă Figura 7.2: Reprezetarea expoeţială a datelor. Figura 7.3: Compararea pri histograme. 7.5 Test de idepedeţă folosid tabele de cotigeţă Pâă acum am discutat cum pot fi grupate observaţiile uei sigure caracteristici, fie discretă sau cotiuă. Îsă, î multe cazuri avem de studiat o aumită populaţie pri prisma a mai mult de două caracteristici. Î această secţiue, vom prezeta u test de idepedeţă ître două caracteristici după care se face împărţirea datelor observate. Să presupuem că avem u set de observaţii ce sut împărţite î categorii determiate de două criterii diferite. Spre exemplu, î vederea itroducerii de cursuri opţioale petru elevii de liceu ai uei şcoli, s-a realizat u sodaj de opiie la care au participat 350 de elevii, î care aceştia au avut de precizat cursul de limbi străie preferat şi ivelul de studiu ce cosideră că li s-ar potrivi. Rezultatele î stare egrupată pot arăta astfel: Nr. crt. Limba straia Nivel de studiu 1 egleza mediu 2 fraceza avasat

119 7.5 Test de idepedeţă folosid tabele de cotigeţă germaa avasat 4 egleza icepator 5 spaiola mediu 6... Aceste observaţii pot fi sumarizate sub forma uui tabel (vezi tabelul 7.1). Aici, populaţia de elevi di respectiva şcoală este descrisă de valorile a două caracteristici, şi aume: limba străiă şi ivelul de studiu. U astfel de tabel va fi util î luarea de decizii, după cum vom vedea mai târziu. De exemplu, putem să testăm dacă alegerea limbii străie este idepedetă de ivelul de studii (i.e., cele două caracteristici sut idepedete) Idetificăm aici două caracteristici (atribute): X este limba străiă (e.g., Egleză, Fraceză, Germaă, Italiaă, Spaiolă şi Rusă) şi Y reprezită ivelul de studiu (e.g., îcepător, mediu şi avasat). Numărul de elevi ce itră î fiecare categorie este afişat î Tabelul 7.1. Nivel Limba Egleză Fraceză Germaă Italiaă Spaiolă Rusă Total îcepător mediu avasat Total Tabela 7.1: Tabel cu repartizarea elevilor la cursurile de limbi străie. Î geeral, dacă datele observate sut clasificate î categorii ce depid de două atribute diferite, atuci putem forma u tabel de geul Tabelului 7.2, umit tabel de cotigeţă. Aici X şi Y sut atributele şi X i, i = 1, r, Y j, j = 1, s, sut diverse categorii î care fiecare atribut î parte poate fi împărţit. X Y Y 1 Y 2... Y j... Y s Suma pe liie X j... 1s 1 X j... 2s X i i1 i2... i j... is i X r r1 r2... r j... rs r Suma pe coloaă j... s (suma totală) Tabela 7.2: Tabel de cotigeţă. Î Tabelul 7.2 am folosit următoarele otaţii: i j petru umărul (frecveţa absolută) de observaţii ce au valoarea X i petru atributul X şi valoarea Y j petru atributul Y (i = 1, r, j = 1, s), iar j, i şi sut j = r i j, i = s j=1 i j, = r s j=1 Fiecare idivid di selecţia aleasă aparţie uei sigure categorii caracterizată de atributul X şi uei sigure categorii caracterizată de atributul Y. Î cocluzie, fiecare idivid poate aparţie doar ueia ditre cele r s celule. Dorim acum să testăm dacă atributele X şi Y sut idepedete (î exemplul de mai sus, aceasta ar îsema determiarea faptului dacă alegerea cursului de limba străiă este idepedetă de ivelul de studiu). i j.

120 120 Capitolul 7. Teste de cocordaţă Să otăm pri p i j probabilitatea ca o dată observată să cadă î categoria (X i, Y j ), şi pri p i şi p j probabilităţile margiale, Avem că p i = r s j=1 s j=1 p i j = p i j, p j = r p i = r p i j. s p j = 1. j=1 Î geeral, valorile reale petru p i j, p i şi p j u sut cuoscute (specificate) a priori şi se vor estima folosid datele di tabelul de cotigeţă. Vom ota pri p i j, p i şi, respectiv, p j estimatorii lor. Petru a estima probabilităţile margiale, folosim metoda verosimilităţii maxime. Fucţia de verosimilitate este L = s p i i s j=1 Codiţiile de extrem (cu legătura r s j=1 p i j = 1) petru sut: ll = r i l p i + s j=1 p j j j l p j + λ( ll p i = 0, i = 1, şi r s j=1 ll p j = 0 p i j 1) Valorile probabilităţilor margiale le estimăm pri valorile maxime ale lui L, şi aume: p i = i Ipoteza ulă este: (i = 1, r) şi p j = j ( j = 1, s). (7.5.3) (H 0 ) : p i j = p i p j, i = 1, r, j = 1, s (i.e., u există icio asociere ître atributele X şi Y ). (H 1 ) : (H 0 ) u este adevărată. Astfel, petru i şi j fixaţi, dacă ipoteza ulă ar fi adevărată, atuci valoarea aşteptată î celula (i, j) este E i j = p i j = p i p j = i j, i = 1, r, j = 1, s. (7.5.4) Calculăm valoarea statisticii ( i j i j H 2 = i j i, j ) 2 ( = i, j ) (O i j E i j ) 2, (7.5.5) E i j ude, î parateză, O i j = i j este umărul de valori observate î celula (i, j) iar E i j umărul de valori aşteptate (e., expected) î celula (i, j). Dacă î fiecare celulă umărul de valori ce îi apaţi este de cel puţi 5, atuci statistica H 2 urmează repartiţia χ 2 cu (r 1)(s 1) grade de libertate. Etapele testului de idepedeţă sut următoarele: Se dau i j, i = 1, r, j = 1, s şi pragul de semificaţie α; Pe baza observaţiilor i j, calculăm estimaţiile (7.5.3); Calculăm H 2 cu formula (7.5.5); Dacă E i j 5, i, j şi H 2 χ 2 1 α;(r 1)(s 1), atuci se admite (H 0) la pragul de semificaţie α. Altfel, respigem (H 0 ) la acest prag de semificaţie.

121 7.5 Test de idepedeţă folosid tabele de cotigeţă 121 Reveim la datele di Tabelul 7.1. Petru a stabili dacă, la u ivel de semificaţie α = 0.05, alegerea cursului de limba străiă este idepedetă de ivelul de studiu, calculăm mai îtâi estimaţiile E i j. Acestea sut scrise î parateze î Tabelul 7.3. Calculăm H 2 : H 2 = 3 6 j=1 ( i j E i j ) 2 ( )2 (7 5.77)2 = + + E i j = < = χ , 10 deci admitem ipoteza ulă coform căreia tipul cursului şi ivelul său sut atribute idepedete. Petru calculul acestor valori î MATLAB, putem proceda astfel: = 350; r = 3; s = 6; alpha = 0.05; O = [ ; ; ]; E = sum(o')'*sum(o)/; H2 = sum(sum((o-e).^2./e)); Hcrit = chi2iv(1-alpha,(r-1)*(s-1)); if (H2<Hcrit) disp('variabilele sut idepedete') else disp('variabilele sut depedete') ed Testul exact al lui Fisher Î cazul particular î care r = s = 2, tabelul de cotigeţă este de forma: ude a, b, c, d sut valorile observate petru fiecare celulă î parte. Valorile aşteptate E i j (vezi formula (7.5.4)) sut: E 11 = (a + b)(a + c), E 12 = (a + b)(b + d), E 21 = ude = a + b + c + d. Statistica H 2 dată de relaţia (7.5.5) devie: (c + d)(a + c), E 22 = ( ) ad bc 2 ( 1 H 2 = ), E 11 E 12 E 21 E 22 (c + d)(b + d), şi urmează repartiţia χ 2 (1). Di faptul că H 2 χ 2 (1), rezultă că statistica H = H 2 N (0, 1), şi se poate utiliza H petru testul statistic de idepedeţă. Nivel Limba Egleză Fraceză Germaă Italiaă Spaiolă Rusă Total îcepător (37.06) (18.66) (7.36) (11.30) (12.35) (5.26) 92 mediu (63.25) (31.85) (12.56) (19.29) (21.08) (8.97) 157 avasat (40.69) (20.49) (8.08) (12.41) (13.56) (5.77) 101 Total Tabela 7.3: Tabel cu repartizarea şi estimaţia elevilor la cursurile de limbi străie.

122 122 Capitolul 7. Teste de cocordaţă X Y Y 1 Y 2 Suma pe liie X 1 a b a + b X 2 c d c + d Suma pe coloaă a + c b + d a + b + c + d Tabela 7.4: Tabel de cotigeţă 2 2. Deşi acest test poate fi realizat, î cazul tabelelor de cotigeţă 2 2 se utilizează testul exact al lui Fisher. Acest test poate fi utilizat chiar şi î cazul î care valorile observaţiilor sut mai mici decât 5. Să alegem u prag de semificaţie α. Testăm ipoteza ulă (H 0 ) : u există icio asociere ître atributele X şi Y. versus ipoteza alterativă (H 1 ) : (H 0 ) u este adevărată. (test bilateral) Rezultatele obţiute le putem scrie sub forma uei matrice, pe care o vom umi matricea cofiguraţiei. Aceasta este: ( ) a b M =. c d Să presupuem acum că, petru o matrice 2 2, sumele valorilor pe liii şi pe coloae sut fixate a priori. Atuci, putem alege elemetele matricei ce satisface aceste codiţii î mai multe moduri (este greu de precizat î câte moduri, î cazul cel mai geeral). Î cazul problemei de faţă, să presupuem că a + b, c + d, a + c şi b + d sut fixate. Atuci, dacă ipoteza ulă este adevărată, probabilitatea de a obţie exact valorile di Tabelul 7.4 este: P = Ca a+b Cc c+d C a+c. (7.5.6) Această probabilitate se obţie pri utilizarea schemei hipergeometrice. Există îsă mai multe matrice de tip 2 2 care au o cofiguraţie fixată a sumelor pe fiecare liie şi pe fiecare coloaă (i.e., a + b, c + d, a + c şi b + d sut fixate). Petru fiecare matrice de acest tip, putem calcula o probabilitate (codiţioată de realizarea ipotezei ule) de geul celei de mai sus. Î cazul testului bilateral, P valoarea testului (otată pri P v ) este suma tuturor probabilităţilor codiţioate astfel calculate, care sut mai mici sau egale cu probabilitatea obţiută petru cofiguraţia dată (iclusiv probabilitatea cofiguraţiei date). Dacă P valoarea este mai mare decât α, atuci ipoteza ulă este admisă la acest prag de semificaţie. Dacă P v α, atuci respigem (H 0 ). Î cazul î care ipoteza alterativă este ua specifică (e.g., uul ditre atribute este preferat celuilalt), atuci P valoarea este doar jumătate di suma aterioară. Spuem î acest caz că avem u test uilateral. Exemplu 7.1 Se testează efectele uui aumit tip de medicamete pe u grup de volutari ce prezită simptome de răceală. Aceştia sut î umăr de 14 şi au fost împărţiţi î două grupuri de 7 persoae. Pacieţilor di primul grup, G 1, li s-au admiistrat medicametul iar pacieţilor di grupul G 2 u li s-au admiistrat imic. După o săptămâă, s-a testat starea săătăţii celor 14 pacieţi, rezultatele fiid cele di Tabelul 7.5. Să se determie dacă admiistrarea medicametului are vreu efect asupra stării de săătate a volutarilor. Se va folosi ivelul de semificaţie α = Soluţie Ipoteza ulă este: (H 0 ) : Starea de săătate a volutarilor este idepedetă de admiistrarea medicametului. Ipoteza alterativă (bilaterală) este: (H 1 ) : Ipoteza (H 0 ) este falsă.

123 7.6 Exerciţii rezolvate 123 X Y săătos bolav Suma pe liie G G Suma pe coloaă Tabela 7.5: Tabel de cotigeţă petru testarea uui medicamet. Matricea cofiguraţiei este ( 6 1 M 1 = 4 3 ) Folosid relaţia (7.5.6), probabilitatea apariţiei acestei cofiguraţii, ştiid că sumele pe liii şi pe coloae sut fixate, este P 1 = C6 7 C4 7 C = Alte cofiguraţii cu suma 7 pe fiecare liie şi sumele 10 pe prima coloaă şi 4 pe a doua coloaă sut: ( 4 3 M 2 = 6 1 ) ( 5 2, M 3 = 5 2 ) ( 3 4, M 4 = 7 0 Probabilităţile codiţioate corespuzătoare acestora sut: ) ( 7 0, M 5 = 3 4 P 2 = ; P 3 = , P 4 = , P 5 = P valoarea este suma tuturor probabilităţilor mai mici sau egale cu P 1 : P v = P 1 + P 2 + P 4 + P 5 = = > 0.05 = α. ). Aşadar, la acest prag de semificaţie admitem ipoteza ulă. Observaţia 7.2 (1) A se observa că suma P 1 + P 2 + P 3 + P 4 + P 5 = 1, ceea ce era de aşteptat. (2) Dacă rezultatul experimetului ar fi matricea M 5 şi ipoteza alterativă este (H 1 ) : există evideţe că medicametul are efecte beefice, atuci avem u test uilateral. Î acest caz, P valoarea este P v = P 5 /2 = < α, ceea ce coduce la respigerea ipotezei ule şi, deci, există evideţe că medicametul are efecte beefice. 7.6 Exerciţii rezolvate Exerciţiu 7.1 Se arucă u zar de 60 de ori şi se obţi rezultatele di Tabelul 7.6. Să se decidă, la ivelul de semificaţie α = 0.02, dacă zarul este corect sau fals. Faţa (clasa O i ) Frecv. absolută ( i ) Tabela 7.6: Tabel cu umărul de pucte obţiute la arucarea zarului.

124 124 Capitolul 7. Teste de cocordaţă Soluţie: (aplicăm testul χ 2 de cocordaţă, cazul eparametric) Zarul este corect doar dacă fiecare faţă a sa are aceeaşi şasă de a aparea, adică probabilităţile ca fiecare faţă î parte să apară sut: (H 0 ) : p i = 1, (i = 1, 2,..., 6). 6 Altfel, otăm cu X variabila aleatoare ce are valori umărul puctelor ce apar la arucarea zarului. U zar corect ar îsema că X urmează repartiţia uiformă discretă U (6). Toate cele 60 de rezultate obţiute î urma arucării zarului pot fi împărţite î şase clase. Aceste clase sut: O i = {i}, i {1, 2,..., 6}. Ipoteza ulă este (H 0 ) sau, echivalet, Ipoteza alterativă este "(H 0 ) u are loc", adică: (H 0 ) : Fucţia de repartiţie a lui X este U (6). (H 1 ) : Există u j, cu p j 1, ( j {1, 2,..., 6}). 6 Calculez valoarea statisticii χ 2 petru observaţiile date: χ0 2 = (15 10) = (7 10) (4 10) (11 10) (6 10)2 10 Repartiţia statisticii χ 2 este χ 2 cu k 1 = 5 grade de libertate. Regiuea critică este: U = (χ ; 5; + ) = ( , + ). + (17 10)2 10 Deoarece χ0 2 se află î regiuea critică, ipoteza ulă se respige la ivelul α = 0.02, aşadar zarul este măsluit. Codul MATLAB: = 60; k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*oes(1,6); chi2 = sum((f-*p).^2)./(*p)); % valoarea χ0 2 val = chi2iv(1-alpha,k-1); % cuatila χ0.99; 2 5 H = (chi2 > val) % afiseaza 0 daca zarul e corect si 1 daca u Observaţia 7.3 Dacă ivelul de semificaţie este ales α = 0.01, atuci χ0.99; 2 5 = , ceea ce determiă acceptarea ipotezei ule (adică zarul este corect) la acest ivel. Exerciţiu 7.2 Reveim la Exerciţiul 7.1, dar cu valoarea ivelului de îcredere di Observaţia 7.3. Codul MATLAB ce foloseşte fucţia de mai sus este: x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*oes(1,6); e = N*p; alpha = 0.01; [h, p, stats] = chi2gof(x,'ctrs', x,'frequecy', f,'expected',e, 'alpha',alpha) Acest cod returează:

125 7.6 Exerciţii rezolvate 125 h = p = stats = chi2stat: df: 5 edges: [ ] O: [ ] E: [ ] Acest rezultat cofirmă că ipoteza ulă (zarul este corect) este acceptată la ivelul α = Exerciţiu 7.3 La campioatul modial de fotbal di 2006 au fost jucate î total 64 de meciuri, iar repartiţia umărului de goluri îscrise îtr-u meci are tabelul de distribuţie ca î Tabelul 7.7. Determiaţi (la ivelul de semificaţie α = 0.05) dacă umărul de goluri pe meci urmează o distribuţie Poisso. Nr. de goluri pe meci Nr. de meciuri Tabela 7.7: Tabel cu umărul de goluri pe meci la FIFA WC Soluţie: (aplicăm testul de cocordaţă χ 2 parametric) Fie X variabila aleatoare ce reprezită umărul de goluri îscrise îtr-u meci. Teoretic, X poate lua orice valoare di mulţimea N. Mulţimea observaţiilor făcute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecveţele respective di tabel. Î total, au fost iscrise 144 de goluri. Estimăm umărul de goluri pe meci pri media lor, adică ˆλ = x = = Pe baza datelor observate, dorim să testăm dacă X urmează o repartiţie Poisso. Avem astfel de testat ipoteza ulă: vs. ipoteza alterativă (H 0 ) : X urmează o lege Poisso P(ˆλ). (H 1 ) : X u urmează o lege Poisso P(ˆλ). Dacă admitem ipoteza (H 0 ) (adică X P(2.25), atuci p i = p i (ˆλ) şi distribuţia valorilor variabilei este dată de Tabelul 7.8. Valoarea p i este P(X = i), adică probabilitatea ca variabila aleatoare X P(2.25) să ia valoarea i (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece petru ultimele două clase di Tabelul 7.8, aume {X = 5} şi {X 6}, umerele i u depăşeşc valoarea 3, le ştergem di tabel şi le uim îtr-o sigură clasă, î care {X 5}, cu i = 4 > 3. Vom ota pri p 5 probabilitatea p 5 = P(X 5) = 1 P(X < 5) = 1 P(X 4) = 1 Rămâem aşadar cu 6 clase. Ipoteza ulă (H 0 ) se poate rescrie astfel: 4 i=0 P(X = i). (H 0 ) : p 0 = , p 1 = , p 2 = , p 3 = , p 4 = , p 5 =

126 126 Capitolul 7. Teste de cocordaţă ( i p i ) 2 Clasa i p i p i p i Tabela 7.8: Tablou de distribuţie petru P(2.25). Ipoteza alterativă este (H 1 ) : ipoteza (H 0 ) u este adevărată. Calculăm acum valoarea statisticii χ 2 petru observaţiile date: χ 2 0 = + ( )2 ( ) ( )2 ( ) ( ) = ( ) Deoarece avem 6 clase şi am estimat parametrul λ, deducem că umărul gradelor de libertate este = 4. Cuatila de referiţă (valoarea critică) este χ0.95; 2 4 = Regiuea critică petru χ 2 este itervalul (χ0.95; 2 4, + ). Deoarece χ2 0 < χ2 0.95; 4, urmează că ipoteza ulă (H 0) u poate fi respisă la ivelul de semificaţie α. Aşadar, este rezoabil să afirmăm că umărul de goluri marcate urmează o repartiţie Poisso. Prezetăm mai jos u cod MATLAB ce rezolvă această problemă. X = [0*oes(8,1);1*oes(13,1);2*oes(18,1);3*oes(11,1);4*oes(10,1);... 5*oes(2,1);6*oes(2,1)]; f = [ ]; % vectorul de frecvete absolute = 64; alpha = 0.05; lambda = mea(x); for :5 % probabilitatile P(X=i), i=0,1,2,3,4 p(i) = poisspdf(i-1,lambda); ed p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X 5) H2 = sum((f-*p).^2./(*p)); Hstar = chi2iv(1-alpha,4); if (H2 < Hstar) disp('x urmeaza repartitia Poisso'); else disp('x u urmeaza repartitia Poisso'); ed Evetual, putem folosi fucţia chi2gof.

127 7.6 Exerciţii rezolvate 127 y = [ ]; [h, p, stats] = chi2gof(y,'ctrs', y,'frequecy', f,'expected',e, 'alpha',alpha) Observaţia 7.4 Dacă ipoteza ulă este respisă, atuci motivul poate fi acela că uele valori observate au deviat prea mult de la valorile aşteptate. Î acest caz, este iteresat de observat care valori sut extreme, cauzâd respigerea ipotezei ule. Putem defii astfel reziduurile stadardizate: r i = O i p i pi (1 p i ) = O i E i Ei (1 p i ), ude pri O i am otat valorile observate şi pri E i valorile aşteptate. Dacă ipoteza ulă ar fi adevărată, atuci r i N (0, 1). Î geeral, reziduuri stadardizate mai mari ca 2 sut semale că datele coţi valori observate extreme. Exerciţiu 7.4 Îtr-o aumită zi de lucru, sut urmăriţi timpii de aşteptare îtr-o staţie de tramvai, pâă la îcheierea zilei de lucru (adică, pâă trece ultimul tramvai). Notăm cu T caracteristica ce reprezită umărul de miute aşteptate î staţie, pâă soseşte tramvaiul. Rezultatele observaţiilor sut sumarizate î Tabelul 7.9. Se cere să se cerceteze (α = 0.05) dacă timpii de aşteptare sut repartizaţi expoeţial. Durata i Tabela 7.9: Timpi de aşteptare î staţia de tramvai. Soluţie: (folosim testul χ 2 de cocordaţă, parametric) Avem de testat ipoteza ulă vs. ipoteza alterativă (H 0 ) F(x) = F 0 (x) = 1 e λ x, x > 0 (H 1 ) ipoteza (H 0 ) este falsă. Deoarece parametrul λ este ecuoscut, va trebui estimat pe baza selecţiei date. Petru aceasta, folosim metoda verosimilităţii maxime. Fucţia de verosimilitate petru exp(λ) este L(t 1, t 2,..., t ; λ) = k=1 λe λ t i = λ e λ t. Mai sus, am otat pri t 1, t 2,..., t valorile de selecţie petru variabila aleatoare T. Puctele critice petru L(λ) sut date de ecuaţia Se observă cu uşuriţă că ll λ = 0 = λ (lλ λ t) = ˆλ = 1 t. 2 ll λ 2 λ=ˆλ = t2 < 0, de ude cocluzioăm că ˆλ este puct de maxim petru fucţia de verosimilitate. Tabelul de distribuţie petru caracteristica T este: ( )

128 128 Capitolul 7. Teste de cocordaţă Calculăm media de selecţie, t = ( ) = 7.7, adică ˆλ = Dacă variabila T ar urma repartiţia expoeţială exp(ˆλ), atuci probabilităţile ca T să ia valori î fiecare clasă sut, î mod corespuzător: p i = p i (ˆλ) = P(X (a i, a i+1 ] F = F 0 ) = F 0 (a i+1 ; ˆλ) F 0 (a i ; ˆλ), i = 1, 2, 3, 4, 5. ude a 6 = +. Î Tabelul 7.10 am îregistrat următoarele date: clasele (de otat că ultima clasă este (20, + ), deoarece se doreşte o cocordaţă a datelor observate cu date repartizate expoeţial, iar mulţimea valorilor petru repartiţia expoeţială este R + ), extremităţile di stâga ale claselor (a i ), frecveţele absolute i (sau valorile observate î fiecare clasă), probabilităţile p i, valorile aşteptate î fiecare clasă ( p i ), erorile relative de aproximare ale datelor aşteptate cu cele observate. Numărul gradelor de libertate este k p 1 = 3. Calculăm valoarea critică χ0.95; 2 3 = şi, de asemeea, valoarea H 0 = k ( i p i ) 2 p i = Deoarece χ 2 0 < χ2 0.95; 3, ipoteza (H 0) u poate fi respisă la acest ivel de semificaţie. ( i p i ) 2 Clasa a i i p i p i p i (0, 5] (5, 10] (10, 15] (15, 20] (20, + ) (0, + ) Tabela 7.10: Tabel de distribuţie petru timpii de aşteptare. Codul MATLAB este următorul: T = [2.5*oes(39,1);7.5*oes(35,1);12.5*oes(14,1);17.5*oes(7,1);22.5*oes(5,1)]; % sau % T = [5*rad(39,1);5+5*rad(35,1);10+5*rad(14,1);15+5*oes(7,1);20+5*oes(5,1)]; = 100; alpha = 0.05; m = mea(t); lambda = 1/m; a = [0, 5, 10, 15, 20, If]; f = [39, 35, 14, 7, 5]; for i =1:5 p(i) = expcdf(a(i+1),m)-expcdf(a(i),m); ed H2 = sum((f-*p).^2./(*p)); cuat = chi2iv(0.95,3); if (H2 < cuat) disp('timpii de asteptare sut expoetial repartizati'); else

129 7.6 Exerciţii rezolvate 129 ed disp('ipoteza (H0) se respige'); Exerciţiu 7.5 (test de verificare a ormalităţii) Cosiderăm selecţia { 2; 0.5; 0; 1; 1; 2; 2; 3}, extrasă ditr-o aumită colectivitate. La ivelul de semificaţie α = 0.1, să se decidă dacă populaţia di care provie selecţia este ormală de medie 1 şi dispersie 2 (i.e., X N (1, 2)). Soluţie: (folosim testul Kolmogorov-Smirov) Mai îtâi, calculăm fucţia de repartiţie empirică. Avem: F (x) = P(X x) = 0, dacă x < 2; , dacă x [ 2, 0.5);, dacă x [ 0.5, 0);, dacă x [0, 1);, dacă x [1, 2); 8, dacă x [2, 3); 1, dacă x 3. Petru α = 0.1 şi = 8, căutăm î tabelul petru iversa fucţiei lui Kolmogorov acel x 1 α;8 = x 0.9;8 astfel îcât K(x 1 α;8 ) = 1 α. Găsim că x 0.9;8 = Pe de altă parte, F(x) = Θ( x 1 2 ), ude Θ(x) este fucţia de repartiţie petru legea ormală N (0, 1). Ipoteza că X urmează repartiţia ormală N (1, 2) este acceptată dacă d < x 1 α. Calculele petru determiarea valorii d sut date de Tabelul Î Figura 7.4, putem observa reprezetările acestor două fucţii petru setul de date observate. x i F(x i ) F (x i 0) F (x i ) F (x i 0) F(x i ) F (x i ) F(x i ) Tabela 7.11: Tabel de valori petru testul Kolmogorov-Smirov. Petru a calcula d, otăm faptul că cea mai mare difereţă ître F(x) şi F (x) poate fi realizată ori îaite de salturile fucţiei F, ori după acestea, i.e., { sup F(x) F F(x i ) F (x i 0), îaite de saltul i; (x) = max x R i F(x i ) F (x i ), după saltul i. Di tabel, observăm că d = Deoarece d = = < 0.411, cocluzioăm că putem accepta ipoteza (H 0 ) la pragul de semificaţie α = 0.1. Codul MATLAB ce rezolvă problema este:

130 130 Capitolul 7. Teste de cocordaţă Figura 7.4: F (x) şi F(x) di Tabelul X = [-2; -0.5; 0; 1; 1; 2; 2; 3]; F = ormcdf(x, 1, sqrt(2)); [h, p, ksstat] = kstest(x, [X,F], 0.1, 'uequal') ude, X este vectorul de date observate şi F este vectorul ce coţie valorile fucţiei de repartiţie F(x) petru compoetele lui X. Rulâd acest cod, obţiem: h = p = ksstat = Observăm că valoarea ksstat este chiar d găsită aterior. Exerciţiu 7.6 Îtr-u sodaj de opiie, 5 bărbaţi şi 5 femei au fost îtrebate dacă urmăresc meciuri de fotbal la TV î mod regulat. Toţi bărbaţii şi doar două femei au răspus afirmativ, ceilalţi spuâd că u. Să se testeze la ivelul de semificaţie α = 0.05 dacă difereţa este semificativă di puct de vedere statistic (i.e., dacă femeile se uită la fotbal la TV cot la cot cu bărbaţii). Soluţie: Ipoteza ulă este: (H 0 ) : Vizioarea meciurilor de fotbal la TV este idepedetă de ge. Ipoteza alterativă (bilaterală) este: (H 1 ) : Ipoteza (H 0 ) este falsă. Folosim testul exact al lui Fisher. De fapt, folosirea celuilalt test (testul bazat pe probabilităţi aproximative) u este oportuă, deoarece u avem cel puţi 5 valori aşteptate î fiecare poziţie a

131 7.6 Exerciţii rezolvate 131 matricei de cofiguraţie. Matricea cofiguraţiei este ( ) 5 0 M 0 = 2 3 Folosid relaţia (7.5.6), probabilitatea apariţiei acestei cofiguraţii, ştiid că sumele pe liii şi pe coloae sut fixate, este P 1 = C5 7 C0 3 C Alte cofiguraţii cu suma 5 pe fiecare liie şi sumele 7 pe prima coloaă şi 3 pe a doua coloaă sut: ( 3 2 ) ( ) ( M 1 =, M =, M = 2 3 Probabilităţile codiţioate corespuzătoare acestora sut: ). P ; P , P Valoarea P v a testului este suma tuturor probabilităţilor mai mici sau egale cu P 0 : P v = P 0 + P > 0.05 = α. Aşadar, la acest prag de semificaţie admitem ipoteza ulă. Observaţia 7.5 Dacă am forţa folosirea testului bazat pe probabilităţi aproximative, atuci tabelul cu valorile observate şi cele aşteptate este X \ Y TV o TV Total 5 0 Bărbaţi (3.5) (1.5) Femei (3.5) (1.5) 5 Total Valoarea statisticii test (7.5.5) va fi H 2 = (5 3.5) (2 3.5) (0 1.5)2 1.5 şi am cocluzioa greşit că ipoteza ulă este respisă. + (3 1.5)2 1.5 = > = χ ,1

132 132 Capitolul 7. Teste de cocordaţă 7.7 Exerciţii propuse Exerciţiu 7.7 Urmărim să comparăm preţurile aceluiaşi tip de pâie de 500g, alegâd la îtâmplare diverse magazie di două oraşe. Scopul ivestigaţiei este de a decide dacă preţul mediu al acestui produs diferă de la u oraş la altul. Notăm cu X 1 preţul acestui produs î primul oraş şi cu X 2 preţul di al doilea oraş. Valorile petru fiecare caracteristică şi frecveţele absolute sut sumarizate î următoarele două matrice: X 1 : ( ) ( şi X 2 : (a) Determiaţi u iterval de îcredere petru difereţa mediilor celor două caracteristici (α = 0.04). (b) Se poate admite ipoteza că dispersiile celor două caracteristici sut egale (α = 0.04)? (c) Ţiâd cot de rezultatul de la (b), se poate admite ipoteza că preţul mediu al acestui tip de pâie u diferă ître cele două oraşe (α = 0.04)? Exerciţiu 7.8 Testaţi ormalitatea datelor di Tabelul 3.5 la ivelul de semificaţie α = 0.1. Exerciţiu 7.9 Se prezice că repartiţia literelor care apar cel mai des î limba egleză ar fi următoarea: Litera O R N T E Frecveţa Aceasta semifică următoarea: de fiecare dată câd cele 5 litere apar îtr-u text, î 16% ditre cazuri apare litera O, î 21% ditre cazuri apare litera T etc. Să presupuem că u criptologist aalizează u text şi umără apariţiile celor 5 litere. Acesta a găsit următoarea distribuţie: Litera O R N T E Frecveţa Folosid testul χ 2 de cocordaţă, să se verifice dacă aceste apariţii sut î otă discordată cu predicţia iiţială. Exerciţiu 7.10 Tabelul următor coţie umărul de aşteri pe zi ce au avut loc îtr-o aumită materitate, observate î decursul a 100 de zile alese la îtâmplare. aşteri pe zi frecveţa (a) Estimaţi umărul mediu de aşteri pe zi ce au loc î mod regulat î acea materitate. (b) Testaţi ipoteza că umărul de aşteri pe zi este o variabilă aleatoare repartizată Poisso. (c) Folosid rezultatul de la puctul (b), estimaţi probabilitatea ca, îtr-o zi aleasă la îtâmplare, să aibă loc cel puţi 2 aşteri î acea materitate. Exerciţiu 7.11 Se doreşte determiarea şaselor de avea u băiat sau o fată petru mamele cu patru copii. Avem la îdemâă o selecţie de 564 de mame a câte 4 copii. Rezultatele sut cele di tabelul de mai jos. Număr de copii Frecveţa 4 fete 38 3 fete şi u băiat fete şi 2 baieţi 213 o fată şi 3 baieţi baieţi 34 )

133 7.7 Exerciţii propuse 133 (i) Reprezetaţi grafic datele pe u pe disc (pie chart). (ii) La ivelul de semificaţie α = 0.05, testaţi ipoteza că, petru mamele cu patru copii, probabilitatea de avea u baiat este egală cu probabilitatea de avea o fată. Idicaţie: Se testează cocordaţa cu repartiţia B(4,0.5). Exerciţiu 7.12 Se arucă o moedă de 250 de ori, obţiâdu-se 138 de apariţii ale stemei. La u ivel de semificaţie α = 0.05, să se decidă dacă avem suficiete dovezi de a afirma că acestă moedă este falsă. Exerciţiu 7.13 Datele di tabelul de mai jos reprezită repartizarea pe vârste petru u eşatio de 385 de şomeri ditr-o aumită regiue a ţării. Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65) Frecveţa (a) Reprezetaţi datele pri bare. (b) Folosid testul χ 2, testaţi dacă datele di tabel sut observaţii făcute asupra uei caracteristici ormale (se va alege α = 0.05). Exerciţiu 7.14 Se cosideră caracteristica X ce reprezită îălţimea bărbaţilor (î cetimetri) ditro aumită regiue a uei ţări. S-a făcut o selecţie de volum = 200, iar datele de selecţie au fost grupate î tabelul următor: Clasa 165 (165, 170] (170, 175] (175, 180] (180, 185] (185, 190] (190, 195] 195 i (a) Reprezetaţi datele pritr-o histogramă. (b) Precizaţi estimatori edeplasaţi petru media şi dispersia îălţimii bărbaţilor di acea regiue. Folosid datele di tabel, determiaţi valorile acestor estimatori. (c) Testaţi dacă datele di tabel sut observaţii făcute asupra uei caracteristici ormale (α = 0.05). (d) Care este probabilitatea ca u bărbat ales la îtâmplare di acest ţiut să fie mai îalt de 182cm? Exerciţiu 7.15 Două struguri produc piese de acelaşi tip. Notăm cu X 1 diametrul pieselor produse de primul strug, şi cu X 2 diametrul pieselor produse de al doilea strug. Presupuem că ambele caracteristicile, X 1 şi X 2, urmează legea ormală. X 1 : ( ) şi X 2 : ( (a) Determiaţi u iterval de îcredere petru difereţa mediilor celor două caracteristici (α = 0.03). (b) Se poate admite ipoteza că dispersiile celor două caracteristici sut egale (α = 0.03)? (b) Ţiâd cot de rezultatul de la (b), se poate admite ipoteza că mediile diametrelor pieselor produse de cele două struguri sut egale, cu altertiva că E(X 1 ) > E(X 2 )? (α = 0.03) )

134 134 Capitolul 7. Teste de cocordaţă Exerciţiu 7.16 Petru a determia procetul de cursaţi ai uei şcoli de şoferi care au luat permisul de coducere după prima examiare, s-a cosiderat o selecţie aleatoare de 40 de cursaţi de ge masculi şi o selecţie aleatoare de 60 de ge femii. Datele sut cele de mai jos: bărbaţi: femei: Aici, 1 reprezită succes şi 0 isucces. (a) Folosid u tabel de cotigeţă, să se testeze ipoteza că obţierea permisului de coducere după prima examiare este idepedetă de ge (α = 0.05); (b) Testaţi ipoteza că procetul de bărbaţi ce obţi permisul după prima examiare este egal cu procetul de femei ce obţi permisul după prima examiare (α = 0.05); (c) Testaţi ipoteza că doar 40% ditre cursaţii acestei şcoli obţi permisul de coducere după prima examiare (α = 0.05). Exerciţiu 7.17 Tabelul de mai jos reprezită o selecţie de rezultate di diferite sporturi, grupate pe echipa câştigătoare şi sport. Fotbal Baschet Hadbal Volei Rugby Gazdele câştigă Oaspeţii câştigă La ivelul de semificaţie α = 0.05, să se decidă dacă victoria gazdelor/oaspeţilor este idepedetă de sport. Exerciţiu 7.18 Se doreste a se testa daca testul poligraf poate detecta daca o persoaa mite sau u. Tabelul de mai jos reprezită o selecţie de rezultate. Realitatea Subiectul testat a miţit î realitate Rezultatul poligrafului NU DA Poligraful idică faptul că subiectul mite Poligraful idică faptul că subiectul u mite 39 9 La ivelul de semificaţie α = 0.05, să se decidă dacă testul poligraf este eficiet î a detecta miciua. Exerciţiu 7.19 Se doreste a se testa daca setita pe care o va primi u acuzat este idepedeta de cum pledeaza. Tabelul de mai jos reprezită o selecţie de rezultate. Cum pledează Acuzatul pledează Decizia judecătorului "viovat" "eviovat" trimis la îchisoare rămâe liber La ivelul de semificaţie α = 0.05, să se decidă dacă setiţa este idepedetă de cum pledează acuzatul. Dacă aţi fi avocatul apărării, aţi îcuraja acuzatul să pledeze viovat? Exerciţiu 7.20 Tabelul de mai jos reprezită o selecţie de date de volum 100, grupate după două caracteristici, X şi Y. X \ Y y 1 y 2 y 3 x x 2 a b c

135 7.7 Exerciţii propuse 135 Completaţi tabelul cu valorile a, b şi c astfel îcât caracteristicile X şi Y sut idepedete la ivelul de semificaţie α = Exerciţiu 7.21 Cosiderăm aceeaşi problemă ca î Exemplul 7.1, dar cu tabelul de mai jos. X \ Y săătos bolav G G Folosid testul Fisher, să se determie dacă admiistrarea medicametului are vreu efect asupra stării de săătate a volutarilor. Se va folosi ivelul de semificaţie α = 0.1. Exerciţiu 7.22 Elevii uui aumit liceu au efectuat de geeraţii excursii orgaizate. Directorul liceului doreşte să verifice dacă păriţii copiilor îcă mai susţi această iiţiativă. El a trimis u chestioar la toţi păriţii copiilor di liceu, pri care le cerea să idice opţiuea lor şi ciclul de studii al copilului lor. Doar 150 de păriţi au răspus, iar rezultatele au fost grupate î tabelul de mai jos. Ciclul \ Opiia De acord Nu sut de acord Nicio părere Gimaziu Liceu (a) Testaţi dacă alegerea făcută de păriţi este idepedetă de ciclul de studii (α = 0.05). (b) Pe baza răspusurilor primite, decideţi dacă proporţia de păriţi ce sut de acord cu excursiile este semificativ diferită de proporţia celor ce au alte opiii (α = 0.05). Exerciţiu 7.23 Îtr-u sodaj de opiie, u umăr de 160 de studeţi di uiversitate (aleşi aleator) au fost rugaţi să se prouţe î legătură cu ecesitatea itroducerii uei probe scrise la exameul de liceţă. Răspusurile posibile erau: "Da", "Nu" sau "Nu ştiu d astea". Ditre aceştia, 19 băieţi şi 26 de fete au răspus "Da", iar 40 de băieţi şi 50 de fete au răspus "Nu". La sodaj au participat 85 de fete şi 75 de băieţi. (a) Sut proporţiile de băieţi şi fete care au răsus "Da" semificativ diferite? (α = 0.04). (b) Ce test propueţi petru a stabili dacă există sau u difereţe semificative de opiie ître băieţi şi fete? Formulaţi ipotezele testului. (c) Determiaţi rezultatul testului formulat la (b) (α = 0.04).

136

137 8. Teste eparametrice. [Statistics shows that people who celebrate. the most birthdays become the oldest.] Multe ditre testele discutate aterior fuţioează î ipoteza că datele selectate să urmeze o repartiţie ormală sau să avem suficiet de multe date, petru ca aproximarea cu repartiţia ormală să fie validă. Se pue problema următoare: Ce se îtâmplă dacă această ceriţă (posibil şi altele) u este verificată şi u ştim imic despre repartiţia datelor sau despre parametrii variabilei? Testele eparametrice sut cele î cadrul cărora u se fac presupueri asupra formei repartiţiei. Aceste teste u estimează parametrii tradiţioali ecuoscuţi, de aceea mai sut cuoscute şi sub titulatura de metode fără parametri (e., parameter-free methods) sau metode fără repartiţie (e., distributiofree methods). Aceste teste pot fi utilizate atuci câd aveţi dubii asupra ormalităţii datelor statistice. Se pot costrui teste eparametrice corespuzătoare fiecărui test parametric studiat mai sus, îsă aceste teste eparametrice sut, î geeral, grupate î următoarele categorii: teste petru difereţa ditre grupuri (petru selecţii idepedete). Este cazul comparării mediilor a două selecţii ce provi di populaţii idepedete. De regulă, se utilizează testul t dacă ipotezele acestuia sut îdepliite. Variate eparametrice ale acestui test sut: testul Wald-Wolfowitz, testul Ma-Whitey sau testul Kolmogorov-Smirov petru două selecţii; teste petru difereţa ditre variabile (petru selecţii depedete). Utilizat la compararea a două variabile ce caracterizează populaţia di care s-a luat selecţia. Teste eparametrice utilizate: testul semelor, testul Wilcoxo. teste petru relaţii ître variabile. Petru a găsi corelaţia ître variabile, se utilizează coeficietul de corelaţie. Există variate eparametrice ale coeficietului de corelaţie stadard, e.g., coeficietul R (Spearma), coeficietul τ (Kedall) sau coeficietul Gamma. Există, de asemeea, şi teste privid coeficietul de corelaţie: χ 2 sau testul Fisher exact. Avatajul testelor eparametrice este că ele folosesc mai puţie ipoteze decât testele parametrice, cum ar fi o repartiţie a priori cuoscută a datelor observate sau u volum mare de date. Totuşi,

138 138 Capitolul 8. Teste eparametrice efectul lipsei uor ipoteze restrictive este că puterea uui test eparametric este, î geeral, mai mică decât a testului parametric corespuzător, care ar fi folosit dacă ipotezele sale sut satisfăcute. Cu alte cuvite, î cazul uui test eparametric sut şase mai mici ca ipoteza ulă să fie respisă atuci câd ea este, î realitate, falsă. Testele eparametrice pot fi sigurele opţiui petru aaliza datelor statistice î următoarele cazuri: datele sut ordiale, fără valori umerice sau datele coţi valori aberate extreme sau î cazul î care datele sut rezultatul uor măsurători imprecise. Dacă s-ar dori aaliza acestor date folosid teste parametrice, vor fi ecesare ipoteze restrictive severe asupra datelor, cum ar fi ipoteza de ormalitate. De multe ori, aceste ipoteze pot fi erealiste. 8.1 Testul semelor Testul semelor se mai umeste si testul mediaei. Este u test eparametric bazat pe semele aumitor valori şi u pe valorile î sie. Testul semelor este util atuci câd avem date ordiale (grupate pe categorii ordoate), fără a şti valorile umerice ale difereţelor ditre categorii. Dacă valorile umerice sut cuoscute, atuci se poate folosi u test mai puteric, e.g., testul ragurilor cu sem al lui Wilcoxo. Este uul ditre cele mai simple teste statistice eparametrice. Ipoteza de bază a testului este că datele statistice observate sut alese aleator di populaţia cosiderată. Acest test face referire la o valoare cetrala a setului de date observate si u impue icio ipoteza referitoare la repartiţia acestor valori observate. Daca testul t clasic testeaza valoarea medie a valorilor observate (i coditiile ormalitatii datelor sau petru u volum suficiet de mare de date), testul semelor testeaza valoarea mediaa a observatiilor. Daca setul de date este simetric, atuci valoarea mediaă este egală cu media datelor. I acest caz, testul semelor poate da iformatii despre media datelor observate, desi este u test mai puti precis decat testul t. Presupuem că x 1, x 2,..., x sut observaţii aleatoare asupra uei caracteristici X ditr-o populaţie. Petru o valoare reala data Me, testul semelor testeaza ipoteza ula: (H 0 ) : Me = Me, la ivelul de semificaţie α. I fucţie de ipoteza alterativă, putem avea u test uitaleral sau u test bilateral. Teste uilaterale: (H 0 ) : Me = Me (H 1 ) s : Me < Me Statistica test este S = S < = 1 {xi <Me } ude S < este r. datelor mai mici decât Me sau (H 1 ) d : Me > Me Statistica test este S = S > = Test bilateral: 1 {xi >Me } ude S > este r. datelor mai mari decât Me (H 0 ) : Me = Me (H 1 ) : Me Me Statistica test este S = S = max{s <, S > }

139 8.1 Testul semelor 139 Observaţiile care au o valoare egală cu Me sut elimiate di aaliză şi este ajustat corespuzător. Dacă ipoteza ulă este adevărată şi mediaa este Me, atuci S este o variabilă biomială S B(, 0.5). Pe baza acestor statistici se calculează valoarea critică P v, care reprezită probabilitatea ca ipoteza ulă să fie respisă. Aceste valori critice sut: cazul uilateral: P v = P(S S ); cazul bilateral: P v = 2P(S S ), ude S B(, 0.5). Dacă valoarea P v este mai mare decât α, atuci acceptăm ipoteza ulă (u avem motive să o respigem). Altfel, acceptăm ipoteza alterativă. Observaţia 8.1 Dacă volumul observaţiilor este mare (e.g., 30) şi S B(, 0.5), atuci statistica S este aproximativ S N (/2, /2). Î acest caz, testul petru mediaă se poate face pe baza statisticii z 0 = (S 0.5) /2, /2 ude S este statistica corespuzătoare de mai sus. Valoarea " 0.5" este corecţia de aproximare a uei variabile discrete cu ua cotiuă. Decizia fială se ia astfel: acceptăm ipoteza ulă dacă z 0 > z 1 α (petru (H 1 ) s ), z 0 < z 1 α (petru (H 1 ) d ), z 0 < z 1 α 2 (petru (H 1 )). Exemplu 8.1 Dorim să testăm preferiţele clieţilor ditr-o aumită pizzerie petru pizza cu blat subţire sau gros. Să spuem că aceste preferiţe sut reprezetate î Tabelul 8.1. Î acest tabel, marime subţire gros gros gros subţire gros gros subţire gros gros sem Tabela 8.1: Tabel cu preferiţe petru blatul de pizza. fiecărei preferiţe i se atribuie u sem, + petru "blat gros" şi petru "blat subţire". Ditr-o privire î tabel, se pare că marea parte (70%) a clieţilor preferă blatul gros. Dorim să testăm semificaţia acestor date. Cu alte cuvite, care este şasa obţierii acestor rezultate dacă, de fapt, u există vreo difereţă ître preferiţe? Sau, dacă am presupue că preferiţele petru cele două tipuri sut împărţite î mod egal, care sut şasele de a obţie u rezultat de geul prezetat î tabelul de mai sus? Soluţie: Stabilim ipoteza ulă versus ipoteza alterativă bilaterală (H 0 ) : preferiţele petru cele două blaturi sut 50% 50%; (H 1 ) : există difereţe semificative î preferiţele petru cele două blaturi. Pot fi cosiderate şi teste uilaterale (stâga sau dreapta). Alegem pragul de semificaţie α = Ca de obicei, presupuem că ipoteza ulă este adevărată şi, atuci, şasa ca cieva să aleagă u blat subţire este p = 0.5. Dacă otăm cu X variabila aleatoare ce reprezită alegerea blatului, făcută de clieţii care au comadat pizza, atuci X B(10, 0.5) (aici avem o selecţie de = 10). Calculăm P valoarea, adică valoarea maximă petru pragul de semificaţie petru care ipoteza ulă u poate fi respisă. Aici, S < = 3, S > = 7 şi S = 7. Probabilitatea critică este P v = 2P(X 7) = Deoarece α < P v, ipoteza ulă u poate fi respisă la acest ivel de semificaţie.

140 140 Capitolul 8. Teste eparametrice Testul semelor petru date perechi Vom umi date perechi u set de date bivariate (date ce coţi două valori, adică de forma (x i, y i ), ) ce reprezită observatii asupra aceleiaşi caracteristici, ître cele două compoete existâd măcar o legătură. Petru aceste seturi de valori, ipoteza de idepedeţă ître seturile de valori (x i ), şi (y i ), u mai este satisfăcută. Exemple: masele corporale ale uor persoae iaite şi după o aumită dietă (se doreşte a studia efectul dietei asupra masei corporale); otele elevilor la testarea iitiala la Matematica si otele acelorasi elevi la teza de Matematica (se urmăreşte testarea progresului facut de elevi itr-u semestru); starea săătăţii uor bolavi îaite şi după admiistrarea uui tratamet (se urmăreşte testarea eficieţei tratametului); salariile idividuale petru u umăr de perechi soţ - soţie (se urmăreşte testarea difereţelor salariale ître soţi). Cosiderăm X si Y doua variabile depedete itre ele. Petru a compara mediile celor doua variabile u se poate aplica testul t petru difereta mediilor, deoarece ipoteza de idepedeţă ditre X si Y este ua de baza petru aplicabilitatea testului t. Vom vedea mai tarziu (vezi testul t petru date perechi) cum putem testa daca mediile sut egale. Deocamdata, sa e idreptam atetia asupra mediaelor variabilelor. Presupuem că (x 1, y 1 ), (x 2, y 2 ),..., (x, y ) sut datele perechi observate asupra variabilelor (X, Y ). I multe aplicatii se doreste a se determia cum este X fata de Y. Petru aceasta, se cosidera diferetele d i = x i y i. Se presupue ca d 1, d 2,..., d sut idepedete şi provi ditr-o populatie cotiuă, de mediaă Me. Se poate utiliza testul aterior petru a testa daca valoarea mediaa este 0: (H 0 ) : Me = 0 (H 1 ) : Me 0. Se pot cosidera şi teste uilaterale, dacă ipota alterativă este (H 1 ) s : Me < 0 sau (H 1 ) d : Me > 0. Ateţie, acest test u verifică daca mediaele celor doua selectii, Me X si Me Y, sut egale! 8.2 Testul seriilor petru caracterul aleator Testul seriilor (e., rus test) este u test eparametric ce verifică ipoteza că u şir de date bivariate este aleator geerat (i.e., datele statistice costituie o selectie aleatoare ditr-u sir ifiit de valori). I geeral, ipoteza verificata este (H 0 ) : valorile observate provi ditr-u sir aleator, vs. (H 1 ) : valorile observate u provi ditr-u sir aleator. Dacă o aumită valoare a uui aumit şir de caractere este iflueţată de poziţia sa sau de valorile ce o preced, atuci selecţia geerată u poate fi aleatoare. Defiim oţiuea de serie sau fază (e., ru) ca fiid o succesiue a uuia sau mai multe simboluri de acelaşi tip, care sut precedate şi urmate de simboluri de alt tip sau iciu simbol. De exemplu: sau MFFFFFMMMF sau Numărul de faze şi lugimea lor pot fi folosite î determiarea gradului de stochasticitate a uui şir de simboluri. Prea puţie sau prea multe faze, sau de lugimi excesiv de mari sut rare î serii

141 8.2 Testul seriilor petru caracterul aleator 141 cu adevărat aleatoare, de aceea ele pot servi drept criterii statistice petru testarea stochasticităţii. Aceste criterii sut adiacete: prea puţie faze implică faptul că uele faze sut prea lugi (se observa o persisteta), prea multe faze implică faptul că uele faze sut prea scurte (se observa o secveta i zigzag). Aşadar, e vom preocupa doar de umărul total de faze. Fie 1 şi 2 umărul de seme +, respectiv, di şir, şi fie = Fie r 1 şi r 2 umărul de faze ce corespud semului +, respectiv, di şir. Numărul total de faze este r = r 1 + r 2. Vom ota cu litere mari, R 1, R 2 sau R, variabilele aleatoare ale caror realizari sut r 1, r 2, respectiv, r. Sa exemplificam aceste umere petru sirurile cosiderate mai sus. Primul sir de = 12 cifre este costituit di r = 7 faze: r 1 = 4 faze de "0" si r 2 = 3 faze de "1"; 1 = 2 = 6. Al doilea sir este format di r = 4 faze, r 1 = 2 de "M" si r 2 = 2 de "F", iar ultimul sir de = 19 este costituit di r = 10 faze, cate r 1 = r 2 = 5 di fiecare "+" sau "-". Alegem ipoteza ulă: (H 0 ) : şirul este aleator (fiecare arajamet de + şi este echiprobabil). vs. ipoteza alterativă Se pot cosidera si ipoteze alterative: (H 1 ) : şirul u este aleator. sau (H 1 ) s : datele au o tedita de se adua ciorchie. (H 1 ) d : datele au o tedita de se răsfira. Putem găsi repartiţiile vectorilor aleatori (R 1, R 2 ), R 1, R 2 sau R. Spre exemplu, petru R avem fuctia de probabilitate: C r/ Cr/ C 1, dacă r = par; f (r) = [ ] C (r 1)/2 1 1 C (r 3)/ C (r 3)/2 1 1 C (r 1)/2 2 1 C 1, dacă r = impar. Cazul I: Câd 1 şi 2 sut mari (i.e., 1 > 12, 2 > 12). I acest caz, variabila aleatoare corespuzatoare lui r are o repartitie aproape ormala, R N (µ, σ), ude µ = , σ = (2 1 2 ) (µ 1)(µ 2) 2 =. ( 1) 1 Aşadar, R µ N (0, 1). σ Această statistică poate fi utilizată î testarea ipotezei ule (H 0 ). Petru testul bilateral, vom admite ipoteza ula daca r µ σ z 1 α. 2 Altfel, se respige ipoteza ula. Petru testul uilateral, coditia de respigere a ipotezei ule este r µ σ z 1 α petru test uilateral staga r µ σ z 1 α petru test uilateral dreapta

142 142 Capitolul 8. Teste eparametrice Cazul II: Câd 1 şi 2 sut mici ( 1 12, 2 12). I acest caz, valorile critice petru r se gasesc itr-u tabel (vezi Tabelul 13.7). Astfel, petru testul bilateral, regiuea care asigura acceptarea ipotezei ule este r α2, L < r < r α2, U. Petru testul uilateral staga, ipoteza ula va fi respisa daca r < r α1, L. Petru testul uilateral dreapta, ipoteza ula va fi respisa daca r > r α1, U. Testul seriilor poate fi folosit i: testarea caracterului aleator a uei selectii de date, pri marcarea cu "+" a valorilor ce sut mai mari decat mediaa si cu " " ale celor ce sut mai mici decat mediaa. Valorile egale cu mediaa sut omise si este ajustat i cosecita. testarea potrivirii uei fuctii cu u set de date, pri marcarea cu "+" a valorilor ce sut mai mari decat valoarea fuctiei si cu " " ale celor ce sut mai mici decat valoarea fuctiei. Valorile egale cu valoarea fucţiei sut omise si este ajustat i cosecita. Acest test u tie cot de distate ditre date si fuctie, ci doar de seme, spre deosebire de u test χ 2. Exerciţiu 8.1 Ratele de schimb valutare EUR/RON sut iregistrate petru 20 zile cosecutive di lua Octombrie 2014 si sut comparate cu ratele de schimb medii istorice iregistrate i ultimii 5 ai. Se oteaza cu "+" daca valoarea di 2014 este peste valoarea medie istorica si cu " " daca este sub valoarea medie istorica. Obtiem sirul biar: La ivelul de semificatie α = 0.05, testati ipoteza ca deviatia ratei di Octombrie 2014 de la rata medie istorica este aleatoare sau u. Soluţie: Presupuem ca simbolurile + costituie elemetele de tip 1. Sut = 20 elemete, cu 1 = 11 si 2 = 9, r = 11 serii, cu r 1 = 6 si r 2 = 5. Di Tabelul 13.7, observam ca valorile critice sut r α2, L = 8 si r α2, U = 17. Cum 8 < r = 11 < 17, cocluzioam ca ipoteza ula u poate fi respisa la acest ivel de semificatie. 8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample rus test) Testul Wald-Wolfowitz (Wald 1 -Wolfowitz 2 este o alterativa eparametrica a testului t petru selectii idepedete. Este utilizat i testarea ipotezei ca doua selectii sut observatii idepedete ale ueia şi aceeaşi repartitii. Reamitim, testul t petru doua selectii decide daca doua selectii idepedete provi di doua caracteristici ce au aceeasi medie. Testul Wald-Wolfowitz poate depista chiar mai multe diferete ditre cele doua repartitii decat testul t petru doua selectii. Spre exemplu, testul W-W poate depista diferetele ditre mediile sau ditre formele caracteristicilor di care provi cele doua seturi de observatii. Este eficiet petru u volum al selectiei cel puti moderat, e.g. cel puti egal cu 10. Presupuerea pricipala este ca datele observate sut observatii ale uor caracteristici cotiue idepedete. Presupuem ca avem doua seturi de date, {x i },m si {y j } j=1,. La ivelul de semificatie α se doreste a se testa ipoteza ula vs. (H 0 ) : Cele doua seturi de date provi di aceeaşi repartitie, (H 1 ) : Cele doua seturi de date provi di repartitii diferite. Petru a testa ipoteza ula, datele observate se vor scrie împreuă, i ordie crescatoare, fiecare observatie fiid codata cu 1 sau 2, dupa cum provie di setul 1 sau 2 de date. Testul Wald- Wolfowitz are la baza ipoteza ula ca fiecare valoare observata di sirul combiat este extrasa 1 Abraham Wald ( ) matematicia ugur ăscut î Cluj 2 Jacob Wolfowitz ( ) matematicia poloez-america

143 8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample rus test) 143 idepedet ditr-o aceeasi repartitie data. Statistica test este r = umarul de faze (rus) observate i sirul obtiut pri alipire. Daca aceasta statistica ar avea o valoare umerica mica, atuci acest fapt idica u aumit tred i datele alipite (datele ce provi di acelasi set tid sa se adue i clustere), adica puti improbabil ca aceste date sa fi proveit di aceeasi repartitie. Pe de alta parte, u umar mare petru r este u idiciu ca datele sut observatii aleatoare ale uei repartitii, fapt care va duce la acceptarea ipotezei ule. I cazul i care valori ale sirului x coicid cu valori ale sirului y, la codarea lor i sirul alipit se va cauta cotiuarea fazei deja icepute. Decizia se va lua pe baza uor valori tabelate (vezi Tabelul 13.8), astfel: Daca r < r c, respigem ipoteza ula ; dacă r > r c, acceptam ipoteza ula. Petru volume mai mari de 20, se poate folosi statistica R = r µ, ude µ este umarul asteptat σ de faze si σ deviatia sa stadard: µ = ( ) si σ = ( ) 2 ( ). Daca ipoteza ula este admisa, atuci statistica R urmeaza o repartitie ormala N (0, 1). Petru a lua decizia, procedam astfel: Daca R z 1 α 2, atuci respigem ipoteza ula. Altfel, o acceptam. Exemplu 8.2 Datele de mai jos reprezita procetajele obtiute de doua grupuri (baieti si fete) la u test de Matematica Baiat Fata La ivelul de semificatie α = 0.05, sa se decida daca cele doua seturi de date provi di aceeasi repartitie (adica, datele sut omogee). Soluţie: Ipoteza ula este omogeitatea datelor, i.e.: vs. (H 0 ) : Cele doua seturi de date provi di aceeasi repartitie, (H 1 ) : Cele doua seturi de date provi di repartitii diferite. Scriem datele i ordie crescatoare si le atasam codurile: date cod b f f b f b b b b b f f f b b f f f f b f Se observa ca valoarea 50 apare de doua ori, avad coduri diferite. I atribuirea codurile s-a urmarit ca primul cod corespuzator valorii 50 sa fie cel aterior (cotiuare de faza). Similar s-a procedat petru valoarea 83. Numarul de faze este r = 10. Valoarea critica se citeste di Tabelul 13.8 petru 1 = 10 si 2 = 11. Astfel, valoarea critica (la ivelul de semificatie α = 0.05) este r c = 6. Cum r = 10 > 6, admitem ipoteza ula. Asadar, admitem ipoteza ca aceste puctaje provi ditr-o aceeasi repartitie, la ivelul de semificatie α = Altfel, daca am dori sa utilizam repartitia asimptotica i acest caz (u este u caz i care 1 > 20 si 2 > 20, isa facem acest lucru petru exemplificare), atuci gasim ca: µ = , σ = , R = = , z = Cum R < 1.96, acceptam ipoteza ula la ivelul de semificatie α = 0.05.

144 144 Capitolul 8. Teste eparametrice 8.4 Testul Wilcoxo bazat pe raguri cu sem (Wilcoxo Siged-Rak Test) Testeaza valoarea cetrala a uui set de date. Este folosit ca o alterativa petru testul t petru medie cad ipotezele acestuia u sut verificate. Astfel, testul siged rak al lui Wilcoxo este utilizat petru verificarea daca u set de date provie ditr-o distributie de o aumita mediaa, i cazul i care datele observate u sut eaparat ormale. Presupuem ca x 1, x 2,..., x este o selectie aleatoare de date observate asupra uei variabile cotiue si simetrice X, de mediaa Me. Acest test verifica daca media variabilei X este o valoare data Me. Putem avea teste uilaterale sau test bilateral. teste uilaterale: (H 0 ) : Me = Me (H 1 ) s : Me < Me [sau (H 1 ) d : Me > Me ] test bilateral: (H 0 ) : Me = Me (H 1 ) : Me Me. Petru a efectua testul, procedam astfel: daca admitem ipoteza ula, atuci Me = Me. Ordoam urmatoarele valori i ordie crescatoare: x 1 Me, x 2 Me,..., x Me. (8.4.1) Determiăm ragurile asociate acestor valori. Statistica test va fi S = suma ragurilor asociate cu valorile pozitive petru x i Me. Regiuile care duc la respigerea ipotezei ule sut, respectiv: S c 1, petru testul uilateral dreapta S ( + 1) c 2 = c 1, 2 petru testul uilateral staga S ( + 1) c sau S c, 2 petru testul bilateral ude c, c 1 si c 2 sut date i Tabelul Exemplu 8.3 U brutar doreste sa verifice daca o aumita masia de paie fuctioeaza corect. Aceasta este potrivita sa produca paii de 500g. Urmatorul set de date reprezita gramajele a 15 paii alese aleator, produse de aceasta masia: Se presupue ca deviatiile de la mediaa au aceeasi probabilitate de a fi pozitive sau egative si u putem presupue ormalitatea datelor. Totodata, avem prea putie observatii petru a folosi o distributie ormala asimptotica. Dorim sa utilizam testul ragurilor cu sem al lui Wilcoxo petru a testa daca masia este calibrata corect. (α = 0.05) Soluţie: Ipoteza ula este Scadem 500 di toate datele si obtiem: (H 0 ) : Me = 500 vs (H 1 ) : Me Le ordoam valorile absolute i ordie crescatoare: modulul ragul semul

145 8.5 Testul t petru date perechi 145 Statistica test este S = = Folosid Tabelul 13.9, observam ca petru = 15, daca ipoteza ula este acceptata, atuci: P(S 95) = P(S 25) = 0.024, ( şi astfel, P {S 95} ) {S 25} = Asadar testul bilateral va respige ipoteza ula petru S 95 sau petru S 25. Cum S = 42.5, acceptam ipoteza ula la acest ivel de semificatie. 8.5 Testul t petru date perechi Acesta este u test parametric. Il metioam aici doar petru a face difereta itre acest test si alte teste eparametrice ce pot fi utilizate petru datele perechi. Testul poate fi aplicat petru perechi de date petru care diferetele itre valorile perechi sut ormale. I cursurile aterioare am vazut cum putem testa daca mediile a doua variabile idepedete X si Y sut egale pe baza observatiilor facute asupra acestor variabile, {x i },m si {y j } j=1,, ude m si u sut eaparat egale. Exista isa situatii i care variabilele X si Y u sut idepedete itre ele. Spre exemplu, observatiile facute asupra aceluiasi grup de idivizi iaite si dupa u tratamet. I astfel de situatii, testul t petru difereta mediilor studiat aterior u se mai poate aplica. Presupuem ca X si Y sut doua variabile (posibil corelate) si ca (x 1, y 1 ), (x 2, y 2 ),..., (x, y ) sut datele perechi observate. Notam mediile teoretice ale acestor variabile pri: µ X = E(X) si µ Y = E(Y ). I multe aplicatii se doreste a se determia cum este X fata de Y. Petru fiecare pereche, cosideram d i = x i y i. Presupuem ca variabilele corespuzatoare diferetelor, {D i },, sut ormale, de media µ D si deviatie stadard σ D. Evidet, avem ca µ D = µ X µ Y, isa σd 2 u mai este eaparat egal cu σx 2 + σ Y 2, egalitatea avad loc doar i cazul idepedetei ditre variabilele X si Y. Deoarece D i sut cosiderate ormale, putem folosi testul t obisuit petru medie petru a testa ipoteza ula teste uilaterale: (H 0 ) : µ D = µ 0 (H 1 ) s : µ D < µ 0 [sau (H 1 ) d : µ D > µ 0 ] Petru setul de date {d i },, otam cu d = 1 1 d i si s D = 1 Statistica test este t = d µ 0 s D /. Regiuile care duc la respigerea ipotezei ule sut, respectiv: test bilateral: (H 0 ) : µ D = µ 0 (H 1 ) : µ D µ 0. [d i d] 2. t t α; 1 petru testul uilateral staga t t α; 1 petru testul uilateral dreapta t t 1 α 2 ; 1 petru testul bilateral De asemeea, testul poate fi efectuat pe baza uei valori P v, care poate fi calculata i fiecare caz. 8.6 Testul Wilcoxo petru date perechi Este variata eparametrica a testului aterior. Acest test este utilizat cad ipoteza de ormalitate a diferetelor u este verificata. Ipoteza testului este: repartitia diferetelor d i este ua cotiua si simetrica.

146 146 Capitolul 8. Teste eparametrice I cazul i care observatiile petru X si Y sut cotiue si difera doar pri valorile medii, atuci repartitia diferetelor va fi cotiua si simetrica. Nu este ecesar ca repartitiile lui X si Y sa fie simetrice. Acest test verifica ipoteza ula ca valoarea mediaa Me D = Me X Me Y a diferetelor este ua data. teste uilaterale: (H 0 ) : Me D = Me (H 1 ) s : Me D < Me [sau (H 1 ) d : Me D > Me ] test bilateral: (H 0 ) : Me D = Me (H 1 ) : Me D Me. Petru a testa aceasta ipoteza petru mediaa Me D, se cotiuă cu etapele testului Wilcoxo Siged-Rak Test discutat aterior. 8.7 Testul Wilcoxo bazat pe suma ragurilor (Wilcoxo rak-sum test) (Wilcoxo 3 Rak-Sum Test sau Ma-Whitey test) Acest test este variata eparametrica a testului t petru compararea mediilor. Este utilizat i cazul i care ipotezele testului t u sut satisfacute (lipsa ormalitatii a cel puti uui set de date). Presupuem ca avem doua seturi idepedete de date cotiue, {x i },m si {y j } j=1,. Notam cu Me X si Me Y mediaele teoretice corespuzatoare repartitiilor di care provi aceste date. Se presupue ca X si Y au aceeasi forma, sigura difereta posibila fiid valorile lor medii. La ivelul de semificatie α se doreste a se testa ipoteza ula teste uilaterale: (H 0 ) : Me D = Me (H 1 ) s : Me D < Me [sau (H 1 ) d : Me D > Me ] test bilateral: (H 0 ) : Me D = Me (H 1 ) : Me D Me. Petru a efectua testul, procedam astfel: daca admitem ipoteza ula, atuci Me D = Me. Presupuem ca m (daca u e adevarat, reotam selectiile). Ordoam urmatoarele valori i ordie crescatoare: x 1 Me, x 2 Me,..., x m Me, y 1 Me, y 2 Me,..., y Me. (8.7.2) Statistica test va fi S = suma ragurilor asociate cu valorile (x i Me ) di sirul (8.7.2). Regiuile care duc la respigerea ipotezei ule sut, respectiv: S c 1, petru testul uilateral dreapta S c 2, petru testul uilateral staga S c sau S m(m + + 1) c, petru testul bilateral ude c, c 1 si c 2 sut date i tabelele şi Exemplu 8.4 Pe baza datelor observate i Exercitiul 8.2, testati ipoteza ca procetajul mediu real obtiut de fete este mai mare decat cel obtiut de baieti, la ivelul de semificatie α = Soluţie: Datele sut urmatoarele: Baiat Fata Frak Wilcoxo ( ), chimist şi statisticia irladez

147 8.8 Teste eparametrice î MATLAB 147 Notam cu x i procetajele baietilor si cu y j pe ale fetelor. Avem ca m = 10, = 11. Ipoteza ula este: (H 0 ) : Me 1 Me 2 = 0, vs. (H 1 ) : Me 1 Me 2 < 0. Scriem datele i ordie crescatoare si le atasam codurile si ragurile: date cod b f f b f b b b b b f f f b b... rag date cod... f f f f b f rag Statistica test este S = = Petru m = 10 si = 11 gasim ca valoarea critica c 2 (tabelul 13.11, = 10, m = 11, la ivelul de semificatie α = 0.05) este c 2 = 86. Cum S = 93.5 > 86, admitem ipoteza ula. Asadar, u este o difereta semificativa itre puctajele mediae reale, la ivelul de semificatie α = Teste eparametrice î MATLAB Testul semelor î MATLAB Î MATLAB, testul semelor poate fi realizat cu ajutorul fucţiei [p, h] = sigtest(x, m) ude: m este u umăr real; x este u şir de caractere sau vector, asupra căruia facem testul semelor; variabila de memorie h este rezultatul testului. Dacă rezultatul afişat este h = 0, atuci ipoteza ulă, (H 0 ): setul de date x provie ditr-o distribuţie cotiuă de mediaă egală cu m, este admisă la acest ivel de semificaţie. Dacă rezultatul afişat este h = 1, atuci ipoteza ulă este respisă. Se va admite astfel ipoteza alterativă (H 1 ): setul de date x provie ditr-o distribuţie cotiuă care u are mediaă egală cu m. Dacă m u apare, atuci se subîţelege că m = 0. variabila de memorie p este P- valoarea, adică valoarea maximă petru pragul de semificaţie α petru care ipoteza ulă este admisă. Deoarece aici α = 0.05 este subîţeles, petru u p > 0.05 se afişează h = 0. Altfel, se afişează h = 1. O variată îmbuătăţită a comezii aterioare este următoarea: [p, h, stats] = sigtest(x, y,'alpha',alpha,'method',method) Aici, î plus faţă de precizările de mai sus, mai adăugăm că: Ipoteza ulă este (H 0 ): setul de date x y provie ditr-o distribuţie cotiuă de mediaă egală cu 0, cu ipoteza alterativă că mediaa lui x y u este 0; variabila stats îmagaziează următoarele date: zval - este valoarea statisticii Z petru observaţia cosiderată (apare doar petru selecţii de volum mare, 30); sig - este valoarea statisticii test; alpha este ivelul de semificaţie;

148 148 Capitolul 8. Teste eparametrice method este metoda folosită î testare. Putem avea o metodă exactă (folosid distribuţia biomială a statisticii test), câd method este 'exact', sau aproximativă (folosid distribuţia aproximativ ormală a statisticii test) petru 'approximate'; Exemplu 8.5 Petru problema cu pizza, de mai sus, codul MATLAB ce geerează testul semelor este: x = [ ]; [p, h, stats] = sigtest(x, 0) Rezultatul testului este: p = h = stats = sig: 3 Observaţia 8.2 Reveim la Exerciţiul 7.1 şi urmărim testarea ipotezei ule folosid fucţia sigtest. Codul MATLAB este simplu: x = [oes(59,1); zeros(41,1)]; [p, h, stats] = sigtest(x,.5) Obţiem rezultatele: p = h = stats = zval: sig: 41 ceea ce cofirmă faptul că ipoteza ulă este admisă la ivelul α = Testul seriilor î MATLAB Fucţia MATLAB ce simulează testul de verificare a stochasticităţii uui şir de caractere este [h, p, stats] = rustest(x) Acesta este u test ce verifică dacă valorile ce compu şirul de caractere x apar î ordie aleatoare. Variabilele h, p şi x sut ca î testul sigtest. Aici, variabila stats afişează următoarele: umărul de faze, lugimile fiecărei faze şi valoarea statisticii petru selecţia cosiderată. Î urma rulării comezii, se va afişa valoarea h = 0 dacă ipoteza că valorile apar î ordie aleatoare u poate fi respisă (este acceptată la ivelul de semificaţie α = 0.05) şi h = 1 î caz cotrar. De exemplu, rularea codului

149 8.8 Teste eparametrice î MATLAB 149 x = ' '; [h, p, stats] = rustest(x) afişează h = p = stats = rus: 38 1: 24 0: 27 z: Acest rezultat se traduce astfel: ipoteza că şirul cosiderat este aleator geerat este respisă la ivelul de semificaţie α = 0.05 (subîţeles), P valoarea este P v = (asta îsemâd că doar petru u ivel de semificaţie mai mic de P v şirul poate fi cosiderat aleator). Variabila de memorie stats afişează datele folosite î aplicarea testului. Comada următoare [h, p, stats] = rustest(x, v, alpha, tail) afişează decizia testului, ori h = 0 ori h = 1, cu semificaţia de mai sus; v este valoarea de referiţă a şirului de caractere. Sut umărate valorile ce sut mai mici sau mai mari decât v, cele care sut exact egale cu v u sut cotabilizate; alpha este ivelul de semificaţie; tail poate fi ua ditre următoarele ipoteze alterative: 'both', şirul u este aleator (test bilateral). Aceasta opţiue poate să u fie specificată, deoarece se subîţelege implicit. 'left', dacă valorile tid să se adue î ciorchie (test uilateral stâga); 'right', dacă valorile tid să se separe (test uilateral dreapta); De exemplu, să cosiderăm următoarele comezi: y = 0:10; y = 0:10; y = 0:10; [h, p] = rustest(y,media(y),0.02,'left') [h, p] = rustest(y,media(y),0.02,'right') [h, p] = rustest(y,media(y),0.02,'both') Rezultatele rulării lor sut (î ordie): h = 1 p = h = 0 p = 1 h = 1 p = Testele Wilcoxo i MATLAB Fuctia MATLAB petru testul Wilcoxo bazat pe ragurile cu sem este sigrak. Modurile de apelare sut: [p,h,stats] = sigrak(x,m,'alpha', alpha, 'method', metoda, 'tail', tail)

150 150 Capitolul 8. Teste eparametrice sau [p,h,stats] = sigrak(x,y,'alpha', alpha, 'method', metoda, 'tail', tail), ude x este vectorul format cu observatii, m este valoarea testata (petru prima variata) si x, y corespud vectorului de date perechi (petru a doua variata). Optiuea metoda poate fi ua ditre 'exact' (implicit) si 'approximate'. Metoda exacta calculeaza regiuea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi petru selectii de volum mare. Optiuea tail poate fi ua ditre 'both' (implicit), 'left' sau 'right'. Spre exemplu, petru Exercitiul 8.3, apelam fuctia astfel: ude x este vectorul format cu observatii, m este valoarea testata, metoda poate fi ua ditre 'exact' si 'approximate'. Metoda exacta calculeaza regiuea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi petru selectii de volum mare. Spre exemplu, petru Exercitiul 8.3, apelam fuctia astfel: g = [ ]; [p,h,stats] = sigrak(g,500,'alpha', 0.05, 'method', 'exact') % sau, simplu, [p,h,stats] = sigrak(g,500) Obtiem rezultatul: p = h = stats = sigedrak: Pe baza acestui rezultat, cocluzioam ca ipoteza ula u poate fi respisa la ivelul de semificatie α = Fuctia MATLAB petru testul Wilcoxo bazat pe suma ragurilor este raksum. Se poate folosi astfel: [p,h,stats] = raksum(x,y,'alpha', alpha, 'method', metoda) Spre exemplu, petru Exercitiul 8.4, apelam fuctia astfel: b = [ ]; f = [ ]; [p,h,stats] = raksum(b,f, 'method', 'exact') obtiadu-se: p = h = stats = raksum:

151 8.9 Exerciţii rezolvate Exerciţii rezolvate Exerciţiu 8.2 Următoarele date reprezită cotele apelor Duării (i cm) iregistrate î Sulia î ultimele 60 de zile: La ivelul de semificatie α = 0.05, testati ipoteza ca aceste valori sut geerate de u proces aleator, cu alterativa ca exista u tred i aceste valori. Soluţie: Metoda I: Formulam ipoteza ula: vs. ipoteza alterativa Folosid fuctia rustest di MATLAB, obtiem: (H 0 ) : datele sut geerate aleator, (H 1 ) : datele sut u geerate aleator. [h, p, stats] = rustest(x, media(x), 0.05, 'both') h = p = stats = rus: e-005 1: 30 0: 30 z: Se observa ca ipoteza alterativa este admisa, isemad prezeta uui tred. I fapt, daca i loc de optiuea 'both' alegem 'left', se va observa ca ipoteza alterativa este admisa cu probabilitatea critica P v = e 6, idicad tedita datelor spre grupare (clusterig). Metoda a-ii-a: Putem ajuge la acelasi rezultat si pe baza statisticii test. Aceasta este ude z = r µ σ, r = 14, µ = = 31, σ = (2 1 2 ) 2 = ( 1) Gasim ca z = < z 1 α = z 0.95 = , deci acceptam ipoteza alterativa ca datele au o tedita spre grupare i clustere. Exerciţiu 8.3 Testati la ivelul de semificatie α = 0.04 ipoteza că valoarea mediaă a cotelor apelor Duării di Exerciţiul 8.2 este de 80cm sau o altă valoare. Soluţie: Metoda I: Formulam ipoteza ula: vs. ipoteza alterativa Folosid fuctia sigtest di MATLAB: (H 0 ) : Me = 80, (H 1 ) : Me 80.

152 152 Capitolul 8. Teste eparametrice x = [ ]; [p,h,stats] = sigtest(x, 80, 'alpha', 0.04) Rezultatul este: h = p = stats = sig: 25 Metoda a-ii-a: Altfel, daca Me = 80, atuci umaram cate observatii avem sub mediaa si peste mediaa. Valorile egale cu mediaa sut elimiate di aaliza. Obtiem: Daca S B(55, 0.5), atuci = 55, S < = 30, S > = 25, S = S = max{s <, S > } = 30. P v = 2P(S > S ) = 2[1 P(S 29)] = 2*(1-biocdf(29,55,0.5)) = Cum α = 0.04 < = P v, acceptam ipoteza ula. Exerciţiu 8.4 Itr-u studiu de piata, sut comparate doua tipuri de oferte O 1 si O 2 petru u aumit produs. Petru a alua o decizie, au fost itrebate 50 de persoae care ditre cele doua oferte le prefera. Astfel 30 de persoae au declarat ca prefera O 1, 16 au preferat oferta O 2 si restul u s-au putut decide. La ivelul de semificatie α = 0.05, sa se decida daca este o difereta semificativa itre cele doua oferte. Soluţie: Formulam ipoteza ula: vs. ipoteza alterativa (H 0 ) : Ofertele O 1 si O 2 sut egal preferate, (H 1 ) : Oferta O 1 este preferată ofertei O 2. Utilizam testul semelor petru date perechi. Cosideram diferetele itre cele doua oferte petru grupul test. Vom avea 30 de valori "+" si 16 valori " ". Opiiile celor 4 persoae idecise sut igorate. Vom avea: Daca S B(46, 0.5), atuci = 46, S < = 16, S > = 30. P v = P(S > S > ) = P(S > 30) = 1 P(S 29) = 1-biocdf(29,46,0.5) = Cum α = 0.05 > = P v, respigem ipoteza ula. Asadar, cocluzioam ca oferta O 1 este preferata (semificativ) ofertei O 2, la ivelul de semificatie α = Î MATLAB, folosim comada sigtest:

153 8.10 Exerciţii propuse 153 x = [oes(1,30),-1*oes(1,16)] [p,h] = sigtest(x); Pv = p/2 if (Pv > 0.05) disp('ofertele O1 si O2 sut egal preferate') else disp('oferta O1 este preferata (semificativ) ofertei O2') ed Rulâd codul MATLAB, obţiem: Pv = ; oferta O1 este preferata (semificativ) ofertei O Exerciţii propuse Exerciţiu 8.5 Testaţi dacă fucţiile MATLAB rad şi rad geerează umere (pseudo-)aleatoare. Exerciţiu 8.6 Testaţi dacă şirul de umere di progresia geometrică sut umere aleator geerate. Exerciţiu 8.7 U oficial al serviciului de ambulaţă afirmă că timpul mediu de răspus la u apel 112 este de 20 de miute. Ditre toate apelurile primite î 2008, se alege o selecţie îtâmplătoare de 300 de apeluri la 112, ditre care, petru 178 ditre acestea timpul de răspus a depăşit 20 de miute, restul fiid sub această valoare. (a) Am putea verifica declaraţia oficialului folosid u test parametric, pe baza acestei selecţii? (b) Aceeaşi ceriţă ca la (a), folosid u test sau teste eparametrice (fără a folosi fucţii implemetate î MATLAB petru teste statistice). (c) Folosiţi teste implemetate î MATLAB ca alterative petru puctul (b). Exerciţiu 8.8 O aumită firmă doreşte să agajeze persoal masculi şi femii respectâd criteriul egalităţii î drepturi petru ambele sexe. Ştiid că sexele ultimelor persoae agajate sut după cum urmează FMMFMFMFMFMMFFFMMMFMFMFMFMFMMMFFMFMFFFMFMFMFMMMFMF să se determie dacă agajările î acestă firmă sut făcute aleator. Dar prefereţial? Se va lua α = Exerciţiu 8.9 Coducerea uui liceu ivestigheaza daca situatia scolara a elevilor trasferati i acest liceu s-a imbuatatit i urma traferului. Tabelul de mai jos cotie mediile geerale ale uui grup de 15 elevi i aul diaite de trasfer si i primul a de dupa trasfer. Verificati daca trasferul a fost beefic petru elevi, folosid trei teste: testul t petru date perechi, testul semelor si testul Wilcoxo (siged-rak test) (α = 0.05). Nr. crt iaite dupa

154 154 Capitolul 8. Teste eparametrice Exerciţiu 8.10 Tabelul de mai jos coţie calificativele obţiute de u elev de clasa I la o selectie de 9 teste di clasa I, care au fost reluate la iceputul clasei a doua a-ii-a. Disciplie A B C D E F G H I clasa I B FB FB B B FB S B FB clasa a II-a S I B FB FB B B S B La ivelul de semificatie α = 0.05, testati ipoteza ca rezultatele elevului s-au imbuatatit i clasa a II-a. Folosiţi, evetual, mai multe teste statistice. Exerciţiu 8.11 Tabelul de mai jos coţie mediile obţiute de u elev de clasa a V-a la 10 disciplie di cele două semestre şcolare. Disciplie A B C D E F G H I J semestrul I semestrul al II-a Folosid u test potrivit, testaţi ipoteza că rezultatele elevului s-au îmbuătăţit î semestrul al doilea (α = 0.04). Folosiţi, evetual, mai multe teste statistice. Exerciţiu 8.12 Se testează eficacitatea uui aumit medicamet î reducerea tesiuii arteriale pe u grup format di 12 pacieţi. Datele de mai jos reprezită măsurătorile observate îaite şi după admiistrarea medicametului. Pacietul P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 iaite dupa Folosid u test potrivit, testaţi ipoteza ulă medicametul u are efect versus ipoteza alterativă medicametul este eficiet (α = 0.05) î fiecare ditre următoarele cazuri: (a) ambele seturi de date sut cosiderate a fi observaţii ale uor caracteristici ormale; (b) datele u sut eapărat ormale.

155 9. Teste de reeşatioare. [I God we trust.. All others must brig data.] Testele de reesatioare sut metode statistice de estimare a uor parametri sau petru realizarea uor teste statistice, bazate pe geerarea de subselectii de date pe computer. I geeral, aceste metode pot fi utilizate doar cu ajutorul uui computer. Marele lor avataj este ca pot fi utilizate atuci cad testele clasice (Z, t, F etc.) u pot fi aplicate. Testele clasice sut ueori prea restritive. Ua ditre ceritele importate petru testele clasice este ormalitatea datelor. Daca aceasta coditie u este idepliita, petru a putea realiza u test clasic ar fi ecesara cosiderarea uui volum suficiet de mare de date. Daca ici aceasta coditie u este idepliita, atuci folosirea metodelor clasice i estimarea parametrilor sau i verificara ipotezelor statistice este ioportua. I plus, exista multi parametri ai populatiei petru care u exista statistici potrivite, ce pot fi folosite i estimarea uor parametri sau petru validarea ipotezelor statistice. Exemple de astfel de parametri sut: cuatilele, cotele, uii coeficieti de corelatie etc. Testele eparametrice sau cele de reesatioare pot fi metodele alterative care pot scoate u statisticia di impas. Ditre metodele de reesatioare amitim: testele de permutari, bootstrappig, metoda jackkife sau metodele Mote Carlo. Testele de permutari (sau metode de radomizare) sut metode de reesatioare efectuate fara repetitie folosite i a testa aumite ipoteze statistice. I geeral, sut utilizate petru a testa ipoteze de tipul "lipsa de efect". Metoda de bootstrap (sau bootstrappig) este o metoda de reesatioare efectuate cu repetitie, i special utilizate petru a determia itervale de icredere petru parametrii uei populatii. Metodele Mote Carlo folosesc esatioae repetate di populatii cu parametri cuoscuti petru a determia sezitivitate metodelor statistice. Metoda jackkife (sau jackkifig) este o metoda similara cu bootstrappig, folosita i estimarea variaţei sau a deplasării uui estimator. Este bazata pe elimiarea sistematica a uei date observate di setul de date si obtierea de estimari pe baza datelor ramase. Avataje ale metodelor de reeşatioare:

156 156 Capitolul 9. Teste de reeşatioare ipoteze mai puti restrictive. De exemplu, u este ecesara ipoteza de ormalitate sau ca volumul selectiei sa fie mare. acuratete mai mare. Testele de permutari si aumite metode bootstrap au acuratete mai mare decat a testelor clasice. grad larg de aplicabilitate. Pot fi utilizate petru testarea multor ipoteze statistice si u ecesita utilizarea uor statistici speciale. usurita i utilizare I cotiuare, vom discuta doar doua ditre aceste metode, si aume testele de permutari si metoda bootstrappig. De asemeea, vom prezeta metoda Mote Carlo şi câteva aplicaţii ale sale. 9.1 Teste de permutari (e., permutatio tests sau radomizatio tests) Sut teste de reesatioare bazate pe geerarea de date fara repetitie, folosite petru testarea uor ipoteze statistice. De exemplu, pot fi folosite petru a testa egalitatea mediilor, petru egalitatea variatelor, petru egalitatea proportiilor a doua populatii, sau petru compararea datelor perechi. De asemeea, pot fi utilizate i compararea corelatilor ditre doua variabile catitative. Aceste teste sut utilizate atuci cad testele clasice corespuzatoare u pot fi aplicate (ori datele u sut ormale, ori avem prea putie date). Etapele uui test de permutari sut: Se alege o statistica ce masoara efectul studiat; Costruim repartitia de selectie a acestei statistici petru cazul i care ipoteza ula este valida (i.e., u exista iciu efect observat). Localizam valoarea observata a statisticii i aceasta repartitie si calculam valoarea P v (probabilitatea de a observa u rezultat cel puti la fel de extrem ca si cel observat, sau probabilitatea de a respige ipoteza ula i cazul i care ea este adevarata). Ipoteza ula petru acest test este: (H 0 ) : Efectul studiat u este prezet petru populatia (populatiile) observata (e). Ipoteza alterativa este orice ipoteza care se opue ipotezei ule. Se pu i comu toate valorile observate si apoi se va face o reesatioare (o rearajare fara repetitie) a datelor, care sa fie i cocordata cu ipoteza ula. Petru fiecare cofiguratie a datelor se va calcula statistica de iteres S (cea care masoara efectul studiat). I cazul testarii egalitatii a doua medii, aceasta statistica este difereta mediilor de selectie. Să otăm cu S valoarea statisticii de iteres petru cofiguraţia observată. Petru u test bilateral, valoarea critica a testului, P v, este egala cu raportul ditre umarul de diferete absolute cel puti egale cu S si umarul total de diferete. Petru u test uilateral dreapta, valoarea critica a testului, P v, este egala cu raportul ditre umarul de diferete cel puti egale cu S si umarul total de diferete. Petru u test uilateral staga, valoarea critica a testului, P v, este egala cu raportul ditre umarul de diferete cel mult egale cu S si umarul total de diferete. Decizia fiala se va lua astfel: daca α P v, atuci respigem ipoteza ula. I caz cotrar, ipoteza ula va fi acceptata. Petru exemplificare, cosideram urmatorul exercitiu demostrativ. Exemplu 9.1 Datele urmatoare reprezita puctajele a 5 elevi (baieti si fete) la u aumit test de Matematica: {53, 75, 80, 67, 78}, ude primele 3 valori sut puctajele baietilor si ultimele doua sut puctajele fetelor. Se doreste ca, pe baza acestor valori, sa se testeze daca exista diferete semificative itre valorile medii ale puctajele baietilor si ale fetelor (la u ivel de semificatie α = 0.05). Desigur, acest exemplu este uul demostrativ; i practica pot fi mai multe valori de fiecare parte. Ipoteza ula este urmatoarea:

157 9.2 Bootstrappig 157 (H 0 ) : Nu este icio difereta itre puctajele medii petru baieti si fete. Altfel spus, avem de testat ipoteza: (H 0 ) : µ b = µ f vs. (H 1 ) : µ b µ f, ude µ b si µ f sut mediile procetajelor la baieti (variabila o otam cu b) si, respectiv, la fete (variabila este otata aici cu f ). Daca ipoteza ula ar fi adevarata, atuci acest set de date sut observatii aleatoare asupra uei aceleasi repartitii. I acest caz, oricum am alege 3 valori (di cele 5) care sa corespuda baietilor si, respectiv, 2 valori petru fete, mediile µ b si µ f u se vor modifica. I cosecita, e vom uita la toate combiatiile posibile petru fiecare grup. Petru fiecare combiatie i parte, calculam difereta valorilor, obtiad astfel u set de C5 3 = 10 diferete. I geeral, daca avem doua seturi de date, uul de volum m si celalalt de volum, atuci putem forma Cm+ m combiatii, deci vom determia u set de Cm+ m diferete. Statistica de iteres, S, care va determia difereta ditre cele doua medii, este valoarea absolută a difereţei mediilor de selecţie. Petru exemplul ostru, aceasta este S = b f. Localizam acum valoarea lui S petru cofiguratia data, otata aici pri S. Valoarea critica P v este egala cu raportul ditre umarul de diferete cel puti egale cu S si umarul total de diferete. Dupa cum se poate observa di Tabelul 9.1, statistica observata este S = I ultima coloaa di tabel exista 9 valori cel puti egale cu S (iclusiv valoarea absoluta observata), de ude gasim ca P v = card{ S S } C m m+ = 9 10 = 0.9. La ivelul de semificatie α = 0.05 < 0.9 = P v, u avem motive sa respigem ipoteza ula. baieti b fete f S = b f S = b f 53, 75, , , 75, , , 75, , , 67, , , 78, , , 67, , , 75, , , 75, , , 67, , , 67, , Tabela 9.1: Tabel cu toate combiatiile posibile. U test de permutari este u test exact. I cazul i care umarul C m m+ este foarte mare, atuci este practic de a cosidera doar o selectie aleatoare (cu repetitie) ditre toate valorile. I cazul i care m si (volumele celor doua seturi de date) sut suficiet de mari, atuci ar fi oportua folosirea testului t, care este u test mai puteric (i sesul ca va avea o eroare de speta a doua, β, mai mica petru u α fixat). Testul de permutari poate fi folosit cu succes atuci cad ipotezele testului t u sut satisfacute, oferid valori bue petru P v chiar daca datele observate sut asimetrice. 9.2 Bootstrappig Aceasta metoda foloseste datele de selectie petru a estima parametrii relevati ai uei populatii statistice. Metoda foloseste reesatioarea cu repetitie a datelor observate. Poate fi folosita cu succes i estimarea erorii uui estimator, σ θ, i cazul i care itervalele de icredere clasice u

158 158 Capitolul 9. Teste de reeşatioare sut aplicabile. De asemeea, exista diversi parametri petru care u exista metode clasice de a-i estima, fie pri estimatori puctuali sau cu itervale de icredere. Exemplu de astfel de parametri: cuatile, coeficieti de corelatie, deviatii etc. Aceasta metoda poate da rezultate foarte bue si i cazul uor statistici test eliiare complicate, care u pot fi estimate pri alte metode traditioale. I practica, aceasta metoda poate fuctioa doar cu ajutorul uui computer, di cauza ca poate aparea u volum foarte mare de date. Avem u set de date observate, {x 1, x 2,..., x }, pe baza carora dorim sa estimam u parametru θ al populatiei di care provi aceste date. I metoda de bootstrap, aceste date vor fi privite ca fiid o populatie statistica, di care vom extrage diverse esatioae de volum. Pe baza acestor esatioae vom determia itervale de icredere petru θ. Etapele metodei bootstrappig (prezetate aici petru cazul î care θ = µ, media populaţiei di care provie selecţia iiţială) sut: Reesaloam cu repetitie valorile observate, obtiad u set de date reesaloate de volum : {x 1, x 2,..., x }. Repetam pasul aterior de u umar r de ori, ude r. Vom obtie selectiile de bootstrap: {x b1, x b2,..., x b}, b = 1, 2,..., r. Aici, umarul B = este umarul maxim de reesaloari cu repetitie de volum pe care le putem obtie. I cazul i care B u este u umar foarte mare (astfel icat computerul sa poata face reesaloarile i timp util), atuci putem lua r = B. Petru fiecare b = 1, 2,..., r, calculam u estimator petru parametrul θ, otat aici cu θ b. Vom calcula θ b = 1 x bi, θ = 1 r r b=1 si u estimator petru eroarea stadard a selectiei de bootstrap, r 1 = s θ r 1 ( θ b θ ) 2. b=1 θ b (media selectiei de bootstrap) I cazul i care r = B, atuci x = x si estimatorul petru eroarea stadard devie: B 1 ( s x = B x b x ) 2. Atuci, u iterval de icredere petru medie la ivelul de cofideta α este [ ] x z 1 α 2 s x, x + z 1 α 2 s x. Cosideram urmatorul exemplu demostrativ. Exemplu 9.2 Urmatoarele date reprezita salariile (i mii de RON) petru 4 perechi sot-sotie ditr-u aumit oras: b=1 {(2.4, 1.9), (1.7, 1.8), (3.2, 3.6), (4.0, 3.4)}. La ivelul de semificatie α = 0.05, dorim sa determiam u iterval de icredere petru difereta salariilor itre sot si sotie. Notam cu H si W variabilele salariu petru sot, respectiv, sotie. Petru datele observate u avem garatia ca ele ar fi observatii asupra uor repartitii ormale si ici u sut suficiet de multe. Asadar, ipotezele de lucru petru determiarea uui iterval de icredere petru medie clasic (folosid statisticile Z sau t) u sut satisfacute. Totusi, petru a putea face ulterior o comparatie, vom scrie u iterval de icredere folosid statistica Studet t(). Itervalul obtiut u va fi uul legitim (care sa poata fi folosit i estimarea diferetei).

159 9.2 Bootstrappig 159 Nr. crt. H W d i = h i w i Tabela 9.2: Tabel cu salarii petru perechi sot-sotie. Petru setul de date {d i },4 = {0.5, 0.1, 0.4, 0.6}, calculam media si deviatia stadard: d = 0.15 si s d = Daca ipotezele de ormalitate are fi valide, atuci u iterval de icredere petru difereta medilor ar fi: [ ] s d s d t 1 α 2 ; 1 d, d +t 1 α 4 2 ; 1 = [ , ]. 4 Isa acest iterval u poate fi cosiderat i practica. Vom determia u iterval de icredere bazadu-e pe metoda bootstrappig. Tabelul 9.3 cotie r = 7 selectii de bootstrap petru populatia {0.5, 0.1, 0.4, 0.6}. b db1, d b2, d b3, d b4 d b , 0.5, 0.1, , 0.1, 0.1, , 0.1, 0.1, , 0.1, 0.4, , 0.1, 0.1, , 0.4, 0.4, , 0.4, 0.6, Tabela 9.3: Tabel cu 7 reesatioari petru metoda bootstrappig. I acest caz, B = 4 4 = 256, d = 0.15 si si d = s d = d b = (media selectiei de bootstrap) ( d b d ) 2 = U iterval de icredere la ivelul de semificatie α = 0.05 este [ ] d z 1 α 2 s d, d + z 1 α 2 s d = [ , ]. Acesta poate fi cosiderat ca fiid u iterval de icredere legitim petru difereta salariilor. I acest caz, acest iterval este chiar de lugime mai mica decat itervalul obtiut aterior. x = [ ]; r = 200; = 4; [b1, b2] = bootstrp(r, 'mea', x); xb = mea(x); xs = mea(b1); % data % sample mea ad bootstrap mea

160 160 Capitolul 9. Teste de reeşatioare s = std(x); ss = std(b1); t = tiv(0.975,3); z = ormiv(0.975); [xb - t*s/ sqrt(), xb + t*s/ sqrt()] [xs - z*ss, xs + z*ss] % stadard deviatios % quatiles % C.I. usig t-test % C.I. usig bootstrap 9.3 Metoda Mote Carlo Metoda Mote Carlo este o metodă de simulare statistică, ce produce soluţii aproximative petru o mare varietate de probleme matematice pri efectuarea de experimete statistic pe u computer. Se poate aplica atât problemelor cu determiiste, cât şi celor probabilistice şi este folositoare î obţierea de soluţii umerice petru probleme care sut prea dificile î a fi rezolvate aalitic. Este o metodă folosită de secole, dar a căpătat statutul de metodă umerică di aii Î 1946, S. Ulam 1 a deveit primul matematicia care a dat u ume acestui procedeu, iar umele vie de la cazioul Mote Carlo di pricipatul Moaco, ude se practică foarte mult jocurile de oroc, î special datorită jocului de ruletă (ruleta = u geerator simplu de umere aleatoare). De asemeea, Nicholas Metropolis 2 a adus cotribuţii importate metodei. Are la bază geerarea de umere aleatoare coveabile şi observarea faptului că o parte ditre acestea verifică o proprietate sau aumite proprietăţi. Î geeral, orice metodă care are la bază geerarea de umere aleatoare î vederea determiării rezultatului uui calcul este umită o metodă Mote Carlo. Orice eveimet fizic care poate fi văzut ca u proces stochastic este u cadidat î a fi modelat pri metoda MC. Itegrarea folosid metoda Mote Carlo Dorim să folosim metode Mote Carlo petru evaluarea itegralei b I = f (x)dx. a (9.3.1) Î geeral, petru a evalua umeric itegrală, metoda Mote Carlo u este prima alegere, îsa este foarte utilă î cazul î care itegrală este dificil (sau imposibil) de evaluat. Această metoda devie mai eficietă decât alte metode de aproximare câd dimesiuea spaţiului e mare. Dacă dorim aplicarea metodei MC, atuci avem de ales ua di următoarele variate: Variata 1 (poate fi aplicată doar petru f 0. Dacă f şi valori egative, dar este mărgiită iferior, atuci putem utiliza o traslaţie, astfel îcât să avem de itegrat o fucţie eegativă) Îcadrăm graficul fucţiei f îtr-u dreptughi D = [a, b] [0, d], ude d > sup f. Evaluăm itegrala folosidu-e de calculul probabilităţii eveimetului A, că [a,b] u puct ales la îtâmplare î iteriorul dreptughiului D să se afle sub graficul fucţiei f (x). Facem următoarea experieţă aleatoare: alegem î mod uiform (comada rad e oferă această posibilitate î MATLAB) u puct di iteriorul dreptughiului şi testăm dacă acest puct se află sub graficul lui f (x). Repetăm experieţa de u umăr N (mare) de ori şi cotabilizăm umărul de 1 Staislaw Marci Ulam ( ), matematicia de origie poloeză, ăscut î Lvov, Ucraia 2 Nicholas Costatie Metropolis ( ), fizicia grec

161 9.3 Metoda Mote Carlo 161 apariţii f (N) ale puctului sub grafic. Petru u umăr mare de experieţe, probabilitatea ca u puct geerat aleator î iteriorul dreptughiului să se afle sub graficul fucţiei va fi aproximată de frecveţa relativă a realizării eveimetului, adică Pe de altă parte, probabilitatea teoretică este de ude aproximarea P = P f (N) N. I aria dreptughi, I aria dreptughi f (N) N. (9.3.2) Totuşi, această metodă u e foarte eficietă, deoarece N trebuie să fie foarte mare petru a avea o precizie buă. Exemplu 9.3 Utilizâd metoda Mote Carlo, să se evalueze itegrala I = 5 2 e x2 dx. Soluţie: Geerăm 10 6 pucte aleatoare î iteriorul pătratului [ 2, 5] [0, 1] şi verificăm care ditre acestea se află sub graficul fucţiei f (x) = e x2, x [0, 1]. Următoarea fucţie MATLAB calculează itegrala dorită: fuctio I = itegrala(n) % fuctia itegrala.m x = 7*rad(N,1)-2; y = rad(n,1); % geereaza N umere aleatoare i [ 2, 5] [0, 1] f = fid(y < exp(-x.^2)); % umar puctele de sub graficul lui e x2 I = 7* legth(f)/n; % formula (9.3.2) O rulare a fucţiei, itegrala(1e6), e furizează rezultatul I = Putem, de asemeea, folosi o fucţie MATLAB potrivită petru calcularea itegralei: I = quadl(@(x)exp(-x.^2),-2,5) % I = Variata 2 Putem rescrie itegrala î forma ude b I = (b a) f (x)h(x) dx, (9.3.3) a h(x) = 1, dacă x [a, b], b a 0, altfel. Fucţia h(x) defiită mai sus este desitatea de repartiţie a uei v.a. X U [a, b], iar relaţia (9.3.1) se rescrie I = (b a)e( f (X)). (9.3.4)

162 162 Capitolul 9. Teste de reeşatioare Folosid legea slabă a umerelor mari, putem aproxima I pri: I b a N N k=1 f (X k ), (9.3.5) ude X k sut umere aleatoare ce urmează repartiţia U [a, b]. Putem geeraliza această metodă petru calculul itegralelor de tipul f (x)dx, ude V R. V Exemplu 9.4 Să se evalueze itegrala di Exemplul (9.3) folosid formula (9.3.5). Soluţie: Codul MATLAB este următorul: x = 7*rad(1e6,1)-2; % geereaza 10 6 umere aleatoare U ( 2, 5) g = exp(-x.^2); % g(x) = e x2 I = 7*mea(g) % 7*media lui g(x) sau, restrâs, putem apela următoarea comadă: estimate = 7*mea(exp(-((7*rad(10^6,1)-2).^2))) % I Exemplu 9.5 Evaluâd itegrala 1 I = e x dx pritr-o metodă Mote Carlo să se estimeze valoarea umărului trascedet e. (e = I + 1). Soluţie: 0 estimate = mea(exp(rad(10^6,1))) + 1 % e

163 9.3 Metoda Mote Carlo 163 Recapitulare (teste statistice) (o sigură selecţie) Test petru media uei populaţii ipoteza ulă este (H 0 ) : µ = µ 0 Cosiderăm u set de observaţii aleatoare {x 1, x 2,..., x } asupra caracteristicii de iteres. Dacă X are o repartiţie ormală iar deviaţia stadard σ este cuoscută a priori, vom utiliza testul Z petru medie. Testul poate fi făcut petru orice volum al selecţiei ( N ). Î practică, există puţie cazuri î care σ este cuoscut a priori. Dacă volumul al selecţiei este suficiet de mare (e.g., 30), atuci putem aplica testul Z fără a mai fi evoie să presupuem că X are o repartiţie ormală. Î cazul î care este mare iar σ este ecuoscut, îcă mai putem folosi testul Z petru medie dacă îlocuim statistica Z = X µ 0 N (0, 1), N σ, cu Z = X µ 0 s N (0, 1), 30. Dacă selecţia cosiderată este de volum mic ( < 30) şi caracteristica X este ormal repartizată, atuci folosim testul t petru medie. Aici se utilizează statistica t = X µ 0 s t( 1) petru 2, Dacă este mic şi X u urmează repartiţia ormală, atuci vom folosi teste eparametrice petru a testa media (mediaa) uei populaţii. Spre exemplu, putem folosi testul semelor (sig test), Wilcoxo siged-rak test sau bootstrappig. Test petru dispersia uei populaţii ipoteza ulă este (H 0 ) : σ 2 = σ 2 0 Cosiderăm u set de observaţii aleatoare {x 1, x 2,..., x } asupra caracteristicii de iteres. Dacă X are o repartiţie ormală, vom utiliza testul χ 2 petru dispersie, folosid statistica 1 χ 2 σ = σ 2 0 (x i µ) 2 χ 2 (), ( N ) dacă media µ este cuoscută a priori; (x i x) 2 χ 2 ( 1), ( 2) dacă media µ este ecuoscută a priori. Dacă datele u sut ormale şi volumul este mic, putem folosi teste eparametrice, e.g., bootstrappig sau testul Barlett. Test petru proporţia uei populaţii ipoteza ulă este (H 0 ) : p = p 0 Cosiderăm u set de observaţii aleatoare {x 1, x 2,..., x } asupra caracteristicii de iteres. Dacă volumul selecţiei este mare 30, atuci folosim testul bazat pe statistica Z = p p 0 p 0 (1 p 0 ) N (0, 1) petru 30. Dacă volumul selecţiei este mic < 30, atuci folosim testul bazat pe repartiţia biomială.

164 164 Capitolul 9. Teste de reeşatioare Recapitulare (teste statistice) (două selecţii) Test petru egalitatea mediilor ipoteza ulă este (H 0 ) : µ X = µ Y Cosiderăm două seturi de date idepedete, {x i },m şi {y j } j=1,. Dacă X şi Y au repartiţie ormală iar deviaţiile stadard σ X şi σ Y sut cuoscute a priori, vom utiliza testul Z petru difereţa mediilor. Testul poate fi efectuat petru oricare m,. Î practică, există puţie cazuri î care deviaţiile stadard sut cuoscute a priori. Dacă volumul al selecţiei este suficiet de mare (e.g., m 30, 30), atuci putem aplica testul Z fără a mai fi evoie să presupuem că X şi Y sut ormal repartizate. Dacă măcar o selecţie este de volum mic (m, < 30) şi caracteristicile X şi Y sut ormal repartizate, atuci folosim testul t petru difereţa mediilor. Totuşi, petru acurateţea testului, va trebui să efectuăm mai îtâi u test petru egalitatea dispersiilor. Î fucţie de rezultatul testului di urmă, alegem testul t potrivit (respectiv, statistica potrivită): X Y, dacă σ X σ Y s 2 X t = m + s2 Y X Y m+ 2 (m 1)s 2 X +( 1)sY 2 1, dacă σ X = σ Y m + 1 Dacă volumele sut mici şi caracteristicile u urmează repartiţia ormală, atuci vom folosi teste eparametrice petru a testa difereţele ître valorile cetrale (mediae) ale caracteristicilor. Spre exemplu, putem folosi uul ditre testele: testul Kolmogorov-Smirov, testul Wald-Wolfowitz, Wilcoxo rak-sum test, test de permutări sau bootstrappig. Test petru egalitatea dispersiilor ipoteza ulă este (H 0 ) : σ 2 X = σ 2 Y Cosiderăm două seturi de date idepedete, {x i },m şi {y j } j=1,. Dacă X şi Y urmează repartiţii ormale, vom utiliza testul F petru dispersie, folosid statistica potrivită: F = σy 2 σx 2 σ 2 Y σ 2 X dx 2, dacă µ dy 2 X şi µ Y cuoscute a priori s 2 X, dacă µ sy 2 X şi µ Y ecuoscute a priori Dacă datele u sut ormale şi volumul este mic, putem folosi teste eparametrice, e.g. bootstrappig sau testul Barlett. (dx 2 = 1 m m 1 [x i µ X ] 2, dy 2 = 1 [y j µ Y ] 2, s 2 X 1 = 1 m m 1 [x i X] 2, sy 2 = 1 [y j Y ] 2 ) 1 j=1 j=1 Test petru egalitatea proporţiilor ipoteza ulă este (H 0 ) : p X = p Y Cosiderăm două seturi de date idepedete, {x i },m şi {y j } j=1,. Dacă m, 30, şi mp X, m(1 p X ), p Y, (1 p Y ) 5, atuci folosim testul bazat pe statistica Z = p X p Y p (1 p ) ( 1 m + 1 ) N (0, 1), ude p = 1 p p Dacă volumul petru cel puţi o selecţiei este mic atuci putem folosi teste eparametrice, e.g., Wilcoxo siged-rak test, test de permutări sau bootstrappig.

165 9.3 Metoda Mote Carlo 165 Figura 9.1: Teste parametrice şi eparametrice.

166 166 Capitolul 9. Teste de reeşatioare 9.4 Exerciţii rezolvate Exerciţiu 9.1 (aproximarea lui π folosid jocul de darts) Î ce costă jocul? Să presupuem că sutem la ivelul îcepător. Avem de arucat o săgeată ascuţită, ce poate peetra cu uşuriţă lemul, spre o tablă pătrată di lem, î iteriorul căruia se află deseat u cerc circumscris pătratului. Dacă săgeata se îfige î iteriorul discului atuci aţi câştigat u puct, dacă u - u câştigaţi imic. Repetăm jocul de u umăr N de ori şi cotabilizăm la sfârşit umărul de pucte acumulate, să zicem că acest umăr este ν N. Să presupuem că suteţi u jucător slab de darts (asta implică faptul că orice puct de pe tablă are aceeaşi şasă de a fi ţitit), dar u aşa de slab îcât să u imeriţi tabla. Cu alte cuvite, presupuem că de fiecare dată câd arucaţi săgeata, ea se îfige î tablă. Se cere să se aproximeze valoarea lui π pe baza jocului de mai sus şi să se scrie u program î MATLAB care să simuleze experimetul. Soluţie: Să otăm cu A eveimetul ca săgeata să se îfigă chiar î iteriorul discului. Î cazul î care umărul de arucări N e foarte mare, atuci probabilitatea eveimetului A, P(A), este bie aproximată de limită şirului frecveţelor relative, adică lim N. Pe de altă parte, P(A) =. Aşadar, putem aproxima π pri π 4 ν N N aria disc aria perete = π 4 ν N (petru N 1). (9.4.6) Fucţia MATLAB care aproximează pe π este prezetată mai jos. Metoda care a stat la baza aproximării lui π este o metoda Mote Carlo. fuctio Pi = darts(n) % umar de arucari theta = lispace(0,2*pi,n); % geereaza vectorul theta x = rad(n,1); y = rad(n,1); % (x,y) - itepaturi X = 1/2+1/2*cos(theta); Y = 1/2+1/2*si(theta); % cerc i polar plot(x,y,'b+',x,y,'r-'); % deseeaza cercul si puctele S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % umarul de succese Prob = S/N; % frecveta relativa approxpi = 4*Prob; % aproximarea lui pi axis([ ]); % deseeaza axele title([it2str(n),' arucari, \pi \approx ', um2str(approxpi)]); O simplă rulare a fucţiei, darts(2000), geerează Figura 9.2. Exerciţiu 9.2 Îtr-o clasă sut 30 de elevi. Calculaţi probabilitatea ca măcar doi ditre ei să serbeze ziua de aştere î aceaaşi zi a aului. Folosiţi o metodă Mote Carlo petru a aproxima această probabilitate. Soluţie: [1] Metoda teoretica: Notam cu A eveimetul ca macar doi elevi di clasa sa serbeze ziua de astere i aceeasi zi a aului. Atuci, A este eveimetul ca sa u exista elevi di clasa care sa serbeze ziua de astere i aceeasi zi a aului. Avem ca: P(A) = 1 P(A). Calculam mai itai probabilitatea eveimetului cotrar, A. Spatiul selectiilor, Ω, este Obtiem ca: I MATLAB, scriem: Ω = {E = (e 1, e 2,..., e 30 ), e k 1, 365}, Ω = A = {E Ω, e i e j }, A = A P(A) = 1 P(A) = 1 A =

167 9.4 Exerciţii rezolvate 167 Figura 9.2: Simularea jocului de darts. p = 1 - factorial(30)*choosek(365,30)/(365)^(30) [2] Metoda Mote Carlo: Geeram u umar suficiet de mare (N = 10 6 ) de vectori formati di 30 de valori (fiecare vector reprezita o variabila uiform discreta U (365), cu comada uidrd(365,30,1e6)) di multimea zilelor aului, {1, 2,..., 365}. Obtiem o matrice M cu 30 de liii si 10 6 coloae. Fiecare coloaa reprezita o posibila clasa de 30 de elevi. Dorim sa observam i cate astfel de clase exista macar doi elevi care serbeaza ziua de astere i aceeasi zi a aului. Petru aceasta, va trebui sa verificam pe cate coloae avem dubluri de valori. Daca otam cu ν N umarul de dubluri, atuci putem aproxima probabilitatea cautata pri P(A) = ν N N. Totusi, este mai usor sa umaram cate coloae u coti dubluri, ceea ce va coduce la calcularea probabilitatii eveimetului cotrar. Petru aceasta, procedam astfel: ordoam crescator valorile pe coloae (comada sort), apoi facem diferetele compoetelor cosecutive ale elemetelor de pe fiecare coloaa a matricei M. Daca ar exista macar o dublura pe o coloaa, atuci ar aparea macar u 0 i vectorul diferetelor. Comada all verifica daca exista macar o compoeta zero pe fiecare coloaa, atribuid valoarea 1 i caz ca u exista si 0 i cazul i care exista. Isumam aceste valori, obtiad astfel umarul cazurilor i care u exista dubluri ale zilelor de astere, i.e., umarul de clase i care u am gasit doi copii ce serbeaza aceeasi zi de astere. Pe scurt, scriem povestea de mai sus astfel: p = 1 - sum(all(diff(sort(uidrd(365,30,1e6)))))/1e6 obtiad aproximarea p = Exerciţiu 9.3 Utilizaţi metoda Mote Carlo petru a găsi aproximări petru următoarele itegrale: (a) 1 x + 3 xdx, (b) π 1 + x 2 dx, (c) si( x)dx. 0

168 168 Capitolul 9. Teste de reeşatioare Soluţie: Folosid metoda MC: x = rad(1e6,1); f = sqrt(x+x.^(1/3)); I_a = mea(f) % I_a = y = 5*rad(1e6,1)-2; f = 4./(1+y.^2); I_b = 5*mea(f) % I_b = z = pi*rad(1e6,1); f = si(sqrt(z)); I_c = pi*mea(f) % I_c = ori, folosid fucţia quadl di MATLAB: I_a = quadl(@(x)sqrt(x+x.^(1/3)),0,1) % I_a = I_b = quadl(@(y)4./(1+y.^2),-2,3) % I_b = I_c = quadl(@(z)si(sqrt(z)),0,pi) % I_c = Folosid metoda MC: (d) x 2 y 2 dydx. x = rad(1e6,1); y = 2*rad(1e6,1)-1; f = sqrt(4-x.^2-y.^2); I_c = 2*mea(f) % I_c = ori, folosid fucţia dblquad di MATLAB: I_c = dblquad(@(x,y)sqrt(4-x.^2-y.^2),0,1,-1,1) % I_c = Exerciţiu 9.4 Folosid o metodă Mote Carlo, aproximaţi itegrala triplă (valoarea exactă este 8π 9 ) z 2 x 2 + y 2 + z 2 dxdydz, ude V = {(x, y, z) R 3 ; 0 z 4 x 2 y 2, 0 x y} V Soluţie: Se observă că 0 x, y, z 2. Geerăm aleator N valori (x, y, z) î [0, 2] [0, 2] [0, 2]. Verificăm apoi dacă valorile geerate se află î domeiul V. Aproximăm itegrala pri f (x, y, z)dxdydz vol(v )mea( f (x,y,z) V ). V N = 5e6; x = 2*rad(N,1); y = 2*rad(N,1); z = 2*rad(N,1); V = (x.^2+y.^2<=4 & 0<=y & z<=sqrt(4-x.^2-y.^2)); % domeiul V I = 2^3*mea(z.^2.*sqrt(x.^2+y.^2+z.^2).*V)) % I = *pi/9 % verificare as =

169 9.5 Exerciţii propuse 169 Exerciţiu 9.5 U băţ de lugime 30cm este rupt la îtâmplare î trei părţi, pri alegerea la îtâmplare (î mod uiform) a două pucte de ruptură. Folosid o metodă Mote Carlo, aproximaţi probabilitatea ca, folosid cele trei bucăţi obţiute, să putem forma u triughi. (probabilitatea exactă este P = 0.25). Soluţie: Puctele de ruptură alese aleator sut x 1 şi x 2. Laturile uui posibil triughi sut a, b, c. Codiţia de a forma u triughi cu ele este ca suma oricăror două să fie mai mare decât cealaltă. N=5e6; x=sort(30*rad(2,n)); % alegem aleator x1 si x2 si le ordoam a = x(1,:); b = x(2,:)-x(1,:); c = 30-(a+b); % laturile triughiului f = (a+b > c & a+c > b & b+c > a); % coditia de triughi fn = sum(f); P = fn/n % probabilitatea Figura 9.3: Băţul de lugime 30cm este rupt î trei părţi 9.5 Exerciţii propuse Exerciţiu 9.6 (paradoxul de la St. Petersburg) Să presupuem că îtr-u cazio se desfăşoară următorul joc cu u sigur jucător, pe care-l umim J. O moedă ideală este arucată iar, dacă apare faţa cu stema (S), atuci J primeşte 2 di partea casei, iar jocul cotiuă. Dacă la a doua arucare apare tot stema, atuci J primeşte 4 şi jocul cotiuă mai departe, paă câd la o arucare apare cealaltă faţă, caz î care jocul se opreşte. La fiecare ouă apariţie a feţei S, suma pe care J o avea se dublează. Dacă otăm cu X variabila aleatoare ce reprezită suma câştigată de J, atuci tabloul său de distribuţie este: ( X = ) Să se simuleze î MATLAB acest joc, precizâd la fial suma câştigată de J. (a) Care este suma medie câştigată de J la acest joc, dacă există? (b) Aceeaşi ceriţă ca la (a), î cazul î care suma câştigată la u joc este X. Exerciţiu 9.7 Folosid geerarea de umere aleatoare î MATLAB, calculaţi aria regiuii di pla petru care 1 x 1 şi 0 y x 3. Exerciţiu 9.8 Folosid o metodă Mote Carlo, aproximaţi probabilitatea ca suma puctelor obţiute la arucarea de patru ori a uui zar ideal să fie 13. (probabilitatea exactă este P = ). Exerciţiu 9.9 La u aumit cocurs, fiecare ditre cei trei arbitri acordă pucte î mod idepedet, ître 0 şi 10. Folosid o metodă Mote Carlo, aproximaţi probabilitatea ca suma puctelor obţiute să fie cel puţi 21. Exerciţiu 9.10 Timpul mediu de fuctioare al uui bec este o variabila aleatoare N (2000h, 50h). Alegem la itamplare u bec de acest tip. Care este probabilitatea ca el sa fuctioeze mai mult de 2500h? Folositi o metoda Mote Carlo de aproximare a probabilitatii. Exerciţiu 9.11 Utilizaţi metoda Mote Carlo petru a găsi aproximări petru următoarele itegrale: (a) 5 2 l(l(x))dx, (b) max{x,1 x} dx, (c) 2π 0 si(x 2 )dx.

170 170 Capitolul 9. Teste de reeşatioare Exerciţiu 9.12 Folosid o metodă Mote Carlo, (a) aflaţi volumul tetraedrului mărgiit de plaele x = 0, y = 0, z = 0 şi x + y + z = 4. (b) aproximaţi itegrala triplă (valoarea exactă este 32 3 ). π π π cos(x + y + z) dxdydz. Exerciţiu 9.13 Tabelul de mai jos coţie mediile geerale obţiute de 7 elevi de liceu care au fost trasferaţi de la u liceu la altul, i aul iaite de trasfer si i aul de dupa trasfer. Elevi A B C D E F G iaite dupa Cosideraţi variabila ce reprezită difereţa mediilor. (a) Determiaţi media de selecţie şi deviaţia stadard. (b) Folosid bootstrappig, determiaţi u iterval de îcredere petru difereţa mediilor. (c) Folosid itervalul determiat la (b), testaţi ipoteza că u este icio difereţă ître medii. Exerciţiu 9.14 U aumit medicamet petru tratarea hipertesiuii arteriale pacietul P 1 P 2 P 3 este testat pe trei volutari. Rezultatele iaite si dupa iaite admiistrarea medicametului sut cele di tabelul alăturat. dupa Folosid u test de permutări, testaţi ipoteza că admiistrarea medicametului este beefică. Care ar fi rezultatul dacă am presupue ormalitatea datelor? Ce alt test mai putem folosi petru a testa ipoteza.

171 10. Corelaţie şi regresie. [Sciece report: the divorce rate i Maie, US is highly correlated to the cosumptio of margarie.. Statisticia: Well, margarie will ot ed my marriage, as correlatio does ot imply causatio.] 10.1 Itroducere Î acest capitol vom discuta măsuri şi tehici de determiare a legăturii ître două sau mai multe variabile aleatoare. Petru lecturi suplimetare, se pot cosulta materialele [weisberg], [schaum1], [schaum2]. Primele metode utilizate î studiul relaţiilor ditre două sau mai multe variabile au apărut de la îceputul secolului al XIX-lea, î lucrările lui Legedre 1 şi Gauss 2, î ce priveşte metoda celor mai mici pătrate petru aproximarea orbitelor astrelor î jurul Soarelui. U alt mare om de ştiiţă al timpului, Fracis Galto 3, a studiat gradul de asemăare ître copii şi păriţi, atât la oamei, cât şi la plate, observâd că îălţimea medie a descedeţilor este legată liiar de îălţimea ascedeţilor. Este primul care a utilizat coceptele de corelaţie şi regresie ( (lat.) regressio - îtoarcere). Astfel, a descoperit că di păriţi a căror îălţime este mai mică decât media colectivităţii provi (î geeral) copii cu o îălţime superioară lor şi, vice-versa, di păriţi cu îălţimi peste media colectivităţii provi (î geeral) copii cu o îălţime iferioară lor. Astfel, a cocluzioat că îălţimea copiilor ce provi di păriţi îalţi tide să "regreseze" spre îălţimea medie a populaţiei. Di lucrările lui Galto s-a ispirat u studet de-al său, Karl Pearso, care a cotiuat ideile lui Galto şi a itrodus coeficietul (empiric) de corelaţie ce îi poartă umele. Acest coeficiet a fost prima măsură importată itrodusă care cuatifică tăria legăturii ditre două variabile ale uei populaţii statistice. U igrediet fudametal î studiul acestor două cocepte este diagrama pri pucte, umită diagrama scatter plot. Î probleme de regresie î care apare o sigură variabila răspus (variabila care este prezisă) şi o sigură variabilă predictor (variabila pe baza căreia facem predicţia), diagrama scatter plot (răspus vs. predictor) este puctul de plecare petru studiul regresiei. O diagramă 1 Adrie-Marie Legedre ( ), matematicia fracez 2 Joha Carl Friedrich Gauss ( ), matematicia şi fizicia germa 3 Sir Fracis Galto ( ), om de ştiiţă britaic

172 172 Capitolul 10. Corelaţie şi regresie scatter plot ar trebui reprezetată petru orice problemă de aaliză regresioală, deoarece aceasta e va da o primă idee despre ce tip de regresie vom folosi. U exemplu de astfel de diagramă este reprezetat î Figura 10.1, î care am reprezetat coeficietul de iteligeţă (IQ) a 200 de perechi soţ-soţie. Fiecare cruciuliţă di diagramă reprezită IQ-ul petru o pereche soţ-soţie. Figura 10.1: Scatter plot petru IQ î familie Corelaţie şi coeficiet de corelaţie Corelaţia este u terme statistic folosit petru a defii iterdepedeţa sau legătura ître două sau mai multe variabile aleatoare. Totodată, corelaţia este şi o metodă statistică de descriere şi aaliză a legăturilor de tip statistic ître două sau mai multe variabile. Dacă X, Y sut două variabile aleatoare ce admit medie, atuci corelaţia sau covariaţa (teoretică) ditre X şi Y se defieşte pri: cov(x, Y ) = E[(X E(X)) (Y E(Y ))] = E(X Y ) E(X) E(Y ). Observaţia 10.1 (i) Di puct de vedere teoretic, dacă X şi Y sut variabile aleatoare idepedete, atuci cov(x, Y ) = 0. Reciproca u este, î geeral, adevărată. De exemplu, dacă X U ( 1, 1) şi Y = X 2, atuci cov(x, Y ) = E(X Y ) E(X) E(Y ) = E(X 3 ) E(X) E(X 2 ) 1 ( 1 )( 1 ) = x 3 dx xdx x 2 dx = 0, îsă X şi Y = X 2 sut depedete. (ii) Î cazul î care X şi Y sut, î plus, variabile aleatoare ormal repartizate, atuci idepedeţa variabilelor aleatoare X şi Y este echivaletă cu ecorelarea lor (i.e., cov(x, Y ) = 0). O relaţie liiară ître două variabile este acea relaţie ce poate fi reprezetată cel mai bie pritr-o liie. Corelaţia detectează doar depedeţe liiare ître două variabile aleatoare. Putem avea o corelaţie pozitivă, îsemâd că X şi Y cresc sau descresc împreuă, sau o corelaţie egativă, îsemâd că X şi Y se modifică î direcţii opuse.

173 10.2 Corelaţie şi coeficiet de corelaţie 173 O măsură a corelaţiei ditre două variabile este coeficietul de corelaţie. Acesta este foarte utilizat î ştiiţe ca fiid o măsură a depedeţei liiare ître două variabile. Di puct de vedere teoretic, defiim coeficietul de corelaţie a două variabile aleatoare X şi Y pri: ρ X,Y = cov(x, Y ) σ X σ Y = cov(x, Y ), ude X şi Y sut variabilele aleatoare stadardizate iar σ X = ( E(X X) 2) 1/2 şi σy = ( E(Y Y ) 2 ) 1/2 sut deviaţiile stadard corespuzătoare variabilelor aleatoare X, respectiv Y. Propoziţie Proprietăţi ale coeficietului de corelaţie: (a) Coeficietul de corelaţie este simetric, i.e., ρ X,Y = ρ Y,X. (b) Dacă X şi Y sut idepedete, atuci ρ X,Y = 0. (c) 1 ρ X,Y 1, petru orice v.a. X şi Y. (d) Dacă Y = ax + b (a, b R, a 0), atuci { +1, dacă a > 0; ρ X,Y = 1, dacă a < 0. (e) Dacă a, b, c, d R, a, b 0, atuci ρ ax+b,cy+d = ρ X,Y. Magitudiea (valoarea absolută) coeficietului de corelaţie ρ X,Y determiă tăria relaţiei liiare ditre variabilele aleatoare X şi Y. Dacă ρ X,Y = 1, atuci X şi Y sut perfect pozitiv corelate, iar dacă ρ X,Y = 1, variabilele X şi Y vor fi perfect egativ corelate. Dacă reprezetăm grafic perechile ordoate (x, y), ele se vor afla pe o dreaptă de pată pozitivă, dacă ρ X,Y = 1, şi egativă petru ρ X,Y = 1. Corelarea u implică o cauzalitate. Cu alte cuvite, doar faptul că variabilele X şi Y sut corelate u implică faptul că X ar cauza pe Y sau ivers. Î practică, petru a stabili dacă există sau u vreo legătura ître două variabile aleatoare, se fac observaţii asupra acestora, urmâd apoi a cuatifica relaţia ditre observaţii. Fie (x k, y k ), k {1, 2,..., } u set de date bidimesioale, ce reprezită observaţii asupra vectorului aleator (X, Y ). O măsură a legăturii ditre {x k } k şi {y k } k este coeficietul de corelaţie empiric itrodus de K. Pearso (î literatura de specialitate mai este cuoscut şi sub deumirea de coeficietul r): ude r = k=1 (x k x)(y k y) (10.2.1) (x k x) 2 (y k y) 2 k=1 k=1 = cov e(x, y) s x s y, (10.2.2) cov e (x, y) = 1 1 k=1 (x k x)(y k y), s x = 1 1 k=1 (x k x) 2, s y = sut covariaţa (corelaţia) empirică şi deviaţiile stadard empirice petru X şi Y. Spre exemplu, petru selecţiile 1 1 k=1 (y k y) 2

174 174 Capitolul 10. Corelaţie şi regresie x = [ ]; y = [ ]; coeficietul r al lui Pearso este r = Asemei coeficietului de corelaţie teoretic, ρ X,Y, coeficietul r al lui Pearso ia valori doar î itervalul [ 1, 1]. Cazurile limită petru r sut r = 1 sau r = 1, cazuri î care putem trage cocluzia că variabilele X şi Y sut pozitiv, respectiv, egativ) perfect corelate (vezi Figura 10.2). Petru valori ale lui r ître 1 şi 1, u putem vorbi de gradul de corelare ître X şi Y fără a efectua u test statistic asupra valorii coeficietulul teoretic de corelaţie, ρ. De multe ori îsă, putem afirma ca avem o corelaţie pozitivă dacă r este apropiat de valoarea 1 (e.g., r = 0.85, caz î care orul de date are pata ascedetă) şi avem o corelaţie egativă dacă r este apropiat de valoarea 1 (e.g., r = 0.98, caz î care orul de date are pata descedetă). Rezultatul r = de mai sus ar putea sugera faptul că cele două selecţii sut observaţii obţiute di două variabile aleatoare ecorelate (i.e., ρ = 0), fapt ce va trebui cofirmat folosid u test statistic î care testăm ipoteza ulă ρ = 0, cu ipoteza alterativă ρ 0. Figura 10.2: Scatter plots şi coeficieţi de corelaţie Test statistic petru coeficietul de corelaţie Presupuem că avem u set de date bidimesioale (x k, y k ), k {1, 2,..., } asupra variabilelor aleatoare ormale X, Y, şi am calculat r, obţiâd o valoare r 0 apropiată de 0. Plecâd doar de la acestă iformaţie, u putem extrapola şi decide gradul de corelare ître X şi Y. Petru aceasta, vom costrui u test statistic, care va decide dacă valoarea reală a lui ρ (coeficietul teoretic de corelaţie) este 0 sau semificativ diferită de 0. Cosiderăm ipoteza ulă vs. ipoteza alterativă (H 0 ) ρ X,Y = 0 (variabilele aleatoare u sut corelate) (H 1 ) ρ X,Y 0 (variabilele aleatoare sut corelate)

175 10.2 Corelaţie şi coeficiet de corelaţie 175 Alegem u ivel de semificaţie α << 1 (e.g., α = 0.05) şi cosiderăm statistica 2 T = r 1 r 2 t( 2). Calculez valoarea statisticii T petru r = r 0 (o otăm cu T 0 ) şi, de asemeea, calculăm cuatila t 1 α 2 ; 2, de ordi 1 α 2 a repartiţiei t cu ( 2) grade de libertate. Decizia fială este următoarea: T 0 < t 1 α 2 ; 2, atuci ipoteza (H 0 ) este acceptată; T 0 t 1 α 2 ; 2, atuci ipoteza (H 0 ) este respisă. Observaţia 10.2 (i) Coeficietul lui Pearso, r, este u umăr adimesioal ce stabileşte doar dacă există o legătura liiară ître două seturi de date statistice. Totodată, î defiirea acestui coeficiet se presupue că datele statistice urmează o repartiţie ormală. De multe ori, î practică, doar coeficietul r sigur u poate fi edificator asupra tăriei legăturii ître două seturi de date statistice, ba chiar poate geera iformaţii false î cazul î care cele două seturi date u depid liiar uul de celălalt. De aceea, şi alţi coeficieţi petru determiarea corelaţiei sut luaţi î cosideraţie, cum ar fi: r 2, coeficietul de determiare (otat î Statistică pri R 2 ), care stabileşte care este procetul di variaţia ueia ditre datele statistice ce determia (sau explică) pe celelalte date. De exemplu, u coeficiet de determiare R 2 = 0.42 semifică faptul că variabila idepedetă explică doar 42% di variaţia variabilei depedete. Î Statistică, acest coeficiet este defiit î mai multe moduri, uele u tocmai îtr-u mod echivalet; coeficietul lui Spearma 4, coeficietul lui Kedall 5 etc. (acestea u presupu că datele statistice sut ormale) (ii) Se poate testa, de asemeea, ipoteza ulă îsă aceasta u este foarte des îtâlită î practică. Î acest ses, se poate utiliza statistica Z = 1 ( ) 1 + r 2 l N 1 r (H 0 ) : ρ X,Y = ρ 0, cu ρ 0 0, ( 1 2 l ( 1 + ρ0 1 ρ 0 ) 1, ). 3 (iii) Corelaţia a două variabile aleatoare u implică o cauzalitate. Cu alte cuvite, există o corelaţie ître vârstă şi îălţime la copii, îsă iciua ditre aceastea u o cauzează pe cealaltă. Corelaţia poate fi luată î evideţă petru o posibilă relaţie cauzală, îsă u este determiată şi u poate preciza relaţia cauzală, dacă această există. (iv) Volumul selecţiei este u factor foarte importat î testarea ipotezei că două variabile aleatoare sut ecorelate. Spre exemplu, o relaţie poate fi puterică (avâd u r u foarte aproape de 0), îsă u semificativă, dacă valoarea lui u este suficiet de mare. Ivers, o relaţie poate fi slabă (u r aproape de 0), dar semificativă. Exemplul (10.1) poate fi edificator. Exemplu 10.1 Să presupuem că dorim să stabilim dacă există vreo legătura ître vârstă uei persoae şi coeficietul său de iteligeţă. Pe baza a două seturi de datele asupra acestor caracteristici, de volum = 10, găsim u coeficiet de corelaţie empiric r = Se cere: (a) Este această legătură puterică? (b) Este această legătură semificativă? Soluţie: (a) Calculăm coeficietul de determiare, R 2, şi găsim R 2 = Asta semifică faptul că doar 38.44% di variaţia coeficietului de iteligeţă este explicată de vârstă. (b) Aplicăm testul petru coeficietul de corelaţie la u ivel de semificaţie α = Ipoteza ulă este (H 0 ) Nu există o corelaţie semificativă ître vârstă şi IQ. 8 Statistica cosiderată va avea 8 grade de libertate, T 0 = = < = t 0.975;8, de ude cocluzioăm că ipoteza ulă ρ = 0 este admisă (i.e., u sut dovezi suficiete petru ca ipoteza să poate fi respisă la acest ivel de semificaţie).. 4 Charles Edward Spearma ( ), psiholog britaic 5 Sir Maurice George Kedall ( ), statisticia britaic

176 176 Capitolul 10. Corelaţie şi regresie (v) Se poate testa şi ipoteza că doi coeficieţi de corelaţie ce corespud fiecare la câte două selecţii diferă semificativ uul de celălalt. Presupuem că avem de testat ipoteza vs. ipoteza alterativă (H 0 ) : ρ 1 = ρ 2, (H 1 ) : ρ 1 ρ 2. Presupuem că volumele selecţiilor folosite î testare sut 1 şi 2 şi că r 1, r 2 sut coeficieţii de corelaţie empirici calculaţi. Petru a testa ipoteza de mai sus, se foloseşte faptul că variabilele Z i = 1 ( ) l ri, i = 1, 2. 1 r i ( ( ) au o distribuţie asimptotică ormală N 12 l 1+ρi 1 1 ρ i, 3 ). Atuci, distribuţia asimptotică a statisticii Z = Z 1 Z 2 este ( ) 1 Z N µ Z1 µ Z2, , 2 3 cu µ Zi = 1 2 l ( 1+ρi 1 ρ i ), i = 1, 2. Statistica test va fi Z = Z 1 Z 2 (µ Z1 µ Z2 ) N (0, 1), Dacă z z 1 α 2, acceptăm ipoteza (H 0 ), altfel o respigem Coeficietul de corelaţie Spearma Î cazul datelor calitative, ude u se pot asocia valori umerice petru caracteristica de iteres, coeficietul de corelaţie Pearso u mai poate fi calculat. De asemeea, dacă datele u satisfac ipoteza de ormalitate, folosirea coeficietului Pearso i testarea corelaţiei ditre valori poate fi pusă sub semul îtrebării. O alterativă eparametrică a coeficietului Pearso este coeficietul de corelaţie Spearma, sau coeficietul de corelaţie a ragurilor. Acest coeficiet poate fi calculat atât petru date calitative, cât şi petru date catitative. Petru a calcula acest coeficiet, fiecărui atribut sau fiecărei valori a caracteristicii i se desemează u rag. Coeficietul de corelaţie Spearma este coeficietul de corelaţie Pearso petru aceste raguri. Coeficietul lui Spearma este utilizat î depistarea (dacă este cazul) a uei relaţii mootoe ître două variabile (fie ea liiară sau u). Acest coeficiet este mai puţi sezitiv la valorile extreme (outliers) ale seturilor de date, î sesul că valori foarte mari sau foarte mici comparativ cu altele u iflueţează valoarea coeficietului Spearma. Î geeral, dacă (x i, y i ), este u set de date bidimesioale, ale căror raguri corespuzătoare sut (x i, y i ),, atuci coeficietul de corelaţie Spearma (otat aici cu r S) este r S = k=1 (x k x )(y k y ). (10.3.3) (xk x ) 2 (y k y ) 2 k=1 k=1 La fel ca şi coeficietul lui Pearso, coeficietul Spearma ia valori reale î itervalul [ 1, 1]; valoarea 1 îsemâd corelaţie pozitivă perfectă a ragurilor, iar valoarea 1 îsemâd corelaţie egativă perfectă a ragurilor. Î cazul î care avem perechi de observaţii şi u există valori egale petru ragurile aceleiaşi variabile, atuci formula alterativă petru calcului lui r S este: 6 di 2 r S = 1 ( 2 1), (10.3.4)

177 10.4 Probleme rezolvate 177 ude d i = xi y i, i.e., difereţa ditre ragurile corespuzătoare petru poziţia i. Vezi exemplele (10.1) şi (10.2). Se poate, de asemeea, testa semificatia valorii obtiute, r S. Testul este acelasi ca i cazul semificatiei coeficietului Pearso, cu deosebirea ca r este ilocuit cu r S Probleme rezolvate Exerciţiu 10.1 Doi degustători de viuri (deumiţi D1 şi D2) au fost rugaţi să testeze 9 soiuri de vi şi să le claseze î ordiea preferiţelor. Să otăm mostrele testate cu A, B, C, D, E, F şi G. Preferiţele acestora sut cele di Tabelul 10.1, î ordiea descrescătoare a preferiţelor. Tabelul 10.2 coţie ragurile preferiţelor celor doi degustători, iar Figura 10.3 reprezită grafic ragurile (diagrama scatter plot). Mostra A B C D E F G H I D1 E B A G C H F D I D2 B E C G A H D I F Tabela 10.1: Preferiţele degustătorilor de vi. Mostra rag D1 rag D2 A 3 5 B 2 1 C 5 3 D 8 7 E 1 2 F 7 9 G 4 4 H 6 6 I 9 8 Tabela 10.2: Tabel cu ragurile preferiţelor. Di diagrama scatter plot se observă o corelaţie pozitivă ître raguri, ceea ce implică o oarecare cocordaţă ître preferiţele celor doi degustători. Coeficietul de corelaţie Spearma va atribui o valoare umerică acestei cocordaţe, aceasta fiid r S = Temă! Utilizaţi testul semelor petru a testa ipoteza că preferiţele celor doi degustători u sut semificativ diferite (α = 0.05). Figura 10.3: Scatter plot petru raguri. Există cazuri (î special petru date catitative) câd valorile caracteristicii se repetă, aşa îcât petru valori egale desemăm acelaşi rag. Î aceste cazuri u mai putem utiliza formula (10.3.4) petru calculul coeficietului Spearma, ci va trebui să utilizăm formula (10.3.3) (vezi exemplul următor). Exerciţiu 10.2 Datele di Tabelul 10.3 reprezită umărul de accidete rutiere (A) şi umărul de decese (D) îregistrate îtr-u aumit oraş, î primele 6 lui ale aului. Ragurile corespuzătoare valorilor sut prezetate î Tabelul Datele au fost itroduse î tabel î ordiea iversă a umărului de accidete. De

178 178 Capitolul 10. Corelaţie şi regresie otat că, deoarece umărul de decese îregistrate î lua Mai este egal cu umărul de decese di Aprilie, ragul petru fiecare ditre cele două lui este media celor două poziţii î care s-ar afla. Folosid formula (10.3.3), calculăm coeficietul de corelaţie Spearma. Acesta este r S = Lua Ia. Feb. Mar. Apr. Mai Iu. A D Tabela 10.3: Eveimete rutiere î primele 6 lui. Lua A rag A D rag D Ia Feb Mai = 2.5 Mar Iu Apr = 2.5 Tabela 10.4: Tabel cu ragurile petru accidete Probleme propuse Exerciţiu 10.3 Datele di tabelul următor reprezită o selecţie de observaţii asupra variabilei X. X Y 21 7 (a) Dacă petru variabilele X şi Y coeficietul de corelaţie teoretic Spearma este 1, completaţi î tabel u set de valori petru Y. (b) Aceeaşi ceriţă î cazul î care coeficietul de corelaţie teoretic Pearso este 1. Exerciţiu 10.4 Tabelul de mai jos coţie calificativele obţiute de u elev de clasa I la o selectie de 9 teste di clasa I, care au fost reluate la iceputul clasei a doua a-ii-a. Disciplie A B C D E F G H I clasa I S FB FB B B FB S B FB clasa a II-a B I B FB FB B B S B (a) Calculaţi coeficietul de corelaţie Spearma şi semificaţia lui petru calificativele obţiute î clasa I şi cele di clasa a II-a. (b) La ivelul de semificaţie α = 0.05, testaţi ipoteza că rezultatele elevului s-au îmbuătăţit î clasa a II-a Exerciţiu 10.5 Se măsoară viteza uei maşii î primele 10 secude după ce a îceput să accelereze. Datele sut îregistrate î tabelul de mai jos. t v Folosid u test statistic, verificaţi dacă t (timp) şi v (viteză) sut liiar corelate (α = 0.04). Exerciţiu 10.6 S-a realizat u studiu petru a afla dacă există vreo relaţie ître masa corporală (M) şi presiuea saguiă (P) la oamei. Următorul set de date a fost obţiut ditr-u studiu cliic, alegâd 10 persoae la îtâmplare. M P (a) Calculaţi idicele de corelaţie Pearso şi determiaţi semificaţia acestuia (α = 0.05). (b) Calculaţi idicele de corelaţie Spearma ditre M şi P. Exerciţiu 10.7 Tabelul de mai jos coţie mediile obţiute de u elev de clasa a V-a la toate discipliele şcolare, petru fiecare ditre cele două semestre. Disciplie A B C D E F G H I J semestrul I semestrul al II-a

179 10.5 Probleme propuse 179 (a) Calculaţi coeficietul de corelaţie Pearso şi testaţi semificaţia valorii obţiute. (α = 0.04) (b) Calculaţi coeficietul de corelaţie Spearma. (c) Folosid u test potrivit, testaţi ipoteza că rezultatele elevului s-au îmbuătăţit î semestrul al doilea. (α = 0.04) Exerciţiu 10.8 (a) Determiaţi coeficietul de corelaţie Pearso petru setul alăturat de date, reprezetate pri puctele albastre (fără puctul P). (b) Determiaţi coeficietul de corelaţie Spearma petru datele di figură, icluzâd puctul P. Cum explicaţi feomeul observat? Exerciţiu 10.9 U umăr de studeţi ce au frecvetat u Di f icultatea aumit curs au fost solicitaţi să îşi exprime părerea î legătură Utilitatea cu dificultatea şi atractivitatea oţiuilor prezetate. Petru fiecare variabilă, ei au avut de ales umere îtregi ditr-o scară de la 1 la 5, ude 1 reprezită clasa cea mai de jos de dificultate (respectiv atractivitate) iar 5 ivelul maxim. Datele sut prezetate î tabelul de frecveţe alăturat Sut cele două opiii corelate? Calculaţi coeficietul de corelaţie Pearso. Este semificativ? (α = 0.05) Exerciţiu Petru datele de mai jos X Y determiaţi coeficieţii de corelaţie Pearso şi Spearma. Care ditre ei este semificativ la ivelul α = 0.04?

180

181 11. Regresie. [Predictio through regressio is like drivig blidfolded,. guided by a co-pilot lookig oly at the rear widow] 11.1 Puerea problemei Regresia este o metodă statistică utilizată petru descrierea aturii relaţiei ître variabile. De fapt, regresia stabileşte modul pri care o variabilă depide de altă variabilă, sau de alte variabile. Aaliza regresioală cupride tehici de modelare şi aaliză a relaţiei ditre o variabilă depedetă (variabila răspus) şi ua sau mai multe variabile idepedete (variabile stimul). De asemeea, răspude la îtrebări legate de predicţia valorilor viitoare ale variabilei răspus porid de la o variabilă dată sau mai multe. Î uele cazuri se poate preciza care ditre variabilele de plecare sut importate î prezicerea variabilei răspus. Se umeşte variabilă idepedetă o variabilă ce poate fi maipulată (umită şi variabilă predictor, stimul sau variabilă comadată), iar o variabilă depedetă (sau variabila prezisă) este variabila care dorim să o prezicem, adică o variabilă cărei rezultat depide de observaţiile făcute asupra variabilelor idepedete. Pricipiul după care se poate obţie variabila depedetă î fucţie de variabilele idepedete este asemăător pricipiului de lucru al uei cutii egre (black box) (vezi Figura 11.1). Î aceasta cutie itră (sut îregistrate) iformaţiile x 1, x 2,..., x m, care sut prelucrate (î timpul prelucrării apar aumiţi parametri, β 1, β 2,..., β k ), iar rezultatul fial este îregistrat îtr-o sigură variabila răspus, y. De exemplu, se doreşte a se stabili o relaţie ître valoarea pesiei (y) î fucţie de umărul de ai lucraţi (x 1 ) şi salariul avut de-alugul carierei (x 2 ). Variabilele idepedete sut măsurate exact, fără erori. Î timpul prelucrării datelor sau după aceasta pot apăra distorsiui î sistem, de care putem ţie cot dacă itroducem u parametru ce să cuatifice eroarea ce poate apărea la observarea variabilei y. Se stabileşte astfel o legătură ître o variabilă depedetă, y, şi ua sau mai multe variabile idepedete, x 1, x 2,..., x m, care, î cele mai multe cazuri, are forma matematică geerală y = f (x 1, x 2,..., x m ; β 1, β 2,..., β k ) + ε, (11.1.1) ude β 1, β 2,..., β k sut parametri reali ecuoscuţi a priori (deumiţi parametri de regresie) şi ε este o perturbaţie aleatoare. Î cele mai multe aplicaţii, ε este o eroare de măsură, cosiderată modelată pritr-o variabilă aleatoare ormală de medie zero. Fucţia f se umeşte fucţie de regresie. Dacă aceasta u este cuoscută a priori, atuci poate fi greu de determiat iar utilizatorul aalizei regresioale va trebui să o ituiască sau să o aproximeze utilizâd metode de tip trial ad error (pri îcercări). Dacă avem doar o variabila idepedetă (u sigur x), atuci spuem că avem o regresie simplă. Regresia multiplă face referire la situaţia î care avem multe variabile idepedete.

182 182 Capitolul 11. Regresie Figura 11.1: Black box. Dacă observarea variabilei depedete s-ar face fără vreo eroare, atuci relaţia (11.1.1) ar devei (cazul ideal): y = f (x 1, x 2,..., x m, β 1, β 2,..., β k ). (11.1.2) Forma vectorială a depedeţei (11.1.1) este: y = f (x, β) + ε. (11.1.3) Petru a o aaliză completă a regresiei (11.1.1), va trebui sa ituim forma fucţiei f şi apoi să determiăm (aproximăm) valorile parametrilor de regresie. Î acest scop, u experimetalist va face u umăr suficiet de observaţii (experimete statistice), î urma cărora va aproxima aceste valori. Dacă otăm cu umărul de experimete efectuate, atuci le putem cotabiliza pe acestea î următorul sistem stochastic de ecuaţii: y i = f (x, β) + ε i, i = 1, 2,...,. (11.1.4) Î ipoteze uzuale, ε i sut variabile aleatoare idetic repartizate N (0, σ), idepedete stochastic două câte două (σ > 0). Astfel, sistemul (11.1.4) cu ecuaţii stochastice algebrice are ecuoscutele {β j } j=1, şi σ, î total k + 1 ecuoscute. Î cazul î care umărul de experimete este mai mic decât umărul parametrilor ce trebuie aproximaţi ( k), atuci u avem suficiete iformaţii petru a determia aproximările. Dacă = k + 1, atuci problema se reduce la a rezolva ecuaţii cu ecuoscute. Î cel de-al treilea caz posibil, > k + 1, atuci avem u sistem cu valori edetermiate. Î fucţie de forma fucţiei de regresie f, putem avea: regresie liiară simplă, î cazul î care avem doar o variabilă idepedetă şi regresie liiară multiplă, dacă f (x, β) = β 0 + β 1 x. f (x, β) = β 0 + β 1 x 1 + β 2 x β m x m. regresie liiară multiplă cu iteracţiui dacă (cazul a două variabile) f (x, β) = β 0 + β 1 x 1 + β 2 x 2 + β 11 x β 12 x 1 x 2 + β 22 x 2 2. Folosid următoarele otaţii, putem reduce regresia aterioară la ua simplă multiplă: regresie poliomială, dacă x 2 1 = x 3, x 1 x 2 = x 4, x 2 2 = x 5. f (x, β) = β 0 + β 1 x + β 2 x 2 + β 3 x β k x k. Vom avea regresie pătratică petru k = 2, regresie cubică petru k = 3 etc. regresie expoeţială, câd f (x, β) = β 0 e β 1 x. regresie logaritmică, dacă f (x, β) = β 0 log β1 x.

183 11.2 Regresie liiară simplă 183 regresie logistică f (x, β) = eβ 0+β 1 x 1 + e β 0+β 1 x. Modelele determiate de aceste fucţii se vor umi modele de regresie (curbe, suprafeţe etc). De remarcat faptul că primele patru modele sut liiare î parametri, pe câd ultimele u sut liiare î parametri. Î cadrul aalizei regresioale, se cuosc datele de itrare, {x i } i, şi căutăm să estimăm parametrii de regresie {β j } j şi deviaţia stadard a erorilor, σ. Dacă fucţia de regresie f este cuoscută (ituită), atuci metode statistice folosite petru estimarea ecuoscutelor sut: metoda verosimilităţii maxime, metoda celor mai mici pătrate şi metoda lui Bayes. Dacă f este ecuoscută, metode ce duc la estimarea ecuoscutelor sut: metoda celor mai mici pătrate sau metoda miimax Regresie liiară simplă Este cel mai simplu tip de regresie, î care avem o sigură variabilă idepedetă, x, şi variabila depedetă y. Să presupuem că i se dă familia de date bidimesioale {(x i, y i )},. Reprezetăm grafic aceste date îtr-u sistem x0y (de exemplu, vezi Figura 11.2 (a)) şi observăm o depedeţă aproape liiară a lui y de x. Dacă valoarea coeficietului de corelaţie liiară, r, este aproape de 1 sau 1 (idicâd o corelaţie liiară strâsă), atuci se pue problema stabilirii uei relaţii umerice exacte ître x şi y de forma y = β 0 + β 1 x. (11.2.5) O astfel de dreaptă o vom umi dreapta de regresie a lui y î raport cu x. Petru u set de date bidimesioale ca mai sus, putem reprezeta această dreaptă ca î Figura 11.2 (b). Figura 11.2: Aproximarea uui or de date pri dreapta de regresie. Exemplu 11.1 Te hotărăşti să cumperi maşia favorită, ce se vide acum la preţul de EUR. La semarea cotractului de vâzare-cumpărare, plăteşti suma iiţială de RON şi apoi rate luare de 650 RON, timp de 5 ai. Dacă otăm cu X umărul luilor pâă la ultima rată şi cu Y suma totală plătită pe maşiă, atuci ître X şi Y există relaţia: Y = X. Î acest exemplu, relaţia ître X şi Y este ua perfect liiară. O relaţie perfect liiară ître datele bidimesioale {(x i, y i )}, reprezetate î Figura 11.2 ar îsema că toate acestea s-ar afla pe dreapta de regresie, ceea ce u se îtâmplă. De cele mai multe ori, datele reale u urmează o astfel de relaţie perfectă (spre exemplu, rata luară poate fi ua variabilă, î fucţie de rata de schimb EUR-RON), caz î care parametrii di depedeţa liiară trebuie a fi estimaţi.

184 184 Capitolul 11. Regresie Aşadar, va trebui să ţiem cot şi de evetualele perturbaţii di sistem. Putem presupue astfel că depedeţa lui y de x este de forma y = β 0 + β 1 x + ε, (11.2.6) cu ε o variabilă aleatoare repartizată N (0, σ). Plecâd de la {x i, y i } i, ţelul ostru este să găsim o dreaptă ce se apropie cel mai mult (îtr-u ses bie precizat) de aceste date statistice. Cu alte cuvite, va trebui să estimăm valorile parametrilor de regresie β 0 şi β 1. Procedăm după cum urmează. Îlocuid datele bidimesioale î (11.2.6), avem următorul sistem: ude Deoarece y i = β 0 + β 1 x i + ε i, i = 1,, (11.2.7) ε i N (0, σ), i şi ε i sut idepedete stochastic. ε i = y i (β 0 + β 1 x i ), i = 1,, putem iterpreta ε i ca fiid erorile de aproximare a valorilor observate (y i ) cu cele prezise de dreapta de regresie (adică de valorile β 0 + β 1 x i ). Ţiâd cot că ε i N (0, σ) şi β 0, β 1 sut valori determiiste, di (11.2.7) rezultă că: y i N (β 0 + β 1 x i, σ), petru fiecare i, de ude, probabilitatea ca îtr-o sigură măsurătoare a x i să obţiem răspusul y i este P i = 1 ( σ 2π exp (y i β 0 β 1 x i ) 2 ) 2σ 2. Deoarece {ε i } i sut idepedete stochastic, probabilitatea ca î cele observaţii idepedete să obţiem vectorul de valori (y 1, y 2,,..., y ) este (fucţia de verosimilitate): ( ) 1 (y i β 0 β 1 x i ) L(β 0, β 1, σ) = P i = σ exp (2π) /2 2 2σ 2. Avem de estimat următoarele catităţi: β 0, β 1 şi σ. Petru aceasta, vom folosi metoda verosimilităţii maxime. Urmărim să găsim acele valori ale parametrilor β 0, β 1 şi σ care maximizează fucţia de verosimilitate. Aşadar, problema de maximizare este următoarea: Codiţiile de extrem (impuse petru ll) sut: ll β 0 = ll β 1 = ll σ 1 2σ 2 1 2σ 2 = σ + 1 σ 2 max L(β 0, β 1, σ). β 0,β 1,σ (y i β 0 β 1 x i ) = 0; x i (y i β 0 β 1 x i ) = 0; (y i β 0 β 1 x i ) 2 = 0. Rezolvâd primele două ecuaţii î raport cu β 0 şi β 1, obţiem estimaţiile: ude, β 1 = s xy s xx şi β0 = y β 1 x, (11.2.8) x = 1 i, y = x 1 y i, s xx = 1 1 (x i x) 2, s xy = 1 1 (x i x)(y i y).

185 11.2 Regresie liiară simplă 185 Figura 11.3: Estimarea dreptei de regresie. Astfel, găsim că dreapta de regresie a lui y î raport cu x este aproximată de dreapta: y = y β 1 x + s xy s xx x, (11.2.9) sau, altfel scrisă, y = y + s xy s xx (x x). ( ) Di ultima codiţie de extrem, găsim că o estimaţie petru dispersia σ 2 este: ˆσ 2 = 1 (y i β 0 β 1 x i ) 2. ( ) Îsă, estimaţia petru σ 2 dată pri formula ( ) este ua deplasată. Î practică, î locul acestei estimaţii se utilizează următoarea estimaţie edeplasată: σ 2 = 1 2 (y i β 0 β 1 x i ) 2. ( ) Observaţia 11.1 [1] Termiologie: dreapta de regresie, y = β 0 + β 1 x, este dreapta ce determiă depedeţa liiară a lui y de valorile lui x, petru îtreaga populaţie de date (dacă aceasta există); aproximarea dreptei de regresie (e., fittig lie), y = β 0 + β 1 x, este dreapta care se apropie cel mai mult (î sesul metodei celor mai mici pătrate) de datele experimetale (de selecţie) {x i, y i } i. Această dreaptă este o aproximare a dreptei de regresie; valorile y i se umesc valori observate, iar valorile ŷ i = β 0 + β 1 x i, i = 1, se umesc valori prezise (i = 1, ); valorile ε i = y i ŷ i = y i β 0 β 1 x i se umesc reziduuri. U reziduu măsoară deviaţia uui puct observat de la valoarea prezisă de estimarea dreptei de regresie (dreapta de fitare); suma pătratelor erorilor, errors); ε 2 i = (y i β 0 β 1 x i ) 2, se otează de obicei pri SSE (sum of squared

186 186 Capitolul 11. Regresie eroarea medie pătratică sau reziduală este MSE = SSE (mea squared error). Dupa cum se poate 2 observa di relatia ( ), MSE = σ 2 este u estimator petru dispersia erorilor, σ 2. rădăcia pătrată a MSE este σ si se umeşte eroarea stadard a regresiei; se poate demostra că SSE σ σ 2 = ( 2) 2 σ 2 χ2 ( 2). cu autorul acestei relaţii se pot găsi itervale de îcredere petru valoarea reală a lui σ 2. Î formula ( ), ( 2) reprezită umărul gradelor de libertate ale variabilei SSE. [2] Estimaţia dispersiei este o măsură a gradului de împrăştiere a puctelor (x, y) î jurul dreptei de regresie. Mai subliiem faptul că valorile di formulele (11.2.8) şi ( ) sut doar estimaţii ale parametrilor ecuoscuţi şi u valorile lor exacte. Petru pata β 1 avem următoarele formule echivalete: ude cov e (x,y) = (x i x)(y i y), s x = 1 β 1 = s xy = cov e(x,y) s y s xx s 2 = r xy, x s x (x i x) 2 1, s y = 1 (y i y) 2, r xy = cov e(x, y). s x s y [3] Dacă deviaţia stadard σ ar fi cuoscută a priori, atuci putem estima parametrii β 0 şi β 1 î următorul mod. Estimăm aceşti doi parametri pri acele valori ce realizează miimumul sumei pătratelor erorilor SSE. Vom avea astfel problema de miimizare (metoda celor mai mici pătrate): Notâd cu F(β 0, β 1 ) = F = 2 β 0 F = 2 β 1 mi β 0,β 1 (y i β 0 β 1 x i ) 2. (y i β 0 β 1 x i ) 2, codiţiile de extrem sut: (y i β 0 β 1 x i ) = 0; x i (y i β 0 β 1 x i ) = 0. Rezolvâd acest sistem de ecuaţii algebrice î raport cu β 0 şi β 1, găsim soluţiile β 0 şi, respectiv, β 1 de mai sus. Aceasta dovedeşte că, î cazul î care erorile sut idetic ormal repartizate şi idepedete stochastic, metoda verosimilităţii maxime este, î fapt, totua cu metoda celor mai mici pătrate Itervale de îcredere petru parametrii de regresie Estimaţiile petru parametrii de regresie β 0 şi β 1 depid de observaţiile folosite. Petru a decide dacă valorile calculate pe baza datelor experimetale {x i, y i } i pot fi cosiderate valorile potrivite petru îtreaga populaţie, se vor utiliza testări statistice. Mai jos, vom prezeta teste statistice cu privire la testarea valorilor ambilor parametri, β 0 şi β 1, îsă cel mai uzual test este testul petru verificarea valorii patei dreptei de regresie, β 1. Se poate dovedi (vezi [stoleriu]) că β 0 şi β 1 sut estimatori edeplasaţi petru β 0 şi, respectiv, β 1. Adică: E( β 1 ) = β 1 si E( β 0 ) = β 0. Variaţele acestor estimatori sut: ( ) σ D 2 β1 = 2 ( ) ( ) şi D 2 β0 = σ 1 s 2 xx + x2. ( ) s xx Mai mult, estimatorii β 0 si β 1 sut repartizati ormal: β 1 N ( ) σ β 1, sxx si β 0 N β 0, σ 1 + x2. s xx

187 11.2 Regresie liiară simplă 187 Ţiâd cot că estimatorii β 0 şi β 1 sut edeplasaţi, de relaţiile ( ), şi de estimatorul σ 2 petru σ 2, se poate demostra că: β 1 β 1 σ 2 t( 2) si s xx Aici, am otat pri σ catitatea: β 0 β 0 t( 2). ( ) σ 1 + s x2 xx 1 σ = 2 ( y i β 0 β 1 x i ) 2. Putem folosi aceste statistici petru a determia itervale de îcredere petru β 1 şi β 0. U iterval de îcredere petru β 1 la ivelul de semificaţie α este: σ 2 σ 2 β1 t 1 α 2 ; 2, β1 + t s 1 α xx 2 ; 2. ( ) s xx U iterval de îcredere petru β 0 la ivelul de semificaţie α este: β0 t 1 α 2 ; 2 σ 1 + x2, β0 + t s 1 α xx 2 ; 2 σ 1 + x2. ( ) s xx Observaţia 11.2 Î geeral, dispersia σ 2 a erorilor de regresie u este cuoscută a priori. Î cazul î care aceasta este cuoscută, atuci î loc de ( ) am avea: β 1 β 1 N (0, 1), şi s xx σ 2 β 0 β 0 N (0, 1). ( ) σ 1 + s x2 xx Î acest caz, itervalele de îcredere petru β 0 şi β 1 vor fi similare cu cele di relaţiile ( ) şi ( ), cu difereţa că t 1 α 2 ; 2 este îlocuit pri z 1 α. Oricum, petru suficiet de mare, valorile t 2 1 α 2 ; 2 şi z 1 α sut foarte apropiate Test statistic petru β 1 (pata dreptei de regresie) Prezetăm aici testul ce verifică dacă β 1 ia o valoare dată β 10 sau u, la u ivel de semificaţie α. Acest test este mai des folosit decat testul petru β 0. Dispersia erorilor de regresie este ecuoscută. Testăm (H 0 ) : β 1 = β 10 versus (H 1 ) : β 1 β 10. Cosiderăm statistica T = β 1 β 1, σ 2 s xx care urmează repartiţia t( 2). Etapele testului sut următoarele: Calculăm valoarea observată T 0 = β 1 β 10. σ 2 s xx Calculăm cuatila de ordi 1 α 2 petru repartiţia t cu ( 2) grade de libertate, t 1 α 2 ; 2 ; Dacă T 0 < t 1 α 2 ; 2, atuci acceptăm ipoteza (H 0 ); Dacă T 0 t 1 α 2 ; 2, atuci acceptăm ipoteza (H 1 );

188 188 Capitolul 11. Regresie Observaţia 11.3 (1) O ipoteză alterativă poate fi cosiderată şi ua ditre următoarele: (H 1 ) s : β 1 < β 10, (H 1 ) d : β 1 > β 10. (2) Testul cel mai popular petru β 1 este petru ipoteza ula (H 0 ) : β 1 = 0 (i.e., β 10 = 0). Ipoteza alterativă β 1 0 reprezita faptul că ître x şi y există o depedeţă liiară. Cu alte cuvite, testul (H 0 ) : β 1 = 0 vs. (H 1 ) : β 1 0 verifică semificaţia patei dreptei de regresie. Dacă ipoteza ulă este respisă, atuci pata dreptei este semificativă (i.e., semificativ diferită de zero) Test statistic petru β 0 Mai jos prezetăm testul ce verifică dacă β 0 ia o valoare dată β0 sau u, la u ivel de semificaţie α. Dispersia erorilor de regresie este ecuoscută. Testăm (H 0 ) : β 0 = β0 versus (H 1 ) : β 0 β0. Cosiderăm statistica T = β 0 β 0 t( 2), 1 σ + s x2 xx care urmează repartiţia t( 2). Etapele testului sut următoarele: Calculăm valoarea observată β 0 β0 T 0 = t( 2). 1 σ + s x2 xx Calculăm cuatila de ordi 1 α 2 petru repartiţia t cu ( 2) grade de libertate, t 1 α 2 ; 2 ; Dacă T 0 < t 1 α 2 ; 2, atuci acceptăm ipoteza (H 0 ); T 0 t 1 α 2 ; 2, atuci acceptăm ipoteza (H 1 ); Observaţia 11.4 De asemeea, teste uilaterale pot fi cosiderate şi î cazul testării valorii lui β 0. Î cazul î care σ 2 este cuoscut a priori atuci, graţie relaţiilor ( ), putem utiliza testul Z petru testarea ipotezelor de mai sus, atât petru β 0, cât şi petru β Predicţie pri regresie Î aumite cazuri, putem folosi regresia î predicţia uor valori ale variabilei depedete. De exemplu, putem prezice temperatura îtr-u aumit oraş plecâd de la observaţiile temperaturilor di oraşele îveciate. Regresia poate fi utilizată petru predicţie după cum urmează. Să presupuem ca datele pe care le deţiem, {(x i, y i )},, pot fi modelate de o dreaptă de regresie de forma (11.2.5). Dat fiid o valoarea x p ce u se află pritre valorile x i, dar este o valoare cuprisă ître valorile extreme ale variabilei idepedete, x mi şi x max, dorim să prezicem valoarea răspus, y p = β 0 + β 1 x p + ε p. Dacă β 0 şi β 1 sut estimaţiile petru parametrii de regresie β 0, respectiv, β 1, atuci valoarea prezisă petru y p petru u x p observat va fi o valoare ŷ p de pe dreapta de regresie, dată de formula: ŷ p = β 0 + β 1 x p. ( ) Se poate demostra ca statistica Ŷ p asociata acestei valori urmeaza o repartitie ormala, Ŷ p N β0 + β 1 x p, σ (x p x) 2. s xx

189 11.3 Predicţie pri regresie 189 O predicţie petru itervalul de îcredere corespuzător lui y petru u x p dat, la ivelul de semificaţie α (x p [x mi, x max ]) este: ŷ p t 1 α 2 ; 2 σ (x p x) 2, ŷ p + t s 1 α xx 2 ; 2 σ (x p x) 2 s xx. ( ) Observaţia 11.5 (1) De otat faptul că este foarte importat ca x p să fie o valoare cuprisă ître x mi şi x max. Dacă se foloseşte formula ( ) şi petru valori ale lui x î afara rage-ului valorilor predictor petru x, atuci erorile de de aproximarea a lui y cu ŷ p pot fi foarte mari. De exemplu, dacă î Figura 11.4 (a) am folosi doar primele 9 petru a costrui u model de regresie, atuci acesta poate fi utilizat doar petru predicţia valorilor variabilei y petru orice x î acest rage, i.e. x [0, 10]. Dacă, folosid dreapta de regresie găsită aterior, am îcerca o predicţie petru x = 19, atuci am găsi că ŷ(19) 10, pe câd valoarea observată este y(19) 6.5, ceea ce determiă o eroare foarte mare de aproximare. Mai mult, dacă ţiem cot şi de următoarele valori observate (vezi Figura 11.4(b)), atuci curba de regresie pare să u fie o dreaptă. Petru estimarea de valori viitoare ale variabilei depedete folosid valori ale variabilelor idepedete Figura 11.4: Predicţie pri extrapolare. ce ies di rage se utilizează termeul de progoză (e., forecastig). Aceasta este folosită des î aaliza seriilor de timp. (2) Valoarea prezisă ŷ p u este ua stabilită cu exactitate, ci este doar o medie aşteptată a valorilor lui y petru u x p dat. Î cazul î care R 2 = 1 (coeficietul de determiare), atuci valoarea petru y va fi prezisă fără eroare, deoarece toate puctele se află pe dreapta de regresie. Î geeral, puctele bidimesioale (x, y) se află împrăştiate î jurul dreptei de regresie. (3) Valoarea ŷ p este determiată doar pe baza selecţiei date, de aceea, petru a verifica dacă această valoare poate fi extrapolată la îtreaga populaţie este evoie de ifereţă statistică (test statistic). Prezetăm, î cotiuare, u test ce compară valoarea ŷ p cu o costată dată. Testăm (H 0 ) ŷ p = y 0 versus (H 1 ) ŷ p y 0. Etapele testului sut următoarele: Estimăm ŷ p utilizâd formula ( ). Cosiderăm statistica T = σ ŷ p y (x p x) 2 s xx t( 2); Calculez valoarea T 0 = σ ŷ p y (x p x) 2 s xx ;

190 190 Capitolul 11. Regresie Dacă Dacă T 0 < t 1 α 2 ; 2, atuci acceptăm ipoteza (H 0 ); T 0 t 1 α 2 ; 2, atuci acceptăm ipoteza (H 1 ); (4) Î cocluzie, regresia este o uealtă dibace petru predicţie. Uii ecoomişti au utilizat-o cu succes si au prezis chiar 10(!) ditre ultimele... 2 recesiui! Observaţia 11.6 Pâă acum am văzut cum putem estima valoarea lui y folosid pe x. Î uele cazuri, putem iversa rolurile lui x şi y, şi putem vorbi astfel de regresie a lui x î raport cu y. De exemplu, î Exerciţiul 11.1 am putea estima otele la Probabilităţi î fucţie de otele la Statistică. Formulele obţiute petru dreapta de regresie a lui x î raport cu y sut cele găsite aterior petru dreapta de regresie a lui y î raport cu x, î care rolurile lui x şi y sut iversate Validitatea modelului de regresie liiara simpla Presupuem ca X si Y sut doua variabile de iteres, petru care se doreste a determia o relatie liiara de forma Y = β 0 + β 1 X + ε. Petru a determia oportuitatea uei astfel de legaturi, se culeg date relativ la aceste variabile. Cosiderăm că aceste observaţii sut {(x i, y i )},. Pe baza acestor date se poate aproxima dreapta de regresie liiara (daca exista) astfel: Y = β 0 + β 1 X, ude: β1 = s xy s xx şi β0 = y β 1 x, x = 1 i, y = x 1 y i, s xx = (x i x) 2, s xy = (x i x)(y i y). Petru a verifica daca modelul de regresie liiara este uul valid, se pot folosi mai multe metode, ditre care amitim cele mai uzuale: coeficietul de determiare R 2. Acest coeficiet se calculează folosid următoarea formulă: ude R 2 = 1 SSE SST, ( ) SSE = (y i ŷ) 2 = (y i β 0 β 1 x i ) 2, SST = (y i y) 2. Aici, SST reprezită suma totală a pătratelor the total sum of squares. Î aaliza regresioală, coeficietul R 2 este o statistica folosită î a determia cât de bie pot fi estimate valorile lui y pe baza modelului de regresie. Valorile lui R 2 sut ître 0 si 1 şi, petru a avea u model destul de bu, ar fi ecesar u coeficiet de determiare aproape de 1. Totuşi, este posibil ca R 2 să aibă valori mai mari ca 1 î cazul î care modelul de regresie u este uul liiar. Î cazul regresiei liiare simple, R 2 = r 2, adică pătratul coeficietului de corelaţie Pearso. grafice: y i vs. x i : Di aceasta figura (scatter plot) e putem da seama de oportuitatea modelarii datelor observate folosid u model de regresie liiara simpla. Această figură ar trebui făcută îaite de aproximarea dreptei de regresie. Petru a putea utiliza u model de regresie liiara simpla, valorile reprezetate ar trebui sa fie apropiate de o aumita dreapta (vezi Figura 11.6). grafic ce idică ormalitatea reziduurilor ε i : Acesta poate fi realizat i MATLAB cu ajutorul comezii ormplot. Acest grafic reprezita probabilitatile de ormalitate ale erorilor versus cuatilele de la N (0, 1). Daca modelul este valid, atuci valorile reprezetate i figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi al doilea grafic di Figura 11.10). ŷ i vs. y i : Daca modelul este valid, atuci valorile reprezetate i figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi primul grafic di Figura 11.10).

191 11.5 Regresie liiara multipla 191 ε i vs. x i : Daca modelul este valid, atuci valorile reprezetate i figura u ar avea icio tedita clara (e.g., vezi ultimul grafic di Figura 11.10). ε i vs. y i : Daca modelul este valid, atuci valorile reprezetate i figura u ar avea icio tedita clara (e.g., vezi ultimul grafic di Figura 11.10). I graficele aterioare, i loc de reziduurile ε i, pot fi realizate grafice petru reziduurile stadardizate, ε i = ε i s εi = σ ε i (x p x) 2 s xx test de utilitate a modelului: Se testeaza ipoteza (H 0 ) : β 1 = 0 vs. ipoteza (H 1 ) : β 1 0. Dupa cum am vazut mai sus, acceptarea ipotezei alterative idica faptul ca modelul liiar simplu este valid. test petru semificaţia parametrilor modelului: Putem testa o valoare aume a patei dreptei de regresie folosid ipoteza ulă (H 0 ) : β 1 = β 10 vs. ipoteza alterativă (H 1 ) : β 1 β 10. Pata dreptei de regresie este importată î a determia magitudiea variaţiei variabilei răspus la o variaţie de o uitate a variabilei stimul. Î uele programe specifice aalizei statistice (e.g., SPSS), rezultatul testului este reprezetat de o valoare sig pe care softul o afiseaza. Aceasta valoare este, i fapt, valoarea critica P v (probabilitatea de a respige ipoteza ula cad aceasta este adevarata). La u ivel de semificatie α dorit de utilizator, ipoteza ula va fi respisa daca sig < α. Daca ipoteza ula este respisa, atuci valoarea testata (β 10 ) este semificativa si poate fi utilizata i calculele ulterioare. Daca sig > α, atuci valoarea β 10 este esemificativa si acceptam ipoteza ca, i realitate, β 1 = 0, ceea ce idica faptul ca modelul de regresie liiara simpla u este potrivit petru datele observate. Ce este de facut daca modelul de regresie liiara simpla u este uul valid? Este posibil ca Y sa u depida liiar de X. Acest fapt poate fi observat de la iceput, di diagrama scatter plot ce reprezita y i vs. x i. Petru modele eliiare, se poate icerca o trasformare a variabilelor X si Y astfel icat modelul liiar petru variabilele trasformate sa fie uul aplicabil (u merge itotdeaua). Spre exemplu, vezi Exercitiul 11.3, i care am determiat o regresie liiara itre variabilele l(y ) si X. Se poate itampla ca reziduurie ε i sa prezite o depedita clara de x i (fapt ce poate fi observat ditr-o reprezetare ε i vs. x i ), asadar aplicabilitatea modelului de regresie liiara este ioportua. Faptul ca ε i u au toate o aceeasi dispersie σ 2 se umeste heteroscedasticitate (proprietate opusa homoscedasticitatii). Daca reziduurile u sut ormale (se observa di diagrama ormplot( ε i ), evetual, se poate apela la u test de ormalitate), modelul liiar de regresie u este oportu. Exista posibilitatea ca datele observate {(x i, y i )}, sa cotia valori aberate (outliers). Este importat de a itelege aceste valori si, i caz ca u sut semificative, pot fi sterse di setul de date care este supus aalizei de regresie. I multe cazuri, o sigura variabila predictor (X) u poate explica de ua sigura variabila Y, cazuri i care se apeleaza la o regresie multipla (se iau i cosiderare si alte variabile predictor) Regresie liiara multipla Regresia multipla ia i cosiderare cel puti doi predictori petru a determia valorile uei variabile de iteres Y. I cotiuare, vom cosidera cazul uui umar de k predictori idepedeti, otati X 1, X 2,..., X k. Petru o variabila de iteres Y se doreste a determia o relatie liiara (u hiperpla) de forma Y = β 0 + β 1 X 1 + β 2 X β k X k + ε, ( ) ude β j ( j = 1, ) sut iste costate reale, ε N (0, σ) (eroarea). Petru u j fixat, coeficietul β j reprezita variatia i variabila Y rezultata i urma variatiei predictorului X j cu o uitate, i timp ce ceilalti predictori sut metiuti la valori fixate. Petru a determia oportuitatea uei astfel de legaturi, se culeg date relativ la aceste variabile. Fie aceste observatii {(x 1i, x 2i,..., x ki, y i )},, ude x ji deota observatia de rag i petru variabila X j, petru fiecare j = 1, k si i = 1,. Petru u model bu de regresie este ecesar u umăr suficiet de mare de observaţii.

192 192 Capitolul 11. Regresie Volumul de observaţii ar trebui să fie mai mare (ueori mult mai mare) decât umărul de parametri ce urmează a fi estimaţi (k + 2 parametri, β i şi σ). Pe baza acestor date se poate aproxima suprafata de regresie liiara (daca exista, pri metoda celor mai mici patrate sau pri metoda verosimilitatii maxime) astfel: Y = β 0 + β 1 X 1 + β 2 X β k X k, ( ) ude β j ( j = 1, ) sut estimatori petru parametrii reali β j. Similar cu cazul regresiei liiare simple, vom avea: (Hiper)suprafaţa y = β 0 + β 1 x 1 + β 2 x β k x k este aproximarea suprafetei de regresie, (e., fittig surface), este suprafata care se apropie cel mai mult (î sesul metodei celor mai mici pătrate) de datele experimetale. Această suprafata este o aproximare a suprafetei de regresie; valorile y i se umesc valori observate, iar valorile ŷ i = β 0 + β 1 x 1i + β 2 x 2i β k x ki, i = 1,, se umesc valori prezise (i = 1, ); valorile ε i = y i ŷ i se umesc reziduuri. U reziduu măsoară deviaţia uui puct observat de la valoarea prezisă de estimarea dreptei de regresie (dreapta de fitare). Se presupue ca aceste reziduuri sut idepedete itre ele si sut repartizate N (0, σ); suma pătratelor erorilor, ε 2 i = (y i ŷ) 2 = (y i β 0 β 1 x 1i β 2 x 2i... β k x ki ) 2, se otează de obicei pri SSE (sum of squared errors); eroarea medie pătratică sau reziduală este MSE = SSE (mea squared error). k 1 statistica MSE = σ 2 este u estimator petru dispersia erorilor, σ 2. rădăcia pătrată a MSE este σ si se umeşte eroarea stadard a regresiei; se poate demostra că SSE σ σ 2 = ( k 1) 2 σ 2 χ2 ( k 1). cu autorul acestei relaţii se pot găsi itervale de îcredere petru valoarea reală a lui σ 2. Î formula ( ), ( k 1) reprezită umărul gradelor de libertate ale variabilei SSE. I Figura 11.5 sut afisate rezultatele uui model de regresie multipla pri care se doreste a se explica ota uui studet la exameul de Algebra pe baza rezultatelor la trei teste aterioare exameului. Asadar, aici predictorii sut rezultatele la teste, T 1, T 2, si T 3 si variabila prezisa este ota la exame. Tabelul afiseaza estimarile parametrilor β 0, β 1, β 2 si β 3, deviatiile stadard corespuzatoare acestor estimatori, statisticile test petru semificatiile valorilor obtiute si valorile critice P v = sig petru fiecare parametru. Ispectad valorile petru sig, observam ca, la ivelul de semificatie α = 0.05, valoarea afisata petru β 0 (costata) u este semificativa, pe cad celelalte trei valori sut semificative. Figura 11.5: Exemplu de rezultate petru u model de regresie multipla cu 3 predictori.

193 11.6 Validitatea modelului de regresie liiară multiplă Test statistic petru semificaţia coeficieţilor de regresie multiplă, β i Mai jos prezetăm testul ce verifică dacă β i (i este u idice fixat ître 1 şi k) este semificativ, la u ivel de semificaţie α. Testăm (H 0 ) : β i = 0 versus (H 1 ) : β i 0. Cosiderăm statistica Etapele testului sut următoarele: Calculăm valoarea observată a statisticii T, T = β i s βi t( k 1), T 0 = β i s βi, ude s βi = σ 2 (x ki x k ) 2. Calculăm cuatila de ordi 1 α 2 petru repartiţia t cu ( k 1) grade de libertate, t 1 α 2 ; k 1 ; Dacă T 0 < t 1 α 2 ; k 1, atuci acceptăm ipoteza (H 0 ); T 0 t 1 α 2 ; 2k 1, atuci acceptăm ipoteza (H 1 ); 11.6 Validitatea modelului de regresie liiară multiplă Petru a verifica daca modelul de regresie liiara multipla este uul valid, se pot folosi mai multe metode, pritre care amitim cele mai uzuale: coeficietul de determiare R 2. Acest coeficiet se calculează folosid următoarea formulă: ude R 2 = 1 SSE SST, ( ) SSE = (y i β 0 β 1 x 1i β 2 x 2i... β k x ki ) 2, SST = (y i y) 2. Aici, SST reprezită suma totală a pătratelor the total sum of squares. Valorile lui R 2 sut ître 0 si 1 şi, petru a avea u model destul de bu, ar fi ecesar u coeficiet de determiare aproape de 1. coeficietul ajustat de determiare, ad jr 2. Î cazul î care valorile prezise ŷ i sut obţiute pri metoda celor mai mici pătrate, statistica R 2 este o fucţie crescătoare de umărul de variabile idepedete di model. Astfel, există posibilitatea de a creşte ilegitim valoarea lui R 2 pri adăugarea de oi variabile idepedete î aaliza de regresie, fapt care u duce eapărat la u model mai bu. Di acest motiv, au fost itroduşi coeficieţi suplimetari. Uul ditre aceştia este coeficietul adj R 2, care pealizează itroducerea de oi variabile idepedete î model. Acesta are formula adjr 2 = 1 (1 R 2 1 ) k 1 = R2 (1 R 2 k ) k 1, ude este volumul datelor şi k este umărul de variabile idepedete î modelul liiar (fără a cosidera costata). Valoarea lui adj R 2 este cel mult egală cu valoarea lui R 2, atigâd u maxim î cazul î care umărul de variabile explicative (idepedete) este optim. Iterpretarea coeficietului adj R 2 este diferită de cea a lui R 2. Coeficietul ajustat este o măsură a gradului de potrivire a umărului de variabile idepedete petru model. grafic ce idică ormalitatea reziduurilor ε i : Acesta poate fi realizat i MATLAB cu ajutorul comezii ormplot. Acest grafic reprezita probabilitatile de ormalitate ale erorilor versus cuatilele de la N (0, 1). Daca modelul este valid, atuci valorile reprezetate i figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi al doilea grafic di Figura 11.10). ŷ i vs. y i : Daca modelul este valid, atuci valorile reprezetate i figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi primul grafic di Figura 11.10).

194 194 Capitolul 11. Regresie ε i vs. y i : Daca modelul este valid, atuci valorile reprezetate i figura u ar avea icio tedita clara (e.g., vezi ultimul grafic di Figura 11.10). test de utilitate a modelului: Se testeaza ipoteza (H 0 ) : β 1 = β 2 =... = β k = 0 vs. ipoteza (H 1 ) : macar u coeficiet β j 0. Acceptarea ipotezei alterative idica faptul ca modelul liiar multiplu este valid. Statistica test ests: ude F = R 2 /k (1 R 2 )/( k 1) = MSR MSE, MSR = SSR k, SSR = SST SSE. Petru o valoare observata F 0 f 1 α 2 ;k, k 1, respigem ipoteza ula Alte tipuri de regresie Regresie poliomiala O regresie poliomiala simpla de ordi k este de forma: Y = β 0 + β 1 X + β 2 X β k X k + ε. ( ) Folosid urmatoarele otatii, putem reduce regresia poliomiala la ua simpla multipla X 1 = X, X 2 = X 2,..., X k = X k. Iterpretarile coeficietilor β j i cazul uei regresii poliomiale u se mai potrivesc cu cele ale coeficietilor di cazul regresiei multiple, fiid greu de determiat. Regresie multiplă cu iteractiui O regresie multiple cu iteractiui de ordi 2 este de forma: Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + β 4 X β 5 X ε. ( ) Folosid urmatoarele otatii, putem reduce regresia aterioara la ua simpla multipla X 1 X 2 = X 3, X 2 1 = X 4, X 2 2 = X 5. Regresie logistică Fie Y o variabila de tip Beroulli, adica Y poate lua doar doua valori, sa zicem ca acestea sut 0 si 1, cu P(Y = 1) = p si P(Y = 0) = q = 1 p. Spre exemplu, variabila Y reprezita decizia ca o aumita masia sa aiba evoie de revizie. Valoarea Y = 0 reprezita NU si Y = 1 reprezita DA. Astfel, p reprezita probabilitatea ca masia sa ecesite revizie. I geeral, aceasta probabilitate depide de mai multi factori, spre exemplu: X 1 = umarul de km parcursi, X 2 = vechimea masiii, X 3 = timpul scurs de la ultima revizie. Petru simplitate, sa e limitam doar la acesti trei factori. Isa, este clar, probabilitatea p u poate depide liiar de acesti factori, si ici alta forma de regresie studiata paa acum u poate fi aplicata. Motivul este simplu: daca am presupue ca p = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ε, atuci exista posibilitatea ca membrul di dreapta sa u apartia itervalului [0, 1]. I cosecita, este evoie de o oua depedeta a probabilitatii p de acesti predictori. U exemplu potrivit este cel dat de fuctia logit, i.e., f (x) = ea+bx. Vom cosidera urmatorul model de regresie: 1+e a+bx p = eβ 0+β 1 X 1 +β 2 X 2 +β 3 X e β 0+β 1 X 1 +β 2 X 2 +β 3 X 3, ( )

195 11.8 Fucţii MATLAB specifice corelaţiei şi regresiei 195 umit regresie logistica multiplă. Î cazul uei sigure variabile idepedete, X, regresia se va umi regresie logistica. Di relatia ( ), obtiem: p 1 p = eβ 0+β 1 X 1 +β 2 X 2 +β 3 X 3. p Expresia se umeste cota de realizare a eveimetului. De exemplu, daca p = 0.25, atuci cota 1 p este de 1 : 3 ca masia sa aiba evoie de reparatii (i.e., o sasa di patru i favoarea reparatiilor). Pri logaritmare, gasim ca ( ) p l = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3. ( ) 1 p Astfel, modelul poate fi privit ca u model de regresie liiara multipla. Pe baza observatiilor se determia estimatori petru parametri, iar pe baza acestor estimatori se estimeaza probabilitatea p Fucţii MATLAB specifice corelaţiei şi regresiei Fie X şi Y doi vectori de acelaşi tip. Următoarele fucţii di MATLAB sut utile petru aaliza corelaţiei şi regresiei: scatter(x,y) reprezită grafic valorile lui Y vs. valorile lui X; R = corrcoef(x,y) calculează coeficietul de corelaţie ître X şi Y. Rezultatul este afişat sub forma: >> as = ρ ρ ude este coeficietul de corelaţie ditre X şi X, respectiv Y şi Y, iar ρ este coeficietul căutat. cov(x,y) petru matricea de covariaţă empirică ditre X şi Y (formula (3.3.2)); Fucţia cov(x,y,1) este tot matrice de covariaţă, îsă î acest caz formula folosită coţie factorul 1 î faţa sumei. b = regress(y,x) afişează estimarea coeficieţilor petru care Y = b X. Aici, X este o matrice k şi Y u vector coloaa 1. Coloaele vectorului X corespud observaţiilor (i.e., variabilelor idepedete). Dacă X este u vector coloaă de aceeaşi dimesiue cu Y, atuci b este doar u scalar. Dacă X este matrice, atuci putem folosi această comadă petru a estima coeficieţii de regresie liiară multiplă. Spre exemplu, să presupuem că se doreşte estimarea coeficieţilor de regresie liiară simplă, i.e., β 0 şi β 1 petru care y = β 0 + β 1 x, ude petru fiecare ditre x şi y avem observaţii. Î acest caz, k = 2. Fie X, respectiv, Y vectorii ce coţi aceste observaţii. Comada MATLAB care estimează cei doi coeficieţi este B = regress(y, [oes(,1) X]) Comada furizează aproximări petru parametrii β 0 şi β 1 ce fac următoarea aproximare cât mai buă: y 1 1 x 1 y 2 1 x 2. y β β 1. x. p = polyfit(x,y,) găseşte coeficieţii uui poliom p(x) de grad ale cărui valori p(x i ) se apropie cel mai mult de datele observate y i, î sesul celor mai mici pătrate. MATLAB va afişa î acest caz u vector liie de lugime + 1, coţiâd coeficieţii poliomiali î ordiea descrescătoare a puterilor. Spre exemplu, dacă atuci MATLAB va afişa p(x) = β x + β 1 x β 2 x 2 + β 1 x + β 0, β, β 1,..., β 2, β 1, β 0.

196 196 Capitolul 11. Regresie Y = polyval(p,x) afişează valorile uui poliom p(x) petru valorile di vectorul X. Poliomul p(x) este dat pri coeficieţii săi, ordoaţi î ordie descrescătoare a puterilor. De exemplu, dacă p(x) = 3x 2 + 2x + 4 şi dorim să evaluăm acest poliom petru trei valori, 3, 1 şi 5, atuci scriem î MATLAB: p = [3 2 4]; polyval(p,[-3 1 5]) obţiâd rezultatul: as =

197 11.9 Probleme rezolvate Probleme rezolvate Exerciţiu 11.1 Dorim să determiăm dacă există vreo corelaţie ître otele la exameul de Probabilităţi şi cele de la Statistică obţiute de studeţii uui a de studiu. Î acest ses, au fost observate otele obţiute de 10 studeţi la aceste două disciplie şi au fost trecute î Tabelul 11.1 de mai jos. Se cere: (a) Stabiliţi dacă există o legătură puterică ître aceste ote (r şi r 2 ); (b) Determiaţi dreapta de regresie a otelor de la Statistică î raport cu otele la Probabilităţi şi deseaţi-o î acelaşi sistem de axe ca şi otele obţiute (scatter plot). (c) Testaţi dacă există sau u vreo corelaţie ître otele de la Statistică şi Probabilităţi. Studet A B C D E F G H I J Probabilităţi Statistică Tabela 11.1: Notele la Statistică şi Probabilităţi. Soluţie: (a) Calculăm r cu formula (10.2.1). Fucţia Matlab petru coeficietul Pearso este corrcoef. Î codul MATLAB de mai jos l-am calculat pe r folosid această fucţie, dar şi î două alte modalităţi, folosid formula (10.2.2) sau scriid desfăşurat expresia lui r. (b) Coeficieţii de regresie se pot obţie î 3 moduri, fie folosid fucţia MATLAB polyfit, care realizează fitarea datelor cu u poliom, î cazul liiar fiid u poliom de forma S(P) = β 0 + β 1 P. O altă variată de calcul a coeficieţilor β 0 şi β 1 este simpla implemetare î MATLAB a formulelor petru aceştia. A treia variată este folosirea fucţiei regress di MATLAB. Reprezetarea grafică a datelor poate fi realizată folosid ori fucţia plot, ori fucţia "scatter", ambele fucţii predefiite di MATLAB. Graficul este cel di Figura P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32]; mp = mea(p); ms = mea(s); %%%~~~~~~~~~~~~~ Calculez coeficietul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~ CC = corrcoef(p,s); r = CC(1,2) %%%~~~~~~~~~~~~~~~~~~~~ Alte variate de calcul petru r ~~~~~~~~~~~~~~~~~~~~~~~~~~ % C = cov(p,s)/(std(p)*std(s)); r = C(1,2); % r = sum((p-mp).*(s-ms))/sqrt(sum((p-mp).^2)*sum((s-ms).^2)); %%%~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficietii de regresie ~~~~~~~~~~~~~~~~~~~~~ B = polyfit(p,s,1) %%%~~~~~~~~~~~~~~~~~~ Alte variate de calcul petru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % b1 = sum((p-mp).*(s-ms))/sum((p-mp).^2); b0 = ms - b1*mp; % B = regress(s',[p;oes(10,1)']'); %%%~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:100; plot(p,s,'*',x,b(2) + B(1)*x,'r-') % scatter(p,s) % variata petru scatter plot %%%~~~~~~~~~~~~~~~~~~~~~~ Testul petru ρ = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ alpha = 0.05; = 10; T0 = r*sqrt((-2)/(1-r^2)); quat = tiv(1-alpha/2,-2); if (abs(t0) < quat) disp('p si S u sut corelate') else disp('p si S sut corelate') ed Rulâd codul de mai sus, obţiem: r = B = P si S sut corelate

198 198 Capitolul 11. Regresie Figura 11.6: Notele şi dreapta de regresie. Exerciţiu 11.2 Progoza spue că temperatura îtr-o aumită zoă mutoasă descreşte cu cca. 6 C la fiecare 1km câştigat î îălţime. Petru o verificare, au fost măsurate simulta temperaturile î 10 localităţi diferite di acea zoă, acestea fiid îregistrate î Tabelul Dacă temperatura se presupue a fi o fucţie h i T i Tabela 11.2: Tabel cu temperaturi (T i ) la diverse altitudii (h i ). liiară (regresie liiară) de altitudie, se cere: (i) Să se estimeze parametrii β 0 şi β 1 ; (ii) Să se testeze (α = 0.05) dacă progoza di euţ este adevarată (i.e., β 1 = 0.006); (iii) Să se găsească u iterval de îcredere petru pata dreptei de regresie, β 1 ; (iv) Cât de buă este aproximarea temperaturii cu o fucţie liiară de altitudie? (v) Estimaţi temperatura la altitudiea h = Găsiţi, de asemeea, u iterval de îcredere petru aceasta temperatură. Figura 11.7: Diagrama de temperaturi î fucţie de altitudie, şi dreapta de regresie.

199 11.9 Probleme rezolvate 199 Soluţie: (i) Estimăm parametrii ecuoscuţi folosid formulele (11.2.8) sau folosid fucţia MATLAB polyfit (vezi codul de mai jos). (ii) Petru testarea ipotezei ule (H 0 ) : β 1 = utilizăm testul di Secţiuea (iii) U iterval de îcredere petru β 1 se poate calcula folosid formula ( ). (iv) Petru a decide cât de buă este aproximarea, calculăm coeficietul de determiare, R 2. Acesta este R 2 = 94.83, ceea ce îseamă că temperatura reală este foarte aproape de cea progozată. (v) Utilizăm formulele ( ) şi ( ), petru x p = (vezi rezultatele codului de mai jos) Codul MATLAB este următorul: h = [ ]; T = [ ]; mh = mea(h); mt = mea(t); %%%~~~ Calculez coeficietul de corelatie empiric si coeficietul de determiare ~ CC = corrcoef(h,t); r = CC(1,2) R2 = r^2 %%%~~~~~~~~~~~~~~~~~ Calculez coeficietii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(h,t,1) %%%~~~~~~~~~~~~~~~~~~ Alte variate de calcul petru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~ % B = regress(t',[h;oes(10,1)']'); % b1 = sum((h-mh).*(t-mt))/sum((h-mh).^2); b0 = mt - b1*mh; %%%~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~ x=0:5600; plot(h,t,'*',x,b(2) + B(1)*x,'r-') %%%~~~~~~~ Testul petru pata dreptei de regresie, (H 0 ) : β 1 = ~~~~~~~~~ alpha = 0.05; = 10; sigmahat = sqrt(sum((t-b(2) - B(1)*h).^2)/(-2)); sxx = sum((h-mea(h)).^2); T0 = (B(1)+0.006)*sqrt(sxx)/sigmahat; quat = tiv(1-alpha/2,-2); if (abs(t0) < quat) disp('ipoteza (H 0 ) : β 1 = se accepta') else disp('ipoteza (H 0 ) : β 1 = se respige') ed %%%~~~~~~~~~~~~~~~ Iterval de icredere petru β 1 ~~~~~~~~~~~~~~~~~~~~~~~ CI = [B(1) - quat*sigmahat/sqrt(sxx), B(1) + quat*sigmahat/sqrt(sxx)] hp = 2544; Tp = B(2) + B(1)*hp CI_T = [Tp - quat*sigmahat*sqrt(1 + 1/ + (hp-mh)^2/sxx),... Tp + quat*sigmahat*sqrt(1 + 1/ + (hp-mh)^2/sxx)] Rulâd codul de mai sus, obţiem: r = R2 = B = CI = [ , ] [ , ] Tp = CI_T = [ , ] ipoteza (H 0 ) : β 1 = se accepta Exerciţiu 11.3 Fie şirul de date: x = y = Să se studieze existeţa uei depedeţe ître x şi y de forma y = ae bx. Soluţie: Calculăm l y. Obţiem: l y =

200 200 Capitolul 11. Regresie Calculăm coeficietul de corelaţie ître x şi ly şi găsim că r = , de ude băuim că e posibil să avem o regresie liiară ître variabilele x şi ly. Estimăm coeficieţii de regresie ai lui ly faţă de x şi găsim: βˆ 0 = , β1 ˆ = Aceasta poate fi realizată î MATLAB pri comada regress(log(y)',[oes(7,1), x']) Aşadar, ly = x, de ude y = e e x 3e x/2. Î Figura 11.8 am reprezetat grafic datele observate şi aproximările lor. Figura 11.8: Aproximarea datelor di Exerciţiul 11.3 Exerciţiu 11.1 Să se determie daca exista vreo legatura liiara (multipla) itre ota obtiuta la teza de Matematica la Bacalaureat B si predictorii M = valoarea medie a mediilor la disciplia Matematica obtiute i aii de liceu si T = media testelor de verificare sustiute ("simulari") iaite de Bacalaureat. I acest ses, cosideram o selectie aleatoare de 7 elevi ditr-u aumit oras care au sustiut Bacalaureatul la Matematica. Valorile corespuzatoare petru M, T, B sut: E 1 E 2 E 3 E 4 E 5 E 6 E 7 M T B Cerite: (1) Determiati o estimare a suprafetei (plaului) de regresie liiara multipla, B = β 0 + β 1 M + β 2 T. (2) Reprezetati i acelasi sistem de coordoate valorile observate si plaul obtiut aterior. (3) Reprezetati grafic (a) valorile prezise vs. valorile observate, (b) probabilitatile de ormalitate a rezuduurilor si (c) reziduurile vs. valorile prezise la Bac. Cometati graficele obtiute. (4) Testati daca parametrii β 1 si β 2 sut semificativi la ivelul de semificatie α = (5) Cometati utilitatea modelului de regresie, calculad R 2, ad jr 2 sau folosid u test de utilitate. (6) Estimati ota la teza de Matematica la Bacalaureat petru u elev ce are M p = 8.50 si T p = Soluţie: (1) Petru a estima coeficietii de regresie vom folosi comada regress di MATLAB. Mai itai, puem predictorii M si T itr-o matrice X, care mai cotie si o coloaa cu elemetul 1 (coeficietul de regresii petru aceasta coloaa va fi β 0 ). = 7; k = 2; alpha = 0.05;

201 11.9 Probleme rezolvate 201 B = [ ]; T = [ ]; M = [ ]; X = [oes(1,7); M; T]'; b = regress(b',x); % coeficietii de regresie Obtiem estimarea suprafetei (plaului) de regresie: B = M T. (2) Folosid comada plot3, reprezetam datele observate (vezi Figura 11.9). Comada mesh este folosita petru a reprezeta plaul de regresie petru u grid creat de comada meshgrid. figure(1); plot3(m',t',b','r*'); hold o % reprezita datele observate x1 = lispace(6,10,50); x2 = lispace(6,10,50); [m,t] = meshgrid(x1,x2); % creaza u grid bac = b(1)+b(2)*m+b(3)*t; mesh(m',t',bac') % valorile lui B petru grid Bpred = b(1)+b(2)*m+b(3)*t; grid o % valorile prezise pt. B i Mi si Ti xlabel('m'); ylabel('t'); zlabel('b'); (3) Reziduurile sut ε i = B i B i. Figura 11.9: Suprafaţa de regresie. figure(2); z = 5:.1:10; plot(b,bpred,'*r', z,z,'-b') figure(3); rez = B-Bpred; ormplot(rez) figure(4); plot(bpred,rez,'*') % valori prezise vs. valori observate % ormalitatea reziduurilor % reziduuri vs. yi Se observa ca valorile reprezetate i Figura (a) urmeaza prima bisectoare, deci valorile prezise sut apropiate de cele observate la Bac. I Figura (b), reziduurile vor fi ormale daca puctele ce le reprezita sut apropiate de prima bisectoare. I Figura (c) se observa ca u exista icio tedita i orul de date reprezetat, fapt care sugereaza ca reziduurile sut valori aleatoare.

202 202 Capitolul 11. Regresie (4) Codul de mai jos testeaza, pe rad, semificatia coeficietului β 1 si a coeficietului β 2. I testare, se foloseste statistica T. Se obtie ca ambii coeficieti sut semificativi la ivelul de semificatie α = % ~~~~~~~~~~~~~~~~~~ Test for b1 ~~~~~~~~~~~~~~~~~~~~ SSE = sum((b-bpred).^2); sig = sqrt(sse/(-k-1)); smm = sqrt(sum((m-mea(m)).^2)); T10 = b(2)/(sig/smm); Tc = tiv(1-alpha/2,-k-1); if (abs(t10) < Tc); disp('b(2) esemificativ') else disp('b(2) semificativ') ed % ~~~~~~~~~~~~~~~~~~ Test for b2 ~~~~~~~~~~~~~~~~~~~~ stt = sqrt(sum((t-mea(t)).^2)); T20 = b(3)/(sig/stt); if (abs(t20) < Tc); disp('b(3) esemificativ') else disp('b(3) semificativ') ed (5) Coeficietul R 2 e va sugera cat de bu este modelul iar coeficietul ad jr 2 e va da o idee despre umarul optim de variabile predictor. Obtiem: R 2 = si ad jr 2 = , adica u model destul de bu, cu u umar optim de variabile predictor. SST = sum((b-mea(b)).^2); R2 = 1 - SSE/SST; adjr2 = 1- SSE*(-1)/(SST*(-k-1)); % ~~~~~~~~~~ Test de utilitate a modelului ~~~~~~~~~~ F0 = (R2/k)/((1-R2)/(-k-1)); Fc = fiv(1-alpha/2, k, -k-1); if (F0 < Fc); disp('modelul u este util') else disp('model util') ed Testul de utilitate afiseaza model util, i sesul ca macar uul dite coeficietii β 1 si β 2 este eul. (6) Predictia dorita este B p = , obtiuta i urma liiei de cod de mai jos: Mp = 8.50; Tp = 7.65; Bp = b(1)+b(2)*mp+b(3)*tp;

203 11.9 Probleme rezolvate 203 Figura 11.10: Grafice petru validarea modelului de regresie liiara multipla. Exerciţiu 11.2 Tabelul de mai jos coţie calificativele obţiute de doi elevi de clasa I la cele 9 disciplie şcolare. Disciplie A B C D E F G H I elev I B FB FB B B FB S I FB elev II S I B FB FB B B S B (FB = "foarte bie", B = "bie", S = "suficiet", I = "isuficiet".) Dorim să stabilim o posibilă legătură ître cele două seturi de calificative. Calculaţi u coeficiet de corelaţie potrivit. Cometaţi rezultatul obţiut. Soluţie: Variabilele petru care avem valorile di tabel sut de tip calitativ. Petru a determia coeficietul de corelatie Spearma, determiam mai itai ragurile observatiilor i fiecare set. Acestea sut (ordoam crescator icepad cu I si termiad cu FB. Petru valori egale, ragul atribuit este media ragurilor valorilor egale): Disciplie A B C D E F G H I elev I elev II = 9; alpha = 0.05; rag1 = [ ]; rag2 = [ ]; R = corrcoef(rag1,rag2); rs = R(1,2); % rs este coef. Spearma T0 = rs*sqrt((-2)/(1-rs^2)); Tc = tiv(1-alpha/2,-2); if (abs(t0) < Tc) disp('coeficietul de corelatie u este semificativ') % rhos = 0 else disp('coeficietul de corelatie este semificativ') % rhos <> 0 ed Rezultatul este: rs = coeficietul de corelatie u este semificativ

204 204 Capitolul 11. Regresie Exerciţiu 11.4 Coform fişei discipliei Statistică Aplicată, umărul de ore pe care u studet trebuie să le aloce petru studiu idividual la această discipliă este de 90. Tabelul următor coţie iformaţii despre umărul de ore alocate petru studiu idividual şi rezultatul la exame petru u umăr de 30 de cursaţi. ore Rezultat ore Rezultat ore Rezultat ore Rezultat ore Rezultat 45 Pass 53 Pass 31 Fail 64 Pass 51 Pass 25 Fail 78 Pass 70 Pass 60 Pass 11 Fail 61 Pass 13 Fail 52 Fail 12 Fail 82 Pass 85 Pass 23 Fail 16 Fail 48 Fail 100 Pass 43 Pass 2 Fail 14 Fail 68 Pass 8 Fail 5 Fail 53 Pass 22 Fail 35 Fail 10 Fail Folosid u model de regresie logistică, estimaţi şasele ca u cursat care a petrecut 50 de ore studiid la această discipliă să treacă exameul. Soluţie: Î codul MATLAB de mai jos, h reprezită umărul de ore de studiu, p este probabilitatea corespuzătoare de a trece exameul. Am folosit valorile şi î loc de 0 şi 1 (respectiv) petru a p putea calcula expresia. Rulâd codul, obţiem Figura şi predicţiile: petru probabilitatea 1 p şi petru cota ca u studet ce alocă 50 de ore de studiu la această materie să treacă exameul. Cu alte cuvite, şasele de reuşită sut de aproximativ 80%, cu o cotă de aproximativ 4 : 1 petru reuşită (i.e., 4 şase di 5). h = [ ]'; p = [ ]'; L = log(p./(1-p)); B = polyfit(h,l,1); x = 0:0.1:105; plot(h,p,'b*', x, exp(b(1)*x+b(2))./(1+exp(b(1)*x+b(2))),'r-') xp = 50; Pp = exp(b(1)*xp+b(2))./(1+exp(b(1)*xp+b(2))), Cota = Pp/(1-Pp) Figura 11.11: Grafic modelul de regresie logistică

205 11.10 Probleme propuse Probleme propuse Exerciţiu 11.3 Petru datele di tabelul alăturat, (a) testaţi dacă ρ = 0 (coeficietul de corelaţie teoretic). x y (b) Este faptul că x şi y sut legate pri relaţia y = x 2 î cotradicţie cu rezultatul de la puctul (a) (datele sut perfect ecorelate)? (c) Calculaţi coeficietul de corelaţie Spearma şi determiaţi semificaţia sa. Exerciţiu 11.4 Sutem iteresaţi î determiarea uei legături ître îălţime şi mărimea la patof. Datele di tabelul de mai jos reprezită observaţii asupra îălţimilor (H) şi a mărimilor la patof (M) petru 10 bărbaţi, aleşi la îtâmplare. H M (a) Calculaţi coeficietul de corelaţie Pearso ditre îălţime şi mărimea la patof. Ce procet di valorile lui M sut determiate de valorile lui H (b) Determiaţi o aproximare petru dreapta de regresie a lui M faţă de H. (c) Obţieţi o predicţie a mărimii la patof petru u bărbat cu îălţimea (d) La ivelul de semificaţie α = 0.05, testaţi ipoteza că pata dreptei de regresie este 3 4. Exerciţiu 11.5 Fie şirul de date: u = v = Să se studieze existeţa uei depedeţe ître u şi v de forma v = au 2 + b. Exerciţiu 11.6 Î tabelul alăturat, se dau câte 5 valori petru două variabile x şi y, ude y este variabila idepedetă. Determiaţi o dreapta de regresie potrivită petru a calcula (i) valoarea lui x câd y = 2.5; (ii) valoarea lui y câd x = 50; (iii) Putem prezice valoarea lui y petru x = 75? x y Exerciţiu 11.7 Se măsoară viteza uei maşii, v, î primele 10 secude după aceasta a îceput să accelereze. Aceste date sut îregistrate î Tabelul (a) Deseaţi diagrama scatter plot; (b) Determiaţi dreapta de regresie a lui v faţă de t; (c) Calculaţi coeficietul de corelaţie empirică şi cometaţi asupra validităţii aproximării datelor cu dreapta de regresie. t v Tabela 11.3: Viteza uei maşii î primele 10 secude după plecarea de pe loc Exerciţiu 11.8 Opiia geerală este că rata maximă (R) a bătăilor iimii uei persoae se poate determia după formula R = β 0 + β 1 V, ude V este vârsta persoaei, calculată î ai. Cercetătorii cardiologi afirma că aceşti coeficieţi ar fi: β 0 = 220 şi β 1 = 1. Petru o verificare empirică a acestei afirmaţii, sut alese la îtâmplare 15 persoae de diverse vârste, care sut supuse uui test petru determiarea ratei maxime ale batăilor iimii. Aceste rezultate sut cotabilizate î Tabelul (a) Calculaţi coeficietul de corelaţie Pearso ditre vârstă şi rata maximă a batăilor iimii. Care este semificaţia acestei valori? (b) Determiaţi dreapta de regresie a lui R faţă de V şi deseaţi-o î acelaşi sistem de axe cu datele di tabel. (c) Testaţi ipoteza (H 0 ) : β 1 = 1, vs. ipoteza alterativă (H 1 ) : β 1 1, la ivelul de semificaţie α = Exerciţiu 11.9 Dreapta de regresie a variabilei y faţă de variabila x este y = 2x 6. Determiaţi codiţiile î care dreapta de regresie a lui x faţă de y este x = 0.5y + 3.

206 206 Capitolul 11. Regresie Vârsta Rata max Tabela 11.4: Tabel cu rata maximă a batăilor iimii î fucţie de vârstă. A N Tabela 11.5: Tabel cu abseţe şi ote la Statistică. Exerciţiu Tabelul 11.5 coţie umărul de abseţe (A) la Statistică şi otele corespuzătoare (N) a 15 studeţi. (a) Calculaţi coeficietul de corelaţie Pearso. Care este semificaţia acestei valori referitor la relaţia ditre abseţe şi ote? (b) Determiaţi dreapta de regresie a lui N faţă de A şi deseaţi-o î acelaşi sistem de axe cu datele di tabel. (c) Testaţi, la u ivel de semificaţie α = 0.05, dacă există dovezi suficiete petru a afirma că ître umărul de abseţe şi otele obţiute există o corelaţie. Exerciţiu Î Tabelul 11.6 datele reprezită îălţimile (H) şi masele corporale (M) a 10 fete ditr-o clasă a uui liceu. Sutem iteresaţi î prezicerea masei corporale, ştiid îalţimea uei eleve. (a) Deseaţi diagrama scatter plot a lui H versus M. Bazâdu-vă pe această diagramă, cosideraţi că metoda regresiei liiare este potrivită î acest caz? (b) Calculaţi estimaţii ale parametrilor (β 0 şi β 1 ) de regresie liiară şi reprezetaţi grafic dreapta de regresie liiară. (c) Obţieţi o estimare edeplasată petru σ 2. (d) Testaţi ipoteza ulă (H 0 ) : β 1 = 0.9. H M Tabela 11.6: Îălţimea şi masa corporală a 10 eleve ditr-o clasă. Exerciţiu U studet ia cu împrumut o carte de la bibliotecă şi observă că pagia de iteres este ruptă pe alocuri. Totuşi, poate citi textul di Figura Se cere să se recostruiască pasajul de text (i.e., determiaţi y şi dreapta de regresie a lui x faţă de y). De asemeea, calculaţi coeficietul empiric de corelaţie r şi cometaţi asupra aproximării datelor de selecţie pri dreptele de selecţie. Figura 11.12: Fragmet icomplet ditr-u text Exerciţiu Dorim să determiăm o relaţie ître îălţimea H (î metri) şi diametrul truchiului D (î metri) corespuzătoare castailor ditr-o aumită specie asiatică. Petru a obţie această relaţie, determiăm mai îtâi o regresie liiară ître logaritmii variabilelor, adică ître Y = l(h) şi X = l(d), bazâdu-e pe următoarele observaţii: X Y (a) Ce procet ditre valorile lui Y pot fi explicate de valorile lui X? (b) Determiaţi o aproximare petru dreapta de regresie liiară a lui Y versus X.

207 11.10 Probleme propuse 207 (c) Care este repartiţia erorilor de aproximare a datelor observate pri dreapta de regresie? (d) Folosid u iterval de îcredere, estimaţi îălţimea uui copac ce are diametrul truchiului de 0.7m. Exerciţiu Rezultatele di tabelul aterior reprezită: H este umărul de ore pe săptămâă petrecute î faţa televizorului, A este vârsta persoaei şi E este umărul de ai petrecuţi î şcoală, petru u muăr de 12 persoae alese aleator. E A H (a) Folosid u model de regresie liiară simplă, aproximaţi dreapta de regresie a lui H î fuţie de E. (b) Testaţi ipoteza că pata dreptei de regresie de mai sus este 2. (α = 0.04) (c) Folosid u model de regresie multiplă, aproximaţi suprafaţa de regresie a lui H î fucţie de E şi A. Exerciţiu Sutem iteresaţi de a determia î ce măsură tesiuea arterială (T) este iflueţată de idicele de masă corporală (I) şi de umărul de ore de fitess pe săptămâă (N). Petru a stabili această legătură, au fost selectaţi aleator 10 bărbaţi de 50 de ai. Datele colectate sut cele di tabelul de mai jos: T I N (a) Determiaţi o formulă de calcul petru tesiue folosid u model de regresie liiară multiplă. (b) Calculaţi coeficietul de corelaţie Pearso ditre variabilele I şi N şi testaţi semificaţia acestuia. (c) Costruiţi u model de regresie multiplă de forma T = β 0 + β 1 I + β 2 N + β 3 I N, cometâd utilitatea acestuia. (d) Pe baza valorilor R 2 şi adjr 2, decideţi care ditre cele două modele explică cel mai bie tesiuea T. Estimaţi petru fiecare model tesiuea arterială a uui bărbat de 50 de ai ce are idicele de masă corporală 27 şi face două ore de fitess pe săptămâă.

208

209 12. ANOVA. [Statistics teacher: What is ANOVA ad what is does?. Studet: It s a star bigger tha a NOVA ad much smaller tha a SUPERNOVA. It should brighte my day, but it does t. Pri ANOVA (e. ANalysis Of VAriace) se itelege o colectie de proceduri statistice costruite petru aaliza simultaa a parametrilor a cel puti doua populatii statistice, aaliza care are la baza selectii idepedete extrase di populatiile studiate. De regula, se testeaza ipoteza ca mediile teoretice ale acestor populatii sut egale, cu alterativa ca macar o pereche de medii difera semificativ. I ANOVA, caracteristicile (variabilele) studiate se umesc factori iar populatiile sut ivelurile factorilor. Aaliza variatiilor poate fi facuta: petru u sigur factor, caz i care vorbim de oe-way ANOVA, petru doi factori, caz i care vorbim de two-way ANOVA, petru 3 factori, caz i care vorbim de -way ANOVA. Exemple de experimete care pot fi studiate cu ANOVA: u experimet care testeaza daca rezultatele la Bacalaureat sut semificativ diferite petru diverse tipuri de licee di tara. Aici avem u sigur factor, si aume umarul de promovati, si mai multe ivele: licee cu profil Mate-Ifo, licee cu profil ecoomic, licee pedagogice, licee idustriale etc. Se va aplica oe-way ANOVA petru a verifica daca rezultatele medii la Bacalaureat sut comparabile. I caz ca u sut, se pot idetifica diferetele semificative. u experimet care studiaza daca gradul de satisfactie persoala a populatiei uei tari depide de varsta sau de ge. Aici putem aplica two-way ANOVA. Avem doi factori: varsta si geul, primul factor avad diverse ivele, e.g. tieri, varsta medie, batrai, iar al doilea factor are doua ivele: barbati si femei. U test two-way ANOVA va determia daca gradul de satisfactie depide de varsta sau de ge. Mai mult, se poate determia daca exista vreo pereche de iveluri varsta-ge care, i combiatie, sa dea rezultate semificativ diferite de alte combiatii varsta-ge. I acest caz, vom spue ca cei doi factori iteractioeaza itre ei. u experimet care sa determie efectele a 7 tipuri de combustibil asupra eficietei uui motor. U test oe-way ANOVA poate fi aplicat petru a verifica daca cele 7 tipuri de combustibil dau

210 210 Capitolul 12. ANOVA acelasi rezultat i ce priveste eficieta motorului. I caz egativ, se poate depista care tipuri de combustibil dau rezultate semificativ diferite Oe-way ANOVA Acest pachet de programe compara mediile a doua sau mai multe populatii de iteres. Notam cu m umarul populatiilor cosiderate i experimet. Nivelele factorilor (i.e., populatiile) se mai umesc si tratamete. Spre exemplu, se doreste a se testa egalitatea valorilor medii petru otele obtiute de elevi la discipliele "Limba Romaa", Istorie" si "Matematica". Aici, factorul este ota obtiuta la o disciplia la Bacalaureat, ivelele (tratametele) sut cele 3 disciplie. Notam cu µ i media teoretica a populatiei i (i = 1, m), adica media reala atuci cad tratametul i este aplicat. Ipoteza ula este ca toate tratametele au aceeasi medie teoretica, i.e.: vs. ipoteza alterativa (H 0 ) : µ 1 = µ 2 =... = µ m (H 1 ) : cel puti doua valori difera. I cotiuare, vom utiliza urmatoarele otatii: i, umarul de observatii petru tratametul de rag i, i = 1, m. Fie N = m ; x i j, observatia de rag j petru tratametul i, i = 1, m, j = 1, i ; X i j, variabila aleatoare corespuzatoare valorii x i j, i = 1, m, j = 1, i ; i j=1 x i j mediile; X i = 1 i i X i j, i = 1, m, mediile de selectie, petru fiecare trata- j=1 x i = 1 i met; s 2 i = 1 i i 1 [x i j x i ] 2 dispersiile; Si 2 = 1 [X i j X i ] 2, i = 1, m, dispersiile de j=1 i 1 selectie, petru [ fiecare ] tratamet; X = 1 m 1 i m i X i j = 1 m j=1 m X i, media geerala de selectie (e.; grad mea) j=1 x este media geerala (e.; grad mea value). De obicei, datele statistice care urmeaza a fi procesate cu ANOVA sut prezetate sub forma uui tabel (vezi Tabelul 12.1). i j=1 Treatmet Data (x i j ) Sample mea (x i ) Sample std. (s i ) ; 8.46; 7.69; 7.83; 9.84; 7.15; 6.86; ; 7.82; 8.12; 9.40; 9.10; 7.85; 5.28; ; 6.17; 6.49; 5.79; 7.19; 6.38; 5.82; Tabela 12.1: Date statistice petru oe-way ANOVA Ipoteze de lucru: selectiile petru fiecare tratamet sut aleatoare. De obicei, se obti selectii aleatoare simple petru fiecare tratamet i parte. datele observate sut aproximativ ormal distribuite. Aceasta ipoteza poate fi verificata usor folosid o reprezetare grafica (e.g., ormplot i MATLAB), i urmatorul mod. Ditre toate datele observate petru tratametul X i scadem media valorilor observate petru acest tratamet, x i, petru fiecare i = 1, m. Valorile obtiute (umite si reziduuri) le cocateam si le reprezetam grafic vs. cuatilele de la repartitia ormala stadard (folosid ormplot).

211 12.1 Oe-way ANOVA 211 Daca valorile reprezetate sut apropiate de prima bisectoare, atuci putem admite ipoteza de ormalitate (vezi Figura 12.1). Dupa cum se observa, u testam ormalitatea fiecarei selectii i parte, deoarece volumele selectiilor cosiderate petru ANOVA sut tipic mici si u ar fi relevate. Cocatead reziduurile petru toate tratametele, obtiem u volum acceptabil. erorile de aproximare satisfac ipoteza de homoscedasticitate, i.e. deviatiile lor sut toate egale. Se reprezita grafic (cu fuctia scatter) valorile observate petru perechi de variabile. I Figura 12.2 avem doua astfel de reprezetari: ua care prezita proprietatea de homoscedasticitate, cealalta u. Practic, putem admite aceasta ipoteza daca cea mai mare deviatie stadard de selectie u este de doua ori mai mare decat cea mai mica deviatie stadard de selectie. Spre exemplu, i Tabelul 12.1, cea mai mare deviatie stadard este care este mai mica decat de doua ori valoarea miima, , deci putem admite ipoteza de homoscedasticitate. Alterativ, exista teste statistice specifice acestui test. Figura 12.1: ormplot petru verificarea ormalitatii reziduurilor. Figura 12.2: Grafice petru verificarea homoscedasticitatii. I aaliza ANOVA se cosidera urmatoarele sume de patrate: m i ( 2 SSTr = X i X) suma patratelor petru tratamete; are d f = m 1 grade de libertate. j=1

212 212 Capitolul 12. ANOVA i m m 2 SSE = Xi j X i ) = ( i 1)Si j=1( 2 suma patratelor erorilor; d f = N m. i m SST = j=1 ( X i j X) 2 suma totala a patratelor; d f = N 1. MSTr = SSTr SSE, MSE = m 1 N m, Se pot arata urmatoarele: SSE σ 2 χ2 (N m); E SSTr σ 2 χ 2 (m 1); E SSE σ 2 si ( SSE σ 2 ( SSTr σ 2 SST MST = N 1. ) = N m; ) = m 1; SSTr σ 2 sut idepedete. SST = SSTr + SSE. Di ultimele relatii, putem deduce ca ( ) ( ) SSTr SSE E = E = σ 2 m 1 N m = E(MSTr) = E(MSE) = σ 2. Astfel, daca ipoteza ula este adevarata, atuci exista doi estimatori edeplasati petru σ 2, si aume: MSE si MSTr. Cosideram statistica test F = MSTr MSE. Daca ipoteza ula ar fi adevarata, atuci aceasta statistica ar avea o valoare apropiata de 1. Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa otam cu F 0 valoara acestei statistici petru datele observate, cu ν 1 = m 1, ν 2 = N m si cu f α;ν1 ν 2 cuatila de ordi α petru repartitia Fisher cu (ν 1, ν 2 ) grade de libertate. Petru a testa ipoteza ula (H 0 ) procedam astfel: Daca { F0 < f1 α;ν1,ν2 atuci admitem ipoteza ula (H0); F 0 > f 1 α;ν1,ν 2 atuci respigem ipoteza ula (H 0 ). De regula, orice soft statistic ce are implemetat ANOVA va da rezultatul fial sub forma uui tabel, i geeral de forma Tabelului 12.2 (care apare i MATLAB). Source of variatio df SS MS F Prob>F Colums m 1 SSTr MSTr = SSTr MSTr m 1 P v MSE Error N m SSE MSE = SSE N m Total N 1 SST Tabela 12.2: Tabel cu rezultate petru oe-way ANOVA I acest tabel, valoarea P v este probabilitatea de a respige ipoteza ula cad ea este adevarata. Altfel spus, este probabilitatea ca, la o oua experieta, sa obtiem u rezultat cel puti la fel de extrem ca si cel deja observat. Aceasta explica si otatia Prob>F, traspusa matematic pri P v = P(S > F), ude S F (ν 1, ν 2 ) si F = MSTr MSE. Dacă P v < α, atuci ipoteza ulă (H 0 ) va fi respisă. Altfel, o acceptăm.

213 12.2 Two-way ANOVA 213 Observaţia 12.1 I cazul particular i care toate selectiile cosiderate au acelasi volum, i.e., i =, i = 1, m, atuci N = m si N m = m( 1) etc. I cazul i care ipoteza ula (H 0 ) este respisa, se poate realiza u test de verificare, care sa testeze care ditre cele C 2 m perechi de medii sut diferite. U test care realizeaza aceasta este testul Tukey. Acest test detemia itervale de icredere petru diferetele mediilor teoretice µ i µ j, petru orice i < j. Acestea sut: [x i x j Q 1 α;m, m MSE m, ude Q α;m, m sut cuatilele repartitiei rage stadardizat, Q = max k=1, x i x j + Q 1 α;m, m ] MSE, m {Z k } mi {Z k } k=1,, ude {Z k } k=1, N (0, 1) idepedete, W χ 2 (ν). W ν Daca valoara 0 u apartie itervalului de icredere petru µ i µ j, atuci decidem ca µ i si µ j difera semificativ. Daca 0 se afla i itervalul de icredere, atuci admitem ca µ i = µ j la ivelul de icredere α. Observaţia 12.2 Ipoteza ula di testul oe-way ANOVA mai poate fi scrisa dupa cum urmeaza. Fiecare variabila X i j este, de fapt, valoarea medie a tratametului de rag i, la care se adauga o eroare ormala de medie zero. Petru fiecare tratamet i parte, erorile sut cosiderate a fi idepedete. Scriem: X i j = µ i + ε i j, i = 1, m, j = 1, i, cu ε i j N (0, σ), idepedete. Vectorul ε i = (ε i1, ε i2,..., ε ii ) se umeste zgomot alb (e., white oise). µ = 1 m m µ i, α i = µ i µ (i = 1, m). Vom umi α i deplasarea de la media reala µ datorata tratametului de rag i. Atuci, putem scrie: X i j = µ + α i + ε i j, i = 1, m,, j = 1, i. Ipoteza ula poate fi scrisa astfel: (H 0 ) : α 1 = α 2 =... = α m = 0 vs. ipoteza alterativa (H 1 ) : macar u α i este eul Two-way ANOVA Two-way ANOVA este o colectie de proceduri statistice ce testeaza valorile uei variabile raspus ce depide de doi factori (populatii). Prezetarea de mai jos urmeaza ideile di [DB]. U exemplu este urmatorul: se doreste testarea gradului de fericire a adultilor i fuctie de varsta si ge. U umar de adulti de ambele geuri si de diferite varste sut rugati sa completeze cate u chestioar, care sa determie gradul de satisfactie persoala (fericire) al fiecaruia. Aici, variabila raspus este gradul de fericire, care este evaluata i fuctie de doi factori. Primul factor este varsta, care poate fi impartita i mai multe categorii (ivele), e.g., tieri, varsta medie, batrai. Al doilea factor este geul, care are doua iveluri: barbati si femei.

214 214 Capitolul 12. ANOVA I cotiuare, vom cosidera ca A si B sut cei doi factori, iar petru fiecare factor i parte avem m, respectiv iveluri. Petru fiecare pereche de iveluri corespuzatoare celor doi factori putem avea u umar K i j 1 de observatii. I exemplul de mai sus, K i j reprezita umarul de subiecti de ivelul de varsta i si de ivelul ge j care au raspus la chestioare. Cazul K i j = 1, (i, j) Notam pri X i j variabila raspus cad factorul A este tiut la ivelul i si factorul B la ivelul j, petru orice i = 1, m, j = 1,. Vom ota cu x i j o posibila valoare a acestei variabile. I cazul K i j = 1, valorile observate le putem prezeta ca i tabelul de mai jos: X x 11 x 12 x x 1 2 x 21 x 22 x x 2.. m x m1 x m2 x m3... x m I total, sut m valori, corespuzatoare celor m celule (i, j). I cotiuare, vom folosi urmatoarele otatii: m este umarul de observatii petru factorul A si este umarul de observatii petru factorul B; X i = 1 X j = 1 m X = 1 m j=1 m j=1 m X i j, i = 1, m, mediile de selectie petru fiecare ivel al factorului A; X i j, j = 1,, mediile de selectie petru fiecare ivel al factorului B; j=1x i j = 1 m m j=1x i = 1 j=1 X j, media geerala de selectie (e. grad mea); De asemeea, vom ota pri x i = 1 i j, x j = j=1x 1 m statisticilor de mai sus petru datele observate. Ipoteze de lucru: selectiile petru fiecare factor sut aleatoare; datele observate sut aproximativ ormal distribuite. Modelul statistic de lucru este m x i j si x valorile corespuzatoare j=1 X i j = µ i j + ε i j, i = 1, m, j = 1,, cu ε i j N (0, σ), idepedete. Se doreste ca acest model sa determie costatele ecuoscute (parametrii). Isa, se observa ca avem m + 1 parametri (µ i j si σ) si doar m ecuatii. Petru a putea rezolvata problema, va trebui sa reducem di ecuoscute. O idee ar fi sa folosim u model aditiv, scriid: µ i j = α i + β j, i = 1, m, j = 1,. Petru m 3 si 2, avem suficiete ecuatii petru a determia parametrii. Exista o problema i ce priveste uicitatea solutiei, deoarece α i + c si β j c (c R) sut, de asemeea, solutii. Modelul de mai sus poate fi simplificat si mai mult, cosiderad i schimb urmatorul model: X i j = µ + α i + β j + ε i j, ude m α i = 0, β j = 0. Mai sus, µ reprezita media reala geerala i cazul i care variabila raspus u ar depide de iciuul ditre cei doi factori, α i reprezita efectul factorului A la ivelul i si β j reprezita efectul factorului B la ivelul j.

215 12.2 Two-way ANOVA 215 Se poate demostra ca urmatorii estimatori sut estimatori edeplasati petru parametrii pe care ii estimeaza: µ = X; α i = X i X; β j = X j X. I cazul two-way ANOVA cu K i j = 1, (i, j), vom avea doua ipoteze ule: ua referitoare la factorul A, cealalta se refera la factorul B. Ipoteza ula ce face referire la factorul A spue ca diferitele iveluri ale lui A u au iciu efect asupra variabilei raspus. Similar petru ipoteza ula ce face referire la B. Matematic, le scriem astfel: Ipoteze petru factorul A: (H 0A ) : α 1 = α 2 =... = α m = 0 vs. (H 1A ) : macar u α i este eul. Ipoteze petru factorul B: (H 0B ) : β 1 = β 2 =... = β = 0 vs. (H 1B ) : macar u β j este eul. Petru a testa aceste ipoteze, vom folosi urmatoarele statistici: m SST = j=1 ( X i j X) 2 suma totala a patratelor; are d f = m 1 grade de libertate. m ( 2 SSA = X i X) suma totala a patratelor coresp. lui A; are d f = m 1 grade de libertate. j=1 m ( 2 SSB = X j X) suma totala a patratelor coresp. lui B; are d f = 1 grade de libertate. j=1 m SSE = j=1 MST = ( X i j X i X j + X) 2 suma patratelor erorilor; d f = (m 1)( 1). SST m 1, Se pot arata urmatoarele: SSA MSA = m 1, SSB MSB = 1, MSE = SSE (m 1)( 1). SSA σ 2 χ2 (m 1); E(MSA) = σ 2 + m 1 m α 2 i ; SSB σ 2 χ2 ( 1); E(MSB) = σ 2 + m 1 β j 2 ; j=1 SST = SSA + SSB + SSE. Daca ipoteza ula (H 0A ) este adevarata, atuci exista doi estimatori edeplasati petru σ 2, si aume: MSE si MSA. Cosideram statistica test F A = MSA MSE. Daca ipoteza ula ar fi adevarata, atuci aceasta statistica ar avea o valoare apropiata de 1. Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa otam cu F 0A valoarea acestei statistici petru datele observate, cu ν 1 = m 1, ν 2 = (m 1)( 1) si cu f α;ν1,ν 2 cuatila de ordi α petru repartitia Fisher cu (ν 1, ν 2 ) grade de libertate. Petru a testa ipoteza ula (H 0A ) procedam astfel: Daca { F 0A < f 1 α;ν1,ν 2 atuci admitem ipoteza ula (H 0A ); F 0A > f 1 α;ν1,ν 2 atuci respigem ipoteza ula (H 0A ).

216 216 Capitolul 12. ANOVA Se procedeaza similar petru testarea ipotezei (H 0B ), cosiderad statistica F B = MSB MSE. Valoarea critica i acest caz este f α;ν1,ν 2, ude ν 1 = 1, ν 2 = (m 1)( 1). De uui tabel, i geeral de forma Tabelului 12.3 (care apare i MATLAB). Source of variatio df SS MS F Prob>F A m 1 SSA MSA = SSA m 1 F A = MSA MSE B 1 SSB MSB = SSB 1 F B = MSB MSE SSE Error (m 1)( 1) SSE MSE = (m 1)( 1) Total m 1 SST Tabela 12.3: Tabel cu rezultate petru two-way ANOVA I acest tabel, valoarea P va este probabilitatea de a respige ipoteza ula (H 0A ) cad ea este adevarata. Altfel spus, este probabilitatea ca, la o oua experieta, sa obtiem u rezultat cel puti la fel de extrem ca si cel deja observat. Aceasta explica si otatia Prob>F, traspusa matematic pri P va = P(S > F A ), ude S F (ν 1, ν 2 ) si F A = MSA MSE. Dacă P va < α, atuci ipoteza ulă (H 0A ) va fi respisă. Altfel, o acceptăm. Similar se procedeaza petru factorul B. Dacă P vb < α, atuci ipoteza ulă (H 0B ) va fi respisă. Altfel, o acceptăm. Cazul K i j > 1 petru macar o pereche (i, j) Asadar, i fiecare celula (i, j) putem avea mai mult de o sigura valoare. Vom cosidera ca mediile valorilor observate i fiecare celula (i, j) sut: µ i j = µ + α i + β j + γ i j, i = 1, m, j = 1,. Aici, α i este efectul factorului A la ivelul i asupra variabilei raspus; β j este efectul factorului B la ivelul j; γ i j este efectul iteractiuii factorului A la ivelul i cu factorul B la ivelul j. Fie µ = 1 m m µ i j ; µ i = 1 µ i j ; µ j=1 j = 1 j=1 m m µ i j α i = µ i µ; β j = µ j µ; γ i j = µ i j (µ + α i + β j ). Facem urmatoarele otatii specifice: Presupuem ca petru fiecare celula (i, j) avem K i j 1 observatii, cu idicele de sumare k. Fie κ = m j=1 K i j umarul total de observatii; X i jk este valoarea de rag k observata i celula (i, j); X i j = 1 X i = 1 K i j K i j k=1 X i jk este valoarea medie a datelor observate i fiecare celula (i, j); P va P vb X i j este valoarea medie a datelor observate petru ivelul i al factorului A; j=1

217 12.2 Two-way ANOVA 217 X j = 1 m m m X = 1 i = m X 1 X i j este valoarea medie a datelor observate petru ivelul j al factorului B; X j este valoarea medie a tuturor datelor observate (e., grad mea); j=1 se va ota cu x i jk, x i j, x i, x j, x valori posibile ale statisticilor de mai sus. Vom cosidera urmatorul model statistic relativ la X i jk, variabila de rag k petru celula (i, j): X i jk = µ + α i + β j + γ i j + ε i jk, i = 1, m, j = 1,, k = 1, K i j. I cazul two-way ANOVA cu măcar u K i j > 1, vom avea trei ipoteze ule: ua referitoare la factorul A, cealalta se refera la factorul B si ua referitoare la iteractiuea ditre cei doi factori. De regula, prima ipoteza testata este cea referitoare la iteractiue. Ipoteza ula corespuzatoare iteractiuii spue ca u exista icio iteractiue itre acesti factori relativ la variabila raspus. Daca ipoteza ula este admisa, atuci se trece si la verificarea celorlalte doua ipoteze. Altfel, aceste verificari suplimetare u isi mai au rostul. Ipoteza ula ce face referire la factorul A spue ca diferitele iveluri ale lui A u au iciu efect asupra variabilei raspus. Similar petru ipoteza ula ce face referire la B. Matematic, scriem cele trei ipoteze astfel: Ipoteze petru iteractiue: (H 0AB ) : γ i j = 0, (i, j) vs. (H 1AB ) : macar u γ i j este eul. Ipoteze petru factorul A: (H 0A ) : α 1 = α 2 =... = α m = 0 vs. (H 1A ) : macar u α i este eul. Ipoteze petru factorul B: (H 0B ) : β 1 = β 2 =... = β = 0 vs. (H 1B ) : macar u β j este eul. Petru a testa aceste ipoteze, vom folosi urmatoarele statistici: m K i j ( 2 SST = X i jk X) suma totala a patratelor; are d f = mκ 1 grade de libertate. j=1 k=1 m K i j ( 2 SSE = Xi jk X i j ) suma patratelor erorilor; d f = m(κ 1). j=1 k=1 m K i j ( 2 SSA = X i X) suma totala a patratelor coresp. lui A; are d f = m 1 grade de libertate. j=1 k=1 m K i j ( 2 SSB = X j X) suma totala a patratelor coresp. lui B; are d f = 1 grade de libertate. j=1 k=1 K i j m SSAB = j=1 k=1 MST = ( X i j X i X j + X) 2 suma patratelor erorilor; d f = (m 1)( 1). SST mκ 1, MSE = SSE m(κ 1), Se poate demostra urmatoarea egalitate: SSA MSA = m 1, SST = SSE + SSA + SSB + SSAB. SSB MSB = 1, MSAB = SSAB (m 1)( 1).

218 218 Capitolul 12. ANOVA Statisticile test si pragurile critice sut: F AB = MSAB MSE petru ipoteza ula (H 0AB ); f AB = f 1 α;(m 1)( 1),m(κ 1) ; F A = MSA MSE petru ipoteza ula (H 0A ); f A = f 1 α;m 1,m(κ 1) ; F B = MSB petru ipoteza ula (H 0B ); f B = f 1 α; 1,m(κ 1). MSE Decizia, petru fiecare ipoteza i parte, se ia astfel: Daca F f, respigem ipoteza ula (H 0 ) la ivelul de semificatie α. Altfel, admitem ipoteza ula (H 0 ). Tabel cu rezultate: Source of variatio df SS MS F Prob>F A m 1 SSA MSA = SSA m 1 F A = MSA MSE B 1 SSB MSB = SSB 1 F B = MSB MSE AB (m 1)( 1) SSAB MSAB = SSAB 1 F AB = MSAB MSE Error m(κ 1) SSE MSE = SSE m(κ 1) Total mκ 1 SST P va P vb P vab Tabela 12.4: Tabel cu rezultate petru two-way ANOVA i cazul K i j > 1, petru macar u (i, j) Bazadu-e pe o valoare P v, putem lua astfel decizia referitor la ipoteza ula (H 0 ): Daca α < P v, atuci admitem ipoteza ula (H 0 ) la ivelul de semificatie α. Altfel, o respigem. Aici, P v mai poate fi calculat si astfel: P v = P(S > F ), ude S F (ν 1, ν 2 ) si F = MS* MSE. Dupa cum am precizat mai sus, prima ipoteza testata este cea referitor la iteractiui, (H 0AB ). Daca aceasta este respisa, atuci u mai are ses testarea celorlalte doua ipoteze ramase.

219 12.3 Exerciţii rezolvate Exerciţii rezolvate Exemplu umeric petru oe-way ANOVA Fuctia MATLAB aova1 efectueaza testul petru egalitatea mediilor. Formatul fuctiei este: [p,tabel,stats] = aova1(x) ude X reprezita matricea de date. Coloaele di matricea X reprezita factorii; petru fiecare factor se specifica m valori, ude m este umarul de liii di matrice. Valorile afisate sut: p = valoarea P v a testului, tabel si stats sut, i ordie, u tabel cu detaliile aalizei variatiilor si diverse alte statistici. I cazul i care ipoteza ula (verificata de aova1) este ivalidata, atuci putem face testul Tukey petru a determia care perechi de medii difera. I MATLAB, acest test se realizeaza cu comada multcompare. Aceasta afiseaza itervalele de icredere petru diferetele mediilor oricaror doua perechi de coloae si o reprezetare grafica a acestora. Forma fuctiei cea mai simplificata este: c = multcompare(stats), ude stats este rezultatul de la aova1. Exerciţiu 12.1 Tabelul de mai jos cotie otele la Bacalaureat petru o selectie aleatoare de 8 elevi ditr-u aumit oras care au sustiut Bacalaureatul la discipliele "Limba Romaa", Istorie" si "Matematica". Disciplia E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 Rom Ist Mat Cerite: (1) Folosid o reprezetare grafica, verificati ormalitatea datelor. (2) La ivelul de semificatie α = 0.05, testati ipoteza ca mediile teoretice la cele trei disciplie sut toate egale, i doua moduri:. (a) folosid comada aova1 di MATLAB; (b) folosid formulele si testul de la curs. (3) I cazul i care mediile u sut toate egale, determiati perechile de medii care difera semificativ. Soluţie: Matricea de date N este ua de tip 8 3, ude pe fiecare coloaa am itrodus otele petru fiecare disciplia i parte. I plus, D reprezita etichetele petru datele di matrice. N = [ ; ; ]'; D = {'Rom','Rom','Rom','Rom','Rom','Rom','Rom','Rom',... 'Ist','Ist','Ist','Ist','Ist','Ist','Ist','Ist',... 'Mat','Mat','Mat','Mat','Mat','Mat','Mat','Mat'}; % (1) ~~~~~~~~~~~~~~ ormplot(reziduuri) ~~~~~~~~~~~~~~~~~~~~~~~~~~~ Xp = mea(n); % mediile pe fiecare coloaa rez = N - [Xp;Xp;Xp;Xp;Xp;Xp;Xp;Xp]; % di ota scadem media discipliei R = N(:); % valorile matricei pe o sigura coloaa figure(3); ormplot(r) % verifica ormalitatea reziduurilor % (2a) ~~~~~~~~~~~~~~~~~~~~ aova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Pv = aova1(n,d) % tabelul si graficul sut atasate mai jos

220 220 Capitolul 12. ANOVA % (3) ~~~~~~~~~~~~~~~~~~~ Tukey test ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ c = multcompare(stats) % graficul rezultat este atasat mai jos [ms(c(:,1)), ms(c(:,2)), um2cell(c(:,3:5))] Ipoteza ula este Figura 12.3: Rezultatele produse de aova1 i MATLAB. (H 0 ) : µ R = µ I = µ M Di ANOVA Table extragem iformatia despre valoarea critica petru probabilitate, P v = Prob > F. Deoarece P v = < 0.05 = α, respigem ipoteza ula. Asadar, macar doua medii sut semificativ diferite. Al doilea grafic di Figura 12.3 reprezita boxplots petru otele la fiecare disciplia i parte. Se observa ca u apar valori aberate (outliers). Figura următoare reprezita itervalele de icredere (la ivelul de semificatie cosiderat) petru mediile teoretile la fiecare disciplia. Se observa ca itervalele de icredere petru mediile la Romaa si la Matematica u se itersecteaza, asadar cele doua medii sut semificativ diferite. Celelelate doua perechi de medii sut egale la ivelul de semificatie Figura 12.4: Compararea perechilor de medii i MATLAB.

221 12.3 Exerciţii rezolvate 221 % (2b) ~~~~~~~~~~~~~~~~~~~~ aova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ = 8; k = 3; alpha = 0.05; Xp = mea(note); Xpp = mea(mea(note)); SSTr = *sum((xp - Xpp).^2); Si2 = var(note); SSE = (-1)*sum(Si2); SST = SSTr + SSE; MSTr = SSTr/(k-1); MSE = SSE/(k*(-1)); F = MSTr/MSE; Fcrit = fiv(1-alpha,k-1,k*(-1)); if (F<Fcrit) disp('medii egale') else disp('medii iegale') ed Pv = 1 - fcdf(f,k-1,k*(-1)) %%% ~~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%% % p = % % % % table = % 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' % 'Groups' [ ] [ 2] [4.9781] [4.1048] [0.0313] % 'Error' [ ] [21] [1.2127] [] [] % 'Total' [ ] [23] [] [] [] % F = Fcrit = % % % % medii iegale % % Pv = % % % % as = % % 'Rom' 'Ist' [ ] [0.3762] [1.7641] % % 'Rom' 'Mat' [ ] [1.5150] [2.9029] % % 'Ist' 'Mat' [ ] [1.1387] [2.5266] % %%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

222 222 Capitolul 12. ANOVA Exemplu umeric petru two-way ANOVA Exerciţiu 12.2 O compaie producatoare de automobile are doua fabrici, fiecare fabrica producad 3 tipuri de masii la clasa de 1.4cm 3. I vederea testarii cosumului de carburat, se face cate o selectie de 3 masii de la fiecare fabrica si di fiecare tip de masia. Cosumul de carburat per 100km petru masiile selectate este reprezetat mai jos. Am otat cu F fabricile si cu T tipurile de masia F F }{{}}{{}}{{} T 1 T 2 T 3 Se cere: (a) Decideti daca exista dovezi statistice care sa ateste o depedeta a cosumului de carburat de fabrica ude este produsa masia; (b) Decideti daca exista dovezi statistice care sa ateste o depedeta a cosumului de carburat de tipul de masia produs. Soluţie: Dupa cum se observa di matricea de date, avem doi factori: A = T tipul si B = F fabrica. Petru aaliza cei doi factori au fost alese cate 3 masii di fiecare tip, de la fiecare fabrica, adica avem cate 3 valori petru fiecare pereche (T, F). Aceasta iseama ca K i j = K = 3, petru orice i = 1, 2, j = 1, 3. Vom utiliza fuctia aova2 di MATLAB. clear all; m = 2; = 3; k = 3; X = [ ; ; ; ; ; ]; [p,tbl,stats] = aova2(x,k) c = multcompare(stats, 'alpha', 0.05) % valoarea implicita este 0.05, dar poate fi schimbata Rezultatele sut urmatoarele: %%% ~~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%% % p = % % %

223 12.3 Exerciţii rezolvate 223 % tbl = % 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' % 'Colums' [ ] [ 2] [ ] [ ] [0.0014] % 'Rows' [5.5556e-004] [ 1] [5.5556e-004] [ ] [0.8722] % 'Iteractio' [ ] [ 2] [ ] [ ] [0.3516] % 'Error' [ ] [12] [ ] [] [] % 'Total' [ ] [17] [] [] [] % stats = % % source: 'aova2' % % sigmasq: % % colmeas: [ ] % % col: 6 % % rowmeas: [ ] % % row: 9 % % iter: 1 % % pval: % % df: 12 % % c = % % % % % % %%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%% Valorile p reprezita valorile P v care determia semificatia ipotezelor ule (H 0A ), (H 0B ) si, respectiv (H 0AB ). Iipoteza ula (H 0AB ) idică iexisteţa de iteractiui semificative itre cei doi factori sau, altfel spus, u exista diferete semificative itre tipurile de masia si fabrici i ce priveste cosumul mediu de carburat la 100km. Deoarece p 3 = > 0.05 = α, rezulta ca ipoteza (H 0AB ) este admisa, asadar alegerea tipului de masia u depide de fabrica. Se observa ca p 2 = > 0.05 = α, deci ipoteza (H 0B ) este admisa, isemad faptul ca u exista diferete semificative itre cosumurile medii de carburat la 100km itre masiile produse de cele doua fabrici. Se observa ca p 1 = < 0.05 = α, deci ipoteza (H 0A ) este respisa, isemad faptul ca exista diferete semificative itre cosumurile medii de carburat la 100km itre cele trei tipuri de masii. Petru a determia care ditre mediile pe coloae sut diferite, folosim comada multcompare di MATLAB. Di Figura 12.5 observam ca mediile petru cosumul la 100km ale primelor doua tipuri de masia sut egale, a treia medie fiid semificativ diferita de ele. Matricea c afiseaza itervale de icredere si estimatori puctuali petru diferetele mediilor celor trei perechi de coloae. Dupa cum se observa, primul iterval de icredere, ( , ) cotie valoarea 0, deci putem cocluzioa ca aceste doua medii sut egale la acest ivel de semificatie. Celelalte doua itervale de icredere, ( , ) si ( , ) u coti pe 0, deci mediile corespuzatoare sut semificativ diferite.

224 224 Capitolul 12. ANOVA Figura 12.5: Compararea multipla a perechilor de medii i MATLAB Probleme propuse Exerciţiu 12.3 Adrei a primit pri fax u raport referitor la îcasările obţiute săptămâa trecută, obţiute di vâzările avelopelor pe care firma sa le are î stoc. Di păcate, faxul său u este prea bu şi, di tot raportul, se pot distige doar rezultate parţiale ale uui test ANOVA, uele valori fiid şterse. Source of variatio SS df MS F Prob>F Groups f9 7r45 1j4g Error 3Y4145 T l4i5 1s7 Total (a) Câte tipuri de avelope are firma sa î stoc? Formulaţi ipotezele testului. (b) Completaţi valorile şterse di tabel. Care este rezultatul testului? Exerciţiu 12.4 O firmă de computere doreşte să compare viteza de lucru petru patru compilatoare produse de această firmă. Fiecare ditre cele patru compilatoare a rulat aceleasi 5 programe. Datele di tabelul de mai jos reprezită timpii de compilare (exprimaţi î milisecude) petru fiecare ditre programe, rulate pe cele patru compilatoare. Program Compilor A B C D E C C C C (a) Testaţi la ivelul de semificaţie de 5% dacă există difereţe semificative ître performaţele medii ale celor 4 compilatoare. (b) Diferă semificativ timpii medii de compilare de tipul de program rulat? Justificaţi. (c) Petru care ditre compilatoare, timpul mediu de compilare diferă semificativ de cel al lui C4? Exerciţiu 12.5 Patru tratamete petru o aumită erupţie cutaată au fost admiistrate la 20 de pacieţi aleşi aleator. Datele di tabelul de mai jos reprezită, petru fiecare tratamet î parte, umărul de zile scurse de la prima apariţie a erupţiei pâă la videcare.

225 12.4 Probleme propuse 225 Tratamet Numărul de zile A B C D (a) Determiaţi dacă există difereţe semificative ître rezultatele medii ale celor 4 tratamete. (b) Precizaţi care ditre cele 4 tratamete diferă semificativ. Exerciţiu 12.6 Patroul uui aumit call ceter a cerut iformaţii referitoare la timpul petrecut de agajaţii săi î discuţii telefoice cu clieţii. Acest call ceter este deschis o-stop şi agajaţii lucrează î mai multe schimburi. Petru fiecare schimb, a fost ales u eşatio de 10 de agajaţi. Tabelul de mai jos a fost primit pri fax şi reprezită rezultatul uui test ANOVA. Di păcate, uele iformaţii u s-au trasmis corect. Variabila depedetă este timpul (î secude) petrecut de agajaţi cu fiecare cliet. (a) Câte schimburi există la call Source of variatio SS df MS F Prob>F ceter? Groups f9 7r45 1j4g Formulaţi ipotezele testului. Error 3Y4145 T l4i5 1s7 (b) Completaţi valorile şterse di Total tabel. Care este rezultatul testului la îcrederea de 95%?

226

227 13. Aexe. [I am ot a outlier;. I just have t foud my distributio yet!] 13.1 Scurtă itroducere î MATLAB MATLAB este u pachet comercial de programe de îaltă performaţă produs de The MathWorks, Ic., dedicat calculului umeric şi reprezetărilor grafice î domeiul ştiiţelor şi igieriei. Elemetul de bază cu care operează MATLAB-ul este matricea (MATLAB este acroim de la MATrix LABoratory). MATLAB este u software stadard î mediile uiversitare, precum şi î domeiul cercetării şi rezolvării practice aproblemelor legate de procesarea semalelor, idetificarea sistemelor, calculul statistic, prelucrarea datelor experimetale, matematici fiaciare, matematici aplicate î diverse domeii etc. Cea mai importată caracteristică a MATLAB-ului este uşuriţa cu care poate fi extis. La programele deja existete î MATLAB, utilizatorul poate adăuga propriile sale coduri, dezvoltâd aplicaţii specifice domeiului î care lucrează. MATLAB-ul iclude aplicaţii specifice, umite Toolbox-uri. Acestea sut colecţii extise de fucţii MATLAB (fişiere M) care dezvoltă mediul de programare de la o versiue la alta, petru a rezolva probleme di domeii variate. Structural, MATLAB-ul este realizat sub forma uui ucleu de bază, cu iterpretor propriu, î jurul căruia sut costruite toolbox-urile. Prezetăm mai jos o scurtă itroducere î MATLAB a pricipalelor fucţii şi comezi folosite î această lucrare. Petru o tratare mai detaliată, puteţi cosulta u maual de utilizare sau [matlab]. Mai meţioăm aici şi lucrarea [blaga], ude puteţi găsi diverse modalităţi de implemetare î MATLAB ale uor oţiui de Teoria Probabilităţilor şi Statistică matematică. Folosid comada demo di MATLAB, puteţi urmări o demostraţie a pricipalelor facilităţi di MATLAB, cât şi a pachetelor de fucţii (toolbox) de care aţi putea fi iteresaţi. Ditre acestea, amitim Statistics Toolbox, care este o colecţie de fucţii folosite petru aaliza, modelarea şi simularea datelor. Coţie: aaliza graficelor (GUI), diverse repartiţii probabilistice (beta, biomială, Poisso, χ 2 ), geerarea umerelor aleatoare, aaliza regresioală, descrieri statistice.

228 228 Capitolul 13. Aexe Comezile MATLAB pot fi scrise î fişiere cu extesia.m, ce urmează apoi a fi compilate. U fişier-m costă ditr-o succesiue de istrucţiui, cu posibilitatea apelării altor fişiere-m precum şi a apelării recursive. De asemeea, MATLAB poate fi folosit ca pe u mediu computaţioal iteractiv, caz î care fiecare liie este prelucrată imediat. Odată itroduse expresiile, acestea pot fi vizualizate sau evaluate imediat. De exemplu, itroducâd la liia de comadă >> a = sqrt((sqrt(5)+1)/2) MATLAB defieşte o variabilă de memorie a, căreia îi atribuie valoarea a = Variabilele sut defiite cu ajutorul operatorului de atribuire, =, şi pot fi utilizate fără a declara de ce tip sut. Valoarea uei variabile poate fi: o costată, u şir de caractere, poate reieşi di calculul uei expresii sau al uei fucţii. Petru a găsi iformaţii imediate despre vreo fucţie predefiită, comada help va vie î ajutor. De exemplu, >> help legth afişează următoarele: LENGTH Legth of vector. LENGTH(X) returs the legth of vector X. It is equivalet to MAX(SIZE(X)) for o-empty arrays ad 0 for empty oes. See also umel. Comada help poate fi utilizată doar dacă se cuoaşte exact umele fucţiei. folosirea comezii lookfor este recomadată. De exemplu, comada Altfel, >> lookfor legth produce: NAMELENGTHMAX Maximum legth of MATLAB fuctio or variable ame. VARARGIN Variable legth iput argumet list. VARARGOUT Variable legth output argumet list. LENGTH Legth of vector. MATLAB este u mediu computaţioal orietat pe lucru cu vectori şi matrice. O liie de cod de forma >> v = [1,3,5,7,9] % sau v = [ ] defieşte u vector liie ce are compoetele 1, 3, 5, 7, 9. Aceasta poate fi realizată şi folosid comada v = 1:2:9 adică afişează umerele de la 1 la 9, cu pasul 2. Petru u vector coloaă, folosim puct-virgulă ître elemete, adică >> v = [1;3;5;7;9] % vector coloaa

229 13.1 Scurtă itroducere î MATLAB 229 O altă variată de a defii u vector este >> v = lispace(x1,x2,) adică v este u vector liie cu compoete, la itervale egale ître x1 şi x2. Defiirea matricelor se poate face pri itroducerea explicită a elemetelor sale sau pri istrucţiui şi fucţii. La defiirea explicită, trebuie ţiut cot de următoarele: elemetele matricei sut cuprise ître parateze drepte ([ ]), elemetele uei liii trebuie separate pri spaţii libere sau virgule, liiile se separă pri semul puct-virgulă. De exemplu, comada >> A = [1 2 3; 4, 5, 6] defieşte matricea A = Apelul elemetelor uei matrice se poate face pri comezile A(i,j) sau A(:,j) (elemetele de coloaă j) sau A(i,:) (elemetele de liia i); Fucţia MATLAB oes(m,) defieşte o matrice m, avâd toate compoetele egale cu 1. Fucţia zeros(m,) defieşte o matrice zero m. Fucţia eye() defieşte matricea uitate de ordi. După cum vom vedea mai jos, MATLAB permite defiirea uor fucţii foarte complicate pri scrierea uui cod. Dacă fucţia ce o avem de defiit este ua simplă, atuci avem variata utilizării comezii ilie. Spre exemplu, defiim fucţia f (x, y) = e 5x si3y: >> f = ilie('exp(5*x).*si(3*y)') f = Ilie fuctio: f(x,y) = exp(5*x).*si(3*y) Putem apoi calcula f (7, π) pri >> f(7,pi) U program MATLAB poate fi scris sub forma fişierelor script sau a fişierelor de tip fucţie. Ambele tipuri de fişiere sut scrise î format ASCII. Aceste tipuri de fişiere permit crearea uor oi fucţii, care le pot completa pe cele deja existete. U fişier script este u fişier exter care coţie o secveţă de comezi MATLAB. Pri apelarea umelui fişierului, se execută secveţa MATLAB coţiută î acesta. După execuţia completă a uui fişier script, variabilele cu care acesta a operat rămâ î zoa de memorie a aplicaţiei. Fişierele script sut folosite petru rezolvarea uor probleme care cer comezi succesive atât de lugi, îcât ar putea devei greoaie petru lucrul î mod iteractiv, adică î modul liie de comadă. Petru a itroduce date î MATLAB, putem copia datele direct îtr-u fişier MATLAB, pri defiirea uui vector sau a uei matrice de date. De exemplu, următoarele date au fost itroduse pri "copy-paste" î matricea data: >> data = [ % atribuirea valorilor matricei data

230 230 Capitolul 13. Aexe % prima liie a datelor copiate % ultima liie a datelor copiate ]; % ichidem parateza ce defieste matricea de date Datele di MATLAB pot fi salvate astfel: >> cd('c:\fisierul_de_lucru'); % alegem fisierul ude salvam datele >> save Timpi_de_reactie data; % salveaza i fisierul Timpi_de_reactie.mat Datele pot fi reîcărcate folosid comada load Timpi_de_reactie Timpi_de_reactie % icarca datele di fisier % afiseaza datele icarcate Fişierele fucţie MATLAB crează cadrul propice extiderii fucţiilor sale, pri posibilitatea creării de oi fişiere. Astfel, dacă prima liie a fişierului.m coţie cuvâtul fuctio, atuci fişierul respectiv este declarat ca fiid fişier fucţie. Variabilele defiite şi maipulate î iteriorul fişierului fucţie sut localizate la ivelul acesteia. Pri urmare, la termiarea execuţiei uei fucţii, î memoria calculatorului u rămâ decât variabilele de ieşire ale acesteia. Forma geerală a primei liii a uui fişier este: fuctio[param_iesire] = ume_fuctie(param_itrare) ude: fuctio este este cuvâtul care declară fişierul ca fişier fucţie; ume_fuctie este umele fucţiei, care este totua cu umele sub care se salvează fişierul; param_iesire sut parametrii de ieşire; param_itrare sut parametrii de itrare. Comezile şi fucţiile care sut utilizate de ouă fucţie sut îregistrate îtr-u fişier cu extesia.m. Exemplu 13.1 Fisierul medie.m calculează media aritmetică a sumei pătratelor compoetelor uui vector X (alterativ, aceast lucru poate fi realizat pri comada mea(x.^2)): fuctio m2 = medie(x) = legth(x); m2 = sum(x.^2)/; MATLAB-ul iclude aplicaţii specifice, umite Toolbox-uri. Acestea sut colecţii extise de fucţii MATLAB (fişiere-m) care dezvoltă mediul de programare de la o versiue la alta, petru a rezolva probleme di domeii variate. Statistics Toolbox reprezită o colecţie de fucţii folosite petru aaliza, modelarea şi simularea datelor şi coţie: geerarea de umere aleatoare; distribuţii, aaliza grafică iteractivă (GUI), aaliza regresioală, descrieri statistice, teste statistice. Î Tabelul 13.1 am aduat câteva comezi utile î MATLAB.

231 13.1 Scurtă itroducere î MATLAB 231 % % permite adaugarea de cometarii i cod help rad % help specific petru fucţia rad lookfor ormal % cauta itrarile î MATLAB petru ormal X=[ ] % vector liie cu 7 elemete X=[3; 1; 6.5 ;0 ;77] % vector coloaă cu 5 elemete X = -10:2:10 % vector cu umerele itregi de la 10 la 10, di 2 î 2 legth(x) % lugimea vectorului X t=0:0.01:3*pi % defieşte o diviziue a [0, 3π] cu diviziuea 0.01 X.^2 % ridică toate compoetele vectorului X la puterea a doua X.*Y % produsul a doi vectori cumsum(x) % suma cumulată a elemetelor vectorului X cumprod(x) % produsul cumulativ al elemetelor vectorului X mi(x) % realizează miimum ditre compoetele lui X max(x) % realizează maximum ditre compoetele lu X sort(x) % ordoează compoetele lui X î ordie crescatoare sort(x, 'desced') % ordoează compoetele lui X î ordie descrescatoare erf(x) % fucţia eroare exp(x) % calculează expoeţială e x log(x) % calculează logaritmul atural l(x) sqrt(x) % calculează radicalul ordiului doi ditr-u umăr um2str(x) % furizează valoarea umerică a lui x factorial() %! A = oes(m,) % A e matrice m, cu toate elemetele 1 B = zeros(m,) % matrice m zero I = eye() % matrice uitate, A = [3/ ; ; ] % matrice 3 3 size(a) % dimesiuea matricei A det(a) % determiatul matricei A iv(a) % iversa matricei A A' % traspusa matricei A A(:,7) % coloaa a 7-a a matricei A A(1:20,1) % scoate primele 20 de liii ale lui A choosek(,k) % combiări de luate câte k 1e5 % umarul 10 5 exp(1) % umarul e bar(x) sau barh(x) % reprezetarea pri bare hist(x) % reprezetarea pri histograme hist3(x,y,z) % reprezetarea pri histograme 3-D plot(x(1:5),'*m') % deseează primele 5 compoete ale lui X, cu * mageta plot(t,x,'-') % deseează graficul lui X versus t, cu liie cotiua plot3(x,y,z) % deseează u grafic î 3-D stairs(x) % deseează o fucţie scara subplot(m,,z) % împarte graficul î m zoe & deseează î zoa z semilogx şi semilogy % logaritmează valorile de pe absciă, resp., ordoata hold o % reţie graficul petru a realiza o ouă figura clf % şterge figura clear all % şterge toate variabilele defiite title('graficul fuctiei') % adaugă titlu figurii fid % găseşte idicii elemetelor eule ale uui vector leged % ataşează o legedă la u grafic Tabela 13.1: Fucţii MATLAB utile

232 232 Capitolul 13. Aexe 13.2 Repartiţii probabilistice uzuale Exemple de repartiţii discrete Î dreptul fiecărei repartiţii, î parateză, apare umele cu care aceasta care poate fi apelată î MATLAB. (1) Repartiµia uiform discret, U () (uid) Scriem că X U (), dacă valorile lui X sut {1, 2,..., }, cu probabilităţile P(X = k) = 1, k = 1, 2,...,. Media şi dispersia sut: E(X) = +1 2, D2 (X) = Exemplu: umărul de pucte care apar la arucarea uui zar ideal este o valoare aleatoare repartizată U (6). (2) Repartiµia Beroulli 1, B(1, p) (bio) Scriem X B(1, p). V.a. de tip Beroulli poate lua doar două valori, X = 1 (succes) sau X = 0 (isucces), cu probabilităţile P(X = 1) = p; P(X = 0) = 1 p. Media şi dispersia sut: E(X) = p; D 2 (X) = p(1 p). Exemplu: arucarea o sigură dată a uei moede ideale poate fi modelată ca fiid o v.a. B(1, 0.5). (3) Repartiµia biomial, B(, p): (bio) Scriem X B(, p) (schema bilei reveite sau schema extragerilor cu repetiţie) (0, 1)), dacă valorile lui X sut {0, 1,..., }, cu probabilităţile ( > 0, p P(X = k) = C k p k (1 p) k, k = 0, 1,...,. Media şi dispersia sut: E(X) = p; D 2 (X) = p(1 p). Dacă (X k ) k=1, B(1, p) şi (X k ) k idepedete stochastic, atuci X = k=1 X k B(, p). Exemplu: arucarea de 15 ori a uei moede ideale poate fi modelată ca fiid o v.a. biomială B(15, 0.5). (4) Repartiµia hipergeometric, H (, a, b) (hyge) X H (, a, b) (schema bilei ereveite sau schema extragerilor fără repetiţie) (, a, b > 0) dacă P(X = k) = Ck acb k Ca+b, petru orice k ce satisface max(0, b) k mi(a, ). Media şi dispersia sut: EX = E(X i ) = p; D 2 (X) = p(1 p) a + b i=0 a + b 1. Observaţia 13.1 (i) Dacă (X k ) k=0, B(1, ), cu p = a a+b (v.a. depedete stochastic), atuci X = 1 Jacob Beroulli ( ), matematicia elveţia X i H (, a, b).

233 13.2 Repartiţii probabilistice uzuale 233 Î cazul schemei bilei ereveite, u mai putem scrie egalitate ître D 2 (X) şi i=0 (X i ) i u sut idepedete stochastic. (ii) Petru N = a + b, putem face aproximarea a+b a+b 1 a+b a+b = 1 N, de ude D 2 (X i ), deoarece ( D 2 (X) p(1 p) 1 ). (13.2.1) N Observăm că repartiţiile biomială şi hipergeometrică au aceeaşi medie, îsă dispersiile diferă pri termeul N N 1. Î cazul î care umărul de bile este mult mai mare decât umărul de extrageri (N ), atuci acest terme devie aproximativ ( 1 ) N. Î plus, dacă N este foarte mare, atuci trecâd N î (13.2.1), găsim că şi dispersiile celor două repartiţii coicid. Cu alte cuvite, câd umărul de bile di ură este foarte mare, u mai cotează dacă extragerea bilelor se face cu repetiţie sau u. Acest fapt este folosit î Teoria selecţiei, câd extragerile se fac ditr-o colectivitate de volum foarte mare. (5) Repartiµia Poisso 2, P(λ) (poiss) Valorile sale reprezită umărul eveimetelor spotae (cu itesitatea λ ) realizate îtr-u aumit iterval de timp. Petru u λ > 0, spuem că X P(λ) (legea eveimetelor rare) dacă X ia valori aturale, cu probabilităţile E(X) = λ; D 2 (x) = λ. P(X = k) = e λ λ k, k N. k! (6) Repartiµia geometric, G eo(p) (geo) Valorile sale reprezită umărul de isuccese avute pâă la obţierea primului succes, stiid probabilitatea de obţiere a uui succes, p. Spuem că X G eo(p), (p (0, 1)) dacă X ia valori î N, cu probabilităţile P(X = k) = p(1 p) k, petru orice k N, ude p 0. E(X) = 1 p p ; D2 (X) = 1 p p 2. Observaţia 13.2 Dacă X G eo(p), atuci variabila aleatoare Y = X + 1 reprezită aşteptarea pâă la primul succes. (7) Repartiµia biomial cu expoet egativ, BN (m, p) (bi) Valorile sale reprezită umărul de isuccese obţiute îaite de a se realiza succesul de rag m. Î cazul particular m = 1, obţiem repartiţia geometrică. Petru m 1, p (0, 1), spuem că X BN (m, p) dacă X ia valorile {m, m + 1, m + 2,...}, cu probabilităţile P(X = k) = C m 1 m+k 1 pm (1 p) k, k m, p 0. Media şi dispersia sut: E(X) = m(1 p) ; D 2 m(1 p) (X) = p p 2. 2 Siméo-Deis Poisso ( ), matematicia şi fizicia fracez, studet al lui Laplace

234 234 Capitolul 13. Aexe Exemple de repartiţii cotiue (1) Repartiµia uiform, U (a, b) (uif) V.a. X U (a, b) (a < b) dacă fucţia sa de desitate este { 1 f (x; a, b) = b a,dacă x (a, b) 0,altfel. E(X) = a + b 2, D2 (X) = (b a)2. 12 Exemplu: Alegerea la îtâmplare a uei valori di itervalul (0, 1), î cazul î care orice valoare are aceeaşi şasă de a fi aleasă, urmează o repartiţie U (0, 1). Comada rad di MATLAB realizează acest experimet. (2) Repartiµia ormal, N (µ, σ) (orm) Spuem că X N (µ, σ), dacă X are desitatea: f (x; µ, σ) = 1 σ (x µ) 2 2π e 2σ 2, x R. E(X) = µ şi D 2 (X) = σ 2. Se mai umeşte şi repartiţia gaussiaă. Î cazul µ = 0, σ 2 = 1 desitatea de repartiţie devie: f (x) = 1 2π e x2 2, x R. (13.2.2) Î acest caz spuem că X urmează repartiţia ormală stadard, N (0, 1). Graficul desităţii de repartiţie petru repartiţia ormală este clopotul lui Gauss (vezi Figura 13.1). Di grafic (petru σ = 1), se observă că majoritatea valorilor eule ale repartiţiei ormale stadard se află î itervalul (µ 3σ, µ + 3σ) = ( 3, 3). Această afirmaţie se poate demostra cu ajutorul relaţiei (1.4.7). Figura 13.1: Clopotul lui Gauss petru X N (0, σ), (σ = 1, 2, 3)

235 13.2 Repartiţii probabilistice uzuale 235 Dacă Z N (0, 1), atuci X = σz + µ N (µ, σ). Î mod similar, dacă X N (µ, σ), atuci Z = X µ σ N (0, 1). Petru o v.a. N (0, 1) fucţia de repartiţie este tabelată (valorile ei se găsesc î tabele) şi are o otaţie specială, Θ(x). Ea e defiită pri: Θ(x) = 1 2π x e y2 2 dy. (13.2.3) Fucţia de repartiţie a lui X N (µ, σ) este dată pri F(x) = Θ( x µ ), x R. (13.2.4) σ (3) Repartiµia log-ormal, logn (µ, σ) (log) Repartiţia log-ormală este foarte utilă î Matematicile Fiaciare, reprezetâd o repartiţie de preţuri viitoare petru u activ fiaciar. Dacă X N (µ, σ), atuci Y = e X este o v.a. eegativă, avâd desitatea de repartiţie f (x; µ, σ) = { 1 xσ 2π e (lx µ)2 2σ 2,dacă x > 0 0,dacă x 0 Aşadar, Y logn (µ, σ) dacă ly N (µ, σ). Media şi dispersia sut date de E(X) = e µ+σ 2 /2, D 2 (X) = e 2µ+σ 2 (e σ 2 1). (4) Repartiµia expoeµial, exp(λ) (exp) Valorile sale sut timpi realizaţi ître două valori spotae repartizate P(λ). Spuem că X exp(λ) (λ > 0) dacă are desitatea de repartiţie { λe λx,dacă x > 0 f (x; λ) = 0,dacă x 0 Media şi dispersia sut: E(X) = 1 λ şi D2 (X) = 1 λ 2. Observaţia 13.3 Repartiţia expoeţială satisface proprietatea aşa-umitei lipsă de memorie, i.e., P({X > x + y} {X > y}) = P({X > x}), x,y 0. Este uica distribuţie cotiuă cu această proprietate. Distribuţia geometrică satisface o variată discretă a acestei proprietăţi. [Verificaţi!] (5) Repartiµia Gamma, Γ(a, λ) (gam) O v.a. X Γ(a, λ), a, λ > 0, dacă desitatea sa de repartiţie este: { λ a Γ(a) f (x; a, λ) = xa 1 e λx, dacă x > 0, 0, dacă x 0. ude Γ este fucţia lui Euler, Γ : (0, ) (0, ), Γ(a) = Media şi dispersia sut: E(X) = a λ, D2 (X) = a λ 2. 0 x a 1 e x dx.

236 236 Capitolul 13. Aexe Observaţia 13.4 (i) Γ(1, λ) exp(λ). (ii) Dacă v.a. {X k } k=1, exp(λ) sut idepedete stochastic, atuci suma lor X k Γ(, λ). k=1 (6) Repartiµia Weibull 3, Wbl(k, λ) (wbl) Această repartiţie este asemăătoare cu repartiţia expoeţială (această obţiâdu-se î cazul particular k = 1) şi poate modela repartiţia mărimii particulelor. Câd k = 3.4, distribuţia Weibull este asemăătoare cu cea ormală. Câd k, această repartiţie se apropie de fucţia lui Dirac. Vom spue că X W bl(k, λ) (k > 0, λ > 0) dacă are desitatea de repartiţie { ( k x ) k 1 f (x; k, λ) = λ λ e ( x λ ) k,dacă x 0 0,dacă x < 0. Media petru repartiţia X W bl(k, λ) este E(X) = λ Γ ( ). k (7) Repartiµia χ 2, χ 2 () (chi2) O v.a. X χ 2 () (se citeşte repartiţia hi-pătrat cu grade de libertate) dacă desitatea sa de repartiţie este: 1 f (x; ) = Γ( 2 )2 x 2 1 e 2 x, dacă x > 0, 2 0, dacă x 0. ude Γ este fucţia lui Euler. Graficul acestei repartiţii (petru diverse valori ale lui ) este reprezetat î Figura Media şi dispersia sut: E(χ 2 ) =, D 2 (χ 2 ) = 2. Observaţia 13.5 (a) Repartiţia χ 2 () este, de fapt, repartiţia Γ( 2, 1 2 ). (b) Dacă v.a. idepedete X k N (0,1) petru k = 1, 2,...,, atuci X X X 2 χ 2 (). Î particular, dacă X N (0,1), atuci X 2 χ 2 (1). (8) Repartiµia Studet (W. S. Gosset 4 ), t() (t) Spuem că X t() (cu grade de libertate) dacă desitatea de repartiţie este: f (x; ) = Γ( ) +1 ) +1 2 ( π Γ (1 + 2) x2 2, x R. E(X) = 0, D 2 (X) = 2. (9) Repartiµia Fisher 5, F (m, ) (f) Spuem că X F (m, ) (cu m, grade de libertate) dacă desitatea de repartiţie este: ( m ) m2 Γ( m+ 2 ) f (x) = Γ( m 2 )Γ( 2) x m 2 1 ( 1 + m x) m+ 2, x > 0; 0, x 0. 3 Erst Hjalmar Waloddi Weibull ( ), matematicia şi igier suedez 4 William Sealy Gosset ( ), statisticia britaic, care a publicat sub pseudoimul Studet 5 Sir Roald Aylmer Fisher ( ), statisticia, eugeist, biolog şi geeticia britaic

237 13.2 Repartiţii probabilistice uzuale 237 Figura 13.2: Repartiţia χ 2 () petru patru valori ale lui. E(X) = 2, D2 (X) = 22 ( + m 2) m( 2) 2 ( 4). (10) Repartiµia Cauchy 6, C (λ, µ) (fără corespodet î MATLAB) Spuem că X C (λ, µ) dacă desitatea de repartiţie este: f (x; λ, µ) = λ π[(x µ) 2 + λ 2 ], x R. NU admite medie, dispersie sau momete!!!. [Q: What s the questio the Cauchy distributio hates the most?. A: Got a momet?] 6 Augusti Louis Cauchy ( ), matematicia fracez

238 238 Capitolul 13. Aexe 13.3 Tabel cu itervale de îcredere Param. Alţi param. Iterval de îcredere cu ivelul de semificaţie α ) σ (X z 1 α2 σ, X + z 1 α2 µ σ 2 ( ) σ X z 1 α, + cuoscut ) σ (, X + z 1 α µ σ 2 σ 2 p ( X t 1 α 2 ; 1 ) s, X +t 1 α 2 ; 1 s σ 2 ( σ X t 1 α; 1, ecuoscut ( s, X t α; 1 ( χ 2 1 α 2 ; s 2, ( µ cuoscut ( χα; 2, ( ( 1) s 2, χ 2 1 α 2 ( ; 1 µ ecuoscut (, ( p z 1 α2 mare χ 2 α 2 ; ) s 2, + ) ; ) s 2 ) ) s 2 χ1 α; 2 ) ( 1) s 2 χ 2 α 2 ; 1 ) 1 s 2, + χα; 1 2 ) 1 s 2 χ1 α; 1 2 p(1 p), p + z 1 α 2 ) p(1 p) µ 1, µ 2 ( σ1 2 s 2 ) /σ s 2 f 1 1, 2 1; α, s2 1 ecuoscuţi 2 2 s 2 f 1 1, 2 1;1 α 2 2 µ 1 µ 2 σ σ 1 2, σ X 2 1 X 2 z 1 α + σ 2 2 σ1 2, X 2 1 X 2 + z 1 1 α + σ cuoscuţi 2 µ 1 µ 2 σ1 2 σ 2 2 s X X 2 t 1 α 2 ; N + s2 2 s 2 1, X 1 X 2 +t 1 1 α 2 2 ; N + s2 2 1 ecuoscuţi 2 σ1 2 = σ 2 2 ) µ 1 µ 2 (X 1 X 2 t 1 α 2 ; d(x 1, X 2 ), X 1 X 2 +t 1 α 2 ; d(x 1, X 2 ) ecuoscuţi ( ) p 1 p 2 1, 2 p 1 p 2 z p1 (1 p 1 ) 1 α p 2 (1 p 2 ) 2, p 1 p 2 + z p1 (1 p 1 ) 1 α p 2 (1 p 2 ) 2 mari Tabela 13.2: Tabel cu itervale de îcredere. Mai sus, pri d(x 1, X 2 ) am otat: d(x 1, X 2 ) = ( 1 1)s ( 2 1)s 2 2 ( )

239 13.4 Teste parametrice Teste parametrice (H Alţi parametri 0 ) : µ = µ 0 Tipul testului (H 1 ) ( Regiuea ] critică ) σ µ µ 0, z 1 α 2 [z 1 α 2, + Testul Z bilateral cuoscut µ < µ 0 (, z 1 α ) Testul Z uilateral stâga µ > µ 0 (z 1 α, + ) Testul Z uilateral dreapta ] [ ) σ µ µ 0 (, t 1 α 2 ; 1 t 1 α 2 ; 1, + Testul t bilateral ecuoscut µ < µ 0 (, t α; 1 ) Testul t uilateral stâga µ > µ 0 (t 1 α; 1, + ) Testul t uilateral dreapta Tabela 13.3: Teste petru valoarea medie a uei colectivităţi. (H 0 ) : σ 2 = σ0 2 Tipul testului (H 1 ) ( Regiuea ] critică ) µ σ 2 σ0 2, χ 2 α 2 ; 1 [χ 21 α2 ; 1, + Testul χ 2 bilateral ecuoscut σ 2 < σ0 2 ( ) 0, χ 2 α; 1 Testul χ 2 uilateral stâga σ 2 > σ0 2 ( χ 2 1 α; 1, + ) Testul χ 2 uilateral dreapta Tabela 13.4: Teste petru dispersie. Alţi parametri (H 0 ) : µ 1 = µ 2 Tipul testului (H 1 ) Regiuea critică σ 1, σ 2 µ 1 µ 2 X 1 X 2 z 1 α 2 σ σ cuoscute µ 1 < µ 2 X 1 X 2 < z 1 α σ σ σ 2 µ 1 > µ 2 X 1 X 2 > z 1 1 α 1 + σ σ 1 σ 2 µ 1 µ 2 X 1 X 2 t d 2 1 α (X 1 ) 2 ;N 1 + d2 (X 2 ) 2 ecuoscute µ 1 < µ 2 X 1 X 2 < t d 2 (X 1 ) α;n 1 + d2 (X 2 ) 2 µ 1 > µ 2 X 1 X 2 > t d 2 (X 1 ) 1 α;n 1 + d2 (X 2 ) 2 Testul Z bilateral Testul Z uilateral stâga Testul Z uilateral dreapta Testul t bilateral Testul t uilateral stâga Testul t uilateral dreapta Tabela 13.5: Teste petru egalitatea a două medii.

240 240 Capitolul 13. Aexe (H 0 ) : σ1 2 = σ 2 2 Tipul testului (H 1 ) ( Regiuea ] critică [ ) µ 1, µ 2 σ1 2 σ 2 2, f α 2 ; 1 1, 2 1 f 1 α 2 ; 1 1, 2 1, + Testul F bilateral ecuoscute σ1 2 < σ 2 2 (, f α; 1 1, 2 1) Testul F uilateral stâga σ1 2 > σ 2 2 ( f 1 α; 1 1, 2 1, + ) Testul F uilateral dreapta Tabela 13.6: Teste petru raportul dispersiilor Tabele de valori critice Tabela 13.7: Valori critice petru testul seriilor. Aici, α 1 reprezita ivelul de semificatie petru testul uilateral si α 2 petru testul bilateral.

241 13.5 Tabele de valori critice 241 Tabela 13.8: Valori critice petru testul Wald-Wolfowitz, petru ivelul de semificatie α = 0.05.

242 242 Capitolul 13. Aexe Tabela 13.9: Valori critice c si c 1 petru testul semului ragurilor Wilcoxo, petru ivelul de semificatie. Aici, P(S c 1 ) α si P(S c) α 2 cad (H 0) este acceptata.

243 13.5 Tabele de valori critice 243 Tabela 13.10: Valori critice petru testul semului ragurilor Wilcoxo (caz bilateral).

244 244 Capitolul 13. Aexe Tabela 13.11: Valori critice petru testul semului ragurilor Wilcoxo (caz uilateral).

245 13.6 Top Te Reasos To Become A Statisticia Top Te Reasos To Become A Statisticia 1. For statisticias, deviatios are cosidered to be ormal. 2. Statisticias feel complete ad sufficiet. 3. A statisticia ca have his head i a hot ove ad his feet deep i the ice, ad he will say that, i average, he feels fie. 4. Statisticias do it discretely ad cotiuously. 5. Statisticias are right 95% of the time. 6. A statisticia ca legally commet o someoe s posterior distributio. 7. Not all statisticias may be ormal, but they are trasformable. 8. Statisticias ever have to say that they are certai; 95% is sufficiet. 9. Statisticias are hoestly sigificatly differet. 10. No oe wats a statisticia s job, so you ll be safe.

246

247 Bibliografie

248

249 Bibliography [1] Petru Blaga, Statistică... pri Matlab, Presa uiversitară clujeaă, Cluj-Napoca, [2] David Brik, Statistics compedium, David Brik & Vetus Publishig ApS, [3] David Brik, Statistics exercises, David Brik & Vetus Publishig ApS, [4] Gheorghe Ciucu, Virgil Craiu, Teoria estimaţiei şi verificarea ipotezelor statistice, Editura Didactică şi Pedagogică, Bucureşti, [5] Steve Dobbs, Jae Miller, Statistics 1, Cambridge Uiversity Press, Cambridge [6] Jay L. DeVore, Keeth N. Berk, Moder Mathematical Statistics with Applicatios (with CD-ROM), Duxbury Press, [7] Robert V. Hogg, Alle Craig, Joseph W. McKea, Itroductio to Mathematical Statistics, Pretice Hall, 6th editio, [8] Marius Iosifescu, Costache Moieagu, Vladimir Trebici, Emiliaa Ursiau, Mică eciclopedie de statistică, Editura ştiiţifică şi eciclopedică, Bucureşti, [9] [10] Gheorghe Mihoc, N. Micu, Teoria probabilităţilor şi statistica matematică, Bucuresti, [11] Octavia Petruş, Probabilităţi şi Statistica matematică - Computer Applicatios, Iaşi, [12] Saford Weisberg, Applied Liear Regressio, Wiley series i Probability ad Statistics, 3rd ed., [13] Larry J. Stephes, Theory ad problems of Begiig Statistics, Schaum s Outlie Series, 2d ed., The McGraw-Hill Compaies, Ic., [14] Domiick Salvatore, Derrick Reagle, Theory ad problems of Statistics ad Ecoometrics, Schaum s Outlie Series, 2d ed., The McGraw-Hill Compaies, Ic., 2002.

250 250 BIBLIOGRAPHY [15] Iulia Stoleriu, Statistică pri MATLAB. MatrixRom, Bucureşti, [16] Gábor Székely, Paradoxes i Probability Theory ad Mathematical Statistics, (Mathematics ad its Applicatios), Spriger Verlag, [17] David Williams, Weighig the Odds: A Course i Probability ad Statistics, Cambridge Uiversity Press, 2001.

251 Glosar amplitudiea, 41 amplitudiea de selecţie, 58 ANOVA, 205 bootstrappig, 153 box-ad-whisker plot, 44 caracteristică, 7 cauzalitate, 169, 171 clasă mediaă, 45 clopotul lui Gauss, 230 coeficiet de aplatizare, 13, 43 coeficiet de asimetrie, 13, 42 coeficiet de corelaţie, 15 coeficiet de corelaţie, 41, 42 coeficiet de corelaţie empirică, 169 coeficiet de corelaţie teoretic, 15, 169 coeficietul de corelaţie Spearma, 172 coeficietul de determiare, 171 coeficietul de variaţie, 41 colectivitate statistică, 7 corelaţia, 14, 42, 168 corelaţia empirică, 169 corelaţia teoretică, 14, 168 corelatie, 167 cota, 191 covariaţa, 14 cuatile, 13 date cotiue, 8, 32 date discrete, 8, 32 date perechi, 136 desităţi de frecveţă, 37 deplasarea uui estimator, 70 deviaţia stadard de selecţie, 16 deviaţia stadard, 41 dispersia, 41 dispersia de selecţie, 16, 56 dispersia teoretică, 55 dispersia teoretică, 12 distribuţie empirică de selecţie, 33 eroare î medie pătratică, 70 estimaţie, 69 estimator, 69 estimator cosistet, 71 estimator de verosimilitate maximă, 72 estimator edeplasat, 70 estimator pri metoda mometelor, 73 factori, 205 fază, 136 frecveţă cumulată, 35 frecveţa absolută, 33 frecveţa cumulată, 33 frecveţa relativă cumulată, 33 frecveţa relativă, 33, 157 frotierele uei clase, 39 fucţie de regresie, 178 fucţia de probabilitate (de frecveţă), 10 fucţie de repartiţie, 55

Teoria probabilit¼aţilor şi statistic¼a matematic¼a

Teoria probabilit¼aţilor şi statistic¼a matematic¼a Teoria probabilit¼aţilor şi statistic¼a matematic¼a B¼arb¼acioru Iuliaa Carme CURSUL 7 Cursul 7 2 Cupris 1 Legea umerelor mari 5 1.1 Geeralit¼aţi............................... 5 1.2 Iegalitatea lui Cebîşev........................

More information

Laborator 4. Rezolvarea ecuaţiilor diferenţiale în Matlab

Laborator 4. Rezolvarea ecuaţiilor diferenţiale în Matlab Laborator 4. Rezolvarea ecuaţiilor difereţiale î Matlab Bibliografie. G. Aastassiou, I. Iata, Itelliget Routies: Solvig Mathematical Aalsis with Matlab, Mathcad, Mathematica ad Maple, Spriger, 03.. I.

More information

Legi de distribuţie (principalele distribuţii de probabilitate) Tudor Drugan

Legi de distribuţie (principalele distribuţii de probabilitate) Tudor Drugan Legi de distribuţie (principalele distribuţii de probabilitate) Tudor Drugan Introducere In general distribuţiile variabilelor aleatoare definite pe o populaţie, care face obiectul unui studiu, nu se cunosc.

More information

SIMULAREA DECIZIEI FINANCIARE

SIMULAREA DECIZIEI FINANCIARE SIMULAREA DECIZIEI FINANCIARE Conf. univ. dr. Nicolae BÂRSAN-PIPU T5.1 TEMA 5 DISTRIBUŢII DISCRETE T5. Cuprins T5.3 5.1 Variabile aleatoare discrete 5. Distribuţia de probabilitate a unei variabile aleatoare

More information

Numere prime. O selecţie de probleme pentru gimnaziu

Numere prime. O selecţie de probleme pentru gimnaziu Numere prime O selecţie de probleme petru gimaziu Adria Zaoschi Colegiul Natioal "Costache Negruzzi" Iasi (Clasa a V-a) Determiați submulțimea B a mulțimii A 0,,,, 49, 50, formată di toate elemetele lui

More information

Matematici speciale Seminar 12

Matematici speciale Seminar 12 Matematici speciale Semiar 1 Mai 017 ii Statistica este arta de a miti pri itermediul cifrelor. Wilhelm Stekel 1 Notiui de statistica Datele di dreapta arata temperaturile de racire ale uei cesti de cafea,

More information

1.3. OPERAŢII CU NUMERE NEZECIMALE

1.3. OPERAŢII CU NUMERE NEZECIMALE 1.3. OPERAŢII CU NUMERE NEZECIMALE 1.3.1 OPERAŢII CU NUMERE BINARE A. ADUNAREA NUMERELOR BINARE Reguli de bază: 0 + 0 = 0 transport 0 0 + 1 = 1 transport 0 1 + 0 = 1 transport 0 1 + 1 = 0 transport 1 Pentru

More information

Definiţie. Pr(X a) - probabilitatea ca X să ia valoarea a ; Pr(a X b) - probabilitatea ca X să ia o valoare în intervalul a,b.

Definiţie. Pr(X a) - probabilitatea ca X să ia valoarea a ; Pr(a X b) - probabilitatea ca X să ia o valoare în intervalul a,b. Variabile aleatoare Definiţie Se numeşte variabilă aleatoare pe un spaţiu fundamental E şi se notează prin X, o funcţie definită pe E cu valori în mulţimea numerelor reale. Unei variabile aleatoare X i

More information

IMAR Problema 1. Fie P un punct situat în interiorul unui triunghi ABC. Dreapta AP intersectează

IMAR Problema 1. Fie P un punct situat în interiorul unui triunghi ABC. Dreapta AP intersectează IMAR 017 Problema 1 Fie P u puct situat î iteriorul uui triughi ABC Dreapta AP itersectează latura BC î puctul D ; dreapta BP itersectează latura CA î puctul E ; iar dreapta CP itersectează latura AB î

More information

Test de Departajare pentru MofM 2014 (Bucureşti) Enunţuri & Soluţii

Test de Departajare pentru MofM 2014 (Bucureşti) Enunţuri & Soluţii Test de Departajare petru MofM 04 Bucureşti Euţuri & Soluţii Problem. Give + distict real umbers i the iterval [0,], prove there exist two of them a b, such that ab a b < Solutio. Idex the umbers 0 a 0

More information

Sisteme cu logica fuzzy

Sisteme cu logica fuzzy Sisteme cu logica fuzzy 1/15 Sisteme cu logica fuzzy Mamdani Fie un sistem cu logică fuzzy Mamdani două intrări x şi y ieşire z x y SLF Structura z 2/15 Sisteme cu logica fuzzy Mamdani Baza de reguli R

More information

O V E R V I E W. This study suggests grouping of numbers that do not divide the number

O V E R V I E W. This study suggests grouping of numbers that do not divide the number MSCN(2010) : 11A99 Author : Barar Stelian Liviu Adress : Israel e-mail : stelibarar@yahoo.com O V E R V I E W This study suggests grouping of numbers that do not divide the number 3 and/or 5 in eight collumns.

More information

Teorema Reziduurilor şi Bucuria Integralelor Reale Prezentare de Alexandru Negrescu

Teorema Reziduurilor şi Bucuria Integralelor Reale Prezentare de Alexandru Negrescu Teorema Reiduurilor şi Bucuria Integralelor Reale Preentare de Alexandru Negrescu Integrale cu funcţii raţionale ce depind de sint şi cost u notaţia e it, avem: cost sint i ( + ( dt d i, iar integrarea

More information

Soluţii juniori., unde 1, 2

Soluţii juniori., unde 1, 2 Soluţii juniori Problema 1 Se consideră suma S x1x x3x4... x015 x016 Este posibil să avem S 016? Răspuns: Da., unde 1,,..., 016 3, 3 Termenii sumei sunt de forma 3 3 1, x x x. 3 5 6 sau Cristian Lazăr

More information

Curs Teorema Limită Centrală Enunţ

Curs Teorema Limită Centrală Enunţ Curs 9 Teorema Limiă Cerală 9 Teorema Limiă Cerală 9 Euţ Teorema Limiă Cerală TLC) ese ua dire cele mai imporae eoreme di eoria probabiliăţilor Iuiiv, orema afirmă că suma uui umăr mare de v a idepedee,

More information

Ecuatii si inecuatii de gradul al doilea si reductibile la gradul al doilea. Ecuatii de gradul al doilea

Ecuatii si inecuatii de gradul al doilea si reductibile la gradul al doilea. Ecuatii de gradul al doilea Ecuatii si inecuatii de gradul al doilea si reductibile la gradul al doilea Ecuatia de forma Ecuatii de gradul al doilea a + b + c = 0, (1) unde a, b, c R, a 0, - variabila, se numeste ecuatie de gradul

More information

Cristalul cu N atomi = un sistem de N oscilatori de amplitudini mici;

Cristalul cu N atomi = un sistem de N oscilatori de amplitudini mici; Curs 8 Caldura specifica a retelei Cristalul cu N atomi = un sistem de N oscilatori de amplitudini mici; pentru tratarea cuantica, se inlocuieste tratamentul clasic al oscilatorilor cuplati, cu cel cuantic

More information

Prof univ dr. Sever Spânulescu - LUCRARI DE LABORATOR

Prof univ dr. Sever Spânulescu - LUCRARI DE LABORATOR UNIVERSITATEA HYPERION Facultatea de Stiițe Exacte și Igierești Prof uiv dr. Sever Spâulescu CALCUL NUMERIC - LUCRARI DE LABORATOR Lucrarea de laborator. Rezolvarea sistemelor de ecuatii liiare pri metode

More information

LUCRAREA NR Reprezentarea sistemelor liniare și invariante în timp 2. Răspunsul sistemelor la semnale de intrare

LUCRAREA NR Reprezentarea sistemelor liniare și invariante în timp 2. Răspunsul sistemelor la semnale de intrare Semale și iteme eoria itemelor LUCRAREA NR. 3. Reprezetarea itemelor liiare și ivariate î timp. Răpuul itemelor la emale de itrare. Reprezetarea itemelor liiare și ivariate î timp U item cotiuu, diamic,

More information

UNITATEA DE ÎNVĂȚARE 3 Analiza algoritmilor

UNITATEA DE ÎNVĂȚARE 3 Analiza algoritmilor UNITATEA DE ÎNVĂȚARE 3 Analiza algoritmilor Obiective urmărite: La sfârşitul parcurgerii acestei UI, studenţii vor 1.1 cunoaște conceptul de eficienta a unui algoritm vor cunoaste si inţelege modalitatile

More information

Lucrarea de laborator nr. 8

Lucrarea de laborator nr. 8 Metode Numerice Lucrarea de laborator r. 8 I. Scopul lucrării Metoda Newto II. Coţiutul lucrării 1. Metoda tagetei 2. Metoda Newto cazul m-dimesioal III. Prezetarea lucrării III.1. Metoda tagetei Metoda

More information

DE LA TEOREMA FAN MINIMAX LA ECHILIBRUL NASH FROM FAN MINIMAX THEOREM TO NASH EQUILIBRIUM

DE LA TEOREMA FAN MINIMAX LA ECHILIBRUL NASH FROM FAN MINIMAX THEOREM TO NASH EQUILIBRIUM Doctorad Bogda-Coreliu BIOLAN Uiversitatea di Bucureşti DE LA TEOREMA FAN MINIMAX LA ECHILIBRUL NASH FROM FAN MINIMAX THEOREM TO NASH EQUILIBRIUM Abstract. We show that i a abstract covex space (E, D;

More information

Divizibilitate în mulțimea numerelor naturale/întregi

Divizibilitate în mulțimea numerelor naturale/întregi Divizibilitate în mulțimea numerelor naturale/întregi Teorema îmărţirii cu rest în mulțimea numerelor naturale Fie a, b, b 0. Atunci există q, r astfel încât a=bq+r, cu 0 r < b. În lus, q şi r sunt unic

More information

Barem de notare clasa a V-a

Barem de notare clasa a V-a Barem de notare clasa a V-a Problema1. Determinați mulțimile A și B, formate din numere naturale, știind că îndeplinesc simultan condițiile: a) A B,5,6 ; b) B A 0,7 ; c) card AB 3; d) suma elementelor

More information

Gradul de comutativitate al grupurilor finite 1

Gradul de comutativitate al grupurilor finite 1 Gradul de comutativitate al grupurilor finite Marius TĂRNĂUCEANU Abstract The commutativity degree of a group is one of the most important probabilistic aspects of finite group theory In this survey we

More information

Testarea ipotezelor statistice

Testarea ipotezelor statistice Testarea ipotezelor statistice Formularea de ipoteze statistice este una din cele mai importante aspecte ale cercetarii stiintifice. O ipoteza noua trebuie verificata! Pentru verificarea unor ipoteze statistice

More information

Matematici speciale Variabile aleatoare discrete

Matematici speciale Variabile aleatoare discrete Matematici speciale Variabile aleatoare discrete Aprilie 208 ii Expose yourself to as much randomness as possible. Ben Casnocha 9 Variabile aleatoare discrete Texas Holdem Poker: In Texas Hold em Poker

More information

Probleme rezolvate. Lăcrimioara GRAMA, Corneliu RUSU, Prelucrarea numerică a semnalelor aplicații și probleme, Ed. U.T.PRESS, Cluj-Napoca, 2008.

Probleme rezolvate. Lăcrimioara GRAMA, Corneliu RUSU, Prelucrarea numerică a semnalelor aplicații și probleme, Ed. U.T.PRESS, Cluj-Napoca, 2008. Probleme reolvate Lăcrimioara GRAMA, Coreliu RUSU, Prelucrarea umerică a semalelor aplicații și probleme, Ed UTPRESS, Clu-Napoca, 008 Capitolul Semale și secvețe Problema Geerarea uei expoețiale complexe:

More information

Inegalităţi de tip Chebyshev-Grüss pentru operatorii Bernstein-Euler-Jacobi

Inegalităţi de tip Chebyshev-Grüss pentru operatorii Bernstein-Euler-Jacobi Iegalităţi de tip Chebyshev-Grüss petru operatorii Berstei-Euler-Jacobi arxiv:1506.08166v1 [math.ca] 26 Ju 2015 Heier Goska, Maria-Daiela Rusu, Elea-Doria Stăilă Abstract The classical form of Grüss iequality

More information

2. METODA GRADIENTULUI CONJUGAT PENTRU REZOLVAREA SISTEMELOR ALGEBRICE LINIARE

2. METODA GRADIENTULUI CONJUGAT PENTRU REZOLVAREA SISTEMELOR ALGEBRICE LINIARE MEOD GRDIENULUI CONJUG PENRU REZOLVRE SISEMELOR LGEBRICE LINIRE Neculai drei Research Istitute for Iformatics Ceter for dvaced Modelig ad Optimizatio 8- verescu veue Bucharest Romaia E-mail: adrei@iciro

More information

Elemente de teoria erorilor si incertitudinilor Calcule statistice si modele de aproximare

Elemente de teoria erorilor si incertitudinilor Calcule statistice si modele de aproximare Elemete de teoria erorilor si icertitudiilor Calcule statistice si modele de aproximare Să măsurăm ce se poate măsura şi să facem măsurabil ceea ce u se poate măsura îcă. Galileo Galilei. Itroducere î

More information

FORMULELE LUI STIRLING, WALLIS, GAUSS ŞI APLICAŢII

FORMULELE LUI STIRLING, WALLIS, GAUSS ŞI APLICAŢII DIDACTICA MATHEMATICA, Vol. 34), pp. 53 67 FORMULELE LUI STIRLING, WALLIS, GAUSS ŞI APLICAŢII Eugenia Duca, Emilia Copaciu şi Dorel I. Duca Abstract. In this paper are presented the Wallis, Stirling, Gauss

More information

MATEMATICI SPECIALE PENTRU INGINERI

MATEMATICI SPECIALE PENTRU INGINERI DAN LASCU MATEMATICI SPECIALE PENTRU INGINERI TEORIE CUPRINS PREFAÞÃ 4 FUNCÞII COMPLEXE 5 Numere complee 5 Itroducere Forma algebricã Forma trigoometricã a umerelor complee 5 7 Elemete de topologie î corpul

More information

Solution by Nicuşor Zlota, Traian Vuia Technical College, Focşani, Romania

Solution by Nicuşor Zlota, Traian Vuia Technical College, Focşani, Romania Revista Virtuala Ifo MateTehic ISSN 069-7988 ISSN-L 069-7988 Probleme rouse sre rezolvare Nicusor Zlota, Focsai 08.Prove that C, j N,where the fiboacci, F F F 0 F F, F 0, F + = + + = = = 0 + j + j 09.Let

More information

Utilizarea limbajului SQL pentru cereri OLAP. Mihaela Muntean 2015

Utilizarea limbajului SQL pentru cereri OLAP. Mihaela Muntean 2015 Utilizarea limbajului SQL pentru cereri OLAP Mihaela Muntean 2015 Cuprins Implementarea operatiilor OLAP de baza in SQL -traditional: Rollup Slice Dice Pivotare SQL-2008 Optiunea ROLLUP Optiunea CUBE,

More information

ON THE QUATERNARY QUADRATIC DIOPHANTINE EQUATIONS (II) NICOLAE BRATU 1 ADINA CRETAN 2

ON THE QUATERNARY QUADRATIC DIOPHANTINE EQUATIONS (II) NICOLAE BRATU 1 ADINA CRETAN 2 ON THE QUATERNARY QUADRATIC DIOPHANTINE EQUATIONS (II) NICOLAE BRATU 1 ADINA CRETAN ABSTRACT This paper has been updated and completed thanks to suggestions and critics coming from Dr. Mike Hirschhorn,

More information

Procedeu de demonstrare a unor inegalităţi bazat pe inegalitatea lui Schur

Procedeu de demonstrare a unor inegalităţi bazat pe inegalitatea lui Schur Procedeu de demonstrare a unor inegalităţi bazat pe inegalitatea lui Schur Andi Gabriel BROJBEANU Abstract. A method for establishing certain inequalities is proposed and applied. It is based upon inequalities

More information

GENERATOARE DE SEMNAL DIGITALE

GENERATOARE DE SEMNAL DIGITALE Technical University of Iasi, Romania Faculty of Electronics and Telecommunications Signals, Circuits and Systems laboratory Prof. Victor Grigoras Cuprins Clasificarea generatoarelor Filtre reursive la

More information

Invatare supervizata. Modele liniare. Ruxandra Stoean

Invatare supervizata. Modele liniare. Ruxandra Stoean Invatare supervizata. Modele liniare Ruxandra Stoean rstoean@inf.ucv.ro http://inf.ucv.ro/~rstoean Invatare supervizata Concept Date de intrare cu iesiri puse la dispozitie De invatat modul de asociere

More information

Habilitation Thesis. Periodic solutions of differential systems: existence, stability and bifurcations

Habilitation Thesis. Periodic solutions of differential systems: existence, stability and bifurcations UNIVERSITATEA BABEŞ BOLYAI CLUJ-NAPOCA FACULTATEA DE MATEMATICĂ ŞI INFORMATICĂ Habilitation Thesis Mathematics presented by Adriana Buică Periodic solutions of differential systems: existence, stability

More information

Siguranţa structurilor la acţiuni seismice şi climatice

Siguranţa structurilor la acţiuni seismice şi climatice Universitatea Tehnică de Construcţii Bucureşti Facultatea de Construcţii Civile, Industriale şi Agricole Catedra de Constructii de Beton Armat Grinda b.a., 5 ani expunere, VQ,an =,6 6. Indice de fiabilitate,

More information

Pentru clasa a X-a Ştiinţele naturii-sem II

Pentru clasa a X-a Ştiinţele naturii-sem II Pentru clasa a X-a Ştiinţele naturii-sem II Reprezentarea algoritmilor. Pseudocod. Principiile programării structurate. Structuri de bază: structura liniară structura alternativă structura repetitivă Algoritmi

More information

Sisteme cu logica fuzzy cu mai multe intrari (MISO)

Sisteme cu logica fuzzy cu mai multe intrari (MISO) Sisteme cu logica fuzzy cu mai multe intrari (MISO) Structura unui sistem cu logică fuzzy MISO Structura unui SLF cu 2 intrari Fie un sistem cu logică fuzzy Mamdani două intrări x şi y ieşire z x y SLF

More information

APLICAŢII ALE FORMULELOR LUI NEWTON PENTRU POLINOAME SIMETRICE

APLICAŢII ALE FORMULELOR LUI NEWTON PENTRU POLINOAME SIMETRICE DIDACTICA MATHEMATICA, Vol. 33(2015), pp. 27 37 APLICAŢII ALE FORMULELOR LUI NEWTON PENTRU POLINOAME SIMETRICE Cristina-Aida Coman Abstract. In this paper we present some applications of Newton s formulae

More information

din oxidul de zinc, utilizat în hrana animalelor

din oxidul de zinc, utilizat în hrana animalelor Aalele IBNA vol. 3, 007 5 di oxidul de zic, utilizat î hraa aimalelor Arabela Utea 1, Mariaa Ropota 1, Mariaa Ioescu, V. Ioescu, Rodica Diaa Criste 1 1 Istitutul Natioal de Cercetare-Dezvoltare petru Biologie

More information

Avem 6 tipuri de simboluri in logica predicatelor:

Avem 6 tipuri de simboluri in logica predicatelor: Semantica Avem 6 tipuri de simboluri in logica predicatelor: Predicate: p, q, r,, p1, q2 etc. Constante: a, b, c,, z, a1, b4,, ion, mihai, labus etc. Variabile: x, y, z, x1, y1, z4 etc. Conective:,,,,

More information

Probleme de numărare: combinări, aranjamente, permutări de Manuela Prajea 1)

Probleme de numărare: combinări, aranjamente, permutări de Manuela Prajea 1) Probleme de umărare: combăr, arajamete, permutăr de Mauela Prajea 1) Lecța se adresează î prmul râd elevlor de gmazu care focuseaza cocursurle de matematcă hgh-level ș d acest motv se îcepe expuerea de

More information

Cercet¼ari operaţionale

Cercet¼ari operaţionale Cercet¼ari operaţionale B¼arb¼acioru Iuliana Carmen CURSUL 9 Cursul 9 Cuprins Programare liniar¼a 5.1 Modelul matematic al unei probleme de programare liniar¼a.................... 5. Forme de prezentare

More information

A COMPARATIVE ANALYSIS OF WIND SPEED DISTRIBUTION EVALUATION

A COMPARATIVE ANALYSIS OF WIND SPEED DISTRIBUTION EVALUATION BULETINUL INSTITUTULUI POLITEHNIC DIN IAŞI Publicat de Uiversitatea Tehică Gheorghe Asachi di Iaşi Tomul LVII (LXI), Fasc. 2, 20 Secţia ELECTROTEHNICĂ. ENERGETICĂ. ELECTRONICĂ A COMPARATIVE ANALYSIS OF

More information

A GENERALIZATION OF A CLASSICAL MONTE CARLO ALGORITHM TO ESTIMATE π

A GENERALIZATION OF A CLASSICAL MONTE CARLO ALGORITHM TO ESTIMATE π U.P.B. Sci. Bull., Series A, Vol. 68, No., 6 A GENERALIZATION OF A CLASSICAL MONTE CARLO ALGORITHM TO ESTIMATE π S.C. ŞTEFĂNESCU Algoritmul Monte Carlo clasic A1 estimeazează valoarea numărului π bazându-se

More information

Despre AGC cuasigrupuri V. Izbaș

Despre AGC cuasigrupuri V. Izbaș Despre AGC cuasigrupuri V Izbaș 1 Introducere Se ştie că grupurile au apărut în matematică ca grupuri de automorfisme Rolul automorfismelor este remarcabil şi bine cunoscut La studierea diverselor structuri

More information

FIŞA DISCIPLINEI seminar/laborator 2 curs 5 din care: Total ore din planul de învăţământ

FIŞA DISCIPLINEI seminar/laborator 2 curs 5 din care: Total ore din planul de învăţământ FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de Informatică 1.3 Departamentul Informatică 1.4 Domeniul

More information

EE 4TM4: Digital Communications II Probability Theory

EE 4TM4: Digital Communications II Probability Theory 1 EE 4TM4: Digital Commuicatios II Probability Theory I. RANDOM VARIABLES A radom variable is a real-valued fuctio defied o the sample space. Example: Suppose that our experimet cosists of tossig two fair

More information

Lucrarea de laborator nr. 11

Lucrarea de laborator nr. 11 Metode Nuerce - Lucrarea de laborator 11 Lucrarea de laborator r. 11 I. Scopul lucrăr Aproxarea î ede pr etoda celor a c pătrate II. Coţutul lucrăr 1. Metoda celor a c pătrate. Procedur MAPLE ş exeple

More information

LUCRAREA nr. 5: Analiza în domeniul timp a elementelor unui sistem de reglare automată. Sistemul de ordinul 2

LUCRAREA nr. 5: Analiza în domeniul timp a elementelor unui sistem de reglare automată. Sistemul de ordinul 2 LUCRAREA r. 5: Aaliza î domiul timp a lmtlor uui sim d rglar automată. Simul d ordiul. Scopul lucrării S va fac aaliza comportării î timp a simului liiar d ordiul pri dtrmiara variaţii mărimii d işir a

More information

Derivarea integralei şi integrarea derivatei

Derivarea integralei şi integrarea derivatei Derivre iegrlei şi iegrre erivei Dorim să evieţiem ici fpul că iegrre şi erivre fucţiilor rele su operţii iverse, îr-u ses cre urmeză fi preciz. Icepem pri remii formul Leibiz-Newo peru fucţii f : I R

More information

Chapter 2 The Monte Carlo Method

Chapter 2 The Monte Carlo Method Chapter 2 The Mote Carlo Method The Mote Carlo Method stads for a broad class of computatioal algorithms that rely o radom sampligs. It is ofte used i physical ad mathematical problems ad is most useful

More information

IE 230 Probability & Statistics in Engineering I. Closed book and notes. No calculators. 120 minutes.

IE 230 Probability & Statistics in Engineering I. Closed book and notes. No calculators. 120 minutes. Closed book ad otes. No calculators. 120 miutes. Cover page, five pages of exam, ad tables for discrete ad cotiuous distributios. Score X i =1 X i / S X 2 i =1 (X i X ) 2 / ( 1) = [i =1 X i 2 X 2 ] / (

More information

Teoreme de Analiză Matematică - I (teorema Weierstrass-Bolzano) 1

Teoreme de Analiză Matematică - I (teorema Weierstrass-Bolzano) 1 Educaţia Matematică Vol. 3, Nr. 1-2 (2007), 79-84 Teoreme de Analiză Matematică - I (teorema Weierstrass-Bolzano) 1 Silviu Crăciunaş, Petrică Dicu, Mioara Boncuţ Abstract In this paper we propose a Weierstrass

More information

Curs 6. Discrete Event Simulation

Curs 6. Discrete Event Simulation Curs 6 Discrete Event Simulation C6 ~ 12.04.2017 1/43 In discrete-event simulation, the operation of a system is represented as a chronological sequence of events. Each event occurs at an instant in time

More information

Inteligenta Artificiala

Inteligenta Artificiala Inteligenta Artificiala Universitatea Politehnica Bucuresti Anul universitar 2010-2011 Adina Magda Florea http://turing.cs.pub.ro/ia_10 si curs.cs.pub.ro 1 Curs nr. 4 Cautare cu actiuni nedeterministe

More information

Probability and statistics: basic terms

Probability and statistics: basic terms Probability ad statistics: basic terms M. Veeraraghava August 203 A radom variable is a rule that assigs a umerical value to each possible outcome of a experimet. Outcomes of a experimet form the sample

More information

The Sampling Distribution of the Maximum. Likelihood Estimators for the Parameters of. Beta-Binomial Distribution

The Sampling Distribution of the Maximum. Likelihood Estimators for the Parameters of. Beta-Binomial Distribution Iteratioal Mathematical Forum, Vol. 8, 2013, o. 26, 1263-1277 HIKARI Ltd, www.m-hikari.com http://d.doi.org/10.12988/imf.2013.3475 The Samplig Distributio of the Maimum Likelihood Estimators for the Parameters

More information

Discrete Probability Functions

Discrete Probability Functions Discrete Probability Fuctios Daiel B. Rowe, Ph.D. Professor Departmet of Mathematics, Statistics, ad Computer Sciece Copyright 017 by 1 Outlie Discrete RVs, PMFs, CDFs Discrete Expectatios Discrete Momets

More information

TEZA DE DOCTORAT. Contributii la implementarea managementului fiabilitatii si mentenabilitatii in proiectarea instalatiilor

TEZA DE DOCTORAT. Contributii la implementarea managementului fiabilitatii si mentenabilitatii in proiectarea instalatiilor MINISTERUL EDUCTIEI, CERCETRII, TINERETULUI SI SPORTULUI UNIVERSITTE TEHNIC DE CONSTRUCTII BUCURESTI FCULTTE DE INGINERIE INSTLTIILOR TEZ DE DOCTORT Cotributii la implemetarea maagemetului fiabilitatii

More information

Rădăcina pătrată a unei matrici reale de ordinul 2

Rădăcina pătrată a unei matrici reale de ordinul 2 Rădăcina pătrată a unei matrici reale de ordinul Mircea Crasmareanu Mai 19, 017 ( a c Actorii acestei poveşti: matricile A = M b d (R. PROBLEMA STUDIATĂ: Există B M (R aşa încât: B = A? O astfel de matrice

More information

Reactoare chimice cu curgere piston (ideala) cu amestecare completa de tip batch (autoclava)

Reactoare chimice cu curgere piston (ideala) cu amestecare completa de tip batch (autoclava) Reactoare chimice cu curgere piston (ideala) cu amestecare completa de tip batch (autoclava) Reactorul cu curgere ideala Toate particulele se deplaseaza intr-o directie de-a lungul reactorului, precum

More information

UNIVERSITATEA POLITEHNICA TIMIŞOARA Facultatea de Electronică şi Telecomunicaţii DORINA ISAR

UNIVERSITATEA POLITEHNICA TIMIŞOARA Facultatea de Electronică şi Telecomunicaţii DORINA ISAR UNIVERSITATEA POLITEHNICA TIMIŞOARA Facultatea de Electroică şi Telecomuicaţii DORINA ISAR ÎMUNĂTĂŢIREA RAPORTULUI SEMNAL PE ZGOMOT ÎN SISTEMELE DE TELECOMUNICAŢII Teză de doctorat Coducător ştiiţific

More information

LUCRARE DE LICENTA. Aplicatie grafica pentru controlul unui pendul dublu neliniar. Cuprins: Absolvent. Alexandru Stefan.

LUCRARE DE LICENTA. Aplicatie grafica pentru controlul unui pendul dublu neliniar. Cuprins: Absolvent. Alexandru Stefan. LUCRARE DE LICENTA Aplicatie grafica petru cotrolul uui pedul dublu eliiar Absolvet Alexadru Stefa Coordoator Asist.Ig. Dr. Valeti Taasa Bucuresti, 2013 Cupris: 1 Capitolul 1: Itroducere... 4 Capitolul

More information

AMS 216 Stochastic Differential Equations Lecture 02 Copyright by Hongyun Wang, UCSC ( ( )) 2 = E X 2 ( ( )) 2

AMS 216 Stochastic Differential Equations Lecture 02 Copyright by Hongyun Wang, UCSC ( ( )) 2 = E X 2 ( ( )) 2 AMS 216 Stochastic Differetial Equatios Lecture 02 Copyright by Hogyu Wag, UCSC Review of probability theory (Cotiued) Variace: var X We obtai: = E X E( X ) 2 = E( X 2 ) 2E ( X )E X var( X ) = E X 2 Stadard

More information

Utilizarea claselor de echivalenta in analiza asistata de calculator a sistemelor cu evenimente discrete

Utilizarea claselor de echivalenta in analiza asistata de calculator a sistemelor cu evenimente discrete 72 Utilizarea claselor de echivalenta in analiza asistata de calculator a sistemelor cu evenimente discrete Conf.dr. Alexandru TERTISCO, ing. Alexandru BOICEA Facultatea de Automatica si Calculatoare,

More information

2D AND 3D PROCESSING OF THE INTERDEPENDENCE BETWEEN THE COMFORT MAIN INDICATORS

2D AND 3D PROCESSING OF THE INTERDEPENDENCE BETWEEN THE COMFORT MAIN INDICATORS BULETINUL INSTITUTULUI POLITEHNIC DIN IAŞI Publicat de Universitatea Tehnică Gheorghe Asachi din Iaşi Tomul LVII (LXI), Fasc. 1, 2011 SecŃia TEXTILE. PIELĂRIE 2D AND 3D PROCESSING OF THE INTERDEPENDENCE

More information

LABORATOR DE ETALONARE A DISPOZITIVELOR DE MASURARE CURENTI MARI

LABORATOR DE ETALONARE A DISPOZITIVELOR DE MASURARE CURENTI MARI The First teratioal Proficiecy Testig Coferece Siaia, Româia 11 th 13 th October, 2007 LABORATOR DE ETALONARE A DSPOZTVELOR DE MASURARE CURENT MAR Adrei Mariescu, Coreliu Chiciu, Horia oescu, Costati lica,

More information

4. Partial Sums and the Central Limit Theorem

4. Partial Sums and the Central Limit Theorem 1 of 10 7/16/2009 6:05 AM Virtual Laboratories > 6. Radom Samples > 1 2 3 4 5 6 7 4. Partial Sums ad the Cetral Limit Theorem The cetral limit theorem ad the law of large umbers are the two fudametal theorems

More information

ARTIFICIAL INTELLIGENCE

ARTIFICIAL INTELLIGENCE BABEŞ-BOLYAI UNIVERSITY Faculty of Computer Science and Mathematics ARTIFICIAL INTELLIGENCE Intelligent systems Rule-based systems uncertainty 2 Topics A. Short introduction in Artificial Intelligence

More information

Lecture 19: Convergence

Lecture 19: Convergence Lecture 19: Covergece Asymptotic approach I statistical aalysis or iferece, a key to the success of fidig a good procedure is beig able to fid some momets ad/or distributios of various statistics. I may

More information

Distribution of Random Samples & Limit theorems

Distribution of Random Samples & Limit theorems STAT/MATH 395 A - PROBABILITY II UW Witer Quarter 2017 Néhémy Lim Distributio of Radom Samples & Limit theorems 1 Distributio of i.i.d. Samples Motivatig example. Assume that the goal of a study is to

More information

LIGHTNING MVP System

LIGHTNING MVP System LIGHTNING MVP System Lightning MVP System Control (HACCP+SSOP) Swab-uri pentru lichide si pentru Suprafete Accesorii ph Temperatura Condutivitate Monitorizare ATP Prin Bioluminescenta Cel mai complet si

More information

Lecture 7: Properties of Random Samples

Lecture 7: Properties of Random Samples Lecture 7: Properties of Radom Samples 1 Cotiued From Last Class Theorem 1.1. Let X 1, X,...X be a radom sample from a populatio with mea µ ad variace σ

More information

This section is optional.

This section is optional. 4 Momet Geeratig Fuctios* This sectio is optioal. The momet geeratig fuctio g : R R of a radom variable X is defied as g(t) = E[e tx ]. Propositio 1. We have g () (0) = E[X ] for = 1, 2,... Proof. Therefore

More information

Raport de Cercetare APLICAII ALE FILTRELOR NELINIARE ÎN IDENTIFICAREA I COMPENSAREA NELINIARITILOR NEDORITE CAPITOLUL I

Raport de Cercetare APLICAII ALE FILTRELOR NELINIARE ÎN IDENTIFICAREA I COMPENSAREA NELINIARITILOR NEDORITE CAPITOLUL I Raport de Cercetare Grat: CNCSIS 57 Tema Autori: Georgeta Budura, Coria Botoca Uiversitatea: Politeica Timioara APLICAII ALE FILTRELOR NELINIARE ÎN IDENTIFICAREA I COMPENSAREA NELINIARITILOR NEDORITE INTRODUCERE.

More information

GIDD PENTRU CALCULUL CONSUMULUI DE CA.LOURA AL CONSTRUCTIILOR DOTATE CU ' A SISTEME PASIVE DE INCALZIRE SO LARA INDICATIV GP

GIDD PENTRU CALCULUL CONSUMULUI DE CA.LOURA AL CONSTRUCTIILOR DOTATE CU ' A SISTEME PASIVE DE INCALZIRE SO LARA INDICATIV GP , GIDD PENTRU CALCULUL CONSUMULUI DE CA.LOURA AL CONSTRUCTIILOR DOTATE CU ' A SISTEME PASIVE DE INCALZIRE SO LARA INDICATIV GP 017-96 95 Ghid pentru calculul consumului de caldura al cladirilor dotate

More information

CEE 522 Autumn Uncertainty Concepts for Geotechnical Engineering

CEE 522 Autumn Uncertainty Concepts for Geotechnical Engineering CEE 5 Autum 005 Ucertaity Cocepts for Geotechical Egieerig Basic Termiology Set A set is a collectio of (mutually exclusive) objects or evets. The sample space is the (collectively exhaustive) collectio

More information

Agricultural Engineering

Agricultural Engineering THE DETERMINATION OF QUALITY CHARACTERISTICS FOR THE WORKING PROCESS OF INDENTED CYLINDER SEPARATORS AS FUNCTIONS OF PROCESS PARAMETERS OF THESE EQUIPMENTS / DETERMINAREA CARACTERISTICILOR CALITATIVE ALE

More information

Modelling the Steady State Characteristic of ph Neutralization Process: a Neuro-Fuzzy Approach

Modelling the Steady State Characteristic of ph Neutralization Process: a Neuro-Fuzzy Approach BULETINUL Universităţii Petrol Gaze din Ploieşti Vol. LXVII No. 2/2015 79 84 Seria Tehnică Modelling the Steady State Characteristic of ph Neutralization Process: a Neuro-Fuzzy Approach Gabriel Rădulescu

More information

S.S.M.ROMÂNIA - Filiala Mehedinți 2016 SOCIETATEA DE ȘTIINȚE MATEMATICE DIN ROMÂNIA. Filiala Mehedinți REVISTA DE MATEMATICĂ MEHEDINȚEANĂ R.M.M.

S.S.M.ROMÂNIA - Filiala Mehedinți 2016 SOCIETATEA DE ȘTIINȚE MATEMATICE DIN ROMÂNIA. Filiala Mehedinți REVISTA DE MATEMATICĂ MEHEDINȚEANĂ R.M.M. SOCIETATEA DE ȘTIINȚE MATEMATICE DIN ROMÂNIA Filiala Mehediți REVISTA DE MATEMATICĂ MEHEDINȚEANĂ R.M.M. Nr.6-06 REVISTA DE MATEMATICĂ MEHEDINȚEANĂ NR. 6 SOCIETATEA DE ȘTIINȚE MATEMATICE DIN ROMÂNIA Filiala

More information

Universitatea Politehnica Bucureşti Facultatea de Automatică şi Calculatoare Departamentul de Automatică şi Ingineria Sistemelor

Universitatea Politehnica Bucureşti Facultatea de Automatică şi Calculatoare Departamentul de Automatică şi Ingineria Sistemelor Universitatea Politehnica Bucureşti Facultatea de Automatică şi Calculatoare Departamentul de Automatică şi Ingineria Sistemelor TEZĂ DE ABILITARE Metode de Descreştere pe Coordonate pentru Optimizare

More information

Modelarea traficului in cadrul retelelor de radiotelefonie mobila

Modelarea traficului in cadrul retelelor de radiotelefonie mobila Modelarea traficului in cadrul retelelor de radiotelefonie mobila Alocarea resurselor radio in cadrul retelelor GSM/GPRS este importanta intrucat acestea sunt proiectate sa transmita trafic mixt: oce ate:

More information

Econ 325/327 Notes on Sample Mean, Sample Proportion, Central Limit Theorem, Chi-square Distribution, Student s t distribution 1.

Econ 325/327 Notes on Sample Mean, Sample Proportion, Central Limit Theorem, Chi-square Distribution, Student s t distribution 1. Eco 325/327 Notes o Sample Mea, Sample Proportio, Cetral Limit Theorem, Chi-square Distributio, Studet s t distributio 1 Sample Mea By Hiro Kasahara We cosider a radom sample from a populatio. Defiitio

More information

Alte rezultate din teoria codurilor

Alte rezultate din teoria codurilor Prelegerea 20 Alte rezultate din teoria codurilor 20.1 Coduri aritmetice Construcţiile oferite de teoria codurilor pot fi utilizate şi în alte domenii decât în cele clasice, de transmitere şi recepţie

More information

ANOVA IN THE EDUCATIONAL PROCESS

ANOVA IN THE EDUCATIONAL PROCESS U.P.B. Sci. Bull., Series C, Vol. 70, No. 3, 008 ISSN 454-34 ANOVA IN THE EDUCATIONAL PROCESS Mihaela Florentina MATEI Analiza dispersiei, ANOVA, reprezintă una din metodele statistice, dintre cele mai

More information

Metode clasice. Camelia Chira.

Metode clasice. Camelia Chira. Metode clasice Camelia Chira http://users.utcluj.ro/~cchira camelia.chira@cs.utcluj.ro Am vazut deja ca... Probleme de optimizare pot fi foarte complexe SAT, TSP, NLP, etc Spatiul de cautare Clase de complexitate

More information

Lecture 2: Monte Carlo Simulation

Lecture 2: Monte Carlo Simulation STAT/Q SCI 43: Itroductio to Resamplig ethods Sprig 27 Istructor: Ye-Chi Che Lecture 2: ote Carlo Simulatio 2 ote Carlo Itegratio Assume we wat to evaluate the followig itegratio: e x3 dx What ca we do?

More information

4. Basic probability theory

4. Basic probability theory Cotets Basic cocepts Discrete radom variables Discrete distributios (br distributios) Cotiuous radom variables Cotiuous distributios (time distributios) Other radom variables Lect04.ppt S-38.45 - Itroductio

More information

PRELUCRARI PE IMAGINI BINARE (ALB/NEGRU)

PRELUCRARI PE IMAGINI BINARE (ALB/NEGRU) PRELUCRRI PE IMGINI BINRE (LB/NEGRU) Imagine binara? 2 nuante: alb ( 0 ) pixelii de fond ( I(x,y)= 255 pt. imagini indexate cu 8 biti/pixel ) negru ( 1 ) pixelii apartinand obiectelor ( I(x,y)= 0 pt. imagini

More information

NOTES ON DISTRIBUTIONS

NOTES ON DISTRIBUTIONS NOTES ON DISTRIBUTIONS MICHAEL N KATEHAKIS Radom Variables Radom variables represet outcomes from radom pheomea They are specified by two objects The rage R of possible values ad the frequecy fx with which

More information

INEGALITĂŢI DE TIP HARNACK ŞI SOLUŢII POZITIVE MULTIPLE PENTRU PROBLEME NELINIARE

INEGALITĂŢI DE TIP HARNACK ŞI SOLUŢII POZITIVE MULTIPLE PENTRU PROBLEME NELINIARE UNIVERSITATEA BABEŞ-BOLYAI CLUJ-NAPOCA ŞCOALA DOCTORALĂ DE MATEMATICĂ ŞI INFORMATICĂ INEGALITĂŢI DE TIP HARNACK ŞI SOLUŢII POZITIVE MULTIPLE PENTRU PROBLEME NELINIARE Rezumatul tezei de doctorat Doctorand:

More information

Important Formulas. Expectation: E (X) = Σ [X P(X)] = n p q σ = n p q. P(X) = n! X1! X 2! X 3! X k! p X. Chapter 6 The Normal Distribution.

Important Formulas. Expectation: E (X) = Σ [X P(X)] = n p q σ = n p q. P(X) = n! X1! X 2! X 3! X k! p X. Chapter 6 The Normal Distribution. Importat Formulas Chapter 3 Data Descriptio Mea for idividual data: X = _ ΣX Mea for grouped data: X= _ Σf X m Stadard deviatio for a sample: _ s = Σ(X _ X ) or s = 1 (Σ X ) (Σ X ) ( 1) Stadard deviatio

More information

Lecture 2: Poisson Sta*s*cs Probability Density Func*ons Expecta*on and Variance Es*mators

Lecture 2: Poisson Sta*s*cs Probability Density Func*ons Expecta*on and Variance Es*mators Lecture 2: Poisso Sta*s*cs Probability Desity Fuc*os Expecta*o ad Variace Es*mators Biomial Distribu*o: P (k successes i attempts) =! k!( k)! p k s( p s ) k prob of each success Poisso Distributio Note

More information

Describing the Relation between Two Variables

Describing the Relation between Two Variables Copyright 010 Pearso Educatio, Ic. Tables ad Formulas for Sulliva, Statistics: Iformed Decisios Usig Data 010 Pearso Educatio, Ic Chapter Orgaizig ad Summarizig Data Relative frequecy = frequecy sum of

More information