Creeaza.com - informatii profesionale despre


Simplitatea lucrurilor complicate - Referate profesionale unice
Acasa » tehnologie » comunicatii
Analiza datelor experimentale - modele probabilistice

Analiza datelor experimentale - modele probabilistice


Analiza datelor experimentale - modele probabilistice

Cautarea unor modele probabilistice care sa aproximeze satisfacator diverse fenomene cu caracter aleatoriu a condus la identificarea de diverse distributii. Cele mai uzuale distributii folosite in domeniul telecomunicatiilor sunt: distributia Bernoulli, distributia binomiala, distributia geometrica, distributia Poisson, distributia gaussiana (normala), distributia exponentiala, distributia gama, distributia Pareto, distributia c , distributia m-Erlang etc.

Pentru identificarea modelului matematic care aproximeaza cel mai bine un anumit experiment se recurge totdeauna la analiza si interpretarea rezultatelor experimentale, folosind diverse metode, care sunt fie de natura calitativa, cum este metoda histogramei, fie de natura cantitativa, cum sunt testele si Kolmogorov-Smirnov

In acest capitol voi prezenta testele (Chi patrat) si Kolmogorov-Smirnov, folosite in capitolele anterioare pentru potrivirea seturilor de date cu diferite distributii.. Pentru aceasta analiza este nevoie sa cunoastem elementele de interes doar pentru cateva dintre ele. Aceste elemente sunt expuse in tabelul 1



Tabelul 1 Elemente ale distributiilor etalon

Parametri

Medie

Varianta

pdf / probabilitati elementare

Distributia exponentiala

Distributia gama

si

Distributia gaussiana (normala)

si

Distributia binomiala

si

Distributia Poisson

Distributia geometrica

1 Testul Kolmogorov-Smirnov

Testul Kolmogorov-Smirnov, notat prin K-S, opereaza asupra diferentelor ce apar intre functia empirica, de distributie, obtinuta pe baza unui esantion de rezultate si functia analitica luata in considerare. Din acest motiv, testul K-S se preteaza doar situatiilor in care functia analitica de distributie este continua.

Fie o variabila aleatorie continua cu o distributie necunoscuta si o functie de distributie ipotetica CDF ce pare a fi asemanatoare cu distributia variabilei de analizat. Se doreste testarea ipotezelor:

- : variabila are distributia CDF, adica pentru orice

- : variabila nu are distributia CDF, adica cel putin pentru un .

In cele ce urmeaza voi stabili functia de distributie a probabilitatilor pentru durata de ocupare a unui canalul de transmisiuni Voi face analiza datelor experimentale cu ajutorul testului Kolmogorov-Smirnov, considerand ca functii etalon distributiile gauss-normala, exponentiala si gama. Pentru aceasta am realizat un program in matlab ce realizeaza testarea ipotezelor. Am urmarit pasii:

- Am "incarcat " datele experimentale si am sortat datele in ordine crescatoare, rezuland astfel vectorul x..

Fig. 2 Distributia empirica

- Se executa testul K-S, pentru fiecare functie de distributie etalon, considerand implicit nivelul semnificativ (

Tabelul 2 Rezultatele simularii

Distributia exponentiala

Distributia gauss normala

Distributia gamma

Ipoteza H

valoarea p

2,4069e-009

d

Deviatia critica tα

Tabelul 2 contine valorile parametrilor simulati pentru testarea ipotezei

Testarea ipotezei se face prin intermediul unei 'statistici', o valoare rezultata in urma unui calcul ce ia in considerare un anumit esantion de rezultate.

Luand in considerare valoarea si ipoteza se poate calcula o valoare, numita "valoare p' (p value) , care exprima gradul de credibilitate al ipotezei. Concret, valoarea p este probabilitatea ca, in conditiile considerarii ipotezei adevarate, statistica unui esantion oarecare de rezultate, , sa fie cel putin egala cu statistica esantionului curent de rezultate .

Marimea reprezinta deviatia critica a carei valoare depinde de nivelul probabilistic semnificativ si de dimensiunea esantionului de rezultate.

Asfel, urmarind pasii testului K-S putem trage urmatoarele concluzii:

- Ipoteza este acceptata pentru distributiile exponentiala si gamma. Aceasta se observa clar deoarece in cazul acestor distributii valoarea p este mai mare decat nivelul probabilistic semnificativ, , si in acelasi timp deviatia critica este mai mare decat valoarea , conditii necesare pentru acceptarea ipotezei.


- In cazul distributiei gauss normala ipoteza este respinsa, deoarece nu este indeplinita nici una din conditiile de acceptare a ipotezei.

- Am trasat suprapus peste curba anterioara cele trei functii teoretice de distributie pentru analiza comparativa

Desi ne putem da seama din valorile parametrilor ce distributie se potriveste mai bine cu cea emiprica este mai convenabila examinarea vizuala a diagramei deviatiei pentru curba suprapusa. Figura 3 reprezinta diagrama curbelor pentru distributia datelor experimentale si distributiile etalon (distributiile exponentiala, normala si gamma).

Fig 3 Reprezentarea grafica a curbelor corespunzatoare distributiei empirice si distributiilor etalon.

Fig. 4: Reprezentarea cu zoom a curbelor corespunzatoare distributiei empirice si distributiilor etalon

In figurile 3 si 4 observam potrivirea dintre distributiile exponentiala si gama, precum si nepotrivirea cu distributia gauss. Din grafic se observa si asemanarea dintre distributiile gama si exponentiala, motiv pentru care ambele se potrivesc cu cea empirica. Din tabelul 1 observam ca distributia exponentiala este un caz particular al distributiei gama. In cazul distributiei gama pentru se obtine distributia exponentiala.

2 Testul Chi-patrat

Testul este o metoda cantitativa, pe baza careia, in urma efectuarii unor calcule, se decide acceptarea sau respingerea ipotezei presupuse a caracteriza fenomenul aleatoriu studiat

Am realizat un program pentru a determina modelul matematic care descrie in mod adecvat procesul sosirilor, exprimat prin numar de sosiri la fiecare 100 ms. Am parcurs urmatorii pasi:

- Am stabilit durata intervalului de referinta la 100ms. Numarul observat de sosiri, arriv_no, pe fiecare interval succesiv se reprezinta grafic pentru a vizualiza realizarea particulara, observata, a procesului analizat (Figura 6).

Fig. 6 Numarul sosirilor pe fiecare interval succesiv in parte

- Urmatorul pas consta in stabilirea plajei de variatie, anume vectorul k, a numarului de sosiri pe un interval dat, cuprinsa intre si valoarea maxima din vectorul dat de numarul sosirilor, incrementata cu 1. Am definit inca un vector ce reprezinta numarul observat de intervale, cu acelasi numar de sosiri si se calculeaza elementele acestui vector. Astfel conform figurii 6 in 4 intervale s-au inregistrat cate 2 sosiri. Valoarea vectorului este urmatoarea:

k_interv_no 0 4 9 11 11 11 7 5 10 1 1 0]

- Am luat in considerare drept ipoteze posibile distributiile teoretice Poisson, geometrica si binomiala. Pentru fiecare se calculeaza valorile parametrilor asociati si apoi se calculeaza vectorii probabilitatilor corespunzatoare acestor distributii teoretice(ppois, pgeo si pbin) in punctele continute in vectorul k. Am obtinut urmatoarele valori:

ppois = [ 0.0036 0.0201 0.0567 0.1065 0.1501 0.1691 0.1588 0.1278 0.0900

0.0563 0.0317 0.0163 0.0076]

pgeo = NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

pbin = [0.0033 0.0191 0.0550 0.1052 0.1502 0.1707 0.1609 0.1295 0.0907

0.0563 0.0313 0.0157 0.0072]

Se observa ca pentru punctele continute in vectorul k pentru distributia geometrica nu ia valori. In figura 7 observam valorile pentru distributia poisson si binomiala.

Fig. 7. Probabilitatile distributiilor teoretice in punctele vectorului k

Pentru fiecare distributie, se calculeaza apoi vectorul numarului asteptat de intervale cu acelasi numar de sosiri ( narriv_pois, narriv_geo si narriv_bin). Am pbtinut urmatoarele valori:

nariv_pois = [0.2538 1.4300 4.0281 7.5645 10.6543 12.0048 11.2721 9.0721 3888 3.9993 2.2531 1.1540 0.5418]

nariv_geo = NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

nariv_bin = [0.2345 1.3568 3.9080 7.4703 10.6620 12.1191 11.4274 9.1939 4428 3.9948 2.2190 1.1153 0.5115]

- Pentru aprecierea calitativa a asemanarii dintre rezultatele asteptate si cele observate se deseneaza, pe acelasi grafic, histogramele corespunzatoare. Matricea p are drept coloane vectorii numerelor asteptate si observate de intervale cu acelasi numar de sosiri.

p =

NaN 0.2345 1.0000

NaN 1.3568 0

NaN 3.9080 4.0000

NaN 7.4703 9.0000

NaN 10.6620 11.0000

NaN 12.1191 11.0000

NaN 11.4274 11.0000

NaN 9.1939 7.0000

NaN 4428 5.0000

NaN 3.9948 10.0000

NaN 2.2190 1.0000

NaN 1.1153 1.0000

NaN 0.5115 0

Fig 8 Asemanarea dintre rezultatele asteptate si cele observate

- Executarea testului Chi patrat: pentru aprecierea cantitativa si luarea deciziei finale se calculeaza statistica testului chi patrat pentru fiecare ipoteza in parte, (dpois, dgeo si dbin).

Se obtin urmatoarele valori:

dpois =15.0363

dbin =15.3682

dgeo =NaN

Pentru a lua o decizie aceste valori sunt comparate cu deviatia critica, data de tabelul 3.

Tabelul 3: Deviatii critice, , functie de nivelul probabilistic semnificativ, ,
si de numarul de intervale,

Pentru un nivel probabilistic semnificativ de 0,05 deviatia critica pentru k=12 este 19.68. Ipoteza este acceptata daca statistica chi este mai mica sau egala cu deviatia critica. Am observat ca sunt acceptate si distributia poisson si cea binomiala. Acest lucru se intampla deoarece distributia poisson aproximeaza distributia binomiala pentru 'mic' si 'mare', considerand: .(tabelul 1)

Anexa

Program pentru divizarea ariei de serviciu:

t=random('unid',150,14,11)*0.1

s=sum(sum(t))/2

sc1=sum(t,1);

sc2(1)=sc1(1);

for j=2:11;

sc2(j)=sc2(j-1)+sc1(j);

end

%sc2

dc1=abs(sc2-s)

[min_c,c1]=min(dc1)

c1

for i=1:14

for j=1:11

if j<=c1

a(i,j)=t(i,j);

b(i,j)=0;

else a(i,j)=0;b(i,j)=t(i,j);

end

end

end

a

b

sL1a=sum(a,2);

sL2a(1)=sL1a(1);

for i=2:14

sL2a(i)=sL2a(i-1)+sL1a(i);

end

%sL2a

dLa=abs(sL2a-s/2)

[min_L,La1]=min(dLa)

sL1b=sum(b,2);

sL2b(1)=sL1b(1);

for i=2:14

sL2b(i)=sL2b(i-1)+sL1b(i);

end

%sL2b

dLb=abs(sL2b-s/2)

[min_L,Lb1]=min(dLb)

Testul K-S

clear all

r = load ('data1.txt')

cdfplot(r)

grid

hold

x=sort(r)

mu=mean(r)

sigma=std(r)

y1=expcdf(x,mu);

y2=normcdf(x,mu,sigma);

a=(mu/sigma)^2

b=mu/a;

y3=gamcdf(x,a,b);

plot(x,y1,'r',x,y2,'m',x,y3,'--g')

grid

[h1,p1,d1,ta1] = kstest(x,[x y1])

[h2,p2,d2,ta2] = kstest(x,[x y2])

[h3,p3,d3,ta3] = kstest(x,[x y3])

Testul Chi

%testul chi

clear all

r = load ('data2.txt');

%STABILIREA VALORILOR OBSERVATE

%durata intevalului de referinta:

lapse=100;%msec

%vectorul capetelor de interval:

z=0:lapse:lapse*ceil(max(r)/lapse);

%numarul de sosiri in fiecare interval

ariv_no=histc(r,z)

figure(1),stem(ariv_no)

%domeniul in care procesul ia valori

k=0:max(ariv_no)+1

%numar de intervale cu acelasi numar de sosiri

k_interv_no=histc(ariv_no,k)

%STABILIREA VALORILOR ASTEPTATE

%media numarului de sosiri pe un interval lapse

m=mean(ariv_no)%pentru experimental

v=std(ariv_no)^2

%calcul parametri distributii teoretice

p_bin=1-v/m;

n_bin=round(m/p_bin);

p_geo=m/v;

a_pois=m;

%probabilitati

ppois=pdf('poiss',k,a_pois)

%sum(ppois);

pgeo=pdf('geo',k,p_geo)

%sum(pgeo);

pbin=pdf('bino',k,n_bin,p_bin)

%sum(pbin)

figure(2),plot(k,ppois,'or',k,pgeo,'*b',k,pbin,'ok')

%numarul intervalelor considerate

interv_no=length(ariv_no);

%numarul intervalelor cu k sosiri asteptate

nariv_pois=interv_no.*ppois

nariv_geo=interv_no.*pgeo

nariv_bin=interv_no.*pbin

%TRASAREA HISTOGRAMELOR

p=[nariv_pois' nariv_geo' nariv_bin' k_interv_no]

figure(3),bar(k,p)

xlabel('k')

ylabel('numar intervale a cate k sosiri')

grid

%EXECUTAREA TESTULUI CHI2

dpois=sum((k_interv_no'-nariv_pois).^2./nariv_pois)

dbin=sum((k_interv_no'-nariv_bin).^2./nariv_bin)

dgeo=sum((k_interv_no'-nariv_geo).^2./nariv_geo)





Politica de confidentialitate


creeaza logo.com Copyright © 2025 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.