Statistica descriptiva - Reprezentarea grafica, Parametri numerici ai unei serii cantitative
Statistica descriptiva are scopul, utilizand diferite metode specifice, sa rezume un mare numar de observatii privind un grup (lot) de obiecte/subiecti, punand astfel in evidenta principalele lor caracteristici. Exista doua mari metode de a atinge acest scop: fie utilizand reprezentarea grafica, care este mai sugestiva dar mai saraca in informatii, fie utilizand tabele care cuprind principalele caracteristici statistice ale populatiei respective. Indiferent de modul de prezentare, este vorba de reprezentarea variabilitatii unor date statistice. Aceasta variabilitate poate fi una cu cauze cunoscute, o variabilitate ,determinista' care este descrisa statistic pentru a o pune mai bine in evidenta si a o cuantifica precis, sau poate fi o variabilitate cu cauze doar banuite sau chiar necunoscute -variabilitatea ,aleatorie' si care, folosind statistica, se spera a fi clarificata cauzal.
1. Reprezentarea grafica
Indiferent de tipul de date, putem uza de reprezentarea lor grafica pentru a le ilustra vizual cu un foarte mare impact asupra celui caruia ii este prezentata, cu toate ca aceasta reprezentare este mai saraca in informatii decat tabelele numerice. Totusi, privita ca o prima luare de contact cu analiza datelor si permitand identificarea rapida a anumitor caracteristici sau relatii ale acestora, reprezentarea grafica ramane un mijloc eficient in statistica descriptiva. Reprezentarea grafica se poate face utilizand diferite diagrame, asa cum aratam mai jos.
Sa consideram, mai intai, cazul datelor calitative. Astfel de date pot fi reprezentate grafic cu ajutorul diferitelor diagrame formate din bastoane verticale sau orizontale (gresit considerate ca histograme), cercuri, elipse, etc., bi- sau tri-dimensionale, plecand de la partitia populatiei pe care acesta o induce. Sa consideram, de exemplu, ca avem o anumita populatie si ne intereseaza culoarea ochilor indivizilor componenti. Presupunem ca multimea culorilor ochilor este si ca din studiul facut a rezultat ca 37% din populatie are ochii negri, 39% are ochii caprui, 8% are ochii albastri si 16% are ochii verzi. Vom prezenta doua tipuri de diagrame pentru acest caracter: reprezentarea circulara (numita si 'pie' ~ placinta in engleza) si reprezentarea tip histograma (prin bastoane dreptunghiulare).
Fig. 2. Reprezentarea prin bastoane a culorii ochilor
La reprezentarea grafica in cazul unor date numerice, intalnim cele doua moduri corespunzatoare felului datelor: discrete sau continue. In cazul datelor discrete, reprezentarea grafica este asemanatoare cazului datelor calitative, cu toate ca exista o diferenta fundamentala. In acest caz, daca consideram diagramele cu bastoane, lungimea acestora are o semnificatie numerica precisa. Concret, in diagrama de mai jos, pe axa ordonatelor sunt reprezentate valorile variabilei (datei) discrete, in timp ce pe axa absciselor este reprezentata frecventa relativa a aparitiei fiecarei valori. Este ceea ce numim o histograma a frecventei relative cu bastoane orizontale.
Problema se complica atunci cand este vorba de date numerice continue. Aici, pentru trasarea unei histograme, este necesara impartirea datelor numerice in anumite clase (intervale), carora sa le corespunda pe cealalta axa frecventa relativa de aparitie (sau numarul de observatii), corespunzatoare fiecarei clase. In diagrama de mai jos, pe axa absciselor sunt reprezentate clasele (i.e. intervale de valori) iar pe cea a ordonatelor este reprezentat numarul corespunzator de observatii.
Exista si in acest caz posibilitatea reprezentarii cu diagrame circulare (2D sau 3D) asa cum se poate observa in figura de mai jos.
2. Parametri numerici ai unei serii cantitative
Vom numi serie statistica ansamblul observatiilor numerice definit de o anumita data sau caracter al unei multimi de obiecte/subiecti analizata statistic, cu alte cuvinte valorile variabilei statistice corespunzatoare datei respective. Asa cum am aratat mai inainte, in afara de primul contact vizual realizat de reprezentarea grafica a unei serii statistice, al doilea pas, ce este cu adevarat propriu statistic, se refera la prezentarea unor caracteristici (parametri) ce descriu statistic data respectiva.
Asa cum am spus anterior, o data statistica sau caracter statistic (variabila statistica) corespunde din punct de vedere probabilist unei variabile aleatoare. Este normal, asadar, sa consideram si in acest caz parametrii numerici ce caracterizau o variabila aleatoare, deosebit de utili in descrierea dinamicii acesteia.
La fel ca si in cazul unei variabile aleatoare, in cazul unei variabile statistice putem defini notiunea de functie de repartitie. Astfel, prin functia de repartitie sau functia cumulativa (frecventa cumulata) a variabilei statistice X, definita de seria statistica i = 1, n, intelegem aplicatia F: R [0, 1], data de:
,
unde fx reprezinta
numarul observatiilor strict mai mici decat x. Asa cum
este de asteptat, functia F este o functie in scara,
monoton crescatoare, continua pentru valorile xxi,
continua la stanga pentru valorile x = xi,
nula pe intervalul
(-, x1]
si egala cu 1 pe intervalul (xn,
In figura de mai jos ilustram grafic o astfel de functie.
Remarca. Se observa ca o functie de repartitie corespunde, asa cum indica si denumirea alternativa de frecventa cumulata, cumularii frecventelor reprezentate in histograma frecventelor relative. De cele mai multe ori sunt prezentate impreuna, asa cum se arata mai jos.
Tabel 1 Valorile frecventei relative si a frecventei cumulate
Interval |
Frecventa relativa |
Frecventa cumulata |
Frecventa relativa (%) |
Frecventa cumulata (%) |
, 0] |
0 |
0 |
0 |
0 |
(0, 2] |
6 |
6 |
30 |
30 |
(2, 4] |
7 |
13 |
35 |
65 |
(4, 6] |
4 |
17 |
20 |
85 |
(6, 8] |
1 |
18 |
5 |
90 |
(8, 10] |
2 |
20 |
10 |
100 |
|
0 |
20 |
0 |
100 |
Pentru crearea unui asemenea tabel, cuprinzand valorile frecventei relative (i.e. numarul valorilor seriei statistice din fiecare interval) si ale frecventei cumulate, se face o partitie a axei reale intr-un anumit numar de intervale, convenabil alese astfel incat sa avem, pe de-o parte, un numar rezonabil de asemenea intervale si, pe de alta parte, partitia sa fie suficient de fina (i.e. nu prea multe valori in anumite intervale). Din fericire, programele statistice fac automat o asemenea operatie, cu rezultate multumitoare.
Functia de repartitie sau frecventa cumulata are importanta mai ales datorita faptului ca astfel putem compara, pe de-o parte, repartitia valorilor seriei statistice studiate cu o repartitie teoretica data si, pe de alta parte, putem compara repartitiile valorilor pentru doua sau mai multe grupuri de date. In primul caz putem vedea care este repartitia teoretica cea mai apropiata de datele studiate si astfel putem considera ca seria statistica reprezinta un esantion al valorilor variabilei aleatoare teoretice corespunzatoare. Din aceasta cauza, functia de repartitia F mai este cunoscuta in statistica si ca functia empirica de repartitie, dar despre contextul concret in care o consideram in acest mod vom vorbi in capitolul corespunzator sondajelor. In cel de-al doilea caz, pe baza analizei grafurilor frecventelor cumulate corespunzatoare la doua sau mai multe date, putem trage concluzia daca acestea se supun sau nu aceleiasi legi de probabilitate, deci vor avea aceiasi comportare stochastica.
La fel ca si in cazul clasic probabilist, putem defini si aici cuantila de ordin a a variabilei statistice X ca fiind numarul qa astfel incat F(qa a. Totusi, in statistica descriptiva cuantilele nu sunt totdeauna considerate in general, practic considerandu-se doar cuartilele Q1, Q2, Q3. In acest context, este timpul sa amintim valorile tipice corespunzatoare unei analize a datelor:
masuri tipice ale tendintei centrale: mod, mediana si medie;
masuri tipice ale imprastierii: dispersie si deviatie standard.
Cel mai comun parametru ce masoara ,tendinta centrala' a unei serii statistice este media, care reprezinta practic media aritmetica a tuturor observatiilor, fiind data de formula:
.
O alta masura folosita uzual in studiile statistice descriptive este mediana, definita ca numarul real care imparte in doua efective egale seria statistica data, observatiile fiind ordonate crescator. Daca efectivul seriei statistice este un numar impar n = 2k + 1, atunci mediana este a (k + 1)-a valoare a seriei, iar daca efectivul este un numar par n = 2k, atunci mediana se inlocuieste cu intervalul median dat de valorile a k-a si a (k + 1)-a (mediana se poate considera astfel ca mijlocul acestui interval). Mediana este in mod special folositoare atunci cand exista posibilitatea ca unele valori extreme ale seriei statistice sa fie cenzurate. Atunci cand exista observatii care se gasesc fie sub un anumit prag de jos fie deasupra unui anumit prag de sus si, din diferite motive, nu sunt suficient de exact precizate, nu putem folosi media, inlocuind-o prin mediana daca avem valori exacte pentru mai mult de jumatate din observatii. Trebuie sa intelegem ca ambele masuri sunt la fel de eficiente si, cu toate ca media este mai frecvent folosita decat mediana, aceasta din urma poate fi mai valoroasa in anumite circumstante.
Ultima masura pe care o prezentam aici este modul care reprezinta, pur si simplu, cea mai frecventa valoare a seriei, fiind rareori folosita in cazul datelor continue.
Exemplu.
(Altman, 1991) Sa consideram un lot de 25 pacienti cu fibroza cistica pentru care s-au inregistrat varsta (ani) si functia pulmonara (PImax cm2 H2O), valori prezentate in tabelul urmator.
Tabelul 2 Varsta si PImax pentru 25 pacienti cu fibroza cistica
Subiect |
Varsta |
PImax |
Subiect |
Varsta |
PImax |
1 |
7 |
80 |
14 |
15 |
100 |
2 |
7 |
85 |
15 |
16 |
120 |
3 |
8 |
110 |
16 |
17 |
110 |
4 |
8 |
95 |
17 |
17 |
125 |
5 |
8 |
95 |
18 |
17 |
75 |
6 |
9 |
100 |
19 |
17 |
100 |
7 |
11 |
45 |
20 |
19 |
40 |
8 |
12 |
95 |
21 |
19 |
75 |
9 |
12 |
130 |
22 |
20 |
110 |
10 |
13 |
75 |
23 |
23 |
150 |
11 |
13 |
80 |
24 |
23 |
75 |
12 |
14 |
70 |
25 |
23 |
95 |
13 |
14 |
80 |
|
|
|
In tabelul urmator prezentam cei trei parametri statistici (media, mediana si modul) atat pentru variabila varsta cat si pentru variabila PImax.
Tabelul 3 Masurile tendintei centrale (varsta si PImax)
|
Medie |
Mediana |
Mod |
Varsta |
14,48 |
14 |
17 |
PImax |
92,60 |
95 |
75/95 |
Se poate observa din acest exemplu ca, asa cum am mentionat mai sus, daca pentru datele discrete (varsta) valoarea modului prezinta importanta, pentru datele continue (PImax) folosirea modului nu prezinta un interes practic prea mare.
Abordarea complementara masurilor tendintei centrale este reprezentata de masurarea imprastierii, adica masurarea distantei fiecarei valori a seriei statistice fata de medie. Plecand de la cazul probabilist clasic al dispersiei, vom defini aici dispersia (termen introdus de Fisher, 1918) corespunzatoare unei serii statistice i = 1, n cu ajutorul formulei:
,
unde m este media
cunoscuta a variabilei statistice. Deoarece, de obicei, consideram
ca seria statistica cu care lucram nu reprezinta toata
populatia ci este doar un esantion al ei mai mic si astfel media
m nu este cunoscuta ci putem calcula doar media esantionului , vom
folosi in locul formulei de mai sus o formula de aproximatie (o
estimatie, asa cum vom vedea in capitolul despre estimatii) a
dispersiei inlocuind media m cu media seriei si
impartind prin
(n - 1) in loc de n, deci:
.
Remarcam aici ca pentru serii statistice de dimensiuni mari, diferenta dintre valoarea data de formula de mai sus si formula:
este neglijabila. Asa cum am mai spus si cand am vorbit despre dispersia unei variabile aleatoare, vom folosi in locul dispersiei o marime care este masurata in aceiasi unitate ca si seria statistica si anume deviatia standard, data de:
Deviatia standard este folosita in statistica descriptiva mai ales pentru definirea unor intervale in care se gasesc marea majoritate a observatiilor. Astfel, in cazul unor repartitii rezonabil de simetrice, marea majoritate a observatiilor ce compun seria statistica (aproximativ 95% din ele) se gasesc in intervalul definit de: medie deviatia standard. Subliniem inca odata ca este absolut necesar sa avem repartitii relativ simetrice, altfel cele spuse mai sus nu mai au semnificatie. In cazul in care repartitia variabilei statistice este departe de o repartitie suficient de simetrica exista alte metode de descriere statistica a variabilitatii, de exemplu considerarea unei transformari matematice a seriei originale (e.g. logaritmand seria originala). Nu intram aici in amanunte privind acest context. Un exemplu pentru asertiunea de mai sus este cel referitor la variabila PImax. Astfel, deoarece media este 92,60 cm2H2O iar deviatia standard 24,92 cm2H2O, intervalul definit de 92,60 24,92 adica (42.76, 142.44) este intervalul cautat. Ne asteptam ca doar o observatie din cele 25 (i.e. aproape 5%) sa fie inafara acestui interval.
Remarca. Vom aminti aici o notiune importanta in inferenta statistica -intervalul de incredere. Plecand de la faptul ca, in principiu, orice serie statistica provine dintr-o populatie statistica mult mai mare, rezulta ca diferitii parametri statistici pe care ii calculam pentru o serie statistica sunt de fapt estimatii ale "adevaratilor" parametrii ai intregii populatii. Putem defini, in acest context, intervalul de incredere ca fiind un interval in care se gaseste adevarata valoare a parametrului considerat, cu o anumita probabilitate sau grad de incredere. De exemplu, intervalul de incredere 95% pentru medie este interpretat ca intervalul in care, cu probabilitatea de 95%, se gaseste adevarata medie a populatiei, un asemenea interval avand forma (in anumite ipoteze):
,
unde media este media seriei statistice iar SD reprezinta deviatia sa standard.
Politica de confidentialitate |
.com | Copyright ©
2024 - Toate drepturile rezervate. Toate documentele au caracter informativ cu scop educational. |
Personaje din literatura |
Baltagul – caracterizarea personajelor |
Caracterizare Alexandru Lapusneanul |
Caracterizarea lui Gavilescu |
Caracterizarea personajelor negative din basmul |
Tehnica si mecanica |
Cuplaje - definitii. notatii. exemple. repere istorice. |
Actionare macara |
Reprezentarea si cotarea filetelor |
Geografie |
Turismul pe terra |
Vulcanii Și mediul |
Padurile pe terra si industrializarea lemnului |
Termeni si conditii |
Contact |
Creeaza si tu |