Creeaza.com - informatii profesionale despre


Evidentiem nevoile sociale din educatie - Referate profesionale unice
Acasa » scoala » matematica » statistica
Estimarea - inductie statistica

Estimarea - inductie statistica


Estimarea parametrilor

Estimarea reprezinta procesul prin care se determina, printr-o valoare sau interval de valori, cu o anumita probabilitate, valorile necunoscute pentru parametrii sau caracteristicile populatiei de referinta, pe baza datelor obtinute asupra esantionului.

Estimarea reprezinta rezultatul acelui proces de inferenta sau inductie statistica.

1. Intervale de incredere pentru caracteristicile populatiei de referinta

Daca este parametrul care nu se cunoaste (de exemplu, media unei caracteristici), iar reprezinta estimarea sa pe baza datelor dintr-un esantion de volum n, pentru care s-au inregistrat valorile atunci exista, pentru un prag de semnificatie , statisticile:



astfel incat:

.

De cele mai multe ori se considera , caz in care inegalitatea se poate scrie:

.

Evident, pentru un prag de semnificatie, care se precizeaza, are loc:

.

Se defineste astfel, pentru o probabilitate , intervalul de incredere pentru parametrul :

.

Pentru determinarea intervalului de estimare se va tine seama de volumul esantioanelor si de proprietatile estimatorilor punctuali.

Intervale de incredere peste medie ()

La determinarea unui interval de incredere peste medie, in cazul in care esantionul este de volum mare, vom avea in vedere:

.

Din:

pentru un prag de semnificatie stabilit si pentru o realizare a variabilei aleatoare n-dimensionale (), reprezentata prin seria de valori , obtinem intervalul de valori pentru m:

De obicei se fixeaza , pentru care .

Vom prezenta in cele ce urmeaza intervale de incredere pentru medie, in cazul in care nu se cunoaste varianta .

Cum este un estimator al variantei populatiei de referinta, pentru un sondaj simplu, iar este estimatia medie, daca , avem:

de unde un prag de semnificatie , pentru care se determina valoarea critica :

sau sub forma echivalenta:

.

Deci, in acest caz, intervalul de incredere este:

pentru esantioane exhaustive se obtine, pentru un rang de semnificatie , intervalul de incredere:

care este un interval simetric in raport cu media esantionului.

Intervale de incredere pentru medie (-n<

Acum variabila nu mai urmeaza o repartitie normala centrata redusa, ci o repartitie Student cu v = n-1 grade de libertate.

Exemplul : Dintr-un lot de 10000 de becuri au fost testate 100 de produse pentru determinarea duratei de functionare. In urma prelucrarii seriei de date s-a obtinut:

timpul mediu de functionare

varianta

Se cere sa se determine , intervalul de incredere al timpului mediu de functionare in cazul celor 10000 de becuri, utilizand un esantion simplu exhaustiv.

Cum si s2(x) = 2146,9 se obtin succesiv:

estimatorul variantei

varianta estimatorului

;

valoarea critica care se citeste din anexa 2:

;

eroarea limita ():

intervalul de incredere

In mod asemanator se procedeaza pentru estimarea medie in cazul unui sondaj stratificat.

Intervale de incredere pentru volumul total al caracteristicii ()

In cazul caracteristicii statistice insumabile direct, se impune sa se estimeze si valoarea totala, deci cantitatea definita prin: .

Consideram relatiile:

unde s-a notat cu .

Daca se inmulteste ultima relatie cu N, se obtine:

care este un interval de incredere al volumului total al caracteristicii, pentru un prag de semnificatie .

Pentru exemplul anterior, in situatia in care 177,03 < m < 195,7 daca se inmulteste cu N = 10000 produse, se obtine, pentru , intervalul de estimatie:

< m.N < 195.7 * 10000

< XT < 1.957.000 (ore)

Determinarea marimii esantionului

Dimensionarea esantionului reprezinta una din etapele importante in analiza unei populatii statistice prin intermediul sondajului. Stabilirea marimii esantionului se face pe baza acceptarii unui compromis rational intre a opta pentru esantioane de volum mare care asigura reprezentativitate ridicata si esantioane de volum mai mic, dar care sunt mai economice.

La stabilirea marimii unui esantion se au in vedere: marimea si gradul de variatie a populatiei de referinta, forma de organizare a populatiei si, de aici, tipul de sondaj utilizat, importanta cercetarii efectuate, de unde nivelul de probabilitate acceptat pentru garantarea estimarii etc. Dimensiunea minima a esantionului trebuie sa asigure o reprezentativitate acceptabila in procesul inferentei statistice, care sa nu duca la distorsionarea rezultatelor.

In stabilirea dimensiunii esantionului, daca se stabileste apriori un prag de semnificatie , se impune ca abaterile dintre media populatiei de referinta si mediile esantioanelor ce se pot genera sa respecte inegalitatea:

,

unde a reprezinta eroarea limitata admisa, sub forma absoluta sau relativa.

Din definirea intervalului de incredere se obtine succesiv pentru un esantion independent:

,

de unde:

Se obtine astfel:

.

Dupa cum a se exprima in unitati relative sau absolute, vom avea cazurile:

a)      Daca eroarea estimarii mediei este sub forma relativa, , cum si a sunt marimi cunoscute, se determina nivelul minim al esantionului in functie de gradul de variatie a populatiei:


unde prin v s-a notat coeficientul de variatie a populatiei de referinta, iar este eroarea relativa maxim admisa, cu

Pentru un esantion exhaustiv, procedand in mod asemanator, se obtine limita minima a esantionului, la un prag de semnificatie :

Daca volumul populatiei de referinta este mare, cum:

,

obtinem rezultate asemanatoare pentru cele doua tipuri de esantionari.

b)             Daca eroarea estimarii mediei este sub forma absoluta, se conchide ca volumul esantionului satisface:

Pentru un esantion independent: ;

Si in cazul unui esantion exhaustiv: .

Eroarea limita admisa s-a calculat pe baza relatiei .

Si in acest caz, cum

,

se verifica identitatea rezultatelor pentru cele doua tipuri de esantioane, daca N este mai mare.

De cele mai multe ori, varianta populatiei de referinta nu este cunoscuta si de aceea se utilizeaza un estimator al acesteia, reprezentat prin varianta unui esantion.

O problema aparte, de interes practic, este redimensionarea volumului, fie cand se modifica probabilitatea de garantare a rezultatelor, fie cand se cere modificarea erorii limita.

Astfel, se cere reducerea erorii limita cu k% procente, pastrand aceeasi probabilitate de se obtine, pe baza relatiei:

Din relatiile anterioare se observa ca reducerea erorii limita, cu mentinerea pragului de semnificatie, duce la cresterea volumului esantionului.

10.5. Testarea ipotezelor privind relatia lot-esantion

In aplicatiile statistice se pune problema de a compara estimatorul, obtinut pe baza unui sondaj statistic, cu anumite valori care sunt fixate apriori, de exemplu cu valoarea parametrului populatiei de referinta determinat pe baza unei observari exhaustive cu valoarea estimatorului obtinuta pentru alt esantion.

Exemplul 10.5.: Pentru acceptarea unui lot de produse de volum N, se poate efectua o selectie de volum n. Lotul se considera ca este satisfacator din punct de vedere calitativ, daca procentul produselor defecte este mai mic de 1%. Daca se noteaza cu f procentul produselor necorespunzatoare calitativ din lot, iar cu proportia maxima a produselor rebut, atunci exista urmatoarele doua situatii:

Daca , atunci intreg lotul de produse se refuza;

Pentru , lotul de produse se considera corespunzator din punct de vedere calitativ.

Pentru exemplul considerat, daca f >1%, lotul nu se accepta; in caz contrar se accepta.

Se definesc astfel ipotezele complementare:

Ipoteza nula (lotul corespunde calitativ);

Ipoteza calitativa (lotul nu corespunde calitativ).

Alegerea uneia dintre cele doua ipoteze se face pe baza datelor obtinute dintr-un sondaj statistic. Consideram astfel un numar foarte mic, apropiat de zero, pentru care P , care se numeste prag de semnificatie. Multimea se numeste regiunea critica sau de respingere, ce corespunde intervalului de valori in care procentul produselor defecte este mare. Regiunea complementara se numeste regiune de acceptare ce corespunde intervalului in care procentul produselor defecte este mic, sub limita de respingere a lotului.

Exemplul 8.6.: O linie tehnologica de fabricat becuri de iluminat se caracterizeaza prin doi parametri functionali: timpul mediu de utilizare a unui bec: m = 1400 de ore si abaterea medie patratica, =400 ore. Pentru a verifica calitatea procesului de fabricatie s-a constituit un esantion de volum N = 1600, in care timpul mediu de functionare ore.

Ipotezele testului:

Daca ipoteza nula este adevarata, vom calcula probabilitatea ca sa fie egal sau mai mare decat 1450.

In virtutea legii numerelor mari, rezulta, ca sub ipoteza , distributia mediilor esantionului X este normala de medie m = 1400 si abaterea standard . Aceasta distributie este reprezentata in figura urmatoare:


m = 1400 1450

Figura 10.5.

Se determina valoarea centrata redusa ce corespunde valorii :

.

Se obtine , care reprezinta probabilitatea critica unilaterala.

Un test statistic pentru acceptarea sau respingerea unei ipoteze genereaza doua tipuri de erori:

1. Se respinge ipoteza cand trebuie acceptata, caz in care se comite o eroare de ordinul doi. Probabilitatea de realizare a acestui eveniment este egala cu .

Pentru un anumit volum al esantionului, daca se fixeaza pragul de semnificatie , utilizand un anumit test, probabilitatea rezulta in mod implicit. Cu cat cele doua probabilitati sunt mai mici, cu atat puterea testului este mai mare. In general, micsorarea uneia dintre probabilitati determina in mod direct marimea celeilalte. Astfel, in construirea unui test statistic trebuie sa se ajunga la un compromis acceptabil intre marimile celor doua probabilitati, dimensiunea fiecareia fiind in functie de domeniul concret de aplicare a testului.

Concluzionand vom scrie:

2. Se admite ipoteza :

.

Elementele prezentate pot fi sintetizate din tabelul 10.5. si in figura 10.6., pentru ipotezele date.


p  adevarata




x

valoare critica


Regiunea de acceptare Regiunea critica

Se accepta Se respinge

Figura 10.6.

Tabelul 10.5. Tipuri de eroare intr-un test statistic

Decizia luata

Decizia corecta

Eroare de ordinul intai,

Eroare de ordin doi,

Decizia corecta

Regula de decizie, in cadrul unui test este urmatoarea:

Daca valoarea statisticii F apartine regiunii critice, , atunci se respinge ipoteza .

Daca valoarea statisticii f nu apartine regiunii critice, deci apartine regiunii de acceptare, , se accepta ipoteza .

In constituirea unui test statistic, regiunea de acceptare poate fi sub forma unui interval de valori limitat la o singura extremitate, caz in care testul este unilateral sau este marginit la ambele capete, determinand un test bilateral. Alegerea uneia din cele doua forme se face in functie de tipul problemei.

Compararea mediei esantionului cu cea a populatiei de referinta

Are o larga aplicabilitate in controlul calitatii produselor, pentru verificarea parametrilor tehnici ai unui proces tehnologic, in controlul calitatii etc.

Se formuleaza ipoteza ca media populatiei de referinta este o valoare , iar pe baza esantionului prelevat, de volum n, se stabileste media acestuia ca fiind . Se pune astfel problema de a testa daca media populatiei este egala sau nu cu valoarea fixata anterior. In construirea testului se vor avea in vedere urmatoarele trei elemente:

daca se cunoaste sau nu valoarea variantei populatiei de referinta. In cazul in care nu se cunoaste, se va utiliza un estimator, luand in considerarea in acest sens variatia esantionului;

volumul esantionului, in raport de care se stabileste functia de repartitie a statisticii definite pentru verificare ipotezei ;

modul de definire a regiunii critice, caz in care pentru definirea celor doua ipoteze se poate alege una din urmatoarele forme:

Vom considera in cele ce urmeaza, numai cazul testului bilateral.

a) Varianta este cunoscuta, situatie intalnita in controlul unui proces de productie. Pentru testare se defineste statistica:

care urmeaza o repartitie normala centrata redusa, daca volumul esantionului este mai mare de 30 unitati sau o repartitie Student, daca n < 30.

Pentru un prag de semnificatie precizat, se determina valoarea critica, fie din tabela densitatii de repartitie a legii N(0,1) sau Student, cu grade de libertate ce se stabilesc.

Regiunea critica a testului se obtine din:

,

unde s-a notat cu valoarea critica pentru pragul de semnificatie .

Pe baza datelor inregistrate la nivelul esantionului, se determina ; decizia se ia pe baza urmatoarei scheme:

Daca

Daca

c)      Varianta este necunoscuta, fiind de fapt cazul cel mai des intalnit in practica. In acest caz, statistica se defineste prin:

unde s-a definit prin , estimatorul abaterii standard , ce se calculeaza dupa relatia:

Exemplul 10.7. Dimensiunea unui reper obtinut in urma unui proces de productie este de 120 mm. In mod inevitabil, datorita factorilor aleatori care actioneaza in procesul de productie, dimensiunile masurate se abat in plus sau in minus fata de dimensiunea standard. Pentru controlul calitatii produselor au fost verificate, printr-o alegere aleatoare, 50 produse, obtinandu-se o dimensiune medie , iar varianta pieselor din esantion a fost .

Pentru a verifica daca procesul de productie se desfasoara in limite normale, pe baza informatiilor culese, se parcurg urmatoarele etape:

: se definesc ipotezele testului:

: Se defineste statistica testului pe baza relatiei: .

Cum

valoarea statisticii este:

: Se stabileste pragul de semnificatie a testului. Cum n = 50 > 30, avem ca variabila:

Pentru pragul de semnificatie se determina

: Decizia statistica. Intrucat , se accepta ipoteza nula, deci procesul de productie se desfasoara in limite normale.

Compararea mediilor pentru doua populatii

Consideram cazul general, in care se dau doua populatii , pentru fiecare generandu-se cate un esantion. Vom avea urmatoarele variabile aleatoare:

pentru

pentru

Prin modul de generare a variabilelor, acestea sunt independente, iar cele doua esantioane pot sa aiba dimensiuni diferite.

Pentru cele doua variabile se calculeaza media si varianta. Vom verifica ipoteza ca cele doua variabile au medii egale. Formulam ipotezele testului:

sau

A.                       Aplicarea testului Student

Daca se noteaza , atunci vom aplica o strategie asemanatoare de testare a ipotezei ca la punctul anterior. Utilizam in acest sens proprietatile mediei si variantei pentru suma a doua variabile independente.

Cum se obtine:

Asa cum s-a precizat, alegerea testului se face si in functie de volumul esantionului. Daca este de volum mare (n > 30), precum si in functie de cunoasterea sau nu a variantelor populatiei de referinta. Astfel avem:

a) daca , iar dispersiile populatiilor nu sunt cunoscute:

In cazul in care cele doua populatii au variante egale:

,

unde:

Variantele esantioanelor.

In aceasta situatie, variabila definita mai sus urmeaza o repartitie Student cu grade de libertate.

In cazul cand cele doua populatii au variante diferite:

care urmeaza o repartitie Student cu v grade de libertate, pentru care:

Observatie: = reprezinta partea intregului numarului x;

b) daca , , iar variantele populatiilor sunt cunoscute. Atunci se foloseste statistica:

,

care urmeaza o repartitie normala, asa cum s-a precizat mai sus.

c) , , iar variantele populatiilor sunt necunoscute, atunci variantele populatiilor vor fi inlocuite cu estimatorii acestora:

,

de unde statistica:

,

care urmeaza de asemenea o repartitie normala.

La toate cazurile, definirea regiunii critice, pentru un anumit grad de semnificatie rezulta din:

.

Regiunea de acceptare este astfel:

.

In toate cazurile, luarea deciziei se realizeaza astfel:

daca diferenta calculata apartine intervalului (), atunci cele doua populatii nu difera in mod semnificativ in privinta nivelului mediu al caracteristicii studiate;

in caz contrar, diferenta este semnificativa.

Observatie: Daca cele doua variabile X,YN (m,), dar volumul celor doua esantioane este destul de mare, pentru verificarea ipotezei egalitatii mediilor populatiilor se aplica testul Student.

B. Aplicarea testului Wilcoxon

Definim prin rangurile unitatilor din primul esantion in cadrul populatiei constituita din mixtura celor doua esantioane. Evident:

.

Se defineste atunci statistica:

pentru care media si varianta:

.

Pentru calcularea variantei variabilei w s-a considerat cazul particular cand seriile de date nu exista valori egale. Daca valorile care au ranguri cu indicii
k + 1,., k + p, sunt egale, se atribuie la toate un rang mediu de indice . In acest caz, varianta statisticii w este:

,

unde I defineste numarul de unitati ale grupurilor de valori egale:

Exemplul 10.8.: fie doua esantioane:

Esantionul 1: 1 6 3 2 3 5 4 7

Esantionul 2: 2 5 3 4 10 8 9 10 9 8

Se ordoneaza valorile: 1;

.

Se construieste statistica testului prin:

sau ,

unde u reprezinta valoarea statisticii calculata pentru seria de date.

Pentru un prag de semnificatie fixat se stabileste valoarea critica pentru care se determina regiunea critica din:

Exemplul 10.9.: Pentru doua grupe de studenti s-au inregistrat notele de la 1 si 20 la un test:

grupa 1: 10 12 16 20 8 7

grupa 2: 5 13 15 19 18 9 14 6

Testam daca cele doua grupe au obtinut aceleasi rezultate printr-un test parametric si unul neparametric.

a. Cum , se va utiliza testul Student, prezentat anterior.

Calculam:

Se obtine astfel:

Pentru pragul de semnificatie si v = 6 se determina .

Cum se accepta ca cele doua grupe provin din aceeasi populatie.

Literatura de specialitate ofera un evantai larg de procedee si teste utilizabile in functie de ipotezele emise, natura fenomenului investigat, si, evident, scopul investigatiei.





Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.