Creeaza.com - informatii profesionale despre


Evidentiem nevoile sociale din educatie - Referate profesionale unice
Acasa » scoala » informatica » baze de date
DATE

DATE


DATE

  • Tipuri de data - diferente dintre seturi D ( dupa tip=cantitative/calitative,  continut=serii de timp/obiecte in relatii cu alte obiecte, etc.) → pentru analiza D - instrumente si tehnici specifice determinate de tip.
  • Calitatea datelor - date imperfecte (zgomote/liniste, inconsistenta, duplicate, nereprezentative pentru fenomenul sau populatia pe care o reprezinta.
  • Pasul de preprocesare - datele utilizabile in DM - Obiective:
    • imbunatatirea calitatii D
    • modificarea D pentru a corespunde mai bine tehnicilor si instrumentelor DM

Exemple:



o      transformarea lungimii continue - scurt, mediu, lung

o      reducerea numarului de atribute - tehnici mai eficiente

  • Analiza D prin relationare - inlocuirea D prin relatii intre ele. Se utilizeaza similaritatea sau distanta pentru clasificare, clustrizare sau detectarea anomaliilor. Alegerea distantei sau similaritatii in functie de tip D si aplicatie.

Tipuri de D

Set de D := colectie de obiecte D.

Obiect date:= articol / pattern / evenimente / cazuri / mostra/ observatie/ entitate

Atribut:= caracteristicile de baza ale obiectului D denumite si - variabila / caracteristica/ camp / dimensiune, etc.

Exemplu: tuple (randuri) - atribute.

Atribute si masurare

A - face ca sa difere obiectele. Ex. culoarea ochilor - discreta, temperatura - continua.

Caracterizarea obiectelor - numere / simboluri → scara de masurare (evaluare)

Scara = regulile de asociere a unui numar sau simbol unui A al unui obiect.

Masurarea = aplicarea unei scari pentru asocierea unei valori unui A. Ex. cantarirea, clasificarea sex = M/F, numararea scaunelor dintr-o sala → atasarea unei valori numerice sau simbolice unui A al unui O.

Tipul de A

Valoarea utilizata pentru reprezentarea unui atribut poate avea proprietati pe care atributul nu le are si invers → anumite valori mai adecvate sau mai putin A.

Ex. Diferenta dintre ID si varsta persoanei.

→ proprietatile A determina operatiile cu valorile masurate si prevede operatiile eronate, ex. media ID - proprietatile A se confunda de multe ori cu cele ale scalei de masurare.

Tipul atributului → identificarea proprietatilor lui. Ex. atributul lungime a segmentelor → diferenta dintre ele, numar de unitati, etc.

Operatii tipice de descriere a atributelor:

  • Distingere = / ≠
  • Ordinonare < / <= / > / >=
  • Aditionare + / -
  • Multiplicare * & /

Operatiile in functie de tipurile de atribute:

→ toate operatiile valabile pentru A nominale, ordinale, intervale - valabile pentru A tip proportie → definitia tipurilor de A cumulativa - operatiile valabile unui tip de atribute nu se aplica si altuia.

A calitative = nominale / ordinale - denumiri - nu au calitati numerice; la descriere cu numere acestea se trateaza ca simboluri.

A cantitative = interval / proportie - numerice (intregi, continue).

Transformari permise (S. Smits Steven - tipurile de A):

Operatorii statistici - invarianti la transformarile ce pastreaza sensul A. Ex. lungimea in m sau picioare, lungimea medie - acelasi sens.

Ex. de ilustrarea a proprietatilor: temperatura. Este interval sau proportie - in functie de scala de masurare. Temperatura in grade Kelvin se multiplica, in Celsius sau Farnheit nu din cauza originii arbitrare → sens fizic / nu.

Definirea atributelor prin cardinalitatea valorilor

Discrete - finite sau numarabile. De regula - reprezentate prin intregi. Atribute binare - discrete cu 2 valori: adevarat / fals, da/nu, 0/1.

Continue - numere reale - reprezentate de variabile in virgula flotanta - precizie limitata.

Teoretic orice tip de scala (nominal, ordinal, interval sau proportie) se combina cu orice tip bazat pe numar; practic sunt probleme, de exemplu, nu - set de date cu atribute continue - binare; de regula nominale / ordinale / binare - atribute discrete, interval /proportie - atribute continue. Unele, de exemplu cele de enumerare sunt discrete, dar si proportie.

A asimetrice - A binare - numai valorile diferite de 0 sunt importante. Exemplu, studentii / cursuri - compararea pe baza cursurilor neluate - similaritate mare → importante in analiza asocierilor. Pot fi discrete sau continue.


Tipurile seturilor de D

Multe tipuri de seturi de date. Pentru DM cele mai importante 3 grupe: articole, bazate pe grafe, date ordonate. Posibile si alte grupari.

3 caracteristici de baza aseturilor de D:

Dimensionalitate - nr. de atribute pe care le au obiectele din setul de D; pentru DM - reducerea dimensionalitatii;

Imprastierea (raritatea) - exemplu datele asimetrice cu mai putin de 1% elemente ≠ 0 numai acestea trebuie reprezentate; unii algoritmi DM functioneaza pe aceste date.

Rezolutia - date diferite in diferite nivele de rezolutie; ex. semnificatia denivelarii globului de metrii sau Km. Cadrul depinde de nivel: prea fin - zgomote / grosier - liniste - ex. circulatia atmosferica la nivel de zi / luna.

Tipuri de seturi de D:

  • Articole (Figura a) - in majoritatea cazurilor DM lucreaza cu set-uri de articole, fiecare fiind formate din campuri. Caracteristici:
    • nu exista relatii explicite intre articole / campuri
    • fiecare articol are acelasi set de atribute

Se memoreaza in fisiere / BD. DM nu utilizeaza relatiile din BD relationale. Exemple de tip articol:

    • Tranzactii / cos de cumparaturi - tranzactii - fiecare linie = un set de entitati. Exemplu - cosul de cumparaturi la magazinul alimentar - A asimetrice forma tabelara (0/1 pentru entitate) Figura B
    • Matrice de D / chenar de D / pattern de D - nr. fix de atribute → obiectele puncte (vectori) in spatiu multidimensional - dimensiunea un A care descrie obiectul. m linii - pentru obiecte, n coloane - A sau invers. Analog cu articolele dar fiind datele numerice - aplica operatii de calcul matricial Figura c
    • Matrici rare - atribute de acelasi tip & asimetric. Ex. datele tranzactionale pot fi considerate matrici rare cu elemente 0/1 sau document - linii documentul, coloane - cuvantul, celule - numar de aparitii - matricea termenilor documentului - matrice rara - Figura d.

  • Date bazate pe grafe - graf - instrument puternic de reprezentare a datelor din 2 motive:
    • poate capta relatiile dintre O de D
    • O de D pot fi la randul lor grafe

o      Date cu relatii intre obiecte - de multe ori relatiile dintre O contin informatii importante - reprezinta prin grafe. Datele = moduri, relatiile = arce, proprietatile de legatura = directie + valoare. Exemplu legaturile din paginile Web - volum mare de informatii legate de o cerere → set de pagini legate Figura a.

o      Date cu obiecte graf - obiectele au substructuri reprezentate prin grafe. Ex. compusii chimici - nodurile atomi / legaturile - legaturile chimice.  Ex. diagrama punct-linie a benzen: puncte negre = carbon, gris = hidrohen. Graful permite stabilirea structurii care apare frecvent in anumite proprietati chimice sau fizica ca punct de topire, formarea caldurii etc. Excavarea substructurii - ramura a DM analizeaza aceste date.

  • D ordonate - ordonare in timp sau spatiu.
    • D secventiale / D temporale = articole + atribut de timp. Permite extragerea unor prototipuri ca "oua se cumpara inainte de pasti". La fiecare articol se asociaza o istorie a cumparatorului si se pot face previziuni de forma " cumparator DVD → va cumpara DVD-uri in perioada urmatoare. Figura a, data secventiala ti, i=1,2,3,4,5 - momente, 3 clienti C1,C2, C3, 5 entitati cumparate A,B,C,D,E. Ex. la momentul t3, cumparatorul C3 cumpara A si D. Al doilea tabel - fiecare cumparator are o linie - timp si cumparatura, ex. C3 cumpara A si C la t2.
    • Secvente de D - sir de entitati individuale. Ex. siruri de litere sau cuvinte. Analoage cu D secventiale - n-au timp - ordonate prin pozitie. Ex. informatiile genetice descrise de secvente de nucleoizi (gene) - structuri similare din secvente de gene similare. Figura (b) siruri de gene umane notate cu A,T,G, C.
    • D serii de timp - fiecare articol - serie de timp. / serie de masuri peste timp. Ex. date financiare ce contin obiecte cu preturile zilnice ale stocului, sau ( c) temperatura medie din Moineapolis 1982-1994. Element important - atrocorelarea temporala - doua masuratori apropiate in timp sunt de regula similare.
    • D spatiale - obiecte cu atribute spatiale, de ex. vreme (temperatura, precipitatie, presiune atmosferica) colectate din locatii geografice. Autocorelare spatiala - masuratori din locatii geografice apropiate - similare. Date spatiale rezulta din masuratori ingineresti sau stiintifice bazate pe caroiaje, de exemplu temperatura si presiunea atmosferica de pe glob din grad in grad longitudine / latitudine. ( d).  
  • Gestiunea datelor non-articole - Majoritatea metodelor DM pentru articole (D tranzactionale / matriciale). Daca datele non-articole se stabilesc atributele si se creeaza date articole pentru orice obiect. De ex. in cazul structurii chimice - matrice: pe linie - compusul / coloana substructura / celula 1 sau 0, daca exista sau nu. Reprezentarea ca articole este posibila, dar nu intotdeauna reprezinta esenta lucrurilor. Ex. relatiile spatio-temporare: pe linie locatii , pe coloana - puncte temporare. Nu capteaza relatiile dintre atribute si relatiile spatiale dintre obiecte. Metoda nu este inoperanta, dar trebuie analizate cu atentie. De ex. nu se aplica metode DM, daca atributele sunt statistic independente unele de altele.

Calitatea datelor

D utilizate in DM se colecteaza pentru alte aplicatii → nu se beneficiaza de calitate deosebita. In statistica pentru experimente sau analize se impun conditii de calitate. → in DM se concentreaza pe:

  • detectarea si corectarea problemelor de Q D;
  • algoritmii trebuie sa fie toleranti la calitate

Primul pas in DM - curatarea D.

Masura si probleme referitoare la colectii de date

Nu exista date perfecte. Surse de eroare: umane, limitele aparatelor de masura, procesul de colectare a D → valori /dat lipsa - in plus / duplicate, O de D diferite care corespund aceluiasi O real, etc. Date care par corecte - nu sunt, ex. persoana de 2m si 2 Kg. Principalele probleme implicate de masuratori: zgomot, artificiu, influenta, precizie, clariatea.

Masurare si erori in colectii de D

  • Eroare de masurare = o problema rezultata din masurare - valorile difera de cele reale. La valori continue eroarea = valoare reala - valoarea masurata.
  • Eroare in colectia de date - lipsa obiecte de D sau atribute sau includerea improprie a obiectelor D.

Ambele erori pot fi aleatoare sau sistematice.

Unele erori sunt detectate - ex. erorile de introducere de la tastatura - detectare de multe editoare.

Zgomote & artificii

Zgomot = componenta aleatoare a erorilor de masurare. Poate fi distorsionarea valorii sau introducerea obiectelor straine. Daca un mic zgomot se adauga unei serii dinamice se modifica forma.

In figura de jos - grupuri de puncte inainte si dupa adaugare de zgomote (notate cu +). Punctele de zgomot se intercaleaza cu cele bune.

Zgomotul se asociaza adesea cu componentele temporale & spatiale. Tehnicile de prelucrare a semnalelor sau a imaginilor filtreaza zgomotul pentru a gasi semnalul pierdut in zgomote. Zgomotele se inlatura greu →DM trebuie sa utilizeze algoritmi robusti pentru a da rezultate acceptabile si in conditii de zgomot.

Erorile pot avea cauze deterministe ca dung in fotografii. Distorsiunile deterministe in seturi de date artificii.

Precizie, influenta, acuratete

In statistica si stiintele experimentale rezultatele se masoara in precizie.

Precizia = apropierea masurilor repetate una de alta.

Influenta = variatie sistematica a masuratorilor de la valoarea reala.

Precizia -masurata prin deviatia standard a unui set de valori, influenta - diferenta dintre valoarea medie a setului de valori si o valoare cunoscuta. Influenta se poate calcula numai daca se cunoaste o valoare. Ex. se stiu greutatile de 1 kg standard intr-un laborator si se calibreaza un nou catar. In 5 masuratori avem . Valoarea medie este 1.001 → influanta = 0.001. Recizia ca deviatie standard este 0.013.

Acuratetea - apropierea masurilor de valoarea reala. Depinde de precizie & influenta - nu exista o masura a ei.

Un aspect important - numarul de cifre semnificative. De exemplu la masurarea cu m, precizia este de 0.05 mm. Nu au sens calcule mai precise.

De multe ori precizia, influenta si acuratetea se suprapun, in DM si statistica trebuie tratate cu grija. Fara intelegerea acestor elemente un analist de date poate produce probleme.





Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.