DATE
Exemple:
o transformarea lungimii continue - scurt, mediu, lung
o reducerea numarului de atribute - tehnici mai eficiente
Tipuri de D
Set de D := colectie de obiecte D.
Obiect date:= articol / pattern / evenimente / cazuri / mostra/ observatie/ entitate
Atribut:= caracteristicile de baza ale obiectului D denumite si - variabila / caracteristica/ camp / dimensiune, etc.
Exemplu: tuple (randuri) - atribute.
Atribute si masurare
A - face ca sa difere obiectele. Ex. culoarea ochilor - discreta, temperatura - continua.
Caracterizarea obiectelor - numere / simboluri → scara de masurare (evaluare)
Scara = regulile de asociere a unui numar sau simbol unui A al unui obiect.
Masurarea = aplicarea unei scari pentru asocierea unei valori unui A. Ex. cantarirea, clasificarea sex = M/F, numararea scaunelor dintr-o sala → atasarea unei valori numerice sau simbolice unui A al unui O.
Tipul de A
Valoarea utilizata pentru reprezentarea unui atribut poate avea proprietati pe care atributul nu le are si invers → anumite valori mai adecvate sau mai putin A.
Ex. Diferenta dintre ID si varsta persoanei.
→ proprietatile A determina operatiile cu valorile masurate si prevede operatiile eronate, ex. media ID - proprietatile A se confunda de multe ori cu cele ale scalei de masurare.
Tipul atributului → identificarea proprietatilor lui. Ex. atributul lungime a segmentelor → diferenta dintre ele, numar de unitati, etc.
Operatii tipice de descriere a atributelor:
Operatiile in functie de tipurile de atribute:
→ toate operatiile valabile pentru A nominale, ordinale, intervale - valabile pentru A tip proportie → definitia tipurilor de A cumulativa - operatiile valabile unui tip de atribute nu se aplica si altuia.
A calitative = nominale / ordinale - denumiri - nu au calitati numerice; la descriere cu numere acestea se trateaza ca simboluri.
A cantitative = interval / proportie - numerice (intregi, continue).
Transformari permise (S. Smits Steven - tipurile de A):
Operatorii statistici - invarianti la transformarile ce pastreaza sensul A. Ex. lungimea in m sau picioare, lungimea medie - acelasi sens.
Ex. de ilustrarea a proprietatilor: temperatura. Este interval sau proportie - in functie de scala de masurare. Temperatura in grade Kelvin se multiplica, in Celsius sau Farnheit nu din cauza originii arbitrare → sens fizic / nu.
Definirea atributelor prin cardinalitatea valorilor
Discrete - finite sau numarabile. De regula - reprezentate prin intregi. Atribute binare - discrete cu 2 valori: adevarat / fals, da/nu, 0/1.
Continue - numere reale - reprezentate de variabile in virgula flotanta - precizie limitata.
Teoretic orice tip de scala (nominal, ordinal, interval sau proportie) se combina cu orice tip bazat pe numar; practic sunt probleme, de exemplu, nu - set de date cu atribute continue - binare; de regula nominale / ordinale / binare - atribute discrete, interval /proportie - atribute continue. Unele, de exemplu cele de enumerare sunt discrete, dar si proportie.
A asimetrice - A binare - numai valorile diferite de 0 sunt importante. Exemplu, studentii / cursuri - compararea pe baza cursurilor neluate - similaritate mare → importante in analiza asocierilor. Pot fi discrete sau continue.
Tipurile seturilor de D
Multe tipuri de seturi de date. Pentru DM cele mai importante 3 grupe: articole, bazate pe grafe, date ordonate. Posibile si alte grupari.
3 caracteristici de baza aseturilor de D:
Dimensionalitate - nr. de atribute pe care le au obiectele din setul de D; pentru DM - reducerea dimensionalitatii;
Imprastierea (raritatea) - exemplu datele asimetrice cu mai putin de 1% elemente ≠ 0 numai acestea trebuie reprezentate; unii algoritmi DM functioneaza pe aceste date.
Rezolutia - date diferite in diferite nivele de rezolutie; ex. semnificatia denivelarii globului de metrii sau Km. Cadrul depinde de nivel: prea fin - zgomote / grosier - liniste - ex. circulatia atmosferica la nivel de zi / luna.
Tipuri de seturi de D:
Se memoreaza in fisiere / BD. DM nu utilizeaza relatiile din BD relationale. Exemple de tip articol:
o Date cu relatii intre obiecte - de multe ori relatiile dintre O contin informatii importante - reprezinta prin grafe. Datele = moduri, relatiile = arce, proprietatile de legatura = directie + valoare. Exemplu legaturile din paginile Web - volum mare de informatii legate de o cerere → set de pagini legate Figura a.
o Date cu obiecte graf - obiectele au substructuri reprezentate prin grafe. Ex. compusii chimici - nodurile atomi / legaturile - legaturile chimice. Ex. diagrama punct-linie a benzen: puncte negre = carbon, gris = hidrohen. Graful permite stabilirea structurii care apare frecvent in anumite proprietati chimice sau fizica ca punct de topire, formarea caldurii etc. Excavarea substructurii - ramura a DM analizeaza aceste date.
Calitatea datelor
D utilizate in DM se colecteaza pentru alte aplicatii → nu se beneficiaza de calitate deosebita. In statistica pentru experimente sau analize se impun conditii de calitate. → in DM se concentreaza pe:
Primul pas in DM - curatarea D.
Masura si probleme referitoare la colectii de date
Nu exista date perfecte. Surse de eroare: umane, limitele aparatelor de masura, procesul de colectare a D → valori /dat lipsa - in plus / duplicate, O de D diferite care corespund aceluiasi O real, etc. Date care par corecte - nu sunt, ex. persoana de 2m si 2 Kg. Principalele probleme implicate de masuratori: zgomot, artificiu, influenta, precizie, clariatea.
Masurare si erori in colectii de D
Ambele erori pot fi aleatoare sau sistematice.
Unele erori sunt detectate - ex. erorile de introducere de la tastatura - detectare de multe editoare.
Zgomote & artificii
Zgomot = componenta aleatoare a erorilor de masurare. Poate fi distorsionarea valorii sau introducerea obiectelor straine. Daca un mic zgomot se adauga unei serii dinamice se modifica forma.
In figura de jos - grupuri de puncte inainte si dupa adaugare de zgomote (notate cu +). Punctele de zgomot se intercaleaza cu cele bune.
Zgomotul se asociaza adesea cu componentele temporale & spatiale. Tehnicile de prelucrare a semnalelor sau a imaginilor filtreaza zgomotul pentru a gasi semnalul pierdut in zgomote. Zgomotele se inlatura greu →DM trebuie sa utilizeze algoritmi robusti pentru a da rezultate acceptabile si in conditii de zgomot.
Erorile pot avea cauze deterministe ca dung in fotografii. Distorsiunile deterministe in seturi de date artificii.
Precizie, influenta, acuratete
In statistica si stiintele experimentale rezultatele se masoara in precizie.
Precizia = apropierea masurilor repetate una de alta.
Influenta = variatie sistematica a masuratorilor de la valoarea reala.
Precizia -masurata prin deviatia standard a unui set de valori, influenta - diferenta dintre valoarea medie a setului de valori si o valoare cunoscuta. Influenta se poate calcula numai daca se cunoaste o valoare. Ex. se stiu greutatile de 1 kg standard intr-un laborator si se calibreaza un nou catar. In 5 masuratori avem . Valoarea medie este 1.001 → influanta = 0.001. Recizia ca deviatie standard este 0.013.
Acuratetea - apropierea masurilor de valoarea reala. Depinde de precizie & influenta - nu exista o masura a ei.
Un aspect important - numarul de cifre semnificative. De exemplu la masurarea cu m, precizia este de 0.05 mm. Nu au sens calcule mai precise.
De multe ori precizia, influenta si acuratetea se suprapun, in DM si statistica trebuie tratate cu grija. Fara intelegerea acestor elemente un analist de date poate produce probleme.
Politica de confidentialitate |
.com | Copyright ©
2024 - Toate drepturile rezervate. Toate documentele au caracter informativ cu scop educational. |
Personaje din literatura |
Baltagul – caracterizarea personajelor |
Caracterizare Alexandru Lapusneanul |
Caracterizarea lui Gavilescu |
Caracterizarea personajelor negative din basmul |
Tehnica si mecanica |
Cuplaje - definitii. notatii. exemple. repere istorice. |
Actionare macara |
Reprezentarea si cotarea filetelor |
Geografie |
Turismul pe terra |
Vulcanii Și mediul |
Padurile pe terra si industrializarea lemnului |
Termeni si conditii |
Contact |
Creeaza si tu |