Andmete eeltöötlemine

Miks eeltöödelda?

Puuduvad väärtused

Müraga andmed

Andmete integreerimine ja transformatsioonid (teisendused)

ANdmete normaliseerimine

Andmete koondamine

Data cube aggregation

Dimension reduction

Data compression

Numerosity reduction

Diskretiseerimine ja mõistete hierarhia tegemine

Andmete eeltöötlemine
Jiawei Han, Micheline Kamber Data Mining -- Concepts and Techniques, Morgan Kaufmann Publishers, 2000. lk 105
Puuduvad, vigased, mürased, mittekooskõlalised andmed
Kuidas puhastada ja töödelda andmeid eelnevalt nii, et hiljem
oleks võimalik kiiremini ja kvaliteetsemalt neid analüüsida?
Miks eeltöödelda?
Vead andmete kogumisel (mõõteriistad, inimesed)
Vead andmete edastamisel
Erinev andmete tÕlgendus eri kohtadel.
Puuduvate väärtuste asendamnine
Andmete vähendamine (kuigi lõpptulemused jäävad samaks)
Puuduvad väärtused
- Ignoreeri kirjet
- halb, sest puuduvaid väärtusi võib olla palju
- Täida manuaalselt
- töömahukas ja protsessi pole võimalik alati korrata uuesti
- Kasuta globaalset konstanti
- Unknown - see võib algoritmi arvates osutuda "huvitavaks"
- Kasuta atribuudi keskväärtust
- Kasuta atribuudi keskväärtust samasse klassi kuuluvatest kirjetest
- Ksuta kõige tõenäolisemat väärtust (ennusta puuduva atribuudi väärtus)
Viimased kolm, kuigi võivad moonutada andmeid, on palju kasutusel.
Eriti viimane on laialt kasutusel sest garanteerib kõige paremaid
analüüsitulemusi.
Müraga andmed
- lahterdamine (i.k. binning)
- Klasterdamine (i.k. outliers) - sarnased väärtused on klastrites ja neist väljapool on erandlikud väärtused..
- Kombineeritud arvuti- ja inimese töö outlierite otsimiseks
- Regressioon - lineaar-regressioon otsib näiteks kahe atribuudi vahel lineaarset seost
ja siis "ennustab" teist atribuuti esimesest.
Ka muud andmete diskretiseerimise meetodid, mõistete hierarhiad jne on kasutusel.
Andmete integreerimine ja transformatsioonid (teisendused)
Integreerimine - andmete ühendamine eri allikatest
customer_id ja customer_number -- kas need kaks eri andmebaasi
atribuuti tähendavad sama asja?
Redundantsus - kui väärtused saab tuletada teisiti siis andmete liiasus ei tule kasuks.
Mõned redundantsed andmed saab välja selgitada korrelatsioon analüüsiga.
Korrelatsiooni kahe atribuudi A ja B vahel saab mõõta
kus n on kirjete arv.
Andmete liiasust tuleks vältida ka kirje tasemel - kui on mitu kirjet sama
unikaalse andmefakti kohta.
Konfliktide tuvastamine ja kõrvaldamine (i.k. detection and resolution of data value conflicts).
ANdmete normaliseerimine
- (i.k. smoothing) - müra eemaldamiseks andmetest
- Agregatsioon (i.k. Aggregation) summaarsete andmete genereerimine; näiteks kuu või aasta lõikes
summade moodustamine
- Üldistamine (i.k. generalization) - toroandmed asendatakse
kõrgema abstraktsuse astmega andmetega. Näiteks tänava asemel linnaosa,
linn, riik. Vanus -> noor, keskealine, vanur.
- Normaliseerimine (i.k. normalization) -- andmed teisendatakse fikseeritud
vahemiku peale, näiteks [-1..1] või [0..1].
- Atribuutide konstryueerimine (i.k. attribute construction)
Min-max normaliseerimine
z-score normaliseerimine
decimal scaling
Andmete koondamine
- Data cube aggregation
- Dimension reduction
- Data compression
- Numerosity reduction
- Diskretiseerimine ja mõistete hierarhia tegemine
Data cube aggregation
Dimension reduction
Data compression
Numerosity reduction
Diskretiseerimine ja mõistete hierarhia tegemine