back first p home  Full page last p forward

      
Andmete eeltöötlemine SlideShow
         Miks eeltöödelda? SlideShow
      Puuduvad väärtused SlideShow
      Müraga andmed SlideShow
      Andmete integreerimine ja transformatsioonid (teisendused) SlideShow
      ANdmete normaliseerimine SlideShow
         Andmete koondamine SlideShow
             Data cube aggregation SlideShow
            Dimension reduction SlideShow
            Data compression SlideShow
            Numerosity reduction SlideShow
            Diskretiseerimine ja mõistete hierarhia tegemine SlideShow

SlideShow

Andmete eeltöötlemine

Jiawei Han, Micheline Kamber Data Mining -- Concepts and Techniques, Morgan Kaufmann Publishers, 2000. lk 105

Puuduvad, vigased, mürased, mittekooskõlalised andmed

Kuidas puhastada ja töödelda andmeid eelnevalt nii, et hiljem oleks võimalik kiiremini ja kvaliteetsemalt neid analüüsida?


SlideShow

Miks eeltöödelda?

Vead andmete kogumisel (mõõteriistad, inimesed)

Vead andmete edastamisel

Erinev andmete tÕlgendus eri kohtadel.

Puuduvate väärtuste asendamnine

Andmete vähendamine (kuigi lõpptulemused jäävad samaks)


SlideShow

Puuduvad väärtused

  1. Ignoreeri kirjet

    - halb, sest puuduvaid väärtusi võib olla palju

  2. Täida manuaalselt

    - töömahukas ja protsessi pole võimalik alati korrata uuesti

  3. Kasuta globaalset konstanti

    - Unknown - see võib algoritmi arvates osutuda "huvitavaks"

  4. Kasuta atribuudi keskväärtust

  5. Kasuta atribuudi keskväärtust samasse klassi kuuluvatest kirjetest

  6. Ksuta kõige tõenäolisemat väärtust (ennusta puuduva atribuudi väärtus)

Viimased kolm, kuigi võivad moonutada andmeid, on palju kasutusel.

Eriti viimane on laialt kasutusel sest garanteerib kõige paremaid analüüsitulemusi.


SlideShow

Müraga andmed

  1. lahterdamine (i.k. binning)

  2. Klasterdamine (i.k. outliers) - sarnased väärtused on klastrites ja neist väljapool on erandlikud väärtused..

  3. Kombineeritud arvuti- ja inimese töö outlierite otsimiseks

  4. Regressioon - lineaar-regressioon otsib näiteks kahe atribuudi vahel lineaarset seost ja siis "ennustab" teist atribuuti esimesest.

Ka muud andmete diskretiseerimise meetodid, mõistete hierarhiad jne on kasutusel.


SlideShow

Andmete integreerimine ja transformatsioonid (teisendused)

Integreerimine - andmete ühendamine eri allikatest

customer_id ja customer_number -- kas need kaks eri andmebaasi atribuuti tähendavad sama asja?

Redundantsus - kui väärtused saab tuletada teisiti siis andmete liiasus ei tule kasuks.

Mõned redundantsed andmed saab välja selgitada korrelatsioon analüüsiga.

Korrelatsiooni kahe atribuudi A ja B vahel saab mõõta

 r_{A,B} = \frac{ \sum(A-\bar A)(B-\bar B) }{ ( n-1 ) \sigma_A \sigma_B }

kus n on kirjete arv.

Andmete liiasust tuleks vältida ka kirje tasemel - kui on mitu kirjet sama unikaalse andmefakti kohta.

Konfliktide tuvastamine ja kõrvaldamine (i.k. detection and resolution of data value conflicts).


SlideShow

ANdmete normaliseerimine

  1. (i.k. smoothing) - müra eemaldamiseks andmetest

  2. Agregatsioon (i.k. Aggregation) summaarsete andmete genereerimine; näiteks kuu või aasta lõikes summade moodustamine

  3. Üldistamine (i.k. generalization) - toroandmed asendatakse kõrgema abstraktsuse astmega andmetega. Näiteks tänava asemel linnaosa, linn, riik. Vanus -> noor, keskealine, vanur.

  4. Normaliseerimine (i.k. normalization) -- andmed teisendatakse fikseeritud vahemiku peale, näiteks [-1..1] või [0..1].

  5. Atribuutide konstryueerimine (i.k. attribute construction)

Min-max normaliseerimine

z-score normaliseerimine

decimal scaling


SlideShow

Andmete koondamine

  1. Data cube aggregation

  2. Dimension reduction

  3. Data compression

  4. Numerosity reduction

  5. Diskretiseerimine ja mõistete hierarhia tegemine


SlideShow

Data cube aggregation


SlideShow

Dimension reduction


SlideShow

Data compression


SlideShow

Numerosity reduction


SlideShow

Diskretiseerimine ja mõistete hierarhia tegemine


©Jaak Vilo; 2003-2004 "Cleaning.thtml" (12 slides) 8.8.2009 22:46