back first p home  Full page last p forward

Andmekaevanduse olemus

Andmekaevandus (Data Mining, DM, vahel ka Knowledge Discovery from Databases, KDD) on suhteliselt noor informaatika uurimisvaldkond mis on saanud mõjutusi eri aladelt nagu statistika, andmebaaside teooria, masinõppimine, algoritmiline arvutiteadus ning paljud erinevad rakendusvaldkonnad kust on tav aliselt pärit tegelikud analüüsivajadused. Andmekaevanduse eesmärk on leida suurtest andmehulkades seaduspärasusi, trende, reegleid või muid aspekte mis aitavad andmetest teadmisi saada ja mis osutuvad mingis mõttes huvitavaks või üllatavaks.

Kui need leitud infokillud esitada mõistlikult lõppkasutajale kasutades visualiseerimist, olulisuse järgi sortimist või muid tehnikaid siis aitab see eeldatavasti ka sutajal paremini mõista andmete olemust. Üheks iseloomulikuks omaduseks andmekaevanduses võrreldes näiteks traditsioonilisema masinõppimisega on tavaliselt andmete väga suur maht. Järelikult on vaja a nalüüsimeetodeid mis oleksid rakendatavad ka reaalselt terve suure andmekogu peal mitte ainult väike ses skaalas. Tüüpilisi andmekaevanduse meetodeid on assotsiatsioonireeglite otsimine kasutades näite ks apriori algoritmi ja selle variante või ka sagedaste episoodide otsimist ajas mõõdetud sündmuste loendist.


©Jaak Vilo; 2003-2004 "start.thtml" (slide 4/6) 8.8.2009 22:46