|
|
Andmekaevandus (4AP) Arvutiteaduse instituut, Sügis 2004 Lektor: Jaak Vilo 12 loengut (24 t + 20 t iseseisvat tööd) 10 praktikumi (20 t + 30 t iseseisvat tööd) 1 referaat (20 t) 1 praktiline töö (30 t) Eksamiks valmistumine (16 t) Eksam ( 4 t) ---------------------------------------------------------- Kokku: 160 tundi (=4AP)
Annotatsioon: Andmekaevandus (Data Mining, DM) ja teadmiste otsimine andmebaasidest (Knowledge Discovery from Databades, KDD) tegelevad suurte andmehulkade analüüsimise meetoditega eesmärgiga tuvastada uusi, olulisi ja huvitavaid teadmisi algandmetest. Loengul tutvume andmekaevanduse protsessiga ja erinevate oluliste analüüsimeetodite ja algoritmidega. Oluline koht kursusel on iseseisval tööl kirjandusega, harjutusülesannete lahendamisel ning praktilisel tööl.
Eesmärk: Õppida tundma andmekaevanduse protsessi olemust ja olulisemaid meetodeid ning algoritme; õppida iseseisvat tööd kirjandusega ning praktiseerida analüüsi.
Annotation: Data Mining course (4cu) introduces the basic ideas of the Data Mining (DM) and Knowledge Discovery from Databases (KDD). During the course we will study various algorithms used in DM. An important part of the course will be practical individual work.
Goals: To learn the basics of the Data Mining and Knowledge Discovery processes and main algorithms used.
|
|
Jiawei Han, Micheline Kamber
: Data Mining -- Concepts and Techniques
, Morgan Kaufmann Publishers
, 2000
.
[http://www.cs.sfu.ca/~han/dmbook]
David Hand, Heikki Mannila, Padhraic Smyth
: Principles of Data Mining.
, The MIT Press
, 2001
.
|
|
Slaidid funktsionaalse genoomika andmete klasteranalüüsist ja visualiseerimisest
|
|
Andmekaevandus (Data Mining, DM, vahel ka Knowledge Discovery from Databases, KDD) on suhteliselt noor informaatika uurimisvaldkond mis on saanud mõjutusi eri aladelt nagu statistika, andmebaaside teooria, masinõppimine, algoritmiline arvutiteadus ning paljud erinevad rakendusvaldkonnad kust on tav aliselt pärit tegelikud analüüsivajadused. Andmekaevanduse eesmärk on leida suurtest andmehulkades seaduspärasusi, trende, reegleid või muid aspekte mis aitavad andmetest teadmisi saada ja mis osutuvad mingis mõttes huvitavaks või üllatavaks.
Kui need leitud infokillud esitada mõistlikult lõppkasutajale kasutades visualiseerimist, olulisuse järgi sortimist või muid tehnikaid siis aitab see eeldatavasti ka sutajal paremini mõista andmete olemust. Üheks iseloomulikuks omaduseks andmekaevanduses võrreldes näiteks traditsioonilisema masinõppimisega on tavaliselt andmete väga suur maht. Järelikult on vaja a nalüüsimeetodeid mis oleksid rakendatavad ka reaalselt terve suure andmekogu peal mitte ainult väike ses skaalas. Tüüpilisi andmekaevanduse meetodeid on assotsiatsioonireeglite otsimine kasutades näite ks apriori algoritmi ja selle variante või ka sagedaste episoodide otsimist ajas mõõdetud sündmuste loendist.
|
|
Data mining is traditional data analysis methodology updated with the most advanced analysis techniques applied to discovering previously unknown patterns.
Data Mining and KDD: A Shifting Mosaic By Joseph M. Firestone, Ph.D. White Paper No. Two March 12, 1997
The definition clearly implies that what data mining (in this view) discovers is hypotheses about patterns and relationships. Those patterns and relationships are then subject to interpretation and evaluation before they can be called knowledge.
|
|
Jiawei Han, Micheline Kamber Data Mining -- Concepts and Techniques, Morgan Kaufmann Publishers, 2000.
David Hand, Heikki Mannila, Padhraic Smyth Princioples of Data Mining. The MIT Press, 2001
Para http://www.forkosh.dreamhost.com/mimetex.html sees üks url.
Para sees Teine URL mimetexile mis peaks olemas olema...
| ©Jaak Vilo; 2003-2004 | ![]() |
"start.thtml" | (6 slides) | 8.8.2009 22:46 |