back first p home  Full page last p forward

   
Andmekaevandus (4AP) SlideShow
      Peamised materjalid mille põhjal toimuvad loengud: SlideShow
      Kursuse ülesehitus SlideShow
      Andmekaevanduse olemus SlideShow
         Andmekaevanduse definitsioonid SlideShow
      Abimaterjale SlideShow

SlideShow

Andmekaevandus (4AP)

Andmekaevandus (4AP)
Arvutiteaduse instituut, Sügis 2004
Lektor: Jaak Vilo
 
12 loengut    		(24 t + 20 t iseseisvat tööd)
10 praktikumi 		(20 t + 30 t iseseisvat tööd)
1  referaat   		(20 t)
1  praktiline töö 	(30 t)
Eksamiks valmistumine   (16 t)
Eksam			( 4 t)
----------------------------------------------------------
Kokku: 160 tundi        (=4AP)

Annotatsioon: Andmekaevandus (Data Mining, DM) ja teadmiste otsimine andmebaasidest (Knowledge Discovery from Databades, KDD) tegelevad suurte andmehulkade analüüsimise meetoditega eesmärgiga tuvastada uusi, olulisi ja huvitavaid teadmisi algandmetest. Loengul tutvume andmekaevanduse protsessiga ja erinevate oluliste analüüsimeetodite ja algoritmidega. Oluline koht kursusel on iseseisval tööl kirjandusega, harjutusülesannete lahendamisel ning praktilisel tööl.

Eesmärk: Õppida tundma andmekaevanduse protsessi olemust ja olulisemaid meetodeid ning algoritme; õppida iseseisvat tööd kirjandusega ning praktiseerida analüüsi.

Annotation: Data Mining course (4cu) introduces the basic ideas of the Data Mining (DM) and Knowledge Discovery from Databases (KDD). During the course we will study various algorithms used in DM. An important part of the course will be practical individual work.

Goals: To learn the basics of the Data Mining and Knowledge Discovery processes and main algorithms used.


SlideShow

Peamised materjalid mille põhjal toimuvad loengud:

Jiawei Han, Micheline Kamber : Data Mining -- Concepts and Techniques , Morgan Kaufmann Publishers , 2000 .  [http://www.cs.sfu.ca/~han/dmbook]
David Hand, Heikki Mannila, Padhraic Smyth : Principles of Data Mining. , The MIT Press , 2001 .


SlideShow

Kursuse ülesehitus


SlideShow

Andmekaevanduse olemus

Andmekaevandus (Data Mining, DM, vahel ka Knowledge Discovery from Databases, KDD) on suhteliselt noor informaatika uurimisvaldkond mis on saanud mõjutusi eri aladelt nagu statistika, andmebaaside teooria, masinõppimine, algoritmiline arvutiteadus ning paljud erinevad rakendusvaldkonnad kust on tav aliselt pärit tegelikud analüüsivajadused. Andmekaevanduse eesmärk on leida suurtest andmehulkades seaduspärasusi, trende, reegleid või muid aspekte mis aitavad andmetest teadmisi saada ja mis osutuvad mingis mõttes huvitavaks või üllatavaks.

Kui need leitud infokillud esitada mõistlikult lõppkasutajale kasutades visualiseerimist, olulisuse järgi sortimist või muid tehnikaid siis aitab see eeldatavasti ka sutajal paremini mõista andmete olemust. Üheks iseloomulikuks omaduseks andmekaevanduses võrreldes näiteks traditsioonilisema masinõppimisega on tavaliselt andmete väga suur maht. Järelikult on vaja a nalüüsimeetodeid mis oleksid rakendatavad ka reaalselt terve suure andmekogu peal mitte ainult väike ses skaalas. Tüüpilisi andmekaevanduse meetodeid on assotsiatsioonireeglite otsimine kasutades näite ks apriori algoritmi ja selle variante või ka sagedaste episoodide otsimist ajas mõõdetud sündmuste loendist.


SlideShow

Andmekaevanduse definitsioonid

Data mining is traditional data analysis methodology updated with the most advanced analysis techniques applied to discovering previously unknown patterns.

  • DMI: SAS defines data mining as the process of selecting, exploring, and modeling large amounts of data to uncover previously unknown patterns for a business advantage. [1]

  • DMII: Data Mining is the activity of extracting hidden information (patterns and relationships) from large databases automatically: that is, without benefit of human intervention or initiative in the knowledge discovery process.

  • DMIII: Data Mining is the step in the process of knowledge discovery in databases, that inputs predominantly cleaned, transformed data, searches the data using algorithms, and outputs patterns and relationships to the interpretation/evaluation step of the KDD process.

Data Mining and KDD: A Shifting Mosaic By Joseph M. Firestone, Ph.D. White Paper No. Two March 12, 1997

The definition clearly implies that what data mining (in this view) discovers is hypotheses about patterns and relationships. Those patterns and relationships are then subject to interpretation and evaluation before they can be called knowledge.


SlideShow

Abimaterjale

Jiawei Han, Micheline Kamber Data Mining -- Concepts and Techniques, Morgan Kaufmann Publishers, 2000.

David Hand, Heikki Mannila, Padhraic Smyth Princioples of Data Mining. The MIT Press, 2001

Para http://www.forkosh.dreamhost.com/mimetex.html sees üks url.

Para sees Teine URL mimetexile mis peaks olemas olema...


©Jaak Vilo; 2003-2004 "start.thtml" (6 slides) 8.8.2009 22:46