Hindamine sooritatakse üle (anonüümse) veebi-formi.
P01 Asko Tiidumaa Assotsiatsioonireeglid kodulk, P01 P02 Kristo Käärmann Otsustuspuud P02 P03 Igor Kuzmits^ov ILP P03 P04 Meelis Kull MDL P04 P05 Mihhail Juhkam Klasteranalüüs P05 P06 Mart Sõmermaa Sarnasuse mõõtudest (kodulk, P06) P07 Ireen Meho Mustrid tekstidest (TEIRESIAS) P07 P08 Sven Laur Bayes P08 P09 Hando Tint SVM P09 P10 Jelena Zaitseva EM P10 P11 Jüri Reimand Text mining P11 P12 Risto Vaarandi (sündmuste logidest huvitavad seosed) P12 P13 Ants Aader 2-way clustering P13
Hindamised sooritatakse järgmiselt:
Hindamiseks aega 2 nädalat!
HINNATAV TÖÖ KOLM HINDAJAT P01 Asko Tiidumaa by Igor Kuzmits^ov, Risto Vaarandi, Kristo Käärmann P02 Kristo Käärmann by Risto Vaarandi, Asko Tiidumaa, Hando Tint P03 Igor Kuzmits^ov by Kristo Käärmann, Jelena Zaitseva, Ants Aader P04 Meelis Kull by Hando Tint, Sven Laur, Mart Sõmermaa P05 Mihhail Juhkam by Jüri Reimand, Hando Tint, Ants Aader P06 Mart Sõmermaa by Mihhail Juhkam, Meelis Kull, Sven Laur P07 Ireen Meho by Ants Aader, Jüri Reimand, Igor Kuzmits^ov P08 Sven Laur by Meelis Kull, Mart Sõmermaa, Mihhail Juhkam P09 Hando Tint by Ireen Meho, Meelis Kull, Jelena Zaitseva P10 Jelena Zaitseva by Mart Sõmermaa, Kristo Käärmann, Ireen Meho P11 Jüri Reimand by Sven Laur, Risto Vaarandi, Asko Tiidumaa P12 Risto Vaarandi by Asko Tiidumaa, Jüri Reimand, Ireen Meho P13 Ants Aader by Jelena Zaitseva, Mihhail Juhkam, Igor Kuzmits^ov
Kommentaarid kogume aga kokku elektrooniliselt ja nii võib olla praegu täiesti piisavm, et kasutate tavalist kirja - 11 või 12pt suuruset. Kas ühes või kahes veerus, see on igaühe enda otsustada. Lehekülje suurus peaks olema A4.
4.11. valmis olev versioon tuleb kohale tuua ühes eksemplaris paberil ning lisaks tuleb Jaak Vilole saata PDF ning kasutatud kirjanduse artiklite elektroonilised versioonid nii palju kui neid on olemas.
Kõige parem oleks kui saaksite oma kodulehele panna välja kataloogi kus oleks PDF ning kasutatud artiklid elektrooniliselt. Siis saaksin need teha kättesaadavaks a) linkides käesolevalt lehelt ja b) vajadusel tõmmata alla failid, et kõik materjalid saaksid üheks tervikuks kokku.
Andmekaevandus on teadusharu mis uurib meetodeid (väga) suurtest andmekogudest huvitavate reeglite, seaduspärasuste, trendide ja muu olulise informatsiooni kättesaamiseks. Uurimisseminar käsitleb andmekaevanduse ja -analüüsi algoritme ja meetodeid. Osalejatelt eeldatakse olulisel määral iseseisvat tööd teaduskirjandusega andmekaevanduse aspektide väljaselgitamisel. Seminari käigus tuleb igal osalejal koostada põhjalik referaat valitud teemal ning see seminari vormis ette kanda.
Annotation
Data Mining (DM, Knowledge Discovery from Databases) studies methods for analyzing (very) large data collection in order to discover new information about the data - rules, regularities, trends, etc. In the Data Minig Research Seminar we will study aspects of Data Mining. Seminar requires independent work with scientific literature and preparation of a substantial essay about the chosen DM-related topic. Each student will also have to present their work in detail during the seminar.
Praktiline korraldus - kes pääsevad osalema?
Maksimaalselt 15 inimest võetakse seminari (rohkem ei mahu)
Osalejate loetelu otsustab seminari korraldaja Jaak Vilo.
Osalemise soovist märku andmiseks tuleb saata e-mail Jaak Vilo
aadressile
Kirjas tuleks põhjendada oma soovi osaleda just sellel seminaril.
Osalejate valikuks lähtume järgmistest kriteeriumidest -
Eesmärgid:
Seminari ajad - Teisipäeviti, kell 12-14 (511)
Iga osaleja poolt tagasiside meili teel J. Vilole -
oma teema lühisissejuhatus
peamise lähtematerjali loetelu-tutvustus.
Sisukord ja kava mis sinna kirjutada
Küsimused ja probleemid voiks olla enda jaoks juba sonastatud
Osa referaadist peab olema meetodi(te) lihtne kirjeldus Selle tutorial-tüüpi materjali kohta peaks olema juba materjal koos
Artiklisse tuleks sisse tuua ka 1-2 rakendust kus just antud meetod on hiljutistes publikatsioonides osutunud kasulikuks, st kus on mingi praktiline tulemus
Vahekokkuvõte
Artikli vormistamise küsimused
KUIDAS KIRJUTADA - loeng?
Osalejatelt oodatakse:
Sisukorra ja astrakti mustandit, kirjatöö tervikust ca 2/3 ulatuses valmis
Igaüks saab ca 5 minutit 1-2 kile pealt oma teema tutvustamiseks
Artiklite esimene versioon peab olema valmis ja vormistatud (10-15 lk)
Artiklid edastatakse refereerimiseks 3-le hindajale
(kas anonüümsus on vajalik?)
Loeng hindamiskriteeriumide kohta ja kuidas retsenseerida Soovitused kirjutajale kuidas paremaks teha.
Hindamine sooritatakse üle (anonüümse) veebi-formi
Hindamiseks aega 2 nädalat!
Korjatakse kokku iga artikli kohta käivad retsensioonid ja hinnangud. Hinnangud ja kommentaarid edastatakse autorile
Autor peab viima sisse muudatused ja parandused Samuti jälgima et soovitused on sisse viidud teksti
Muudatuste sisse viimiseks ja lõpliku versiooni valmimiseks on aega 2 nädalat.
Lõplikud versioonid edastatakse elektrooniliselt köitmisele
Kõik tööd tuleb esitada
Kogu töö peab olema ühes kataloogis milles on ka väike shelli skript tar czvf DM_nr_perekonnanimi.tgz DM_nr_perekonnanim
Organiseerijatele aega ca 1-2 nädalat toimetamiseks
Selle aja jooksul tulerb teha korralik loengu-esitus slaididega Hiljem kõik slaidid ka avalikult veebi...
"Konverents"
Andmekaevandus (Data Mining, DM, vahel ka Knowledge Discovery from Databases, KDD) on suhteliselt noor uurimisvaldkond mis on saanud mõjutusi eri aladelt nagu statistika, andmebaaside teooria, masinõppimine, algoritmiline arvutiteadus ning paljud erinevad rakendusvaldkonnad kust on tavaliselt pärit tegelikud analüüsivajadused. Andmekaevanduse eesmärk on leida andmetest seaduspärasusi, trende, reegleid või muid aspekte mis osutuvad mingis mõttes huvitavaks, üllatavaks või millele lihtsalt pole varajasemalt mõeldud. Kui need leitud infokillud esitada mõistlikult lõppkasutajale kasutades visualiseerimist, olulisuse järgi sortimist või muid tehnikaid siis aitab see eeldatavasti kasutajal paremini mõista andmete olemust. Üheks iseloomulikuks omaduseks andmekaevanduses võrreldes näiteks traditsioonilisema masinõppimisega on tavaliselt andmete väga suur maht. Järelikult on vaja analüüsimeetodeid mis oleksid rakendatavad ka reaalselt tere suure andmekogu peal mitte ainult väikeses skaalas. Tüüpilisi andmekaevanduse meetodeid on assotsiatsioonireeglite otsimine kasutades näiteks apriori algoritmi ja selle variante või ka sagedaste episoodide otsimist ajas mõõdetud sündmuste loendist.
Tavaliselt jagatakse andmeanalüüsi (ka DM) meetodid juhitud (supervised) ja juhtimata (unsupervised) või ka osaliselt juhitud (semisupervised) meetoditeks. Tüüpilised juhtimete analüüsimeetodid on klasteranalüüs, aga samuti ka assotsiatsioonireeglite ja mustrite otsimine (pattern discovery). Masinõppimise meetodid on tavaliselt juhitud, st seal tuleb leida reegleid teatud klasside, mis on ette antud, eristamiseks. Näiteks otsustuspuud, -listid, -reelid, närvivõrgud (NN), reeglite hierarhiad ja eranditega reeglid, või hiljuti ka väga laialdaselt levinud kernelmeetodid nagu Support Vector Machines (SVM).
Tüüpiline andmekaevanduse projekt ise on protsess mis koosneb sammudest:
klient1 t1 t3 t6 t7 klient2 t3 t6 t8 t9 klient3 t3 t9 klient4 t5 t9 ...Tüüpiline assotsiatsioonireegel on:
t3 & t6 => t9 (tugi: 10%, usaldus 80%)
Seda tuleks tõlgendada, et 10% klientidest on ostnud tooteid t3 ja t6 ning lisaks 80% juhtudest mil on ostetud t3 ja t6 on sama isik ostnud veel toodet t9.
Assotsiatsioonireegli saab kätte näiteks teades, et alamhulk {t3,t6} esineb andmebaasis näiteks 1000 korda ning alamhulk {t3,t6,t9} 800 korda. Seega on ülesanne koostada algoritm kuidas kiiresti leida kõik sagedased alamhulgad...
nr temp pilvisus tuul õhurõhk vihm 1 kõrge pilves tugev 700 jah 2 kõrge pilvitu nõrk 770 ei 3 madal pilves keskm 760 ei (lumi) 4 keskm pilvitu keskm 720 ei ...
Tüüpiline "lihtne" masinõppimise meetod on otsustuspuud ja listid. Otsustuspuude puhul hakatakse sisuliselt jagama ainestikku rekursiivselt väiksemateks osadeks, ning jätkatakse kuni puu lehes saab teha otsuse, kumba klassi näide kuulub. Puu tippudes testitakse näiteks atribuutide väärtusi.
Tüüpiline probleem õppimisel on "üleõppimine", st puu tehakse näiteks nii spetsiifiliseks et tegelikult kaob ennustamise võime. Selle vastu on meetode kuidas vältida üleõppimist või pügada juba õpitud otsustuspuud lihtsalt väiksemaks.
Hierarhilised reeglid lähtuvad teisest intuitsioonist - et on olemas reeglid mis kehtivad üldjoontes, kuid millele leidub alati erandeid. Hierarhilised reeglite hulgad luvbavad esitada just neid erandeid. Samas klassifitseerimise ajal võib olla kahte eri tüüpi erandeid - kas püüda kõigepealt välja erandid (globaalne erand) ja siis klassifitseerida üldisemate reeglite järgi, või teha vastupidi - kõigepealt kasutada reeglit ning siis erandreeglit. Pange táhele et ühel juhul on erand globaalne ja teisel lokaalne.
Lineaarne eraldamine - perceptron, SVM, linear regression etc. Eeldab et andmepunktide vahele saab tõmmata lihtsalt sirgjoone (ehk hypertasandi paljumõõtmelises ruumis). Pertseptron, ehk lihtne ühe sõlmega närvivõrk teebki lihtsalt tasandiga eraldamist. Tihti on võimalik tõmmata PALJU eraldusjooni. Milline on neist parim? Tihti on kasulik maksimeerida marginaali eraldusjoonest tegelike andmepunktideni.
Bayesi reegel lubab hinnata mudeli headust: parim mudel on see mis ise pole liiga ebatõenäoline ning lisaks kirjeldab hästi andmeid. Bayesi reegel:
P( D | M ) · P( M )
P( M | D ) = --------------------
P( D )
Hindamise kriteeriumid
Kui rääkida masinõppimise meetodi headusest siis tuleb kuidagi seda
osata hinnata. Eesmärk on üldiselt õppida klassifitseerima uusi, seni
nägemata andmeid. Selleks et seda oskust hinnata tuleb meil tavaliselt
kasutada õpetamise andmeid reegli õpetamiseks ning testandmeid
testimiseks. Muidugi ei tohi need kattuda. Kuna andmeid pole alati
piisavalt siis tehakse mitmekordset ülekontrolli, st. õpitaks reegleid
korduvalt ja hinnatakse alati allesjäänud osa peal klassifitseerija
headust. Jäta üks válja "leave one out jacknife" on meetod mis lubab ühe
kaupa seda testida. Samas on vaja siis õppida palju kordi. Ning jääb
küsimus, mis juhtub siis kui klassifitseerijad on tavaliselt erinevad
üksteisest. Pange táhele, et vajalik on ka et õpetamise andmed oleks
sõltumatud omavahel.
Precision, recall, false positive rate, false negative rate, jne.
MDL printsiip (lühima kirjelduse printsiip) on suguluses Bayesi reegliga. Sisuliselt hinnatakse seda, et kui usutav on ennustav reegel ning kui hästi see kodeerib andmeid. Tuleneb see vanast teaduslikust printsiibist (Occhami habemenuga - kahest samavõrd heast teooriast parem on see mis on lihtsam).
ROC - Receiver Operator Curve - lubab hinnata klassifitseerijat ka siis kui on võimalik olla oma otsustustes kas rohkem või vähem põhjalik. Tegelikult tuleks optimeerida mingit kulufunktsiooni. Näiteks kõikide inimeste saatmine mingile meditsiinilisele uuringule on kallis, arst peaks suutma hinnata riskigruppi võimalikult täpselt. Kui risk on väike pole asi hull kui keegi jääb skriiningust välja. Samas kui risk on suur siis kahju kui keegi jääb välja võib olla suur.
Võimendamine (boosting) on meetod mis kombineerib palju "nõrku" ennustajaid et tõsta nende usaldusväärsust kombinatsioonis.
Induktiivne loogiline programmeerimine on meetod mis lubab pöörata ümber loogilise programmeerimise teoreemitõestuse sammu... (vt. materjale).
Närvivõrgud said uue hoo sisse peale mitmetasemeliste (peidetud tasemed) närvivõrkude võidukäiku (sest perceptron ei oska "isegi" XOR tehet ära õppida).
Bioinformaatika on ala mis uurib bioloogiliste andmete analüüsi - neid andmeid on palju ja see on väga viljakas eriala rikkalike huvitavate probleemide poolest.
Meditsiini-informaatikas võib pidada peamiseks eesmärgiks õppida meditsiini-andmetest inimese tervisega seonduvat informatsiooni, õppida andme automaatselt diagnoose jne. Aga ka andmete haldamise kning isikute privaatsuse küsimused on seal väga tähtsal kohal.
Siin on esialgne teemade loetelu. Enne esimest seminari proovin leida algatuseks vähemalt ühe artikli iga teema kohta. Muidugi võib üles näidata ka oma initsiatiivi ja otsida veebist, CiteSeer-ist ja mujalt.
Assotsiatsioonireeglid (sagedased hulgad) ja apriori algoritm
- Mannila CACM
- http://cs.engr.uky.edu/~dekhtyar/685-Spring2003/literature/rules.html
- Materjale
- Teema autor: Asko Tiidumaa
- CODE: P01
Sagedased episoodid
- Sündmused (näiteks veateated, logid jt) aja teljel; rakendused
- Materjale
Otsustuspuud ja -listid
- ID3
- Puu tipu jagamise reeglid, näiteks gini indeks jt.
- C4.5
- CN2
- Materjale
- Teema autor: Kristo Käärmann
- CODE: P02
Tree-pruning methods
- Mis need on ja miks?
- Kirjelda meetodeid.
- Millised neist on head?
- Materjale
Inductive Logic Programming
- Materjale
- Teema autor: Igor Kuzmits^ov
- CODE: P03
Rough Sets in Machine Learning
- Rough sets, Bioinformatics, ILP (Jan Komorowski)
- Materjale
Hierarchical Rule sets and Ripple Down Rules
MDL (ja MML)
- MDL ja MML printsiipide kasutus masinõppes.
- Kuidas hinnata tuletatud teooriate-reeglite headust?
- MDL printsiip (Minimum Description Length)
- MML - minimum message length measure.
- http://www.mdl-research.org/
- Materjale
- Teema autor: Meelis Kull
- CODE: P04
Measuring the quality of learned predictors
- - precision
- - recall
- - accuracy
- - ROC curve
- - Classifiers for rare cases
- Materjale
Masinõppimise treenimise ja parandamise meetodid
- Jacknife
- Leave one out
- ...
- Materjale
Klassifitseerijate kombineerimine
- Boosting
- Bagging
- jt
- Materjale
Klasteranalüüs
- Hierarhiline
- K-means
- Fuzzy C-means
- Materjale
- Teema autor: Mihhail Juhkam
- CODE: P05
Sarnasuse mõõdust klasteranalüüsis
- Sarnasuse ja kauguse hindamise mõõdud
- Dimensionaalsuse needus
- Sarnasuse mõõt ja klasterduse kiirendamine kolmnurga võrratuse abil
- Materjale
- Teema autor: Mart Sõmermaa
- CODE: P06
Sagedasti esinevate stringi-mustrite otsimine
- TEIRESIAS mustrite otsimise meetod, mustrite headuse mõõdud (support jne)
- IBM Pattern Discovery group
- Materjale
- Teema autor: Ireen Meho
- CODE: P07
Närvivõrgud
- Perceptron ja tema omadused-puudused (2lk)
- Keerulisemad võrgud, peidetud tasemed
- Treenimise levinumad meetodid
- Materjale
Bayesi võrgud (alused)
- Mis on Bayesi võrgud
- Kuidas neid treenitakse
- Kus kasutatud on?
- Review by Nir Friedman, Daphne Koller
- Materjale
- Teema autor: Sven Laur
- CODE: P08
Kernel methods and SVM (Support Vector Machines)
- http://www.kernel-machines.org/
- http://svmlight.joachims.org/
- Materjale
- Teema autor: Hando Tint
- CODE: P09
Expectation Maximization
- EM kui optimeerimismeetod?
- Materjale
- Teema autor: Jelena Zaitseva
- CODE: P10
Text mining
- (Vabast) tekstist info eraldamine
- Infopäringud tekstiandmebaasidesse jne
- Mis miks kuidas tehakse text miningut
- näiteks Teadusartiklite abstraktide analüüs valkude kohta info samaiseks
- Materjale
- Teema autor: Jüri Reimand
- CODE: P11
Data Mining Bioinformaatikas
Data Mining Meditsiini-informaatikas
Muid rakendusi, arengusuundi jne
Võib valida ka järgmisi teemasid -
Mixture Modelling and LVQ - learning vector quantization.
Independent Copmponent Analysis
Materjale veebis