Jaak Vilo -
Andmekaevanduse probleem-seminar MTAT.03.177 (3AP, hinne) 2005 kevad
Data Mining Problem-Oriented Seminar (3AP)
Annotatsioon
Neljapäeviti kl. 10.15-12.00, J. Liivi 2 - ruum 612
Jaak Vilo
Ajakava:
- N. 10. veebruar 2005 - esimene kogunemine
- 17.02 - Triinu Tasa, Hendrik Nigul, Eero Raudsepp
materjalid.
- 23.02 kl 16.15 Matti Kankainen (24.02 on iseseisvuspäev!)
Koht: TÜMRI/EBK maja, 3. korrus seminariruum.
- 3.03 (Palmse Talvekool) - seminari ei toimu(?)
- ...
Seminari eesmärk on harjutada teadusliku töö tegemist —
tutvuda teadusliku kirjandusega, otsida ja esitada probleeme,
kirjutada ülevaateid, pidada ettekandeid jne.
Temaatika on seotud andmeanalüüsiga, nagu näiteks bioinformaatika,
andmekaevandus, masinõppimine, klasterdamise meetodid jne. On
kasulik kui seminari problemaatika haakuks baka-, magistri- ja
doktoritöö teemadega.
Töö käigus on oluline oma enda iseseisev uurimuslik töö - otsida
artikleid, materjale, sõnastada oma probleem, pakkuda välja
võimalikud lahendused, lahendamise etapid, sooritada praktiline
analüüs, esitada see kirjalikult arusaadaval kujul, jne.
Osalejad: Probleem-orienteeritud seminari osalejad võivad
olla kolmanda-neljanda kursuse tudengid, magistrandid ja
doktorandid.
Seminari formaat
Seminar sarnaneb nn "Journal club" stiiliga — iga nädal käiakse kohal, tehakse
ettekandeid ja arutletakse probleemide üle. Lisaks tuleb praktiseerida
kirjalikku vormistamist. Oluline on aktiivne osalemine seminari töös.
Igal seminari koosviibimisel tuleb ette kandmisele 2-3 erinevat
ettekannet. Need jagunevad kolme liiki:
- Artikli põhjal ettekanne
Vali välja omaenda uurimistööga kõige rohkem seotud 1-2 artiklit.
Koosta nende kohta lühike (kuni 2lk) kirjalik essee.
Esita suuline ettakanne (ca 30-35 min. pluss arutelud).
Ettekande eesmärk on seletada lahti artiklis tehtu ja kus võimalik
näidata edasi arendamise võimalusi.
- Oma teemapüstituse tutvustus
Koosta oma uurimistöö plaan - sõnasta ülesandepüstitus ja
visanda lahenduskäigud. Vormistus on kirjalik, kuni 2 lk.
- Oma töö lõpptulemuste esitus
Koosta oma praktilise töö (näiteks analüüsi tulemus) kohta ülevaade.
Vormistus samuti kirjalik, kuni 5 lk.
Kõik kirjalikult vormistatud esseed, raportid jne. tuleb laiali jagada
seminari nädalal hiljemalt esmaspäeva õhtuks (seminar on neljapäeval).
Seminari teistel osalejatel tuleks neid lugeda ja kommenteerida.
Parandatud ja korralikult vormistatud esseed ja raportid kogutakse kokku
hiljemalt nädal peale oma ettekande aega, et saaks arvesse võtta ka
seminari jooksul saadud kommentaare.
Osalejad
- Priit Adler
- Darja Kruševskaja
- Meelis Kull (?)
- Anton Litvinenko
- Hendrik Nigul
- Hedi Peterson
- Eero Raudsepp
- Jüri Reimand (?)
- Jelena Zaitseva
- Triinu Tasa
- Asko Tiidumaa
Võimalikke teemasid millest võib lisa valida:
Stringide klasterdamine
- Andmed: ühepikkused stringid (näiteks DNA piirkonnad, 1000 tähte pikad)
- Eesmärk on klasterdada need omavahelise sarnasuse põhjal.
- Selleks tuleb defineerida sarnasuse mõõdud
- Kasutada saab Mart Sõmermaa kirjeldatud Informatsioonisarnasust (vt.
Andmekaevanduse uurimisseminarist:
Raport P06)
- Lisaks tuleks kasutada kaugust mis on defineeritud kasutades
eelteadmistena infot oluliste mustrite kohta DNA-s.
- Kolmandaks - defineerida kaugus selle põhjal millised sarnased
3, 4, 5, 6 ,... tähe pikkused alamstringid esinevad sarnastes
positsioonides
- Kas infosisaldust saab välja arvutada ka kahe stringi ühise sufiksipuu suuruse järgi?
Fuzzy C-means
- K-means klasterdab objektid nii et iga objekt kuulub vaid ühte
klastrisse. Fuzzy C-means peaks võimaldama objekti kuuluvust mitmesse
eri klassi.
- Millised on võimalikud lahendused, probleemid, küsimused ja
rakendused?
- Kasuta meetodit mingite reaalsete andmete peal (saab juhendajalt).
-
Google:
PDF files
-
Google:
PS files
- Otsi ja katseta realisatsioone, nagu näiteks see: näiteks
see
Kuidas hinnata klassifitseerija (masinõppimise tulem) headust?
- Proovi hinnata neid kriteeriumeid mingi konkreetse andmehulga
ja masinõppimisprogrammi peal (näiteks Weka)
- - precision
- - recall
- - accuracy
- - ROC curve
- - Classifiers for rare cases
- - Jacknife
- - Leave one out
- Katsetada neid reaalsete andmete peal (vt. UCI andmestikke,
tee koostööd teiste rühmadega, või küsi juhendajalt)
- Materjale
Abimaterjalid, programmid, andmestikud jne
Jaak Vilo,