Jaak Vilo -
Andmekaevanduse probleem-seminar MTAT.03.177 (3AP, hinne)
Data Mining Problem-Oriented Seminar (3AP)
Annotatsioon
Jaak Vilo
Ajakava:
- K. 11. veebruar kl 16:15 Seminari avakogunemine: teemade jagamine, rühmade moodustamine
- Iga väikerühmaga personaalne kokkusaamine ca 1 tund.
- K. 10. märts kl 16:15 Uurimisprojektide kavade esitamine (ülesandepüstitus, kirjalik, 1-2 lk)
- K. 14. aprill kl 16:15 Esimene raport hindamisele (hiljemalt 15.04 kl 17.00)
- Refereerimise tähtaeg: 22.04 (Neljapäev) õhtuks.
- Lõpliku versiooni valmimine: 30.04 (R) õhtuks!
- Seminari lõpp-kogunemine ja ettekanded: Neljapäev, 13. mai
(kell 9-13 ruumis 612 ja kell 14-17 ruumis 611)
- [P01] Kristo Käärmann ja Oleg Petshonkin
- Haplotüüpide analüüs
- [P03] Marten Teino
- Veebi-logide analüüsi meetodid
- [P04] Jüri Reimand
- Kiire hulga-aritmeetika ja selle rakendused andmekaevanduses
- [P05] Asko Tiidumaa ja Kristo Tammeoja
- Episoodireeglite leidmine
- [P06] Konstantin Tretjakov
- SPAM-mailide äratundmise masinõppimise meetodid
Seminari eesmärk on praktiseerida iseseisvat probleemi-püstitust ning
probleemi-lahendust. Temaatika on seotud andmeanalüüsiga --
andmekaevandus, masinõppimine, klasterdamise meetodid jne. Töö
sooritatakse väikerühmas (2-3 inimest).
Töö käigus on oluline oma enda iseseisev uurimuslik töö - otsida
artikleid, materjale, sõnastada oma probleem, pakkuda välja võimalikud
lahendused, lahendamise etapid, sooritada praktiline analüüs, esitada
see kirjalikult arusaadaval kujul, jne.
Osalejad: Probleem-orienteeritud seminari osalejad võivad olla
kolmanda-neljanda kursuse tudengid, magistrandid ja doktorandid. Töö
tehakse väikerühmades. Ideaaljuhul koosneb rühm segamini põhiõppe-,
magistratuuri ja doktorantuuri tudengitest mis tagab ka rühmasisese
juhendamise.
Väljapakutud ülesannete problemaatika on reeglina selline, et antud
teemadel alustatud töö baasilt on võimalik kirjutada nii semestri- kui
bakalaureusetööd. Samuti sobib seminar magistri- ja doktoritöö
tegijatele. Eriti neile kelle töö on seotud andmeanalüusi temaatikaga ja
kellel võib olla seega ka otsene kasu loodavatest vahenditest.
Jaak Vilo
Seminaris [DM_04] osalejad ja teemad
- [P01] Kristo Käärmann ja Oleg Petshonkin
- Haplotüüpide analüüs
- [P02] Priit Kervi ja Alexandr Grebennik
- Stringide sarnasuse mõõtmine ja rakendus klasterduses
- [P03] Marten Teino
- Veebi-logide analüüsi meetodid (KeeleWeb logid jt.)
- [P04] Jüri Reimand
- Kiire hulga-aritmeetika ja selle rakendused andmekaevanduses
- [P05] Asko Tiidumaa ja Kristo Tammeoja
- Episoodireeglite leidmine
- [P06] Konstantin Tretjakov
- SPAM-mailide äratundmine
Refereerimine:
- Kristo Käärmann: P03 P04
- Oleg Petshonkin: P04 P06
- Marten Teino: P04 P05
- Jüri Reimand: P01 P05
- Asko Tiidumaa: P03 P06
- Kristo Tammeoja: P03 P06
- Konstantin Tretjakov: P01 P05
- Jelena Zaitseva: kõik
Seminari formaat
Seminar kasutab analoogset formaati kui sügisel 2003 toimunud andmekaevanduse uurimisseminar. St,
valitakse teema, uuritakse seda iseseisvalt, koostatakse uurimiskava ja
esitatakse see lühiettekandena, sooritatakse uusimistöö ja kirjutatakse
raport, raportit hindavad kaasüliõpilased, saadud kommentaaride alusel
viiakse sisse parandused lõppraportisse ning "avaldatakse" need
toimetistena. Seminari lõpus toimub "konverents" mille käigus
tutvustatakse kõiki sooritatud uurimistöid.
Seekord on tähtis erinevus! Töid võib teha väikegrupis,
2-3 inimest koostöös. See peaks aitama jagada töökoormust, paremini
koostada ajakava, püsida graafikus.
NB! Kindlasti tuleb teha ajakava ja jälgida selles püsimist,
ning mõõta töö tegemiseks eri etappidel kulutatud aega!
Uurimiskava koostamine on kõige olulisem osa projektist -
selle käigus otsitakse ja uuritakse vajadusi, eesmárke, taustainfot,
pannakse kokku töö sisulise lahenduse visand ja defineeritakse ära
konkreetsem ülesanne. Ülesande lahendamise kohta koostatakse täpne
ajakava ning lepitakse kokku tööde jaotus ja omavahelised kogunemised.
Hindamine: Hindamise aluseks on:
- 30% Ülesandepüstitus (kirjalik, paberil, viidetega!)
- 30% Tehtud töö sisu (ja vastavus ülesandepüstitusele)
- 10% Teiste tööde hindamine
- 20% Tehtud töö vormistus
- 10% Suuline ettekanne
- Ettenähtud tähtaja ületamine kahandab punkte: iga ületatud päev kahandab
vastavat punktisummat 20%.
Teemasid:
Süsteemsete logide analüüsid: vigade, tõrgete, sissemurdmiste ennustamine
Veebipõhiste ajalehtede kasutajate käitumisharjumuste analüüs
- Millist infot oleks vaja? (päris andmete saamine võib olla võimalik)
- Milliseid analüüsimeetode võiks kasutada?
- Mida sellest saaks järeldada?
- Kas loetakse leadi või täisartiklit?
- Millal loetakse kommentaare?
http logide analüüsi probleemid:
- millised meetodid, mis eesmärgid, jne.
- Kasutatavad materjalid näiteks
KeeleWebi,
Expression Profileri jt. logid
- Võibolla saab Ülikooli http proxy logisid (?)
Episoodide kaevandamine: rakendused, kasutus
- Proovi leida episoodide reeglite genereerimise tarkvara
- Kui ei leia episoodide realisatsiooni siis tuleks implementeerida (eelistatult C-s).
- Soorita üks või mitu praktilist analüüsi:
- DNA analüüs (milised signaalide "episoodid" esinevad sekventsidel?)
- logianalüüs (vrdl. süsteemilogid ja httpd logid)
- Õppeinfosüsteemi andmed, jne..
SPAM-ide analüüs
- Kuidas tuvastatakse meilide hulgast SPAM-e (Junk-mail).
- Bayesi meetodid (e.g. Mozilla)
- Sisu analüüs
- Klasterdus (klasterda sisu järgi sarnased meilid)
- Tarbija spetsiifilised soovid
- Kuidas hiilitakse mööda praegu SPAM-filtritest?
- Moodusta mingi oma SPAM-ide äratundja.
- First Conference on Email and Anti-Spam (CEAS)
Stringide klasterdamine
- Andmed: ühepikkused stringid (näiteks DNA piirkonnad, 1000 tähte pikad)
- Eesmärk on klasterdada need omavahelise sarnasuse põhjal.
- Selleks tuleb defineerida sarnasuse mõõdud
- Kasutada saab Mart Sõmermaa kirjeldatud Informatsioonisarnasust (vt.
Andmekaevanduse uurimisseminarist:
Raport P06)
- Lisaks tuleks kasutada kaugust mis on defineeritud kasutades
eelteadmistena infot oluliste mustrite kohta DNA-s.
- Kolmandaks - defineerida kaugus selle põhjal millised sarnased
3, 4, 5, 6 ,... tähe pikkused alamstringid esinevad sarnastes
positsioonides
Uudiste klassifitseerimine sisu järgi
- Kasutades uudisteagentuuri uudiste täistekste:
- Proovi luua klassifitseerija mis oskaks uudiste klassi (näiteks
kriminaal vs. sport) ennustada
- Proovi leida sõnu mille kasutus-sagedus muutub ajas (tuleb kasutusele ja siis kaob)
- Proovi leida tunnuseid mille järgi uudist loetakse sageli, näiteks
kasutades sõnade kasutussageduse muutusi
Fuzzy C-means
- K-means klasterdab objektid nii et iga objekt kuulub vaid ühte
klastrisse. Fuzzy C-means peaks võimaldama objekti kuuluvust mitmesse
eri klassi.
- Millised on võimalikud lahendused, probleemid, küsimused ja
rakendused?
- Kasuta meetodit mingite reaalsete andmete peal (saab juhendajalt).
-
Google:
PDF files
-
Google:
PS files
- Otsi ja katseta realisatsioone, nagu näiteks see: näiteks
see
Erinevate haplotüübi segmenteerimisalgoritmide praktiline võrdlus
- See teema on pakutud välja Sven Lauri poolt:
- Uurida algoritmide töökiirust(aja jagunemist erinevate etappide vahel)
- Uurida erinevate algoritmide kvaliteeti (võrreldaval andmekogul
soovitavalt mitmel)
- uurida erinevate algoritmide eobustsust vigadega andmetega
(tegelikult oluline ning siin pole hetkel võrreldavaid tulemusi)
- uurida algoritmide lõikeomadust
Ideaalis võiks kahe erineva alampopulatsiooni korral
haplotüübi segmenteerimine anda kahe blokkideks jaotuse lõike
--- vähima tykelduse, millest saab kokku panna mõlemad blokkideks
jaotused
- uurida kas tugevad kausaalsed sõltuvused blokkide Markovi ahelas
paljastavad alampopulatsioone ning alamsegmentatsioone
- Viimase kolme alampunkti korral peaks huvitavate tulemuste korral,
saama yhe LPU(Least Publishable Unit) jagu materjali.
- Eriti programmerida ei tule, sest võrreldavad algoritmid on
realiseeritud ning tuleks lihtsalt teha hulk praktilisi katseid
ning kirjutada raport.
Klassifitseerijate kombineerimine
- Kuidas parandada klassifikaatori ennustusvõimet: kirjelda meetode nagu
- Boosting, bagging, jt.
- Katsetada neid reaalsete andmete peal (vt. UCI andmestikke,
tee koostööd teiste rühmadega, või küsi juhendajalt)
- Materjale
Kuidas hinnata klassifitseerija (masinõppimise tulem) headust?
- Proovi hinnata neid kriteeriumeid mingi konkreetse andmehulga
ja masinõppimisprogrammi peal (näiteks Weka)
- - precision
- - recall
- - accuracy
- - ROC curve
- - Classifiers for rare cases
- - Jacknife
- - Leave one out
- Katsetada neid reaalsete andmete peal (vt. UCI andmestikke,
tee koostööd teiste rühmadega, või küsi juhendajalt)
- Materjale
Abimaterjalid, programmid, andmestikud jne
Jaak Vilo,