Jaak Vilo -

Andmekaevanduse probleem-seminar MTAT.03.177 (3AP, hinne)
Data Mining Problem-Oriented Seminar (3AP)
Annotatsioon
Jaak Vilo

Ajakava:

[P01] Kristo Käärmann ja Oleg Petshonkin
Haplotüüpide analüüs
[P03] Marten Teino
Veebi-logide analüüsi meetodid
[P04] Jüri Reimand
Kiire hulga-aritmeetika ja selle rakendused andmekaevanduses
[P05] Asko Tiidumaa ja Kristo Tammeoja
Episoodireeglite leidmine
[P06] Konstantin Tretjakov
SPAM-mailide äratundmise masinõppimise meetodid

Seminari eesmärk on praktiseerida iseseisvat probleemi-püstitust ning probleemi-lahendust. Temaatika on seotud andmeanalüüsiga -- andmekaevandus, masinõppimine, klasterdamise meetodid jne. Töö sooritatakse väikerühmas (2-3 inimest).

Töö käigus on oluline oma enda iseseisev uurimuslik töö - otsida artikleid, materjale, sõnastada oma probleem, pakkuda välja võimalikud lahendused, lahendamise etapid, sooritada praktiline analüüs, esitada see kirjalikult arusaadaval kujul, jne.

Osalejad: Probleem-orienteeritud seminari osalejad võivad olla kolmanda-neljanda kursuse tudengid, magistrandid ja doktorandid. Töö tehakse väikerühmades. Ideaaljuhul koosneb rühm segamini põhiõppe-, magistratuuri ja doktorantuuri tudengitest mis tagab ka rühmasisese juhendamise.

Väljapakutud ülesannete problemaatika on reeglina selline, et antud teemadel alustatud töö baasilt on võimalik kirjutada nii semestri- kui bakalaureusetööd. Samuti sobib seminar magistri- ja doktoritöö tegijatele. Eriti neile kelle töö on seotud andmeanalüusi temaatikaga ja kellel võib olla seega ka otsene kasu loodavatest vahenditest.

Jaak Vilo


Seminaris [DM_04] osalejad ja teemad

Töö hindamise vorm

Mustandi-versioonid mis lähevad hindamisele

[P01] Kristo Käärmann ja Oleg Petshonkin
Haplotüüpide analüüs
[P02] Priit Kervi ja Alexandr Grebennik
Stringide sarnasuse mõõtmine ja rakendus klasterduses
[P03] Marten Teino
Veebi-logide analüüsi meetodid (KeeleWeb logid jt.)
[P04] Jüri Reimand
Kiire hulga-aritmeetika ja selle rakendused andmekaevanduses
[P05] Asko Tiidumaa ja Kristo Tammeoja
Episoodireeglite leidmine
[P06] Konstantin Tretjakov
SPAM-mailide äratundmine

Refereerimine:


Seminari formaat

Seminar kasutab analoogset formaati kui sügisel 2003 toimunud andmekaevanduse uurimisseminar. St, valitakse teema, uuritakse seda iseseisvalt, koostatakse uurimiskava ja esitatakse see lühiettekandena, sooritatakse uusimistöö ja kirjutatakse raport, raportit hindavad kaasüliõpilased, saadud kommentaaride alusel viiakse sisse parandused lõppraportisse ning "avaldatakse" need toimetistena. Seminari lõpus toimub "konverents" mille käigus tutvustatakse kõiki sooritatud uurimistöid.

Seekord on tähtis erinevus! Töid võib teha väikegrupis, 2-3 inimest koostöös. See peaks aitama jagada töökoormust, paremini koostada ajakava, püsida graafikus. NB! Kindlasti tuleb teha ajakava ja jälgida selles püsimist, ning mõõta töö tegemiseks eri etappidel kulutatud aega!

Uurimiskava koostamine on kõige olulisem osa projektist - selle käigus otsitakse ja uuritakse vajadusi, eesmárke, taustainfot, pannakse kokku töö sisulise lahenduse visand ja defineeritakse ära konkreetsem ülesanne. Ülesande lahendamise kohta koostatakse täpne ajakava ning lepitakse kokku tööde jaotus ja omavahelised kogunemised.

Hindamine: Hindamise aluseks on:


Teemasid:

Süsteemsete logide analüüsid: vigade, tõrgete, sissemurdmiste ennustamine

Veebipõhiste ajalehtede kasutajate käitumisharjumuste analüüs

http logide analüüsi probleemid:

Episoodide kaevandamine: rakendused, kasutus

SPAM-ide analüüs

Stringide klasterdamine

Uudiste klassifitseerimine sisu järgi

Fuzzy C-means

Erinevate haplotüübi segmenteerimisalgoritmide praktiline võrdlus

Klassifitseerijate kombineerimine

Kuidas hinnata klassifitseerija (masinõppimise tulem) headust?

Abimaterjalid, programmid, andmestikud jne


Jaak Vilo,