Jaak Vilo, http://www.egeen.ee/u/vilo/

Bioinformaatika, andmekaevandus, tekstialgoritmid, tarkvaraarendus, infootsingud.
Õppeaasta 2004/05, Juhendaja Jaak Vilo

Arvutiteaduse instituudi üliõpilaste lõputööd tuleb registreerida ATI kantseleis soovitavalt enne 20. detsembrit k. a. Viimane tähtaeg on 9. veebruar 2005.

Selle dokumendi eesmärk on kirjeldada võimalikke uurimisteemasid ja valdkondi millele olen hea meelega nõus olema juhendaja (või vahendama teisi juhendajaid).

Oma lõputöö (baka-, magistri- ja doktoritöö) teema valimiseks uuri:

  1. Milliseid nõudeid esitatakse lõputöödele?
  2. Milliseid teemasid on pakkuda eri juhendajatel (ära häbene küsida!)
  3. Tutvu varasemate üliõpilas-töödega (teemad, vormistamine, teised uurimisrühma liimed, jne)
  4. Tutvu juhendaja teadusliku uurimistööga (publikatsioonid, rakendused, jne)
  5. Moodusta mingi algne nägemus mis laadi tööd soovid teha - teoreetilist, praktilist, interdistsiplinaarset, jne.
  6. Anna juhendsajale võimalikule objektiivne ülevaade oma oskustest ja soovidest.
  7. Lepi juhendajaga kokku oma projekti peamised küsimused
  8. Töö edukaks valmimiseks: suhtle regulaarselt juhendajaga
  9. Ära jäta vajalikke tegevusi viimase hetke peale sest siis on juhendajal korraga palju juhendatavaid kes on hädas ja keda lõpus ei jÕua enam aidata.

Taustainfot minu tegevustest ja valdkondadest:


Peamised valdkonnad lõputööde teemade jaoks

Enamus väljapakutud teemasid on otseselt või kaudselt seotud mõne poolelioleva või käivituva uurimisprojektiga. Teatud puhkudel on võimalik töö tegijat eraldi tasustada.

Ükski teema mida juhendaja pakub ei ole liiga hull - olles pidevas kontaktis juhendajaga saab üle probleemidest. Oluline on muidugi oma enda iseseisev aktiivsus, et juhendaja ei peaks käima tagant torkimas ;-)

Kuna teemasid ja üliõpilasi võib olla palju siis on teemade jaoks ka mitu juhendajat. Allolevatel teemadel on põhi- või kaasjuhendajad mh magistrandid ja doktorandid: Kristo Käärmann, Jelena Zaitseva, Andres Vilgota, Hedi Peterson, jt BIIT rühma liikmed.

Teemasid tutvustava ettekande slaidid (27.9.04)

Arvutiteaduse ülesandepüstitus:

Bioinformaatika ülesandepüstitus: Meditsiiniandmete analüüs - arvutitedus, statistika jne

Allpool on toodud mõned võimalikud teemad millest on võimalik valida oma semestri- ja bakalaureusetöö valdkond. Enamus teemadest on bioinformaatika spetsiifilised, kuid samas on iga teema juures võimalik leida ka tugev arvutiteaduse komponent mis ei eelda tingimata bioloogilisi eelteadmisi. Iga huvitatud üliõpilase jaoks leiab sobiva raskusastmega ülesande. Ei maksa karta kui praegu veel ei tunne pakutud valdkondi. See ongi ülikooli eesmärk - õppida uusi asju.

Isegi kui teema peal on juba mainitud keegi üliõpilane on üsna tõenäoline et mitu inimest suudab rohkem ning sedasi tõuseb ka projekti kvaliteet.

Esmatähtsana sooviks käivitada projektid alternatiivsplaissingu, bioloogiliste radade, geenide funktsiooni ennustamise ja farmakogeneetika projektide jaoks.


Kiired algoritmid ja efektiivsed andmestruktuurid

Läbiv teema enamuse alltoodud teemade juures on kiired algorimtid ja andmestruktuurid.


Andmekaevanduse meetodid (rakendustega bioinformaatikas)

Regulaaravaldiste ligikaudne sobitamine.
Stringide sobitamisel kasutatakse sageli ligikaudset otsimist mis on defineeritud teisenduskauguse ehk Levenshteini kauguse abil. Tuleks uurida, välja pakkuda regulaaravaldiste ligikaudse esinemise otsimise algoritme.

Sõnade otsimine vigadega võttes arvesse teisenduste erinevaid tõenäosusi.
Stringide sobitamisel kasutatakse sageli ligikaudset otsimist mis on reeglina defineeritud teisenduskauguse ehk Levenshteini kauguse abil. Sugugi mitte kõik teisendused pole aga sama tõenäolised või olulised. Näiteks kasutaja poolt vigaselt sisestatud sõnade otsimisel tuleks arvutada sarnasust paindlikumalt, võttes arvesse millised vead on tõenäolisemad kui teised. Näiteks: sÕnad naiteks, náiteks ja näiteks võiks olla sarnasemad kui naiteks ja naiseks, kuigi mõlemal puhul on muutunud täpselt üks täht.

Statistilise olulisuse hindamine simulatsioonide abil
Andmeanalüüsi probleemide juures on sageli vaja hinnata teatud sündmuste esinemise (statistilist) olulisust. Kuna paljudel juhtudel ei ole olulisuse hindamiseks (kiireid) analüütilisi meetode arendatakse sageli simulatsioone. Selles töös tuleb realiseerida programme mis sisuliselt "viskavad kulli ja kirja" piisavalt palju kordi ning siis oskavad anda välja usalduspiirid teatud sündmuse esinemise tõenäosuste kohta.

Andmekaevandus
Masinõppimise, andmekaevanduse, klasterdamise jne meetodid.

Data Warehousing: Mitmemõõtmeline indekseerimine, kiire agregeerimine, päringuvastused lähendamisega
Meetodid andmeladude ja analüütika loomiseks tavalisel relatsioonilisel andmebaasiplatvormil. Milliseid täiendusi on vaja andmebaasimootorisse, et teha arvutusi kõrgdimensionaalsetel andmekuupidel, mis võivad sisaldada sadu miljoneid kirjeid? Kuidas on võimalik avatud koodiga andmebaasimootorit (Postgres, MySQL) täiendada uute indekseerimismeetodite, andmestruktuuridega? Praktilises osas võib lisaks  realiseerida lihtsa analüütika platvormi ja DW mootori relatsioonilisel andmebaasil.

Artikleid on külluses, paar näidet:
Indexing without the Index: Scalable Multidimensional Aggregation for Data Warehouses (2002)
http://citeseer.ist.psu.edu/558495.html
High-dimensional Similarity Joins (1997)
http://citeseer.ist.psu.edu/shim97highdimensional.html


Hierarhilised päringud relatsioonilisel andmebaasil


Standardne SQL ei toeta transitiivse sulundi leidmist puustruktuuri esitavast andmebaasist. Olgu näiteks iseendaga üks-mitmele seotud tabel, kus väli "parent_id" viitab vanemobjektile ning me soovime leida antud objekti kõigi järeltulijate seast teatud tingimustele vastavaid objekte. Üldjuhul peab päringu sooritamiseks kasutama mõne protseduraalse keele abi ning rekursiivselt alampuud läbima (turuliidrid (Oracle, IBM) kasutavad oma DB platvormidel "CONNECT BY" süntaksit). Milline on optimaalne algoritm sellise funktsionaalsuse tekitamiseks, kuidas integreerida seda postgres või mysql päringumootorisse? Lisaks igapäevasele mugavusele on hierarhilistel päringutel olulisi rakendusi meditsiooniinformaatikas, andmeladudel põhinevas analüütikas ja muudes mõistete süsteeme kirjeldavates tööriistades (nt. geeniontoloogiad).

Üks lingikogu
http://troels.arvin.dk/db/rdbms/links/


Mustrite ennustamise meetodid

Pattern discovery and recognition in sequences; sequence algorithms Biological studies to discover motifs in DNA, RNA, or protein sequences in large extent rely on basic reserarch of algorithmics of sequence based methods or combinatorial pattern matching. The task is to develop new pattern discovery and pattern matching algorithms and tools that can be used for large scale bioinformatics studies. One of those tools is SPEXS, an algorithm developed by Jaak Vilo and used for the analysis of DNA and protein sequences.

Sufiksipuude ja -massiivide algoritmid
Arendada edasi sufiksipuude ja massiivide algoritme eesmärgiga kiirendada ligikaudse otsimise meetodeid. Luua tööriistad tekstide indekseerimiseks ning korduvate mustrite ennustamiseks.
Üliõpilased: Hendrik Nigul, Ireen Meho

Kaalumaatriksite (tõenäosuslike mustrite) genereerimine ja sobitamine
Arendada välja tööriistapakett kaalumaatriksite (position weight matrix PWM, position specific score matrix PSSM) sobitamise ja ennustamise meetodeid.
Üliõpilased: Triinu Tasa, Margus Jäger.

Paljude stringide üheaegne ligikaudne otsimine
Mustrite otsimise meetodid, stringide eeltöötlus (indekseerimine) ligikaudse otsimise kiirendamiseks. Regulaaravaldiste ligikaudne otsimine, paljude str´ingide üheaegne ligikaudne otsimine jne.
Üliõpilased: Igor Kuzmitšov

Mustrite kombinatoorika
Millised mustrid esinevad koos DNA-s ning millised on iga mustri efektid geeniregulatsioonile?


Tarkvaraarenduse meetodid

UML põhine tarkvaraarendus (programmisüntees)
UML andmemudeli põhjal saab genereerida SQL tabelid, Java (vt) objekt-klassid, ning nendevahelised teisendused. Kuidas aga genereerida kogu töötav infosüsteem mis oskaks selle andmemudeli jaoks genereerida automaatselt fuinktsioneeriva veebiliidese?

GRID-arvutuskeskkonnad
Mahukate arvutuste jaoks on vaja suuri arvuteid (kiirus, protsessorite arv, mälumaht jne) ja arvutussüsteeme (palju arvutied ning infrastruktuur nende jaoks). Üks võimalus on nn. GRID mis ühendab palju arvuteid üle Interneti infrastruktuuri. Luua tuleks keskkond mille kaudu kasutajad saaksid mugavalt oma arvutusülesandeid GRID kaudu lahendada.


Alternatiivsplaissingu mehhanismide uurimine (EU projekt)

Geeniregulatsiooni bioinformaatika

Geeniekspressiooni analüüs

Functional genomics and data integration studies

Alternative Splicing data analysis
Alternative splicing is a mechanism for a cell for a fine-scale control about which forms of proteins are produced (which exons will be included in the final product) from each gene at each stage of development, external conditions, or in various tissue types. Our groups aim is to study these mechanisms of fine-scale control based on the analysis of DNA specific signals that carry information for such control.

Alternatiivsplaissingu andmebaasid ja bioloogia
Uurida altrnatiivsplaissingu andmebaase, mis andmeid on olemas, milliseid eksperimentaalseid meetode on ning kuidas on sealt saadud andmed esitatud andmebaasides. Luua kohalik AS andmebaas.

Geeniregulatsiooni andmebaas
Luua andmebaas transkriptsioonifaktorite, seondumissaitide, regulatsiooni võrkude jne kohta. Täita andmebaas andmetega - teistest andmebaasidest (SCPD, TRANSFAC jne), eksperimentaalsete andmetega (ChIP on chip), in silico ennustustega. Luua baasile kasutajaliidesed, liidesed tööriistadega jne.

Mustrite otsimise ja visualiseerimise vahendid ning kasutus
Alternatiivsplaissingu regulatsioonimehhanismide uurimiseks on vajalik kasutada mustrite ennustamise ja otsimise ning visualiseerimise vahendeid. Eesmärk on arendada edasi Expression Profileri tööriistu SPEXS, PATMATCH, SEQLOGO jne. et teha lihtsalt kasutatavad tööriistad ning teha need kättesaadavaks AS andmebaaside peal.
Lisainfo: http://ep.ebi.ac.uk/

Gene expression data analysis
Microarray gene expression studies are providing a rich wealth of novel data for large-scale bioinformatics analysis. The aim is to develop fast data analysis methods for serving the needs of large groups of researchers using public databases like ArrayExpress. The research builds upon the initial development of the Expression Profiler analysis tools (part of ArrayExpress infrastructure).

Geeniekspressiooni analüüsi tööriistad
Eesmärk on arendada edasi Expression Profileri paketti EPCLUST täiendades seda statistiliste meetodite ja vahenditega, edasi arendades vastavalt kasutusjuhtudele (use cases). Töö sisaldab programmeerimist eri keeltes (C, perl, XML) ning interaktsiooni statistika vahenditea nagu R jne. Mõned teemad kus tuleks teha algoritmiarendust: klassifikatsioon (vähitüüpide klassifitseerimine, geenide otsimine mis on seotud konkreetse vähiga jne), moodulite ja bi-klasterduse meetodid (leida geenide komplekte mis käituvad ühte moodi vaid mingis alamhulgas eksperimentaalseid tingimusi), jne jne.
Lisainfo: http://ep.ebi.ac.uk/

Genotüübi-andmete analüüs.
Ülesanne on uurida statistilisi meetodeid ja kiireid algoritme suurte arvutusülesannete lahendamiseks et otsida fenotüübi, keskkonna, ja genotüübiandmete vahelisi seoseid. Probleemid on muu hulgas statistika paljude testide probleem (multiple testing problem), kombinatoorsete efektide otsimine, väga nõrkade mõjude otsimine jne.

Haplotüübi defineerimise ja ennustamise meetodid
Uurida haplotüüpde defineerimise meetode, realiseerida mõned olemasolevad meetodid, võrrelda tulemusi, arendade edasi.

Functional genomics and data integration studies

Various functional genomics data from large scale experiments like different protein-protein interaction methods, phenotypic data from systematic gene knockouts, genome-wide binding localisation studies (ChIP on chip), etc., although never perfectly accurate, provide a wealth of new information that has to be put into context of other data sources. The key is the integration of those data sources in order to facilitate data analysis that can help us to gain better hypothesis on function and design new experiments.

Andmete integratsioon ning töövahendid
Geeniekspressiooni, valk-valk interaktsioonide, transkriptsiooni-faktorite üle-genoomi lokalisatsiooniuuringute, fenotüübiandmete jne abil on võimalik ühelt poolt parandada eksperimentaalsete tehnoloogiate ennustuste õigsust ning teiselt poolt aidata kaasa uute ennustuste tegemisele. Eesmärk on uurida andmete integreerimise võimalusi ning luua uusi andmebaase ja tööriistu.
Lisainfo: http://ep.ebi.ac.uk/


G-valk retseptorite bioinformaatika

GPCR receptor bioinformatics
Based on our previous study for G-protein coupled receptor - GPCR coupling specificity predictions our aim is to increase our ability to predict GPCR-mediated signalling pathways and mechanims for signal transduction.

G-valk retseptorite signaalimehhanismid
Vaja on koguda andmeid ja infot GPCR valkude kohta ning arendada edasi GPCR ja G-valk seondumise meetodit (Möller, Vilo, Croning 2001). Uurida konkreetsemalt leitud motiive, arendada tööriistu mis on kasutatud nendes uuringutes. Luua ennustusi võimaldavad tööriistad ja veebiteenused.
Lisainfo: http://ep.ebi.ac.uk/GPCR/


Medical and clinical data handling and storage, population and statistical genetics, pharmacogenetics.

Of utmost importance for any biomedical research whose aim is to study human health and genetics, is the proper capture of the clinical data. The aim is to develop data management solutions for health, clinical, lifestyle, environmental data and the analysis of those data. These data together with drug consumption and treatement effects information allow to develop predictive methods for drug efficacy studies.

Meditsiiniliste andmete esitamise ontoloogiad ja süsteemid.
Uurida, kirjeldada, katsetada.


Jaak Vilo,