Jaak Vilo, http://www.egeen.ee/u/vilo/

Bioinformaatika, andmekaevandus, tarkvaraarendus, infootsingud.
Õppeaasta 2003/04, Juhendaja Jaak Vilo

(Uuendatud 20.1.2004)

Selle dokumendi eesmärk on kirjeldada võimalikke uurimisteemasid bioinformaatika ja arvutiteaduse alal millele olen hea meelega nõus olema juhendaja (või vahendama teisi juhendajaid).

Oma lõputöö (baka-, magistri- ja doktoritöö) teema valimiseks uuri:

  1. Milliseid nõudeid esitatakse lõputöödele?
  2. Milliseid teemasid on pakkuda eri juhendajatel (ära häbene küsida!)
  3. Tutvu varasemate üliõpilas-töödega (teemad, vormistamine, teised uurimisrühma liimed, jne)
  4. Tutvu juhendaja teadusliku uurimistööga (publikatsioonid, rakendused, jne)
  5. Moodusta mingi algne nägemus millist tööd soovid teha
  6. Anna võimalikule juhendajale objektiivne ülevaade oma oskustest ja soovidest.
  7. Lepi juhendajaga kokku oma projekt ja peamised küsimused

Peamised valdkonnad lõputööde teemade jaoks

Enamus väljapakutud teemasid on otseselt või kaudselt seotud mõne poolelioleva või käivituva uurimisprojektiga. Teatud puhkudel on võimalik töö tegijat eraldi tasustada.

Ükski teema mida juhendaja pakub ei ole liiga hull - olles pidevas kontaktis juhendajaga saab üle probleemidest. Oluline on muidugi oma enda iseseisev aktiivsus, et juhendaja ei peaks käima tagant torkimas ;-)

Arvutiteaduse ülesandepüstitus:

Bioinformaatika ülesandepüstitus: Meditsiiniandmete analüüs - arvutitedus, statistika jne

Allpool on toodud mõned võimalikud teemad millest on võimalik valida oma semestri- ja bakalaureusetöö valdkond. Enamus teemadest on bioinformaatika spetsiifilised, kuid samas on iga teema juures võimalik leida ka tugev arvutiteaduse komponent mis ei eelda tingimata bioloogilisi eelteadmisi. Iga huvitatud üliõpilase jaoks leiab sobiva raskusastmega ülesande. Ei maksa karta kui praegu veel ei tunne pakutud valdkondi. See ongi ülikooli eesmärk - õppida uusi asju.

Isegi kui teema peal on juba mainitud keegi üliõpilane on üsna tõenäoline et mitu inimest suudab rohkem ning sedasi tõuseb ka projekti kvaliteet.

Esmatähtsana sooviks käivitada projektid alternatiivsplaissingu, bioloogiliste radade, geenide funktsiooni ennustamise ja farmakogeneetika projektide jaoks.


Kiired algoritmid ja efektiivsed andmestruktuurid

Läbiv teema enamuse alltoodud teemade juures on kiired algorimtid ja andmestruktuurid. Seepärast ei hakka neid eraldi siin välja tooma vaid tuleks valida midagi alltoodutest.


Andmekaevanduse meetodid (rakendustega bioinformaatikas)

Data mining methods development for bioinformatics Many above mentioned areas of research will need the development of underlying computational data analysis and visualization methods. The group will focus on developing those computational methods and help the bioinformaticians to utilize best computational methods in their research.

Kiired hulga-operatsioonid
Juhendaja: Jaak Vilo
Mitmed praktilised adnemakaevanduse ja masinõppimise meetodid kasutavad tehteid hulkadega (ühisosa, ühend, võrdsuse testimine, hulkade hulk, hulkade suurused jne) baasoperatsioonidena. Eesmärk on uurida ja testida praktikas erinevaid hulkade ja hulkade hulkade realiseerimise viise ning anda soovitusi milliseid meetode millal kasutada. Töö tulemusel peaks tekkima vastavad teegid mida saab kasutada teiste programmide arendamiseks. Töö tulemused leiaksid rakendust mitme teise projekti juures nagu mustrite otsimine tekstidest, assotsiatsiooniuuringud jne. Töö sobib semestri- ja bakalaureusetööks.
Üliõpilased: (see peaks sobima algoritmide ja programmeerimise huvilistele)

Statistilise olulisuse hindamine simulatsioonide abil
Juhendaja: Jaak Vilo
Mitmete andmeanalüüsi probleemide juures on vaja hinnata leitud reeglite statistilist olulisust. Kuna paljudel juhtudel ei ole olulisuse hindamiseks kiireid analüütilisi meetode tuleb arendada simulatsioonidel põhinevaid meetode. Selles töös tuleb realiseerida programme mis sisuliselt "viskavad kulli ja kirja" piisavalt palju kordi ning siis oskavad anda välja usalduspiirid (kui tihti juhtub, et kui visata münti arv X korda, et siis tuleks vähemalt Y korda kiri). Selliseid hinnanguid tuleks arvutada eri parameetrite väärtuste kombinatsioonide jaoks.
Üliõpilased: (siin on võimalik anda teemasid mitmele üliõpilasele, rakendustega mustrite otsimises, geneetiliste andmete analüüsis jne.)

Genotüübi-andmete analüüs.
Juhendaja: Jaak Vilo, Tanel Kaart
Ülesanne on uurida statistilisi meetodeid ja kiireid algoritme suurte arvutusülesannete lahendamiseks et otsida fenotüübi, keskkonna, ja genotüübiandmete vahelisi seoseid. Probleemid on muu hulgas statistika paljude testide probleem (multiple testing problem), kombinatoorsete efektide otsimine, väga nõrkade mõjude otsimine jne.
Üliõpilased:

Haplotüübi defineerimise ja ennustamise meetodid
Juhendaja: Jaak Vilo, Sven Laur
Uurida haplotüüpde defineerimise meetode, realiseerida mõned olemasolevad meetodid, võrrelda tulemusi, arendade edasi.
Üliõpilased:

Kiired klasteranalüüsi meetodid
Juhendaja: Jaak Vilo, Meelis Kull
Eesmärk on välja töötada kiired klasteranalüüsi meetodid mida saaks kasutada server-klient lahendustes kus on vajalikud kiired vasteajad. Mõned meetodid nagu K-medoids, heuristikad hierarhilise klasterdamise kiirendamiseks jne.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased: Meelis Kull

Andmekaevandus
Juhendaja: Jaak Vilo
Masinõppimise, adnmekaevanduse, klasterdamise jne meetodid.
Üliõpilased: Hando Tint, Asko Tiidumaa


Mustrite ennustamise meetodid

Pattern discovery and recognition in sequences; sequence algorithms Biological studies to discover motifs in DNA, RNA, or protein sequences in large extent rely on basic reserarch of algorithmics of sequence based methods or combinatorial pattern matching. The task is to develop new pattern discovery and pattern matching algorithms and tools that can be used for large scale bioinformatics studies. One of those tools is SPEXS, an algorithm developed by Jaak Vilo and used for the analysis of DNA and protein sequences.

Sufiksipuude ja -massiivide algoritmid
Juhendaja: Jaak Vilo
Arendada edasi sufiksipuude ja massiivide algoritme eesmärgiga kiirendada ligikaudse otsimise meetodeid. Luua tööriistad tekstide indekseerimiseks ning korduvate mustrite ennustamiseks.
Üliõpilased: Ireen Meho

Kaalumaatriksite (tõenäosuslike mustrite) genereerimine ja sobitamine
Juhendaja: Jaak Vilo
Arendada välja tööriistapakett kaalumaatriksite (position weight matrix PWM, position specific score matrix PSSM) sobitamise ja ennustamise meetodeid.
Üliõpilased: Marek Zäuram, Margus Jäger.

Paljude stringide üheaegne ligikaudne otsimine
Juhendaja: Jaak Vilo
Mustrite otsimise meetodid, stringide eeltöötlus (indekseerimine) ligikaudse otsimise kiirendamiseks. Regulaaravaldiste ligikaudne otsimine, paljude str´ingide üheaegne ligikaudne otsimine jne.
Üliõpilased:

Mustrite kombinatoorika
Juhendaja: Jaak Vilo
Millised mustrid esinevad koos DNA-s ning millised on iga mustri efektid geeniregulatsioonile?


Tarkvaraarenduse meetodid

UML põhine tarkvaraarendus (programmisüntees)
Juhendaja: Jaak Vilo, Kristo Käärmann
Eesmärk on arendada UML põhist tarkvarakirjeldust ning automatiseerida tarkvara loomine - sünteesida automaatselt XML, Java ja SQL kirjeldused ning programmid mis lubavad automaatselt luua teisendused objekltmudeli (OM) ja teiste esituste vahel. Näiteks töötades Java keskkonnas oleks ligipääs andmete püsiesitusele SQL baasis kui ka serialiseeritud esitusele XML-is tagatud läbi deklaratiivse kirjelduse (e.g. Castor). Samuti arendada teatud standardsemat programmifunktsionaalsust näiteks registrite tegemiseks luues automaatselt kasutajaliideste baasfunktsionaalsus.
Üliõpilased: Andres Vilgota, Argo Kaur

XML põhine klient-server kasutajaliideste arhitektuur
Juhendaja: Jaak Vilo, Misha Kapushesky (EBI)
Arendada WWW-põhist tarkvaraarhitektuuri kus kasutajaliides on esitatud peamiselt deklaratiivselt, st defineeritud XML-is. See arhitektuur on aluseks Expression Profileri edasiarendusele (koostöös Euroopa Bioinformaatika Instituudiga).
Üliõpilased: Geily Niinemets

GRID-arvutuskeskkonnad
Juhendaja: Jaak Vilo, Eero Vainikko jt
Mahukate arvutuste jaoks on vaja suuri arvuteid (kiirus, protsessorite arv, mälumaht jne) ja arvutussüsteeme (palju arvutied ning infrastruktuur nende jaoks). Üks võimalus on nn. GRID mis ühendab palju arvuteid üle Interneti infrastruktuuri. Eesmärk on uurida selliste GRID ning arvutifarmide süsteemihaldust ning standardeid kuidas neid omavahel kokku ühendada.
Üliõpilased:


(Teadus)Tekstiandmebaasid ja tekstide kaevandamine

Medline abstraktide andmebaas, infopäringud ja andmekaevandus
Juhendaja: Jaak Vilo

Tohutu hulk teaduslikku infot on avaldatud artiklites, selle info kättesaadavus on piiratud sageli vaid abstraktide tasemel. Eesmärk on luua abstraktide ja teadusartiklite andmebaas ning infopäringute keskkond (information retrieval). Edasi on eesmärk uurida info erladamise (information extraction) meetodeid nende tekstide automaatseks analüüsiks ning saadud andmete kaevandsmiseks.
Üliõpilased: Rasmus Alop, Tiit Kaeeli

Sõnastike informaatika

Sõnastike informaatika
Juhenaja: Jaak Vilo, Ülle Viks, Indrek Hein, Margit Langemets
KeeleWeb ( http://ee.www.ee/ ) on sõnastike ja teatmeteoste internetipõhine keskkond. Eesmärk on arendada KeeleWebi nii tarkvaraarenduse (XML jne) kui ka sisu poolest. Muu hulgas tuleb täiendada antud keskkonda uute sõnastikega (uus ÕS jt)
Üliõpilased: Deniss Sudak; Mikk Kard


Geeniregulatsiooni bioinformaatika

Geenregulatsiooni andmebaas
Juhendaja: Jaak Vilo
Luua andmebaas transkriptsioonifaktorite, seondumissaitide, regulatsiooni võrkude jne kohta. Täita andmebaas andmetega - teistest andmebaasidest (SCPD, TRANSFAC jne), eksperimentaalsete andmetega (ChIP on chip), in silico ennustustega. Luua baasile kasutajaliidesed, liidesed tööriistadega jne.
Üliõpilased: Hedi Peterson

Geneetilised regulatsioonivõrgud.
Juhendaja: Jaak Vilo
Täiendada adnmebaasi regulatsioonivõrgustike vaatamiseks, päringuteks, analüüsiks sobivate tööriistadega. Uurida kuidas ennustada regulatsiooni võrgustikke, implementeerida mõni meetod. Teha ülevaade teemast.
Üliõpilased:


Alternatiivsplaissingu mehhanismide uurimine (EU projekt)

Alternative Splicing data analysis
Alternative splicing is a mechanism for a cell for a fine-scale control about which forms of proteins are produced (which exons will be included in the final product) from each gene at each stage of development, external conditions, or in various tissue types. Our groups aim is to study these mechanisms of fine-scale control based on the analysis of DNA specific signals that carry information for such control.

Alternatiivsplaissingu andmebaasid ja bioloogia
Juhendaja: Jaak Vilo
Uurida altrnatiivsplaissingu andmebaase, mis andmeid on olemas, milliseid eksperimentaalseid meetode on ning kuidas on sealt saadud andmed esitatud andmebaasides. Luua kohalik AS andmebaas.
Üliõpilased:

Mustrite otsimise ja visualiseerimise vahendid ning kasutus
Juhendaja: Jaak Vilo
Alternatiivsplaissingu regulatsioonimehhanismide uurimiseks on vajalik kasutada mustrite ennustamise ja otsimise ning visualiseerimise vahendeid. Eesmärk on arendada edasi Expression Profileri tööriistu SPEXS, PATMATCH, SEQLOGO jne. et teha lihtsalt kasutatavad tööriistad ning teha need kättesaadavaks AS andmebaaside peal.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased:


Geeniekspressiooni analüüs

Gene expression data analysis
Microarray gene expression studies are providing a rich wealth of novel data for large-scale bioinformatics analysis. The aim is to develop fast data analysis methods for serving the needs of large groups of researchers using public databases like ArrayExpress. The research builds upon the initial development of the Expression Profiler analysis tools (part of ArrayExpress infrastructure).

Geeniekspressiooni analüüsi tööriistad
Juhendaja: Jaak Vilo
Eesmärk on arendada edasi Expression Profileri paketti EPCLUST täiendades seda statistiliste meetodite ja vahenditega, edasi arendades vastavalt kasutusjuhtudele (use cases). Töö sisaldab programmeerimist eri keeltes (C, perl, XML) ning interaktsiooni statistika vahenditea nagu R jne. Mõned teemad kus tuleks teha algoritmiarendust: klassifikatsioon (vähitüüpide klassifitseerimine, geenide otsimine mis on seotud konkreetse vähiga jne), moodulite ja bi-klasterduse meetodid (leida geenide komplekte mis käituvad ühte moodi vaid mingis alamhulgas eksperimentaalseid tingimusi), jne jne.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased:


Functional genomics and data integration studies

Various functional genomics data from large scale experiments like different protein-protein interaction methods, phenotypic data from systematic gene knockouts, genome-wide binding localisation studies (ChIP on chip), etc., although never perfectly accurate, provide a wealth of new information that has to be put into context of other data sources. The key is the integration of those data sources in order to facilitate data analysis that can help us to gain better hypothesis on function and design new experiments.

Geenide funktsiooni ennustamise vahendid
Juhendaja: Jaak Vilo (koostöö EBI-ga)
Arendada edasi Expression Profileri paketti EP:GO (GeneOntology). Geeni-ontoloogia on geenide funktsioone kirjeldav mõistete hierarhiline suunatud graaf. Lisaks on mõistete juurde antud loetelud geenidest mis kuuluvad antud klassi. EP:GO lubab seda vaadata, otsida mõistete järgi, välja võtta geene konkreetsest klassist. EP:GO kõige tähtsam ülesanne on aga kirjeldada etteantud geenide hulga kõige tõenäolisemaid funktsioone. St, tuleb leida kõik sellised GO klassid mis kõige paremini kirjeldaks kõiki etteantud geene. Töö käigus tuleb programmeerida ülevaatliku raporti genereerimine, välja nuputada ja realiseerida visualiseerimismeetodid. Lisaks saab teha algoritmilist uurimist meetodite kiireks realiseerimiseks. Lisainfo: http://ep.ebi.ac.uk/
(Praegune väljund)
Üliõpilased: Jaanika Luik

Andmete integratsioon ning töövahendid
Juhendaja: Jaak Vilo (koostöö Utrechti ülikooliga ja EBI-ga)
Geeniekspressiooni, valk-valk interaktsioonide, transkriptsiooni-faktorite üle-genoomi lokalisatsiooniuuringute, fenotüübiandmete jne abil on võimalik ühelt poolt parandada eksperimentaalsete tehnoloogiate ennustuste õigsust ning teiselt poolt aidata kaasa uute ennustuste tegemisele. Eesmärk on uurida andmete integreerimise võimalusi ning luua uusi andmebaase ja tööriistu.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased:


G-valk retseptorite bioinformaatika

GPCR receptor bioinformatics
Based on our previous study for G-protein coupled receptor - GPCR coupling specificity predictions our aim is to increase our ability to predict GPCR-mediated signalling pathways and mechanims for signal transduction.

G-valk retseptorite signaalimehhanismid
Juhendaja: Jaak Vilo (ning Mike Croning, Sanger Institute)
Vaja on koguda andmeid ja infot GPCR valkude kohta ning arendada edasi GPCR ja G-valk seondumise meetodit (Möller, Vilo, Croning 2001). Uurida konkreetsemalt leitud motiive, arendada tööriistu mis on kasutatud nendes uuringutes. Luua ennustusi võimaldavad tööriistad ja veebiteenused.
Lisainfo: http://ep.ebi.ac.uk/GPCR/
Üliõpilased:


Bioloogiliste radade bioinformaatika

Metaboolsete ja signaali-radade baasid
Juhendajad: Jaak Vilo, Imre Västrik (EBI)
Bioloogiliste mehhanismide arusaamise eeldus on et suudaksime süstemaatiliselt ja detailselt kirjeldade toimuvaid bioloogilisi protsesse. Radade andmebaasid on sageli vaid piltide kogud mis ei luba mõistlikku andmeta kasutust ja arvutusi. Eesmärk on uurida "state of the art" andmebaase ning luua nende koopiad või ka täiesti uued andmebaasid Eestisse. Arendades bioinformaatika vahendeid mis on vajalikud nende andmete kasutamiseks.
Üliõpilased: Eero Raudsepp,

Farmakogeneetika andmebaasid

Juhendajad: Jaak Vilo, Kersti Oselin jt
Eesmärk on uurida haiguste ja geenide vaheliste seoste kirjeldamist ja haldamist andmebaasides. Vaja on ühelt poolt omada ülevaadet ravimite toimega seotud geenide (valkude) kohta ning teiselt poolt geenide variatsioonide (polümorfismide) kohta koos infoga iga geenivariandi mõjuga haigusele või haiguse ravile. Bioinformaatika roll on hallata andmeid, teha tööriistu andmete kasutamiseks ning arvtusteks ja ennustusteks.
Näiteid: www.pharmgkb.org
Üliõpilased:


Medical and clinical data handling and storage, population and statistical genetics, pharmacogenetics.

Of utmost importance for any biomedical research whose aim is to study human health and genetics, is the proper capture of the clinical data. The aim is to develop data management solutions for health, clinical, lifestyle, environmental data and the analysis of those data. These data together with drug consumption and treatement effects information allow to develop predictive methods for drug efficacy studies.

Tervise- ja keskkonnanadmete korrelatsioonid
Juhendaja: Jaak Vilo, Tanel Kaart, (Krista Fischer)
Uurida statistilise analüüsi, andmekaevanduse, korrelatsioonide ning kausalsuse hindamise vahendeid et analüüsida Geenivaramu andmeid.
Üliõpilased:

Sugupuude (genealoogiad) ennustuse meetodid
Juhendaja: Jaak Vilo, Tanel Kaart
Ülesanne on välja arendada tõenäosuslikke meetode genealoogiate koostamiseks arvestades nimede õigekirja, sünni- ja elukohtade, sünni- ja surmaaegade täpsuse probleeme jmt.
Üliõpilased: Raul Koosel


Jaak Vilo,