Jaak Vilo,
http://www.egeen.ee/u/vilo/

Bioinformaatika, andmekaevandus, tarkvaraarendus, infootsingud

Üliõpilasprojektid

Peamised teemad

Sissejuhatus

Bioinformaatika ülesandepüstitus:

Arvutiteaduse/bioinformaatika ülesandepüstitus: Meditsiiniandmete analüüs - arvutitedus, statistika jne

Sissejuhatus

Selle dokumendi eesmärk on kirjeldada võimalikke uurimisteemasid bioinformaatika ja arvutiteaduse alal millele olen hea meelega nõus olema juhendaja (või vahendama teisi juhendajaid). Esitan siin oma isikliku nägemuse.

Ülikooli roll ühiskonnas on juhtida teadus- ja arendustegevust ning koolitada kõrgelt kvalifitseeritud tööjõudu. Oluline eesmärk akadeemilise hariduse omandamisel on õppida iseseisvalt töötama ja ülesandeid püstitama. Selle rolli täitmiseks eeldatakse üliõpilastelt iseseisvat projektitööd ning teaduslikke uurimismeetode. Eri astmetel eeldatakse erinevaid oskusi.

Semestri- ja lõputöö (bakalaureusetöö):

Magistritöö: Doktoritöö:

Allpool on toodud mõned võimalikud teemad millest on võimalik valida oma semestri- ja bakalaureusetöö valdkond. Enamus teemadest on bioinformaatika spetsiifilised, kuid samas on iga teema juures võimalik leida ka tugev arvutiteaduse komponent mis ei eelda tingimata bioloogilisi eelteadmisi. Iga huvitatud üliõpilase jaoks leiab sobiva raskusastmega ülesande. Ei maksa karta kui praegu veel ei tunne pakutud valdkondi. See ongi ülikooli eesmärk - õppida uusi asju.

Isegi kui teema peal on juba mainitud keegi üliõpilane on üsna tõenäoline et mitu inimest suudab rohkem ning sedasi tõuseb ka projekti kvaliteet.

Esmatähtsana sooviks käivitada projektid alternatiivsplaissingu, bioloogiliste radade, geenide funktsiooni ennustamise ja farmakogeneetika projektide jaoks.


Geeniregulatsiooni bioinformaatika

Geenregulatsiooni andmebaas
Juhendaja: Jaak Vilo
Luua andmebaas transkriptsioonifaktorite, seondumissaitide, regulatsiooni võrkude jne kohta. Täita andmebaas andmetega - teistest andmebaasidest (SCPD, TRANSFAC jne), eksperimentaalsete andmetega (ChIP on chip), in silico ennustustega. Luua baasile kasutajaliidesed, liidesed tööriistadega jne.
Üliõpilased: Hedi Peterson

Geneetilised regulatsioonivõrgud.
Juhendaja: Jaak Vilo
Täiendada adnmebaasi regulatsioonivõrgustike vaatamiseks, päringuteks, analüüsiks sobivate tööriistadega. Uurida kuidas ennustada regulatsiooni võrgustikke, implementeerida mõni meetod. Teha ülevaade teemast.
Üliõpilased:


Alternatiivsplaissingu mehhanismide uurimine (EU projekt)

Alternative Splicing data analysis
Alternative splicing is a mechanism for a cell for a fine-scale control about which forms of proteins are produced (which exons will be included in the final product) from each gene at each stage of development, external conditions, or in various tissue types. Our groups aim is to study these mechanisms of fine-scale control based on the analysis of DNA specific signals that carry information for such control.

Alternatiivsplaissingu andmebaasid ja bioloogia
Juhendaja: Jaak Vilo
Uurida altrnatiivsplaissingu andmebaase, mis andmeid on olemas, milliseid eksperimentaalseid meetode on ning kuidas on sealt saadud andmed esitatud andmebaasides. Luua kohalik AS andmebaas.
Üliõpilased:

Mustrite otsimise ja visualiseerimise vahendid ning kasutus
Juhendaja: Jaak Vilo
Alternatiivsplaissingu regulatsioonimehhanismide uurimiseks on vajalik kasutada mustrite ennustamise ja otsimise ning visualiseerimise vahendeid. Eesmärk on arendada edasi Expression Profileri tööriistu SPEXS, PATMATCH, SEQLOGO jne. et teha lihtsalt kasutatavad tööriistad ning teha need kättesaadavaks AS andmebaaside peal.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased:


Geeniekspressiooni analüüs

Gene expression data analysis
Microarray gene expression studies are providing a rich wealth of novel data for large-scale bioinformatics analysis. The aim is to develop fast data analysis methods for serving the needs of large groups of researchers using public databases like ArrayExpress. The research builds upon the initial development of the Expression Profiler analysis tools (part of ArrayExpress infrastructure).

Geeniekspressiooni analüüsi tööriistad
Juhendaja: Jaak Vilo
Eesmärk on arendada edasi Expression Profileri paketti EPCLUST täiendades seda statistiliste meetodite ja vahenditega, edasi arendades vastavalt kasutusjuhtudele (use cases). Töö sisaldab programmeerimist eri keeltes (C, perl, XML) ning interaktsiooni statistika vahenditea nagu R jne. Mõned teemad kus tuleks teha algoritmiarendust: klassifikatsioon (vähitüüpide klassifitseerimine, geenide otsimine mis on seotud konkreetse vähiga jne), moodulite ja bi-klasterduse meetodid (leida geenide komplekte mis käituvad ühte moodi vaid mingis alamhulgas eksperimentaalseid tingimusi), jne jne.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased:


Functional genomics and data integration studies

Various functional genomics data from large scale experiments like different protein-protein interaction methods, phenotypic data from systematic gene knockouts, genome-wide binding localisation studies (ChIP on chip), etc., although never perfectly accurate, provide a wealth of new information that has to be put into context of other data sources. The key is the integration of those data sources in order to facilitate data analysis that can help us to gain better hypothesis on function and design new experiments.

Geenide funktsiooni ennustamise vahendid
Juhendaja: Jaak Vilo (koostöö EBI-ga)
Arendada edasi Expression Profileri paketti EP:GO (GeneOntology). Geeni-ontoloogia on geenide funktsioone kirjeldav mõistete hierarhiline suunatud graaf. Lisaks on mõistete juurde antud loetelud geenidest mis kuuluvad antud klassi. EP:GO lubab seda vaadata, otsida mõistete järgi, välja võtta geene konkreetsest klassist. EP:GO kõige tähtsam ülesanne on aga kirjeldada etteantud geenide hulga kõige tõenäolisemaid funktsioone. St, tuleb leida kõik sellised GO klassid mis kõige paremini kirjeldaks kõiki etteantud geene. Töö käigus tuleb programmeerida ülevaatliku raporti genereerimine, välja nuputada ja realiseerida visualiseerimismeetodid. Lisaks saab teha algoritmilist uurimist meetodite kiireks realiseerimiseks. Lisainfo: http://ep.ebi.ac.uk/
(Praegune väljund)
Üliõpilased:

Andmete integratsioon ning töövahendid
Juhendaja: Jaak Vilo (koostöö Utrechti ülikooliga ja EBI-ga)
Geeniekspressiooni, valk-valk interaktsioonide, transkriptsiooni-faktorite üle-genoomi lokalisatsiooniuuringute, fenotüübiandmete jne abil on võimalik ühelt poolt parandada eksperimentaalsete tehnoloogiate ennustuste õigsust ning teiselt poolt aidata kaasa uute ennustuste tegemisele. Eesmärk on uurida andmete integreerimise võimalusi ning luua uusi andmebaase ja tööriistu.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased:


G-valk retseptorite bioinformaatika

GPCR receptor bioinformatics
Based on our previous study for G-protein coupled receptor - GPCR coupling specificity predictions our aim is to increase our ability to predict GPCR-mediated signalling pathways and mechanims for signal transduction.

G-valk retseptorite signaalimehhanismid
Juhendaja: Jaak Vilo (ning Mike Croning, Sanger Institute)
Vaja on koguda andmeid ja infot GPCR valkude kohta ning arendada edasi GPCR ja G-valk seondumise meetodit (Möller, Vilo, Croning 2001). Uurida konkreetsemalt leitud motiive, arendada tööriistu mis on kasutatud nendes uuringutes. Luua ennustusi võimaldavad tööriistad ja veebiteenused.
Lisainfo: http://ep.ebi.ac.uk/GPCR/
Üliõpilased:


Bioloogiliste radade bioinformaatika

Metaboolsete ja signaali-radade baasid
Juhendajad: Jaak Vilo, Imre Västrik (EBI)
Bioloogiliste mehhanismide arusaamise eeldus on et suudaksime süstemaatiliselt ja detailselt kirjeldade toimuvaid bioloogilisi protsesse. Radade andmebaasid on sageli vaid piltide kogud mis ei luba mõistlikku andmeta kasutust ja arvutusi. Eesmärk on uurida "state of the art" andmebaase ning luua nende koopiad või ka täiesti uued andmebaasid Eestisse. Arendades bioinformaatika vahendeid mis on vajalikud nende andmete kasutamiseks.
Üliõpilased:

Farmakogeneetika andmebaasid

Juhendajad: Jaak Vilo, Kersti Oselin jt
Eesmärk on uurida haiguste ja geenide vaheliste seoste kirjeldamist ja haldamist andmebaasides. Vaja on ühelt poolt omada ülevaadet ravimite toimega seotud geenide (valkude) kohta ning teiselt poolt geenide variatsioonide (polümorfismide) kohta koos infoga iga geenivariandi mõjuga haigusele või haiguse ravile. Bioinformaatika roll on hallata andmeid, teha tööriistu andmete kasutamiseks ning arvtusteks ja ennustusteks.
Näiteid: www.pharmgkb.org
Üliõpilased:


Andmekaevanduse meetodid (rakendustega bioinformaatikas)

Data mining methods development for bioinformatics Many above mentioned areas of research will need the development of underlying computational data analysis and visualization methods. The group will focus on developing those computational methods and help the bioinformaticians to utilize best computational methods in their research.

Haplotüübi defineerimise ja ennustamise meetodid
Juhendaja: Jaak Vilo, Maido Remm, Sven Laur
Uurida haplotüüpde defineerimise meetode, realiseerida mõned olemasolevad meetodid, võrrelda tulemusi, arendade edasi.
Üliõpilased: Sven Laur,

Suure-mastaabiline fenotüübi ja genotüübi andmete analüüs.
Juhendaja: Jaak Vilo, Tanel Kaart, Maido Remm
Ülesanne on uurida statistilisi meetodeid ja algoritme suurte arvutusülesannete lahendamiseks et otsida fenotüübi, keskkonna, ja genotüübiandmete vahelisi seoseid. Probleemid on muu hulgas statistika paljude testide probleem (multiple testing problem), kombinatoorsete efektide otsimine, väga nõrkade mõjude otsimine jne.
Üliõpilased:

Kiired klasteranalüüsi meetodid
Juhendaja: Jaak Vilo, Meelis Kull
Eesmärk on välja töötada kiired klasteranalüüsi meetodid mida saaks kasutada server-klient lahendustes kus on vajalikud kiired vasteajad. Mõned meetodid nagu K-medoids, heuristikad hierarhilise klasterdamise kiirendamiseks jne.
Lisainfo: http://ep.ebi.ac.uk/
Üliõpilased: Meelis Kull

Algoritmide arendamine, testimine ja võrdlus - kiired operatsioonid hulkadega ja hulkade hulkadega
Juhendaja: Jaak Vilo
Mitmed praktilised adnemakaevanduse ja masinõppimise meetodid kasutavad tehteid hulkadega (ühisosa, ühend, võrdsuse testimine, hulkade hulk, hulkade suurused jne) baasoperatsioonidena. Eesmärk on uurida ja testida praktikas erinevaid hulkade hulkade realiseerimise viise ning anda soovitusi milliseid meetode millal kasutada. Töö tulemusel peaks tekkima vastavad teegid mida saab kasutada teiste programmide arendamiseks. Töö tulemused leiaksid rakendust mitme teise projekti juures nagu mustrite otsimine tekstidest, assotsiatsiooniuuringud jne. Töö sobib semestri- ja bakalaureusetööks. Realiseerimiskeeleks tuleks valida C/C++.
Üliõpilased:

Andmekaevandus
Juhendaja: Jaak Vilo
Masinõppimise, adnmekaevanduse, klasterdamise jne meetodid.
Üliõpilased: Hando Tint, Asko Tiidumaa


Mustrite ennustamise meetodid

Pattern discovery and recognition in sequences; sequence algorithms Biological studies to discover motifs in DNA, RNA, or protein sequences in large extent rely on basic reserarch of algorithmics of sequence based methods or combinatorial pattern matching. The task is to develop new pattern discovery and pattern matching algorithms and tools that can be used for large scale bioinformatics studies. One of those tools is SPEXS, an algorithm developed by Jaak Vilo and used for the analysis of DNA and protein sequences.

Sufiksipuude ja -massiivide algoritmid
Juhendaja: Jaak Vilo, Ireen Meho
Arendada edasi sufiksipuude ja massiivide algoritme eesmärgiga kiirendada ligikaudse otsimise meetodeid. Luua tööriistad tekstide indekseerimiseks ning korduvate mustrite ennustamiseks.
Üliõpilased: Ireen Meho, Marek Zäuram,

Paljude stringide üheaegne ligikaudne otsimine
Juhendaja: Jaak Vilo
Mustrite otsimise meetodid, stringide eeltöötlus (indekseerimine) ligikaudse otsimise kiirendamiseks. Regulaaravaldiste ligikaudne otsimine, paljude str´ingide üheaegne ligikaudne otsimine jne.
Üliõpilased:

Mustrite kombinatoorika
Juhendaja: Jaak Vilo
Millised mustrid esinevad koos DNA-s ning millised on iga mustri efektid geeniregulatsioonile?


Tarkvaraarenduse meetodid

UML põhine tarkvaraarendus (programmisüntees)
Juhendaja: Jaak Vilo, Kristo Käärmann
Eesmärk on arendada UML põhist tarkvarakirjeldust ning automatiseerida tarkvara loomine - sünteesida automaatselt XML, Java ja SQL kirjeldused ning programmid mis lubavad automaatselt luua teisendused objekltmudeli (OM) ja teiste esituste vahel. Näiteks töötades Java keskkonnas oleks ligipääs andmete püsiesitusele SQL baasis kui ka serialiseeritud esitusele XML-is tagatud läbi deklaratiivse kirjelduse (e.g. Castor). Samuti arendada teatud standardsemat programmifunktsionaalsust näiteks registrite tegemiseks luues automaatselt kasutajaliideste baasfunktsionaalsus.
Üliõpilased: Andres Vilgota, Argo Kaur

XML põhine klient-server kasutajaliideste arhitektuur
Juhendaja: Jaak Vilo, Misha Kapushesky (EBI)
Arendada WWW-põhist tarkvaraarhitektuuri kus kasutajaliides on esitatud peamiselt deklaratiivselt, st defineeritud XML-is. See arhitektuur on aluseks Expression Profileri edasiarendusele (koostöös Euroopa Bioinformaatika Instituudiga).
Üliõpilased:

GRID-arvutuskeskkonnad
Juhendaja: Jaak Vilo, Eero Vainikko jt
Mahukate arvutuste jaoks on vaja suuri arvuteid (kiirus, protsessorite arv, mälumaht jne) ja arvutussüsteeme (palju arvutied ning infrastruktuur nende jaoks). Üks võimalus on nn. GRID mis ühendab palju arvuteid üle Interneti infrastruktuuri. Eesmärk on uurida selliste GRID ning arvutifarmide süsteemihaldust ning standardeid kuidas neid omavahel kokku ühendada.
Üliõpilased:


(Teadus)Tekstiandmebaasid ja tekstide kaevandamine

Medline abstraktide andmebaas, infopäringud ja andmekaevandus
Juhendaja: Jaak Vilo

Tohutu hulk teaduslikku infot on avaldatud artiklites, selle info kättesaadavus on piiratud sageli vaid abstraktide tasemel. Eesmärk on luua abstraktide ja teadusartiklite andmebaas ning infopäringute keskkond (information retrieval). Edasi on eesmärk uurida info erladamise (information extraction) meetodeid nende tekstide automaatseks analüüsiks ning saadud andmete kaevandsmiseks.
Üliõpilased: Rasmus Alop, Tiit Kaeeli


Sõnastike informaatika

Sõnastike informaatika
Juhenaja: Jaak Vilo, Ülle Viks, Indrek Hein, Margit Langemets
KeeleWeb ( http://ee.www.ee/ ) on sõnastike ja teatmeteoste internetipõhine keskkond. Eesmärk on arendada KeeleWebi nii tarkvaraarenduse (XML jne) kui ka sisu poolest. Muu hulgas tuleb täiendada antud keskkonda uute sõnastikega (uus ÕS jt)
Üliõpilased:


Medical and clinical data handling and storage, population and statistical genetics, pharmacogenetics.

Of utmost importance for any biomedical research whose aim is to study human health and genetics, is the proper capture of the clinical data. The aim is to develop data management solutions for health, clinical, lifestyle, environmental data and the analysis of those data. These data together with drug consumption and treatement effects information allow to develop predictive methods for drug efficacy studies.

Tervise- ja keskkonnanadmete korrelatsioonid
Juhendaja: Jaak Vilo, Tanel Kaart, (Krista Fischer)
Uurida statistilise analüüsi, andmekaevanduse, korrelatsioonide ning kausalsuse hindamise vahendeid et analüüsida Geenivaramu andmeid.
Üliõpilased:

Sugupuude (genealoogiad) ennustuse meetodid
Juhendaja: Jaak Vilo, Tanel Kaart
Ülesanne on välja arendada tõenäosuslikke meetode genealoogiate koostamiseks arvestades nimede õigekirja, sünni- ja elukohtade, sünni- ja surmaaegade täpsuse probleeme jmt.
Üliõpilased: Raul Koosel


Jaak Vilo,