Bioinformaatika, andmekaevandus ja tarkvaraarendus Üliõpilasprojektid Jaak Vilo 13.9.2003 Selle dokumendi eesmärk on kirjeldada võimalikke uurimisteemasid bioinformaatika ja arvutiteaduse alal millele olen hea meelega nõus olema juhendaja (või vahendama teisi juhendajaid). Esitan siin oma isikliku nägemuse. Ülikooli roll ühiskonnas on juhtida teadus- ja arendustegevust ning koolitada kõrgelt kvalifitseeritud tööjõudu. Oluline eesmärk akadeemilise hariduse omandamisel on õppida iseseisvalt töötama ja ülesandeid püstitama. Selle rolli täitmiseks eeldatakse üliõpilastelt iseseisvat projektitööd ning teaduslikke uurimismeetode. Eri astmetel eeldatakse erinevaid oskusi. Semestri- ja lõputöö (bakalaureusetöö): - Eesmärk: õppida laialt teadussuuna eri alasid, meetode jne. - Õppida iseseisvalt tegema andmebaase, programmeerima, jne - Uurida konkreetse valdkonna artikleid, teha sellest ülevaade - Lahendada mingi konkreetne praktiline ülesanne, st teha projekt - Hea oleks alustada juba 1.5 aastat enne lõputöö tähtaega, st. selleks et juhenajat valida ei pea ootama kuni see on peale sunnitud õppekava järgi. Magistritöö: - Eesmärgiks tuleks võtta ühe teadus-artikli kirjutamine (kuigi see ei ole kohustuslik avaldada, on see hea eesmärk) - Ülesanne peaks olema piisavalt mahukas ja uurimine detailne - Töö tarbijatena peaks nägema rahvusvahelisi kasutajaid - Kuigi magistriväitekiri on tavaliselt eestikeelne tuleks siiski kirjutada inglise keeles projektikirjeldusi, raporteid, kasutajajuhendeid jne. - Magistritöö ei pea olema samalt alalt kui bakalaureusetöö. - Magistritöö teema valikuga võiks alustada juba enne otsuse tegemist kas astua magistratuuri või mitte. Doktoritöö: - Doktoritöö ehk väitekiri peab sisaldama ca 3-4 ajakirjas avaldatud artikli mahus uudseid uurimistulemusi - Põhieesmärk on seega teha uurimistööd, teoreetilist ja praktilist, mis viiks teadusartikliteni - Teadust ei saa teha suletud üksinduses - peab osalema rahvusvahelistel konverentsidel, suvekoolides, seminaridel jne. - Avatus ja koostöövalmidus teiste teadusgruppidega koostöös annab eelduse et teha paremat uurimistööd, külastada teisi uurimisrühmi jne. Doktoritöö jooksul tuleks veeta vähemalt mingi periood (pool aastat - aasta) kusagil Eestist väljas. - Sellised külastusvõimalused on otseses sõltuvuses juba varajase töö kvaliteediga. Kui on midagi mida pakkuda teistele siis saab ka finantseerimist taodelda. Allpool on toodud mõned võimalikud teemad millest on võimalik valida oma semestri- ja bakalaureusetöö valdkond. Paar sissejuhatavat märkust: Enamus teemadest on bioinformaatika spetsiifilised, kuid samas on iga teema juures võimalik leida ka tugev arvutiteaduse komponent mis ei eelda tingimata bioloogilisi eelteadmisi. Iga huvitatud üliõpilase jaoks leiab sobiva raskusastmega ülesande. Ei maksa karta kui praegu veel ei tunne pakutud valdkondi. See ongi ülikooli eesmärk - õppida uusi asju. Isegi kui teema peal on juba mainitud keegi üliõpilane on üsna tõenäoline et mitu inimest suudab rohkem ning sedasi tõuseb ka projekti kvaliteet. Esmatähtsana sooviks käivitada projektid alternatiivsplaissingu, bioloogiliste radade, geenide funktsiooni ennustamise ja farmakogeneetika projektide jaoks. ---------------------------------------------------------------------- Geeniregulatsiooni bioinformaatika Projektid, semestri- ja bakalaureusetööd, magistritööde teemad. Geenregulatsiooni andmebaas Juhendaja: Jaak Vilo Luua andmebaas transkriptsioonifaktorite, seondumissaitide, regulatsiooni võrkude jne kohta. Täita andmebaas andmetega - teistest andmebaasidest (SCPD, TRANSFAC jne), eksperimentaalsete andmetega (ChIP on chip), in silico ennustustega. Luua baasile kasutajaliidesed, liidesed tööriistadega jne. Üliõpilased: Hedi Peterson Geneetilised regulatsioonivõrgud. Juhendaja: Jaak Vilo Täiendada adnmebaasi regulatsioonivõrgustike vaatamiseks, päringuteks, analüüsiks sobivate tööriistadega. Uurida kuidas ennustada regulatsiooni võrgustikke, implementeerida mõni meetod. Teha ülevaade teemast. Üliõpilased: ---------------------------------------------------------------------- Alternatiivsplaissingu mehhanismide uurimine (EU projekt) Alternative Splicing data analysis Alternative splicing is a mechanism for a cell for a fine-scale control about which forms of proteins are produced (which exons will be included in the final product) from each gene at each stage of development, external conditions, or in various tissue types. Our groups aim is to study these mechanisms of fine-scale control based on the analysis of DNA specific signals that carry information for such control. Alternatiivsplaissingu andmebaasid ja bioloogia Juhendaja: Jaak Vilo Uurida altrnatiivsplaissingu andmebaase, mis andmeid on olemas, milliseid eksperimentaalseid meetode on ning kuidas on sealt saadud andmed esitatud andmebaasides. Luua kohalik AS andmebaas. Üliõpilased: Mustrite otsimise ja visualiseerimise vahendid ning kasutus Juhendaja: Jaak Vilo Alternatiivsplaissingu regulatsioonimehhanismide uurimiseks on vajalik kasutada mustrite ennustamise ja otsimise ning visualiseerimise vahendeid. Eesmärk on arendada edasi Expression Profileri tööriistu SPEXS, PATMATCH, SEQLOGO jne. et teha lihtsalt kasutatavad tööriistad ning teha need kättesaadavaks AS andmebaaside peal. Lisainfo: http://ep.ebi.ac.uk/ Üliõpilased: ---------------------------------------------------------------------- Geeniekspressiooni analüüs Gene expression data analysis Microarray gene expression studies are providing a rich wealth of novel data for large-scale bioinformatics analysis. The aim is to develop fast data analysis methods for serving the needs of large groups of researchers using public databases like ArrayExpress. The research builds upon the initial development of the Expression Profiler analysis tools (part of ArrayExpress infrastructure). Geeniekspressiooni analüüsi tööriistad Juhendaja: Jaak Vilo Eesmärk on arendada edasi Expression Profileri paketti EPCLUST täiendades seda statistiliste meetodite ja vahenditega, edasi arendades vastavalt kasutusjuhtudele (use cases). Töö sisaldab programmeerimist eri keeltes (C, perl, XML) ning interaktsiooni statistika vahenditea nagu R jne. Mõned teemad kus tuleks teha algoritmiarendust: klassifikatsioon (vähitüüpide klassifitseerimine, geenide otsimine mis on seotud konkreetse vähiga jne), moodulite ja bi-klasterduse meetodid (leida geenide komplekte mis käituvad ühte moodi vaid mingis alamhulgas eksperimentaalseid tingimusi), jne jne. Lisainfo: http://ep.ebi.ac.uk/ Üliõpilased: Kiired klasteranalüüsi meetodid Juhendaja: Jaak Vilo, Meelis Kull Eesmärk on välja töötada kiired klasteranalüüsi meetodid mida saaks kasutada server-klient lahendustes kus on vajalikud kiired vasteajad. Mõned meetodid nagu K-medoids, heuristikad hierarhilise klasterdamise kiirendamiseks jne. Lisainfo: http://ep.ebi.ac.uk/ Üliõpilased: Meelis Kull ---------------------------------------------------------------------- Functional genomics and data integration studies Various functional genomics data from large scale experiments like different protein-protein interaction methods, phenotypic data from systematic gene knockouts, genome-wide binding localisation studies (ChIP on chip), etc., although never perfectly accurate, provide a wealth of new information that has to be put into context of other data sources. The key is the integration of those data sources in order to facilitate data analysis that can help us to gain better hypothesis on function and design new experiments. Geenide funktsiooni ennustamise vahendid Juhendaja: Jaak Vilo (koostöö EBI-ga) Arendada edasi Expression Profileri paketti EP:GO (GeneOntology). Geeniontoloogia tööriista EP:GO üks ülesanne on aidata saada ülevaadet geenide gruppide kohta, näiteks sarnaste avaldumise profiilidega geenide klastri annoteerimine kasutades GO kategooriaid. Lisainfo: http://ep.ebi.ac.uk/ Üliõpilased: Andmete integratsioon ning töövahendid Juhendaja: Jaak Vilo (koostöö Utrechti ülikooliga ja EBI-ga) Geeniekspressiooni, valk-valk interaktsioonide, transkriptsiooni-faktorite üle-genoomi lokalisatsiooniuuringute, fenotüübiandmete jne abil on võimalik ühelt poolt parandada eksperimentaalsete tehnoloogiate ennustuste õigsust ning teiselt poolt aidata kaasa uute ennustuste tegemisele. Eesmärk on uurida andmete integreerimise võimalusi ning luua uusi andmebaase ja tööriistu. Lisainfo: http://ep.ebi.ac.uk/ Üliõpilased: ---------------------------------------------------------------------- G-valk retseptorite bioinformaatika GPCR receptor bioinformatics Based on our previous study for G-protein coupled receptor - GPCR coupling specificity predictions our aim is to increase our ability to predict GPCR-mediated signalling pathways and mechanims for signal transduction. G-valk retseptorite signaalimehhanismid Juhendaja: Jaak Vilo (ning Mike Croning, Sanger Institute) Vaja on koguda andmeid ja infot GPCR valkude kohta ning arendada edasi GPCR ja G-valk seondumise meetodit (Möller, Vilo, Croning 2001). Uurida konkreetsemalt leitud motiive, arendada tööriistu mis on kasutatud nendes uuringutes. Luua ennustusi võimaldavad tööriistad ja veebiteenused. Lisainfo: http://ep.ebi.ac.uk/GPCR/ Üliõpilased: ---------------------------------------------------------------------- Bioloogiliste radade bioinformaatika Metaboolsete ja signaali-radade baasid Juhendajad: Jaak Vilo, Imre Västrik (EBI) Bioloogiliste mehhanismide arusaamise eeldus on et suudaksime süstemaatiliselt ja detailselt kirjeldade toimuvaid bioloogilisi protsesse. Radade andmebaasid on sageli vaid piltide kogud mis ei luba mõistlikku andmeta kasutust ja arvutusi. Eesmärk on uurida "state of the art" andmebaase ning luua nende koopiad või ka täiesti uued andmebaasid Eestisse. Arendades bioinformaatika vahendeid mis on vajalikud nende andmete kasutamiseks. Farmakogeneetika andmebaasid Juhendajad: Jaak Vilo, Kersti Oselin jt Eesmärk on uurida haiguste ja geenide vaheliste seoste kirjeldamist ja haldamist andmebaasides. Vaja on ühelt poolt omada ülevaadet ravimite toimega seotud geenide (valkude) kohta ning teiselt poolt geenide variatsioonide (polümorfismide) kohta koos infoga iga geenivariandi mõjuga haigusele või haiguse ravile. Bioinformaatika roll on hallata andmeid, teha tööriistu andmete kasutamiseks ning arvtusteks ja ennustusteks. Näiteid: www.pharmgkb.org Üliõpilased: ---------------------------------------------------------------------- Andmekaevanduse meetodid (rakendustega bioinformaatikas) Data mining methods development for bioinformatics Many above mentioned areas of research will need the development of underlying computational data analysis and visualization methods. The group will focus on developing those computational methods and help the bioinformaticians to utilize best computational methods in their research. Haplotüübi defineerimise ja ennustamise meetodid Juhendaja: Jaak Vilo, Maido Remm, Sven Laur Uurida haplotüüpde defineerimise meetode, realiseerida mõned olemasolevad meetodid, võrrelda tulemusi, arendade edasi. Üliõpilased: Sven Laur, Suure-mastaabiline fenotüübi ja genotüübi andmete analüüs. Juhendaja: Jaak Vilo, Tanel Kaart, Maido Remm Ülesanne on uurida statistilisi meetodeid ja algoritme suurte arvutusülesannete lahendamiseks et otsida fenotüübi, keskkonna, ja genotüübiandmete vahelisi seoseid. Probleemid on muu hulgas statistika paljude testide probleem (multiple testing problem), kombinatoorsete efektide otsimine, väga nõrkade mõjude otsimine jne. Üliõpilased: Andmekaevandus Juhendaja: Jaak Vilo Masinõppimise, adnmekaevanduse, klasterdamise jne meetodid. Üliõpilased: Hando Tint, Asko Tiidumaa ---------------------------------------------------------------------- Mustrite ennustamise meetodid Pattern discovery and recognition in sequences; sequence algorithms Biological studies to discover motifs in DNA, RNA, or protein sequences in large extent rely on basic reserarch of algorithmics of sequence based methods or combinatorial pattern matching. The task is to develop new pattern discovery and pattern matching algorithms and tools that can be used for large scale bioinformatics studies. One of those tools is SPEXS, an algorithm developed by Jaak Vilo and used for the analysis of DNA and protein sequences. Sufiksipuude ja -massiivide algoritmid Juhendaja: Jaak Vilo, Ireen Meho Arendada edasi sufiksipuude ja massiivide algoritme eesmärgiga kiirendada ligikaudse otsimise meetodeid. Luua tööriistad tekstide indekseerimiseks ning korduvate mustrite ennustamiseks. Üliõpilased: Ireen Meho, Marek Zäuram, Paljude stringide üheaegne ligikaudne otsimine Juhendaja: Jaak Vilo Mustrite otsimise meetodid, stringide eeltöötlus (indekseerimine) ligikaudse otsimise kiirendamiseks. Regulaaravaldiste ligikaudne otsimine, paljude str´ingide üheaegne ligikaudne otsimine jne. Üliõpilased: Mustrite kombinatoorika Juhendaja: Jaak Vilo Millised mustrid esinevad koos DNA-s ning millised on iga mustri efektid geeniregulatsioonile? ---------------------------------------------------------------------- Tarkvaraarenduse meetodid UML põhine tarkvaraarendus (programmisüntees) Juhendaja: Jaak Vilo, Kristo Käärmann Eesmärk on arendada UML põhist tarkvarakirjeldust ning automatiseerida tarkvara loomine - sünteesida automaatselt XML, Java ja SQL kirjeldused ning programmid mis lubavad automaatselt luua teisendused objekltmudeli (OM) ja teiste esituste vahel. Näiteks töötades Java keskkonnas oleks ligipääs andmete püsiesitusele SQL baasis kui ka serialiseeritud esitusele XML-is tagatud läbi deklaratiivse kirjelduse (e.g. Castor). Samuti arendada teatud standardsemat programmifunktsionaalsust näiteks registrite tegemiseks luues automaatselt kasutajaliideste baasfunktsionaalsus. Üliõpilased: Andres Vilgota, Argo Kaur XML põhine klient-server kasutajaliideste arhitektuur Juhendaja: Jaak Vilo, Misha Kapushesky (EBI) Arendada WWW-põhist tarkvaraarhitektuuri kus kasutajaliides on esitatud peamiselt deklaratiivselt, st defineeritud XML-is. See arhitektuur on aluseks Expression Profileri edasiarendusele (koostöös Euroopa Bioinformaatika Instituudiga). Üliõpilased: GRID-arvutuskeskkonnad Juhendaja: Jaak Vilo, Eero Vainikko jt Mahukate arvutuste jaoks on vaja suuri arvuteid (kiirus, protsessorite arv, mälumaht jne) ja arvutussüsteeme (palju arvutied ning infrastruktuur nende jaoks). Üks võimalus on nn. GRID mis ühendab palju arvuteid üle Interneti infrastruktuuri. Eesmärk on uurida selliste GRID ning arvutifarmide süsteemihaldust ning standardeid kuidas neid omavahel kokku ühendada. Üliõpilased: ---------------------------------------------------------------------- Medical and clinical data handling and storage, population and statistical genetics, pharmacogenetics. Of utmost importance for any biomedical research whose aim is to study human health and genetics, is the proper capture of the clinical data. The aim is to develop data management solutions for health, clinical, lifestyle, environmental data and the analysis of those data. These data together with drug consumption and treatement effects information allow to develop predictive methods for drug efficacy studies. Tervise- ja keskkonnanadmete korrelatsioonid Juhendaja: Jaak Vilo, Tanel Kaart, (Krista Fischer) Uurida statistilise analüüsi, andmekaevanduse, korrelatsioonide ning kausalsuse hindamise vahendeid et analüüsida Geenivaramu andmeid. Üliõpilased: Sugupuude (genealoogiad) ennustuse meetodid Juhendaja: Jaak Vilo, Tanel Kaart Ülesanne on välja arendada tõenäosuslikke meetode genealoogiate koostamiseks arvestades nimede õigekirja, sünni- ja elukohtade, sünni- ja surmaaegade täpsuse probleeme jmt. Üliõpilased: Raul Koosel ---------------------------------------------------------------------- (Teadus)Tekstiandmebaasid ja tekstide kaevandamine Medline abstraktide andmebaas, infopäringud ja andmekaevandus Juhendaja: Jaak Vilo Tohutu hulk teaduslikku infot on avaldatud artiklites, selle info kättesaadavus on piiratud sageli vaid abstraktide tasemel. Eesmärk on luua abstraktide ja teadusartiklite andmebaas ning infopäringute keskkond (information retrieval). Edasi on eesmärk uurida info erladamise (information extraction) meetodeid nende tekstide automaatseks analüüsiks ning saadud andmete kaevandsmiseks. Üliõpilased: Rasmus Alop, Tiit Kaeeli Sõnastike informaatika Juhenaja: Jaak Vilo, Ülle Viks, Indrek Hein, Margit Langemets KeeleWeb ( http://ee.www.ee/ ) on sõnastike ja teatmeteoste internetipõhine keskkond. Eesmärk on arendada KeeleWebi nii tarkvaraarenduse (XML jne) kui ka sisu poolest. Muu hulgas tuleb täiendada antud keskkonda uute sõnastikega (uus ÕS jt) Üliõpilased: ----------------------------------------------------------------------