http://www.egeen.ee/u/vilo/Arvutiteaduse instituudi üliõpilaste lõputööd tuleb registreerida ATI kantseleis soovitavalt enne 20. detsembrit k. a. Viimane tähtaeg on 9. veebruar 2005.
Selle dokumendi eesmärk on kirjeldada võimalikke uurimisteemasid ja valdkondi millele olen hea meelega nõus olema juhendaja (või vahendama teisi juhendajaid).
Ükski teema mida juhendaja pakub ei ole liiga hull - olles pidevas kontaktis juhendajaga saab üle probleemidest. Oluline on muidugi oma enda iseseisev aktiivsus, et juhendaja ei peaks käima tagant torkimas ;-)
Kuna teemasid ja üliõpilasi võib olla palju siis on teemade jaoks ka mitu juhendajat. Allolevatel teemadel on põhi- või kaasjuhendajad mh magistrandid ja doktorandid: Kristo Käärmann, Jelena Zaitseva, Andres Vilgota, Hedi Peterson, jt BIIT rühma liikmed.
Teemasid tutvustava ettekande slaidid (27.9.04)
Arvutiteaduse ülesandepüstitus:
Allpool on toodud mõned võimalikud teemad millest on võimalik valida oma semestri- ja bakalaureusetöö valdkond. Enamus teemadest on bioinformaatika spetsiifilised, kuid samas on iga teema juures võimalik leida ka tugev arvutiteaduse komponent mis ei eelda tingimata bioloogilisi eelteadmisi. Iga huvitatud üliõpilase jaoks leiab sobiva raskusastmega ülesande. Ei maksa karta kui praegu veel ei tunne pakutud valdkondi. See ongi ülikooli eesmärk - õppida uusi asju.
Isegi kui teema peal on juba mainitud keegi üliõpilane on üsna tõenäoline et mitu inimest suudab rohkem ning sedasi tõuseb ka projekti kvaliteet.
Esmatähtsana sooviks käivitada projektid alternatiivsplaissingu, bioloogiliste radade, geenide funktsiooni ennustamise ja farmakogeneetika projektide jaoks.
Kiired algoritmid ja efektiivsed andmestruktuurid
Läbiv teema enamuse alltoodud teemade juures on kiired algorimtid ja andmestruktuurid.
Andmekaevanduse meetodid (rakendustega bioinformaatikas)
Regulaaravaldiste ligikaudne sobitamine.
Stringide sobitamisel kasutatakse sageli ligikaudset otsimist mis on
defineeritud teisenduskauguse ehk Levenshteini kauguse abil.
Tuleks uurida, välja pakkuda regulaaravaldiste ligikaudse esinemise
otsimise algoritme.
Sõnade otsimine vigadega võttes arvesse teisenduste erinevaid
tõenäosusi.
Stringide sobitamisel kasutatakse sageli ligikaudset
otsimist mis on reeglina defineeritud teisenduskauguse ehk Levenshteini
kauguse abil. Sugugi mitte kõik teisendused pole aga sama tõenäolised
või olulised. Näiteks kasutaja poolt vigaselt sisestatud sõnade
otsimisel tuleks arvutada sarnasust paindlikumalt, võttes arvesse
millised vead on tõenäolisemad kui teised. Näiteks: sÕnad naiteks,
náiteks ja näiteks võiks olla sarnasemad kui naiteks ja naiseks, kuigi
mõlemal puhul on muutunud täpselt üks täht.
Statistilise olulisuse hindamine simulatsioonide abil
Andmeanalüüsi probleemide juures on sageli vaja hinnata teatud sündmuste
esinemise (statistilist) olulisust. Kuna paljudel juhtudel ei ole
olulisuse hindamiseks (kiireid) analüütilisi meetode arendatakse sageli
simulatsioone. Selles töös tuleb realiseerida programme mis sisuliselt
"viskavad kulli ja kirja" piisavalt palju kordi ning siis oskavad anda
välja usalduspiirid teatud sündmuse esinemise tõenäosuste kohta.
Andmekaevandus
Masinõppimise, andmekaevanduse, klasterdamise jne meetodid.
Data Warehousing: Mitmemõõtmeline indekseerimine, kiire
agregeerimine, päringuvastused lähendamisega
Meetodid
andmeladude ja analüütika loomiseks tavalisel relatsioonilisel
andmebaasiplatvormil. Milliseid täiendusi on vaja
andmebaasimootorisse, et teha arvutusi kõrgdimensionaalsetel
andmekuupidel, mis võivad sisaldada sadu miljoneid kirjeid?
Kuidas on võimalik avatud koodiga andmebaasimootorit (Postgres,
MySQL) täiendada uute indekseerimismeetodite, andmestruktuuridega?
Praktilises osas võib lisaks realiseerida lihtsa
analüütika platvormi ja DW mootori relatsioonilisel
andmebaasil.
Artikleid on külluses, paar näidet:
Indexing without the Index: Scalable Multidimensional Aggregation
for Data Warehouses (2002)
http://citeseer.ist.psu.edu/558495.html
High-dimensional Similarity Joins
(1997)
http://citeseer.ist.psu.edu/shim97highdimensional.html
Hierarhilised päringud relatsioonilisel andmebaasil
Standardne SQL ei toeta transitiivse sulundi leidmist puustruktuuri
esitavast andmebaasist. Olgu näiteks iseendaga üks-mitmele seotud
tabel, kus väli "parent_id" viitab vanemobjektile ning me soovime leida
antud objekti kõigi järeltulijate seast teatud tingimustele
vastavaid objekte. Üldjuhul peab päringu sooritamiseks kasutama mõne
protseduraalse keele abi ning rekursiivselt alampuud läbima
(turuliidrid (Oracle, IBM) kasutavad oma DB platvormidel "CONNECT BY"
süntaksit). Milline on optimaalne algoritm sellise funktsionaalsuse
tekitamiseks, kuidas integreerida seda postgres või mysql
päringumootorisse? Lisaks igapäevasele mugavusele on hierarhilistel
päringutel olulisi rakendusi meditsiooniinformaatikas, andmeladudel
põhinevas analüütikas ja muudes mõistete süsteeme kirjeldavates
tööriistades (nt. geeniontoloogiad).
Üks lingikogu
http://troels.arvin.dk/db/rdbms/links/
Pattern discovery and recognition in sequences; sequence algorithms Biological studies to discover motifs in DNA, RNA, or protein sequences in large extent rely on basic reserarch of algorithmics of sequence based methods or combinatorial pattern matching. The task is to develop new pattern discovery and pattern matching algorithms and tools that can be used for large scale bioinformatics studies. One of those tools is SPEXS, an algorithm developed by Jaak Vilo and used for the analysis of DNA and protein sequences.
Sufiksipuude ja -massiivide algoritmid
Arendada edasi sufiksipuude ja massiivide algoritme eesmärgiga
kiirendada ligikaudse otsimise meetodeid. Luua tööriistad
tekstide indekseerimiseks ning korduvate mustrite ennustamiseks.
Üliõpilased: Hendrik Nigul, Ireen Meho
Kaalumaatriksite (tõenäosuslike mustrite) genereerimine ja sobitamine
Arendada välja tööriistapakett kaalumaatriksite (position weight matrix PWM, position
specific score matrix PSSM) sobitamise ja ennustamise meetodeid.
Üliõpilased: Triinu Tasa, Margus Jäger.
Paljude stringide üheaegne ligikaudne otsimine
Mustrite otsimise meetodid, stringide eeltöötlus (indekseerimine)
ligikaudse otsimise kiirendamiseks. Regulaaravaldiste ligikaudne
otsimine, paljude str´ingide üheaegne ligikaudne otsimine jne.
Üliõpilased: Igor Kuzmitšov
Mustrite kombinatoorika
Millised mustrid esinevad koos DNA-s ning millised on iga
mustri efektid geeniregulatsioonile?
UML põhine tarkvaraarendus (programmisüntees)
UML andmemudeli põhjal saab genereerida SQL tabelid, Java (vt)
objekt-klassid, ning nendevahelised teisendused. Kuidas aga genereerida
kogu töötav infosüsteem mis oskaks selle andmemudeli jaoks genereerida
automaatselt fuinktsioneeriva veebiliidese?
GRID-arvutuskeskkonnad
Mahukate arvutuste jaoks on vaja suuri arvuteid (kiirus, protsessorite
arv, mälumaht jne) ja arvutussüsteeme (palju arvutied ning
infrastruktuur nende jaoks). Üks võimalus on nn. GRID mis ühendab
palju arvuteid üle Interneti infrastruktuuri. Luua tuleks keskkond
mille kaudu kasutajad saaksid mugavalt oma arvutusülesandeid GRID
kaudu lahendada.
Alternative Splicing data analysis
Alternative splicing is a mechanism for a cell for a fine-scale
control about which forms of proteins are produced (which exons will
be included in the final product) from each gene at each stage of
development, external conditions, or in various tissue types. Our
groups aim is to study these mechanisms of fine-scale control based
on the analysis of DNA specific signals that carry information for
such control.
Alternatiivsplaissingu andmebaasid ja bioloogia
Uurida altrnatiivsplaissingu andmebaase, mis andmeid on olemas,
milliseid eksperimentaalseid meetode on ning kuidas on sealt saadud
andmed esitatud andmebaasides. Luua kohalik AS andmebaas.
Geeniregulatsiooni andmebaas
Luua andmebaas transkriptsioonifaktorite, seondumissaitide,
regulatsiooni võrkude jne kohta. Täita andmebaas andmetega -
teistest andmebaasidest (SCPD, TRANSFAC jne), eksperimentaalsete
andmetega (ChIP on chip), in silico ennustustega. Luua baasile
kasutajaliidesed, liidesed tööriistadega jne.
Mustrite otsimise ja visualiseerimise vahendid ning kasutus
Alternatiivsplaissingu regulatsioonimehhanismide uurimiseks on vajalik
kasutada mustrite ennustamise ja otsimise ning visualiseerimise vahendeid.
Eesmärk on arendada edasi Expression Profileri tööriistu SPEXS, PATMATCH,
SEQLOGO jne. et teha lihtsalt kasutatavad tööriistad ning teha need
kättesaadavaks AS andmebaaside peal.
Lisainfo: http://ep.ebi.ac.uk/
Gene expression data analysis
Microarray gene expression studies are providing a rich wealth of
novel data for large-scale bioinformatics analysis. The aim is to
develop fast data analysis methods for serving the needs of large
groups of researchers using public databases like ArrayExpress. The
research builds upon the initial development of the Expression
Profiler analysis tools (part of ArrayExpress infrastructure).
Geeniekspressiooni analüüsi tööriistad
Eesmärk on arendada edasi Expression Profileri paketti EPCLUST
täiendades seda statistiliste meetodite ja vahenditega, edasi
arendades vastavalt kasutusjuhtudele (use cases). Töö sisaldab
programmeerimist eri keeltes (C, perl, XML) ning interaktsiooni
statistika vahenditea nagu R jne. Mõned teemad kus tuleks teha
algoritmiarendust: klassifikatsioon (vähitüüpide klassifitseerimine,
geenide otsimine mis on seotud konkreetse vähiga jne), moodulite ja
bi-klasterduse meetodid (leida geenide komplekte mis käituvad ühte
moodi vaid mingis alamhulgas eksperimentaalseid tingimusi), jne jne.
Lisainfo: http://ep.ebi.ac.uk/
Genotüübi-andmete analüüs.
Ülesanne on uurida statistilisi meetodeid ja kiireid algoritme suurte
arvutusülesannete lahendamiseks et otsida fenotüübi, keskkonna, ja
genotüübiandmete vahelisi seoseid. Probleemid on muu hulgas statistika
paljude testide probleem (multiple testing problem), kombinatoorsete
efektide otsimine, väga nõrkade mõjude otsimine jne.
Haplotüübi defineerimise ja ennustamise meetodid
Uurida haplotüüpde defineerimise meetode, realiseerida mõned olemasolevad
meetodid, võrrelda tulemusi, arendade edasi.
Functional genomics and data integration studies
Various functional genomics data from large scale experiments like different protein-protein interaction methods, phenotypic data from systematic gene knockouts, genome-wide binding localisation studies (ChIP on chip), etc., although never perfectly accurate, provide a wealth of new information that has to be put into context of other data sources. The key is the integration of those data sources in order to facilitate data analysis that can help us to gain better hypothesis on function and design new experiments.
Andmete integratsioon ning töövahendid
Geeniekspressiooni, valk-valk interaktsioonide, transkriptsiooni-faktorite
üle-genoomi lokalisatsiooniuuringute, fenotüübiandmete jne abil on
võimalik ühelt poolt parandada eksperimentaalsete tehnoloogiate
ennustuste õigsust ning teiselt poolt aidata kaasa uute ennustuste tegemisele.
Eesmärk on uurida andmete integreerimise võimalusi ning luua uusi
andmebaase ja tööriistu.
Lisainfo: http://ep.ebi.ac.uk/
G-valk retseptorite signaalimehhanismid
Vaja on koguda andmeid ja infot GPCR valkude kohta ning arendada
edasi GPCR ja G-valk seondumise meetodit (Möller, Vilo, Croning 2001).
Uurida konkreetsemalt leitud motiive, arendada tööriistu mis on kasutatud
nendes uuringutes. Luua ennustusi võimaldavad tööriistad ja veebiteenused.
Lisainfo: http://ep.ebi.ac.uk/GPCR/
Of utmost importance for any biomedical research whose aim is to study human health and genetics, is the proper capture of the clinical data. The aim is to develop data management solutions for health, clinical, lifestyle, environmental data and the analysis of those data. These data together with drug consumption and treatement effects information allow to develop predictive methods for drug efficacy studies.
Meditsiiniliste andmete esitamise ontoloogiad ja süsteemid.
Uurida, kirjeldada, katsetada.