Bioinformatikų kursinių darbų temos 2020 m.



Siūlome temų sąrašą. Prašome pasirinkti temą kursiniam darbui.

Pasirinkę parašykite.


   

Baltymų erdvinių struktūrų analizės metodų kūrimas

Darbo tikslas - susipažinti su pagrindiniais biologinių makromolekulių erdvinių (3D) struktūrų analizės metodais bei prisidėti kuriant naujus metodus, t.y. naują programinę įrangą. Konkreti užduotis bus individualiai derinama su studentu. Susidomėję rašykite adresu kliment@ibt.lt
Kliment Olechnovič   

RNR virusų baltymų sekų profilių tinklalapio kūrimas

Yra sukurta RNR virusų sekų profilių duomenų bazė, kuri sėkmingai buvo panaudota aprašant naujai nuskaitytus RNR virusus ir tiriant jų evoliuciją (Y. Wolf, D. Kazlauskas et al., 2018). Platesniam minėtos duomenų bazės panaudojimui reikia sukurti internetinę svetainę, kurioje būtų pateikta išsami informacija apie baltymų profilius, su galimybe juos parsisiųsti. Kandidatai turi turėti tinklalapių kūrimo įgūdžių. Daugiau info: darius.kazlauskas@bti.vu.lt
Darius Kazlauskas   

CIF sintaksinio analizatoriaus išplėtimas C bei Python kalboms

Crystallographic Information File (CIF) formatas yra plačiai naudojamas kristalografijos, cheminformatikos srityse bei už jų ribų. Tačiau didelė programinės įrangos dalis palaiko nepilną CIF formato standartą, dėl ko gali kilti įvairios failų įskaitymo klaidos (Merkys et al. 2015). „codcif“ – bendro pobūdžio CIF formato analizatorius/konstruktorius (angl. reader/writer), sukurtas su tikslu pilnai palaikyti CIF standartą. Šio kursinio darbo tikslas – išplėsti „codcif“ palaikymą C, Python ir Java programavimo kalboms. Pageidautinos C programavimo kalbos žinios.
Andrius Merkys   

Atomų atstumų kristaluose tyrimai

Tarpatominiai atstumai kristaluose yra labai artimai susiję su jų sąveika. Itin populiarus metodas tarpatominėms jungtims kristaluose nustatyti remiasi atomų kovalentinių atstumų lentele, nustatyta 1979 metais (Allen et al., 1979) ir dešimtmečių eigoje nežymiai modifikuota specialistų (CCDC, 2008). Šio kursinio darbo tikslas – pamėginti išvesti kovalentinių atstumų lentelę iš Crystallography Open Database esančių kristalų struktūrų aprašymų panaudojant kristalo dalinimą Voronojaus narveliais.
Andrius Merkys   

dREL programavimo kalbos kompiliatorius

dREL programavimo kalba buvo sukurta duomenų validavimui pagal jų aprašymus žodynuose (Spadaccini et al., 2012). Pagrindinė jos taikymo sritis – kristalografinių duomenų aprašymas. Kadangi dREL vis vystoma ir dar nėra plačiai paplitusi, kol kas žinomas tik vienas jos kompiliatorius/interpretatorius – PyCIFRW, parašytas Python programavimo kalba ir paskutinį kartą išleistas 2018 m. pradžioje. Šio kursinio darbo tikslas – sukurti dREL kalbos kompiliatorių/interpretatorių, kurį būtų nesudėtinga keisti ir plėsti dREL kalbai vystantis.
Andrius Merkys   

Kristalografinės informacijos tvarkymas ir jo automatizavimas

Atviroje kristalografinėje duomenų bazėje COD (www.crystallography.net) veikia autonominės programos-robotai, be žmogaus-operatoriaus priežiūros nukeliantys naujausias išspręstas struktūras iš mokslinės spaudos, patikrinantys jas bei patalpinantys COD duomenų bazėje. Nemažai automatiškai nukeltų struktūrų patikrinimo stadijoje yra atmetamos dėl nesunkiai pataisomų klaidų: neteisingai įvesti skaičiai, nurodyti matavimo vienetai, „žmogaus kalba“ naudojama ten, kur prašoma griežto formato. Šio kursinio darbo tikslas – išanalizuoti sukauptus patikrinimų klaidų pranešimus, nustatyti dažniausiai pasitaikančias automatiškai pataisomas klaidas, sukurti programinę įrangą klaidoms taisyti bei šią įrangą įtraukti į automatinį robotų darbo srautą.
Andrius Merkys   

Pasikartojančios kristalografinės informacijos aptikimas

Pasikartojančios kristalografinės informacijos aptikimas Kuriant duomenų bazes svarbu apsisaugoti nuo informacijos dubliavimo. Tačiau tai ne visada yra lengva užduotis. Šio darbo tikslas – pasikartojančių įrašų aptikimo metodų kūrimas Atvirai kristalografinei duomenų bazei COD (www.crystallography.net).
Andrius Merkys   

Individo požymių nustatymas naudojantis metilinimo duomenimis

Šiame darbe, naudojant DNR metilinimo mikrogardelių duomenis, studentui bus siūloma pabandyti nustatyti individo amžių, lytį, etninę kilmę, rūkymo statusą, ir kitus biologinius požymius. Konkreti užduotis bus derinama individualiai. Darbui numatoma naudoti R programavimo kalbą. Modelio kūrimui - įvairius regulerizuotus tiesinius ("lasso", "elastic net"), atsitiktinio miško ("random forest") ir kitus regresijos ir klasifikavimo metodus.
Karolis Koncevičius   

Daugiamačių biomedicinos duomenų atvaizdavimo metodai

Darbo tikslas - susipažinti su esamais daugiamačių duomenų atvaizdavimo metodais ("scatter plot", "heatmap", "box-plot" "violin-plot", "t-SNE", "dendrograms" ir k.t.), pritaikyti juos apžvalginei pasirinktų duomenų analizei, bei pasiūlyti savo paties sukurtą (arba modifikuotą) daugiamačių duomenų pavaizdavimo būdą. Planuojama darbui naudoti R programavimo kalbą.
Karolis Koncevičius   

Mažų molekulių kristalų kontaktų paviršiai

Siūloma peržvelgti visas COD organinių kristalų struktūras, visų pirma tas, kuriuose yra vaistinių medžiagų molekulės ar į jas panašios molekulės. Surasti šių molekulių kontaktus su *savo pačių* kristalais, aprašyti šių kontaktų paviršius. Surasti tas molekules, kurių kompleksai su baltymais patalptinti PDB archyve. Palyginti mažos molekulės kristalo ir baltymo kontaktinius paviršius; nustatyti, ar pagal šių paviršių panašumą galima prognozuoti susimaišymą su baltymu.
Saulius Gražulis   

Paskirstytos, patikimos ir atsparios trikdžiams bei padalinimams COD duomenų bazės kūrimas.

Šiuo metu COD duomenų bazė, organizuota kaip centrinis (angl. "master") serveris, kurio duomenis patikimumo dėlei replikuoja visa eilė antrinių (angl. "mirror") kompiuterių. Tokia sistema, deja, neužtikrina nenutrūkstamo sistemos darbo, centriniam serveriui išėjus iš rikiuotės ar nutrūkus ryšiui tarp centrinio serverio ir Interneto. Darbo metu bus siūloma realizuoti paskirstytą, lygių serverių mainais (angl. "peer-to-peer") paremtą sistemą, atsparią sistemos padalinimui, užtikrinančią duomenų neprieštaringumą (consistency) ir minimizuojančią sistemos prastovas. Nors CAP teorema teigia, kad visų trijų tikslų (neprieštaringumo, prieinamumo ir atsparumo padalinimams) vienu metu pasiekti neįmanoma, bus bandoma surasti inžinerinius sprendimus, leidžiančius minimizuoti praradimus (prastovas, duomenų praradimą ir pan.), atsiradusius dėl to, kad COD bus realizuota kaip paskirstyta duomenų bazė. Darbo metu reikės išnagrinėti įvairius galimus sistemos variantus, įvertinant įvairius kompromisus (prieinamumas/neprieštaringumas, prieinamumas/patikimumas ir pan.).
Saulius Gražulis   

Duomenų kokybės užtikrinimas ir duomenų validavimas kristalografinėje duomenų bazėje COD

Duomenys mokslinėje duomenų bazėje naudingi tik tada, kai jie yra patikimi ir teisingi. Deja, net aukšto lygio mokslinėse publikacijose ne visada užtikrinamas duomenų teisingumas ir atitikimas formaliems reikalavimams. COD (Crystallography Open Database) duomenų bazės kūrėjai šiuo metu pasiekė, kad visi duomenų failai yra sintaksiškai teisingi (atitinka IUCr CIF formato reikalavimus) ir gali būti apdorojami automatiškai. Sekantis žingsnis link aukštos kokybės duomenų bazės -- semantinis duomenų patikrinimas (validacija) pagal IUCr sukurtas ontologijas -- CIF žodynus (angl. "CIF dictionaries"), ir prasminių klaidų paieška, naudojant statistinius metodus. Darbo metu bus siūloma tobulinti COD duomenų validatorių, atlikti visų duomenų validaciją, pagal validacijos pranešimus sukurti automatines klaidų taisymo priemones, ištaisyti tas semantines klaidas, kurias įmanomai vienareikšmiškai atpažinti, pažymėti nepataisomas klaidas, bei integruoti klaidų taisymo priemones į COD duomenų įkėlimo svetainę.
Saulius Gražulis   

Didelės apimties duomenų archyvavimas paskirstytoje, lygių partnerių bendradarbiavimu paremtoje (angl. "peer-to-peer") duomenų saugykloje

Naujausios IUCr (Tarptautinės kristalografų sąjungos, angl. International Union of Crystallography) rekomendacijos siūlo archyvuoti visus pradinius duomenis, panaudotus struktūros nustatymui, įskaitant difrakcijos (išsklaidytų Rentgeno spindulių) vaizdus, užregistruotus monokristalinių difraktometrų. Šios rekomendacijos įgyvendinimas kelia naujus iššūkius -- bus reikalingas gerokai didesnis pastovios atminties (diskų, juostų) kiekis, negu naudotas iki šiol, ir duomenys turi būti prieinami bent jau ateinančius dešimtmečius, t.y. pergyventi kelias kompiuterinės įrangos kartas. Visa tai susiję su papildomomis sąnaudomis ir duomenų laikymo kaštais. Vienas iš galimų šių problemų sprendimo būdų -- panaudoti paskirstytą, daugelio institucijų ir/arba individų palaikomą duomenų archyvavimo sistemą, turinčią pakankamą duomenų perteklumą, užtikrinantį patikimą sistemos darbą ilgą laiką. Darbo metu bus siūloma išnagrinėti įvairių partnerių bendradarbiavimu“ (angl. "peer-to-peer") bei paskirstytų duomenų bazių sistemų (Gnutella, GNUnet, OFFSystem, Riak, Apache Cassandra, ir t.t.) tinkamumą nurodytam tikslui ir galimai sukurti veikiantį sistemos prototipą.
Saulius Gražulis   

Senų kristalografinių duomenų skaitmeninimas COD duomenų bazei

Dalis duomenų apie svarbius cheminius junginius, tame tarpe apie jų erdvines struktūras, buvo publikuota prieš plačiai plintant kompiuteriams ir internetui, tad šie duomenys yra prieinami tik "popieriniame" pavidale, išbarstyti po daugelį skirtingų žurnalų ar leidinių, arba patalpinti nuosavybinėse duomenų bazėse. Tokia situacija techniškai ir/arba juridiškai apsunkina duomenų radimą bei panaudojimą. Darbo metu siūloma sukurti įrankius struktūrinės informacijos įvedimui ar optiniam simbolių atpažinimui, PDF failų tekstų analizei, siekiant atpažinti ir išskirti kristalografinius duomenis, ir galimai suskaitmeninti senas publikacijas, įkeliant jų duomenis į atvirą kristalografinę duomenų bazę COD (Crystallography Open Database).
Saulius Gražulis   

Vidutinių trimačių simetrijos grupių apskaičiavimas iš keturmačių moduliuotų struktūrų simetrijos operatorių

Pastaruoju metu daugėja informacijos apie medžiagos būvį, kuris, nors ir turi daugumą kristalo savybių (pvz., sklaido Rentgeno spindulius siaurais koncenrtuotais atspindžiais), nėra tikras kristalas, nes negali turėti periodinės gardelės, suderinamos su stebima objekto ar sklaidymo vaizdo simetrija, tokia kaip penkto laipsnio simetrijos ašis. Tai - kvazikristalai (http://en.wikipedia.org/wiki/Quasicrystals) ir (nebendramatės) moduliuotos struktūros. Šioms struktūroms aprašyti kuriamas matematinis aparatas, panaudojantis simetrijos grupių teoriją. Pasirodo, kad neperiodines trimates struktūras galima aprašyti kaip periodinių struktūrų daugiamatėse erdvėse pjūvius. Pavyzdžiui, kai kurias moduliuotas struktūras galima nagrinėti kaip periodinių 4-mačių gardelių pjūvius. Perėjimas į aukštesnių matavimų erdves leidžia panaudoti jau žinomą erdvinių simetrijos grupių mat. aparatą, ir kompaktiškai aprašyti neperiodines struktūras. Darbo metu bus siūloma sukurti programinę įrangą, kuri tikrintų keturmačių simetrijos grupių aprašymus, pagal šiuos aprašymus sukurtų vidutinius nemoduliuotos trimatės simetrijos grupės aprašus, ir integruoti šiuos algoritmus į duomenų bazę COD, kad būtų galima efektyviai kaupti ir tvarkyti neperiodinių medžiagos pavyzdžių aprašymus.
Saulius Gražulis   

BOINC serverio ir klientų parengimas statistiniams skaičiavimams ir jų pritraukymas COD duomenų bazės analizei

Statistiniai skaičiavimai, paremti Bajeso statistikos principais, duoda universalią ir koherentišką skaičiavimo metodiką, bet reikalauja itin daug skaičiavimo resursų. Vienas iš būdų tokius resursus surinkti -- panaudoti masinį paralelizmą „savanorių skaičiuotojų“ (angl. "volunteer computing") pateiktuose kompiuteriuose. Šiuo principu yra paremta Berklio universiteto BOINC sistema. Darbo metu bus siūloma: a) paleisti BOINC sistemos serverį; b) parašyti paprasčiausius BOINC klientus; c) parašyti klientus, skirtus COD atstumų ir jungčių parametrų tikimybių pasiskirstymų pasiskirstymų radimui ir atnaujinimui, naudojant Bajeso statistikos metodus, ir skaičiavimų organizavimas.
Saulius Gražulis   

Gramatikos atstatymas iš kalbos pavyzdžių

Gerai žinomi yra uždaviniai pagal nurodytą gramatiką nustatyti, ar duota simbolių eilutė priklauso gramatikos generuojamai kalbai, ir ar dvi gramatikos yra ekvivalenčios; žinomi efektyvūs šių uždavinių sprendimo būdai daugeliui praktiškai svarbių kalbų klasių. Tačiau praktikoje kartais tenka spręsti atvirkščią uždavinį: pagal kalbai priklausančių ir nepriklausančių eilučių pavyzdžius sukonstruoti minimalią gramatiką, generuojančią tokią kalbą. Šis uždavinys kur kas blogiau apibrėžtas (neturi unikalaus sprendimo) ir efektyvūs sprendimo būdai bendru atveju nėra žinomi. Darbo metu bus pasiūlyta suformuluoti ir išspręsti uždavinį paprasčiausiai -- reguliarių kalbų -- klasei. Konkrečiai, pagal duotas eilutes su teisingais ir klaidingais duomenų (teksto) pavyzdžiais reikės sukonstruoti reguliarias išraiškas, kurias atitiktų teisingos eilutės bet neatitiktų klaidingos eilutės. Galimi sprendimo būdai būtų euristikos, kodo evoliucija ir genetiniai algoritmai, apmokomų neuronų tinklų ar atraminių vektorių mašinų panaudojimas.
Saulius Gražulis   

Teorinės kristalografinės duomenų bazės TCOD duomenų validavimas

Pastaruoju metu labai sparčiai vystosi skaičiuojamosios chemijos metodai, leidžiantys suskaičiuoti kristalų bei molekulių struktūras naudojant pamatinius kvantinės mechanikos principus. Atsiranda vis daugiau laisvų programų, leidžiančių atlikti šiuos skaičiavimus, ir sparčiai daugėja suskaičiuotų struktūrų duomenų. Atsiranda poreikis šiuos skaičiavimo rezultatus sistematizuoti, įvertinti jų patikimumą bei palyginti su eksperimentiniais duomenimis. Tuo tikslu buvo paleista TCOD duomenų bazė. Darbo metu bus pasiūlyta įgyvendinti duomenų kokybės patikrinimo programas ir palyginti skirtingas suskaičiuotas struktūras tarpusavyje ir su eksperimentiškai nustatytomis struktūromis.
Saulius Gražulis   

Evoliuciniai skaičiavimai ir algoritmai, jų taikymas gamtos ir tiksliuosiuose moksluose

Ši tema labai plati. Pradžioje temą pasirinkusiam studentui reikės „apsižvalgyti“. Galima pradėti nuo liaudiško šaltinio https://en.wikipedia.org/wiki/Evolutionary_computation. Rimtesnis ir platesnis šaltinis yra monografija https://academic.csuohio.edu/simond/EvolutionaryOptimization/. Po to galima būtų susikoncetruoti ties 3-4 algoritmų, ištirti jų veikimo rezultatus konkretiems duomenims, palyginti tarpusavyje jų efektyvumą, pasiūlyti konkrečias jų taikymų rekomendacijas.
Irus Grinis   

Biogeografija paremti optimizavimo metodai

Ši tema yra tampriai susieta su ankstesne. Pradėti kaip visada galima nuo liaudiškos enciklopedijos (ji ne visada būna rimtas šaltinis, bet kartais galima joje rasti rimtų nuorodų į rimtus šaltinius). Tolimesnis žingsnis - šaltinių sąrašas iš http://embeddedlab.csuohio.edu/BBO/. Praktinėje darbo dalyje reikėtų palyginti biogeografija paremti optimizavimo algoritmus su kitais evoliuciniais algoritmais naudojant konkrečius viešai prieinamus duomenis.
Irus Grinis   

Bioinformatikos svetainės priežiūra ir plėtimas

Mūsų portalas www.bioinformatika.lt gyvuoja jau metus. Jo pagrindinė paskirtis bionformatikos mokslo ir studijų populiarinimas. Numatoma, kad kiekviena bionformatikų laida turės savo atstovą - redaktorių - užsiimantį ne tik svetainės priežiūra, bet ir ruošiantį naujus straipsnius, mokomąją medžiagą ir kitus resursus minėtam portalui.
Irus Grinis   

Rekurentiniai neuroniniai tinklai ir jų taikymas biomoksluose

Rekurentiniai neuroniniai tinklai plačiai taikomi įvairiose srityse. Šio darbo tikslas -- susipažinti su kai kuriais esamais RNN taikymais biosekų analizėje ir ištirti galimybes plačiau panaudoti joje natūraliosios kalbos apdorojimo technikas. Pradžiai reikėtų susipažinti aplamai su įrankiais pvz. https://www.tensorflow.org/, apžvelgti turimas publikacijas (pvz. https://doi.org/10.1038/s41598-019-52196-4 )
Irus Grinis   

Edukaciniai žaidimai gamtos ir tiksliuosiuose moksluose

Nors kompiuterinių žaidimų industrija skaičiuoja kelis dešimtmečius, bet kai kalba užeina apie platesnį jų taikymą mokyme, atsiranda nemažai problemų. Šio darbo tikslas - pabandyti sukurti kokį nors paprastą edukacinių žaidimų kūrimo įrankio prototipą, kuriuo galėtų naudotis gamtos ir tiksliųjų mokslų mokytojai/dėstytojai.
Irus Grinis   

Genetiniai algoritmai ir jų taikymas modeliuojant biosistemas

Mus supanti aplinka yra unikali, o šią aplinką įtakojantys veiksniai jei ne vienodi, tai bent jau panašūs. Norėdami nustatyti, kokį poveikį biosistemai daro įvairūs veiksniai, mes tai galime atlikti kurdami realaus pasaulio modelius bei jų aplinką. Gamtinių procesų negalime kartoti “atsukdami laiką”, tuo tarpu kompiuterinis modeliavimas sudaro prielaidas žymiai platesnei biosistemų analizei, stebint ją esant įvairiems poveikiams, grąžinant sistemą prie bet kurios išeities būsenos. Darbo tikslas - kurti biosistemas ir modeliuoti jų vystymąsi priklausomai nuo aplinkos sąlygų.
Gintautas Bareikis   


    2020 04 24


   

Temų pasirinkimai


   
Edukaciniai žaidimai gamtos ir tiksliuosiuose moksluose
Barbora Vasiliauskaitė    2019 11 30
Atomų atstumų kristaluose tyrimai
Eglė Šidlauskaitė    2019 11 30
RNR virusų baltymų sekų profilių tinklalapio kūrimas
Katrina Kaktavičiūtė    2019 11 30
Evoliuciniai skaičiavimai ir algoritmai, jų taikymas gamtos ir tiksliuosiuose moksluose
Saulė Pievaitytė    2019 11 30
Daugiamačių biomedicinos duomenų atvaizdavimo metodai
Asta Kvedaraitė    2019 11 30
Rekurentiniai neuroniniai tinklai ir jų taikymas biomoksluose
Justė Trijonytė     2019 11 30
Bioinformatikos svetainės priežiūra ir plėtimas
Meda Škimelytė    2019 11 30
Atomų atstumų kristaluose tyrimai
Marius Survila    2019 11 30
Vilius Stakėnas
    Mieli kolegos, kadangi pasirinkimo puslapyje dažnai atsiranda šiukšlių, išjungiau įrašymo galimybę. Prašau pasirinkus temą parašyti ją pasiūliusiam dėstytojui.

    2020 04 24

   

Rašyti:

Vardas, pavardė:

Renkuosi: