PROJEKT Program pro hodnoceni sekvencnich vzoru (termin odevzdani 11.12.2006). ZADANI Pri studiu struktury a funkce proteinu se casto setkavame se vzory v jejich sekvencich, ktere se opakuji s ruznou cetnosti v ruznych kontextech. Krome ryze informatickeho hodnoceni takovych vzoru je uzitecne mit nastroj, ktery pro libovolny zadany vzor zobrazi jeho charakteristiky, sekvencni kontext a typickou funkci nebo strukturu. Vasim ukolem je takovy nastroj vytvorit, tak aby pracoval na prikazove radce v rodine OS UNIX. Data: Jako data muzete pouzit vyber z PDB pod urovni podobnosti 90%, proteinove sekvence kytky Arabidopsis thaliana a GO definice pro tyto proteiny. Vstup: Vstupem Vaseho programu bude regularni vyraz urciteho vzoru, napriklad F..CC Vystupy: Pokud se uvede jako parametr text v zavorce, vrati program pouze zadanou informaci, jinak vrati vsechno. - (seqs) seznam identifikovanych sekvenci - (code) seznam kodu identifikovanych sekvenci - (cons) konsenzualni sekvenci, kde velkymi pismeny budou znaceny pozice se 100% zastoupenim urciteho znaku, malymi pismeny pozice s nadpolovicnim zastoupenim a teckou ostatni pozice - (pssm) pozicne specifickou matici cetnosti 1 2 3 4 -> pozice A 001 023 012 100 C 023 000 004 000 ... - (logo) zjednodusene sekvencni logo daneho vzoru (Nastudujte si z materialu kurzu co je sekvencni logo. Predepsany format je otoceny o 90 stupnu, cisla jsou pozice v sekvenci a pocet hvezdicek odpovida (neprimo umerne) entropii na danem miste. Symbol na konci kazdeho radku je nejvice zastoupena aminokyselina v dane poloze) 01 **** A 02 ** F 03 ***** G - (gofn) seznam moznych funkci pro dany vzor serazeny podle relativniho poctu jejich vyskytu k ocekavanemu poctu jejich vyskytu (na zaklade cetnosti daneho terminu v GO databazi - www.geneontology.org) 12.0 transcription factor 08.1 DNA binding ... - (pdbs) prumernou strukturu daneho vzoru odvozenou z PDB definovanou jako postoupnost torznich uhlu fi, psi a omega (s rozptylem) PHI PSI OMEGA -65.1 (22.0) +24.2 (13.5) +179.3 (2.4) +95.1 (31.8) +124.2 (43.2) +1.3 (9.5) POZNAMKY - Vyberte si pro svou implementaci jenom jednu z funkci -gofn a -pdbs nemusite implementovat obe - Vyber nastroju zavisi na Vasich preferencich. Ukoly jsou zvoleny tak, aby sli resit pomoci skriptu psanych v Perlu, s moznosti naprogramovani casove narocnejsich operaci napr. v jazyce C/C++. Bez problemu by melo jit pouzit i Python, Javu nebo Pascal. Jine volby, prosim, konzultujte na zacatku semestru. Odevzdavat budete jednak komentovany kod programu, jednak funkcni program. - Jelikoz nejsem odbornik na programovani a samotna technika programovani neni naplni kurzu, vase prace bude hodnocena prevazne na zaklade funkcnosti, s prihlednutim na komentar, citelnost kodu a efektivnost vypoctu, merena rychlosti vypoctu. Splneni hlavnich pozadavku bude hodnoceno automatickym skriptem, ktery budete mit k dispozici. Zadani splni jenom program, ktery projde bez zavady timto skriptem. - Diskuse mezi studenty ohledne projektu je vitana (napr. s vyuzitim diskusni skupiny predmetu v ISu), samotny program musi byt ale dilem autora. Jinak receno muzete se bavit o zpusobech jak postupovat, ale nevymenujte si, prosim, mezi sebou kod programu. V pripade prilisne podobnosti praci, nebudu ochoten prace uznat.