LAB - 14.10.2008 - Vytvorte program alebo sadu prikazov, ktory pre vstupne data vo formate FASTA vytvori sufixove pole a exportuje ho vo formate, kde kazda polozka pola bude na zvlastnom riadku obsahovat sufix skrateny na prvych 48 znakov a hodnotu pre danu polozku pola. - Vytvorte podobnym sposobom "rank array" a "height array". - spravnost programu si overte porovnanim vystupu s kolegami, pri pouziti nasledujucej sekvencie: > dna_sekvencia AGATGCGATGATGTGGACACGAACGATCGATGCAGGCGCAGATGCAGCGAGATGCGAGACATGACGCAGGCAT AGATGACCCACACCCAGCGCGCGACTGACGATGGTGATATTTTTAGAGAGAGGGGCACAATAGATGAGAGAGA AGAGAGAACGCGCGCGCGATATATACGGAGCCCGACCGGGGACGAGGTGATTTTAGAGCCCGAGGGGATTAGC - ## Pouzite vytvorene sufixove pole pre spocitanie vyskytov akejkolvek n-tice nukleotidov pre n<=48 - ## Budete pisat kratky programu pre vyhodnocovanie podobnosti sekvencii na zaklade vyskytu podobnych slov. Najprv nastudujte funkciu programu segmenter.pl v adresari /home/lexa/teaching/iv108/progs Cast prva: segmenter.pl Program precita dve sekvencie vo formate FASTA. Vrati vsetky slova urcitej dlzky z danych sekvencii oddelene hviezdickou Napriklad pre vstup: >S1 ALLMN >S2 MASAQF vrati prikaz: $segmenter.pl 3 ALL LLM LMN * MAS ASA SAQ AQF Druha cast: napiste Precita vystup predchadzajuceho programu Zisti z kolkych 3-znakovych slov sa kazda sekvencia sklada Podobnost vypocita ako S = 2*p/(m+n), kde p je pocet vyskytov identickych slov (kazda mozna dvojica s pocita v pripade viacnasobneho vyskytu len raz), m a n su pocty slov vyskytujucich sa v porovnavanych sekvenciach (slovo, ktore sa vyskytuje viacnasobne, sa pocita vzdy len raz) Vypise numericku hodnotu podobnosti - ## Ako sa meni podobnost nasledujucich sekvencii pribuznych proteinov so zvysujucou sa dlzkou pouziteho slova (napr. 4 a 5 namiesto 3)? >At2g03500.1 expressed protein / related to putative two-component response regulator protein ARR1 (GB: 4210449); supported by cDNA: gi_16974543_gb_AY060559.1_ MASSSELSLDCKPQSYSMLLKSFGDNFQSDPTTHKLEDLLSRLEQERLKIDAFKRELPLCMQLLNNAVEVYKQQLEAYRANSNNNNQSVGTRPVLEEFIPLRNQPEKTNNKGSNWMTTAQLWSQSETKPKNIDSTTDQSLPKDEINSSPKLGHFDAKQRNGSGAFLPFSKEQSLPELALSTEVKRVSPTNEHTNGQDGNDESMINNDNNYNNNNNNNSNSNGVSSTTSQSNRKARRCWSPDLHRRFVQALQMLGGSQVATPKQIRELMKVDGLTNDEVKSHLQKYRLHTRRPSPSPQTSGGPGPHLVVLGGIWVPPEYTSAHGGTPTLYHHQVHHHHTNTAGPPPPHFCSSQEFYTTPPPPQPLHHHHFQTFNGSSGGTASTDSTHHQVTDSPTVEGKSPESGGGERKGLAALREECEDHSNINGSEITLKF >At3g16857.1 ARR1 protein, putative / similar to ARR1 protein GB:BAA74528 from [Arabidopsis thaliana] (Plant Cell Physiol. (1998) 39 (11), 1232-1239); supported by cDNA: gi_15810170 MALSLLRKNKHGFDIVISDVHMPDMDGFKLLEHVGLEMDLPVIMMSADDSKSVVLKGVTHGAVDYLIKPVRMEALKNIWQHVVRKRRSEWSVPEHSGSIEETGERQQQQHRGGGGGAAVSGGEDAVDDNSSSVNEGNNWRSSSRKRKDEEGEEQGDDKDEDASNLKKPRVVWSVELHQQFVAAVNQLGVEKAVPKKILELMNVPGLTRENVASHLQKYRIYLRRLGGVSQHQGNLNNSFMTGQDASFGPLSTLNGFDLQALAVTGQLPAQSLAQLQAAGLGRPAMVSKSGLPVSSIVDERSIFSFDNTKTRFGEGLGHHGQQPQQQPQMNLLHGVPTGLQQQLPMGNRMSIQQQIAAVRAGNSVQNNGMLMPLAGQQSLPRGPPPMLTSSQSSIRQPMLSNRISERSGFSGRNNIPESSRVLPTSYTNLTTQHSSSSMPYNNFQPELPVNSFPLASAPGISVPVRKATSYQEEVNSSEAGFTTPSYDMFTTRQNDWDLRNIGIAFDSHQDSESAAFSASEAYSSSSMSRHNTTVAATEHGRNHQQPPSGMVQHHQVYADGNGGSVRVKSERVATDTATMAFHEQYSNQEDLMSALLKQEGIAPVDGEFDFDAYSIDNIPV - ## Ak ste vytvorili program pre prvu ulohu, zistite, ktore z nasledujucich sekvencii v PDB su si najviac podobne pri pouziti dlzky slova 3 1lfw 1pv9 1wy2 1itq 1itu 1fy2 Ako to zodpoveda ich popisu v PDB?