LAB - 14.10.2008

- Vytvorte program alebo sadu prikazov, ktory pre vstupne data vo formate 
  FASTA vytvori sufixove pole a exportuje ho vo formate, kde kazda polozka 
  pola bude na zvlastnom riadku obsahovat sufix skrateny na prvych 48 znakov 
  a hodnotu pre danu polozku pola.

- Vytvorte podobnym sposobom "rank array" a "height array".

- spravnost programu si overte porovnanim vystupu s kolegami, pri 
pouziti nasledujucej sekvencie:

> dna_sekvencia
AGATGCGATGATGTGGACACGAACGATCGATGCAGGCGCAGATGCAGCGAGATGCGAGACATGACGCAGGCAT
AGATGACCCACACCCAGCGCGCGACTGACGATGGTGATATTTTTAGAGAGAGGGGCACAATAGATGAGAGAGA
AGAGAGAACGCGCGCGCGATATATACGGAGCCCGACCGGGGACGAGGTGATTTTAGAGCCCGAGGGGATTAGC

- ## Pouzite vytvorene sufixove pole pre spocitanie vyskytov akejkolvek n-tice
  nukleotidov pre n<=48

- ## Budete pisat kratky programu pre vyhodnocovanie podobnosti sekvencii
  na zaklade vyskytu podobnych slov. Najprv nastudujte funkciu 
  programu segmenter.pl v adresari /home/lexa/teaching/iv108/progs

Cast prva: segmenter.pl
  Program precita dve sekvencie vo formate FASTA.
  Vrati vsetky slova urcitej dlzky z danych sekvencii oddelene 
  hviezdickou

Napriklad pre vstup: 
>S1
ALLMN

>S2
MASAQF

vrati prikaz:
$segmenter.pl 3
  ALL
  LLM
  LMN
  *
  MAS
  ASA
  SAQ
  AQF

Druha cast: napiste
  Precita vystup predchadzajuceho programu
  Zisti z kolkych 3-znakovych slov sa kazda sekvencia sklada
  Podobnost vypocita ako S = 2*p/(m+n), kde p je pocet vyskytov identickych 
    slov (kazda mozna dvojica s pocita v pripade viacnasobneho vyskytu len raz),
     m a n su pocty slov vyskytujucich sa v porovnavanych sekvenciach
    (slovo, ktore sa vyskytuje viacnasobne, sa pocita vzdy len raz)
  Vypise numericku hodnotu podobnosti

- ## Ako sa meni podobnost nasledujucich sekvencii pribuznych proteinov 
  so zvysujucou sa dlzkou pouziteho slova (napr. 4 a 5 namiesto 3)? 

>At2g03500.1 expressed protein   /  related to putative two-component response regulator protein ARR1 (GB: 4210449); supported by cDNA: gi_16974543_gb_AY060559.1_
MASSSELSLDCKPQSYSMLLKSFGDNFQSDPTTHKLEDLLSRLEQERLKIDAFKRELPLCMQLLNNAVEVYKQQLEAYRANSNNNNQSVGTRPVLEEFIPLRNQPEKTNNKGSNWMTTAQLWSQSETKPKNIDSTTDQSLPKDEINSSPKLGHFDAKQRNGSGAFLPFSKEQSLPELALSTEVKRVSPTNEHTNGQDGNDESMINNDNNYNNNNNNNSNSNGVSSTTSQSNRKARRCWSPDLHRRFVQALQMLGGSQVATPKQIRELMKVDGLTNDEVKSHLQKYRLHTRRPSPSPQTSGGPGPHLVVLGGIWVPPEYTSAHGGTPTLYHHQVHHHHTNTAGPPPPHFCSSQEFYTTPPPPQPLHHHHFQTFNGSSGGTASTDSTHHQVTDSPTVEGKSPESGGGERKGLAALREECEDHSNINGSEITLKF

>At3g16857.1 ARR1 protein, putative   /  similar to ARR1 protein GB:BAA74528 from [Arabidopsis thaliana] (Plant Cell Physiol. (1998) 39 (11), 1232-1239); supported by cDNA: gi_15810170
MALSLLRKNKHGFDIVISDVHMPDMDGFKLLEHVGLEMDLPVIMMSADDSKSVVLKGVTHGAVDYLIKPVRMEALKNIWQHVVRKRRSEWSVPEHSGSIEETGERQQQQHRGGGGGAAVSGGEDAVDDNSSSVNEGNNWRSSSRKRKDEEGEEQGDDKDEDASNLKKPRVVWSVELHQQFVAAVNQLGVEKAVPKKILELMNVPGLTRENVASHLQKYRIYLRRLGGVSQHQGNLNNSFMTGQDASFGPLSTLNGFDLQALAVTGQLPAQSLAQLQAAGLGRPAMVSKSGLPVSSIVDERSIFSFDNTKTRFGEGLGHHGQQPQQQPQMNLLHGVPTGLQQQLPMGNRMSIQQQIAAVRAGNSVQNNGMLMPLAGQQSLPRGPPPMLTSSQSSIRQPMLSNRISERSGFSGRNNIPESSRVLPTSYTNLTTQHSSSSMPYNNFQPELPVNSFPLASAPGISVPVRKATSYQEEVNSSEAGFTTPSYDMFTTRQNDWDLRNIGIAFDSHQDSESAAFSASEAYSSSSMSRHNTTVAATEHGRNHQQPPSGMVQHHQVYADGNGGSVRVKSERVATDTATMAFHEQYSNQEDLMSALLKQEGIAPVDGEFDFDAYSIDNIPV

- ## Ak ste vytvorili program pre prvu ulohu, zistite, ktore z nasledujucich 
  sekvencii v PDB su si najviac podobne pri pouziti dlzky slova 3
 
1lfw
1pv9
1wy2
1itq
1itu
1fy2

Ako to zodpoveda ich popisu v PDB?