LAB 02 - 30.9.2010 - Ak to potrebujete zoznamte sa s pisanim skriptov v Perle. Pokial ovladate Python, pripadne iny (skriptovaci) jazyk, v ktorom sa Vam dobre pracuje s regularnymi vyrazmi, mozete pouzit v praktickej casti ten. - Priklad jednoducheho skriptu -- #!/usr/bin/perl # Toto je poznamka. Predchadzajuci riadok definuje, ktory program bude # skript interpretovat # Specifikovanie $_, STDIN a STDOUT sa moze vynechat, retazce sa bezne # uvadzaju v uvodzovkach, dvojita uvodzovka nizsie umoznuje vlozit premennu print STDOUT 'Give me some input: '; $_ = ; chop($_); # Zbavme sa symbolu EOL (\n) na konci retazca # Perl poskytuje mnozstvo funkcii pre manpulovanie retazcov $l = length($_); print "LENGTH($_) = $l\n"; # if($_=~m/[A-Z]/){ # mohlo by byt napr. uvedene aj if(/[A-Z]/) print "String \"$_\" contains a capital letter\n"; } else { print "String \"$_\" does not contain a capital letter\n"; } -- - ine uzitocne funkcie: while($x<100){ # pocitaj $x++; # zvys hodnotu x o 1 } $result = '/bin/ls'; # vykonaj lubovolny prikaz OS a uloz vysledok do # premennej $substr = substr($str,3,2); # vyber podretazec dlzky 2 na pozicii 3 m/(.)A(.)/; # prehladavame retazec $_ # znak v prvej zatvorke sa automaticky ulozi do $1, # v druhej do $2 print "$1 A $2\n"; - Napiste Perl skript, ktory z rozsiahleho FASTA suboru dokaze vytiahnut lubovolny regularny vyraz (simulacia prikazu grep/egrep). - Vylepsite predchadzajuci skript o moznost vratit aj blizke okolie najdeneho vyrazu (+/- 5 AA) - Napiste Perl skript, ktory pre lubovolnu dvojicu kratkych sekvencii zadanu na vstupe vyhodnoti ich spolocny vyskyt v proteinoch ATH1.fa tak, aby sa vyskytovali na kostre proteinu vo vzdialenosti obmedzenej zdola a zhora uzivatelom (pouzite napr. vzajomnu informaciu) Ake hodnoty dostanete pre nasledovne vstupy? MED ELV 0 99999 a MED ELV 5 10 - Vyhladajte v PDB protein z Arabidopsis thaliana. Pomocou predchadzajuceho skriptu, resp. jeho modifikacie, najdite trojice aminokyselin, ktore su od seba na kostre proteinu oddelene 9 aminokyselinami a vykazuju zo vsetkych takychto parov najvyssiu mieru korelacie. Pomocou programu Jmol (www.pdb.org), Pymol (pocitace v ucebni) a pod. zobrazte najdenu dvojicu v strukture daneho proteinu. - ## Spocitajte pocet jednotlivych aminokyselin v proteome Arabidopsis thaliana a vysledky vyjadrite percentualne s presnostou na 2 desatinne miesta. - ## Najdite najdlhsi a najkratsi protein v ATH1.fa. Rozdelte mozne dlzky proteinov v Arabidopsis na kvantily po 10 (1-10, 11-20,...). Ktore dlzky sa vyskytuju v proteome najcastejsie? Aka je priemerna dlzka? - ## Najdite si sadu sekvencii proteinov patriacich do jednej rodiny. Ziskajte ich mnohonasobne zarovnanie, napr. pomocou programu CLUSTAL, T-COFFEE a pod. Vytvorte skript, ktory toto zarovnanie sekvencii analyzuje a najde v nom stlpce, ktore su navzajom korelovane. Mieru, ktoru si pre korelaciu zvolite nechavam na vas. Odovzdajte subor s viacnasobnym zarovnanim, skript a vysledky vypoctu.