Bioinformatická data
Veřejné zdroje dat
Velké množství bioinformatických dat je shromážďováno historicky ve veřejně přístupných databázích, podporovaných výzkumnými institucemi, grantovými agenturami a příspěvky mnoha jednotlivců. V dnešní době jsou zpravidla přístupné přes specializované portály přístupné na internetu a uživatelská rozhraní (API).
Public data sources with APIs:
resource | url | api |
---|---|---|
NCBI | http://www.ncbi.nlm.nih.gov/ | REST | FTP | SRA-TOOLKIT |
e!Ensembl! | http://www.ensembl.org/index.html | REST |
PubChem | https://pubchem.ncbi.nlm.nih.gov/ | REST | SOAP |
Se zdroji dat úzce souvisí zaužívané formáty dat, ve kterých se tyto data dál šíří a používají jako vstupní data pro celou plejádu bioinformatických nástrojů. Zatímco v minulosti tyto formáty byl poměrně volně definovány a strukturovány, současný trend přeje formálně i semanticky složitějším datovým strukturám.
Například k nejstarším způsobům reprezentace několika k sobě zarovnaných sekvencí patří formát FASTA (používaný častěji pro uložení jedné nebo několika na sobě nezávislých sekvencí). Dá se tímto způsobem použít, pokud se všechny zapsané sekvence doplní mezerami na stejnou délku (EMBOSS označuje tento formát zkratkou A2M). Mnohem mladší formát používaný k reprezentaci mnoha kratších sekvencí zarovnaných k jedné sekvenci (např. referenčního genomu) známý jako SAM může kromě informací o nukleotidech obsahovat další informace ohledně kvality zarovnání a jeho vlastnostech, které pak lze použít k následnému výběru/filtraci sekvencí.
FASTA:
## >seq_1
## ACGTA-TGATA
## >seq_2
## AGGTATT-AT-
SAM:
## @HD VN:1.5 SO:coordinate
## @SQ SN:ref LN:45
## r1 99 ref 7 30 8M2I4M1D3M = 37 39 TTAGATAAAGGAT *
## r2 0 ref 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGG *
## r3 0 ref 9 30 5S6M * 0 0 GCCTAAGCT * SA:Z:ref,29,-,6H5M,17,0;
DNA sekvence
Uvádíme několik nejznámějších zdrojů DNA sekvencí (uváděné portály obyčejně pokrývají i jiné typy dat, např. proteiny nebo kompletné genomy).
NCBI
Jeden z nejstarších zdrojů s portálem Entrez, který kratší DNA sekvence poskytuje pod hesly “Nucleotide” a “Gene”. Historicky se tento segment dat nazýval GenBank a pamatuje ještě dobu, kdy se k datům přistupovalo zasílaním příkazů e-mailem a výsledky dotazů byly taky uživatelům zasílané e-mailem.
ENSEMBL
Evropský portál podobný obsahem výšeuvedenému portálu NCBI. Sekvence DNA jsou nejčstěji vedeny jako geny s identifikátorem začínajícím písmeny ENSG.
UNIPROT KB
Sbírka proteinových sekvencí. Ty lépe prostudované a anotované jsou součástí sbírky Swiss Prot. Další mnohem větší kolekce aminokyselinových sekvencí TrEMBL pochází z předpovědí kódujících sekvencí ze sekvenovaných genomů. Výběr reprezentativních (referenčních) sekvencí v Uniprot se jmenuje UniRef, např. Uniref50 obsahuje všechny sekvence, které se od sebe liší alespoň rozdílem 50% aminokyselin po zarovnání.
Genomy
Možnosti přistupovat k datům o kompletních genomech obyčejně kromě sekvenčních dat zahrnují i anotační data popisující pozice a intervaly v sekvencích. Anotace může být ve formě anotačních souborů (např. ve formátu GFF3 nebo GenBank), případně i vizuálně formou prohlížeče genomu (genome browser). U lépe studovaných genomů jsou sekvence organizovány do chromozomů, u méně prosekvenovaných genomů se může jednat o fragmenty (contig, scaffold).
NCBI Genome
Many different genomes organized in directories that can be browsed online or via API requests.
EnsemblBacteria
A specialized collection of prokaryotic genomes.
Phytozome
A specialized collection of plant genomes and their annotations (genes, transcripts, repeats). This service required registration but lately lifted this requirement.
UCSC Genome Browser
One of the oldest sources of visual genome anotation data in the form of a browser showing annotations as configurable tracks.
Struktura a funkce proteinů
Structural data are generally more difficult to obtain than sequence data. The resources for structures are therefore also less numerous. PDB (protein data bank) is the oldest resource here.
PDB
A database of macromolecular 3D structures (mostly proteins and their ligands) obtained by the means of X-ray diffractometry or (lately) NMR. Atomic coordinates are the principal type of data allowing visualization of represented molecules.
CATH
This is a derived database based on PDB data, organizing proteins into families and superfamilies based on their structure. CATH stands for Class, Architecture, Topology, and Homology. The top classes are based on the secondary structure composition of collected proteins (mostly alpha, mostly beta, and two classes of mixed).
Gene Ontology
An ontology describing cellular localization and function of “gene products” (aka proteins). The definitions are organized into a hierarchy represented as a directed acyclic graph (ontologies). Nodes of the graphs are associated with specific protein IDs (associations).
KEGG
The Japanese collection of molecular data has long been the goto place for pathway data, definitions and visualizations.
DIP
A database of information on interacting proteins. This data is mostly sourced from yeast two-hybrid experiments.
Organické sloučeniny
PubChem
A database of small and medium-seized organic molecules, wheter biochemical or not.
Dotazování a vyhledávání
Výšeuvedené zdroje bioinformatických dat poskytují většinou vícero možností k prohledávání.
Klíčová slova
Jedná se o klasický způsob hledání záznamů pomoci klíčových slov. Mnohé databáze umožňují spojovat výrazy logickými spojkami AND nebo OR.
NCBI query example:
## "breast cancer" AND "Homo sapiens"[porgn:__txid9606]
Sekvence
Prohledávání sekvenčních sbírek pomoci sekvencí se vesměs opírá o zjišťování lokální podobnosti pomoci algoritmů/programů jako je BLAST nebo BLAT.
Struktura
Prohledávání databází organických molekul je možné i dotazem ve formě molekulové struktury. Jeden ze zajímavých způsobů popisu struktury je jazyk SMILES, který se opírá o některé pravidla vazeb uhlíku a dalších atomů v organických molekulách.
Například řetězec CC(C)C1CCCNCOC1 reprezentuje 7-propan-2-yl-1,3-oxazocane, sloučeninu se vzorcem C9H19NO. Závorky označují místo, kde dochází k větvení uhlíkaté kostry a C1 uhlík, který je v řetězci uveden dvakrát a tímto způsobem definuju cyklickou sloučeninu (kruh je od prvního C1 po jeho opětovný výskyt v řetězci SMILES).
7-propan-2-yl-1,3-oxazocane CC(C)C1CCCNCOC1:
Formáty dat
Individuální sekvence
FASTA
FASTA je historicky jeden z nejstarších způsobů zápisu biologických sekvencí. Jedná se o textový formát pozůstávající z jednořádkové hlavičky a jednoho nebo několika řádků se symboly pro nukleotidy/aminokyseliny.
FASTA sekvence proteinu:
## >gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
## MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
## AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
## QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
## LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK
Symboly v souborech FASTA i některých dalších se zapisují dle pravidel IUPAC:
## symbol nukleotid
## 1 A A
## 2 C C
## 3 G G
## 4 T T
## 5 U U
## 6 N A,C,G,T
## 7 R A,G
## 8 Y C,T
## 9 K G,T
## 10 M A,C
## 11 S C,G
## 12 W A,T
## 13 B C,G,T
## 14 D A,G,T
## 15 H A,C,T
## 16 V A,C,G
## 17 - mezera
## symbol alternativa aminokyselina
## 1 A ALA alanine
## 2 B ASX ASP or ASN
## 3 C CYS cysteine
## 4 D ASP aspartate
## 5 E GLU glutamate
## 6 F PHE phenylalanine
## 7 G GLY glycine
## 8 H HIS histidine
## 9 I ILE isoleucine
## 10 K LYS lysine
## 11 L LEU leucine
## 12 M MET methionine
## 13 N ASN asparagine
## 14 P PRO proline
## 15 Q GLN glutamine
## 16 R ARG arginine
## 17 S SER serine
## 18 T THR threonine
## 19 U selenocysteine
## 20 V VAL valine
## 21 W TRP tryptophan
## 22 Y TYR tyrosine
## 23 Z GLX GLU or GLN
## 24 X A-Y libovolná
## 25 * STOP
## 26 - mezera
FASTQ
Formát, který se používá k zápisu sekvencí DNA nebo RNA ze sekvenátoru. Každá sekvence zabírá v souboru textového formátu 4 řádky, oproti FASTA obsahuje především řádek se zápisem spolehlivosti (pravděpodobnosti chyby) každého nukleotidu, což zvyšuje spolehlivost při dalším zpracování sekvence. Kvalita je zakódovaná do ASCII znaků měnících se vždy po 1/10 log10(P-error).
FASTQ zápis jedné sekvence:
## @SEQ_ID
## GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
## +
## !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
FAST5
SLOW5
Zarovnané sekvence
FASTA/A2M
ALN/CLUSTAL
MSF
STOCKHOLM
Sekvenční grafy
GFA
Variace v sekvencích
CIGAR
VCF
GVF
Anotace sekvencí
GenBank
BED
GFF3
WIG
Fylogenetické stromy
NEWICK
NEXUS
PAUP
PHYLIP
Struktury org. sloučenin
SMILES
Struktura makromolekul (protein/RNA/DNA)
PDB
mCIF
Modely
HMM
SBML
Populární nástroje
BLAST
CLUSTAL
BLAT
MAFFT
BWA/BOWTIE2
VELVET
IGV
MEGA
MEGAN
HMMER
REPEAT MASKER
Online
Resource lists and portals
Learning materials
- An online lecture on public databases.
- A YT video walkthrough of several data sources used in biology and bioinformatics.
References
- ref1
- ref2
Exercises
- Answer this question: What is life?
- Name a data source not mentioned in this text.
Icons in this material provided by Study icons created by Freepik - Flaticon