Bioinformatická data

Veřejné zdroje dat

Velké množství bioinformatických dat je shromážďováno historicky ve veřejně přístupných databázích, podporovaných výzkumnými institucemi, grantovými agenturami a příspěvky mnoha jednotlivců. V dnešní době jsou zpravidla přístupné přes specializované portály přístupné na internetu a uživatelská rozhraní (API).

reading Public data sources with APIs:

resource url api
NCBI http://www.ncbi.nlm.nih.gov/ REST | FTP | SRA-TOOLKIT
e!Ensembl! http://www.ensembl.org/index.html REST
PubChem https://pubchem.ncbi.nlm.nih.gov/ REST | SOAP

Se zdroji dat úzce souvisí zaužívané formáty dat, ve kterých se tyto data dál šíří a používají jako vstupní data pro celou plejádu bioinformatických nástrojů. Zatímco v minulosti tyto formáty byl poměrně volně definovány a strukturovány, současný trend přeje formálně i semanticky složitějším datovým strukturám.

note Například k nejstarším způsobům reprezentace několika k sobě zarovnaných sekvencí patří formát FASTA (používaný častěji pro uložení jedné nebo několika na sobě nezávislých sekvencí). Dá se tímto způsobem použít, pokud se všechny zapsané sekvence doplní mezerami na stejnou délku (EMBOSS označuje tento formát zkratkou A2M). Mnohem mladší formát používaný k reprezentaci mnoha kratších sekvencí zarovnaných k jedné sekvenci (např. referenčního genomu) známý jako SAM může kromě informací o nukleotidech obsahovat další informace ohledně kvality zarovnání a jeho vlastnostech, které pak lze použít k následnému výběru/filtraci sekvencí.

FASTA:

## >seq_1
## ACGTA-TGATA
## >seq_2
## AGGTATT-AT-

SAM:

## @HD VN:1.5 SO:coordinate
## @SQ SN:ref LN:45
## r1   99 ref  7 30 8M2I4M1D3M = 37  39 TTAGATAAAGGAT *
## r2    0 ref  9 30 3S6M1P1I4M *  0   0 AAAAGATAAGG   *
## r3    0 ref  9 30 5S6M       *  0   0 GCCTAAGCT     * SA:Z:ref,29,-,6H5M,17,0;

DNA sekvence

Uvádíme několik nejznámějších zdrojů DNA sekvencí (uváděné portály obyčejně pokrývají i jiné typy dat, např. proteiny nebo kompletné genomy).

NCBI

Jeden z nejstarších zdrojů s portálem Entrez, který kratší DNA sekvence poskytuje pod hesly “Nucleotide” a “Gene”. Historicky se tento segment dat nazýval GenBank a pamatuje ještě dobu, kdy se k datům přistupovalo zasílaním příkazů e-mailem a výsledky dotazů byly taky uživatelům zasílané e-mailem.

ENSEMBL

Evropský portál podobný obsahem výšeuvedenému portálu NCBI. Sekvence DNA jsou nejčstěji vedeny jako geny s identifikátorem začínajícím písmeny ENSG.

UNIPROT KB

Sbírka proteinových sekvencí. Ty lépe prostudované a anotované jsou součástí sbírky Swiss Prot. Další mnohem větší kolekce aminokyselinových sekvencí TrEMBL pochází z předpovědí kódujících sekvencí ze sekvenovaných genomů. Výběr reprezentativních (referenčních) sekvencí v Uniprot se jmenuje UniRef, např. Uniref50 obsahuje všechny sekvence, které se od sebe liší alespoň rozdílem 50% aminokyselin po zarovnání.

SRA/ENA

Tyto sbírky jsou nejnovější reakcí na prudký nárůst získaných sekvencí DNA díky nástupu genomiky a masivně paralelnímu sekvenování biologického materiálu technikami NGS (next-generation sequencing). Získat se z nich dají celé sekvenační experimenty, většinou jako soubory ve formátu FASTQ.

Genomy

Možnosti přistupovat k datům o kompletních genomech obyčejně kromě sekvenčních dat zahrnují i anotační data popisující pozice a intervaly v sekvencích. Anotace může být ve formě anotačních souborů (např. ve formátu GFF3 nebo GenBank), případně i vizuálně formou prohlížeče genomu (genome browser). U lépe studovaných genomů jsou sekvence organizovány do chromozomů, u méně prosekvenovaných genomů se může jednat o fragmenty (contig, scaffold).

NCBI Genome

Many different genomes organized in directories that can be browsed online or via API requests.

EnsemblBacteria

A specialized collection of prokaryotic genomes.

Phytozome

A specialized collection of plant genomes and their annotations (genes, transcripts, repeats). This service required registration but lately lifted this requirement.

UCSC Genome Browser

One of the oldest sources of visual genome anotation data in the form of a browser showing annotations as configurable tracks.

Struktura a funkce proteinů

Structural data are generally more difficult to obtain than sequence data. The resources for structures are therefore also less numerous. PDB (protein data bank) is the oldest resource here.

PDB

A database of macromolecular 3D structures (mostly proteins and their ligands) obtained by the means of X-ray diffractometry or (lately) NMR. Atomic coordinates are the principal type of data allowing visualization of represented molecules.

CATH

This is a derived database based on PDB data, organizing proteins into families and superfamilies based on their structure. CATH stands for Class, Architecture, Topology, and Homology. The top classes are based on the secondary structure composition of collected proteins (mostly alpha, mostly beta, and two classes of mixed).

Gene Ontology

An ontology describing cellular localization and function of “gene products” (aka proteins). The definitions are organized into a hierarchy represented as a directed acyclic graph (ontologies). Nodes of the graphs are associated with specific protein IDs (associations).

KEGG

The Japanese collection of molecular data has long been the goto place for pathway data, definitions and visualizations.

DIP

A database of information on interacting proteins. This data is mostly sourced from yeast two-hybrid experiments.

Organické sloučeniny

PubChem

A database of small and medium-seized organic molecules, wheter biochemical or not.

Dotazování a vyhledávání

Výšeuvedené zdroje bioinformatických dat poskytují většinou vícero možností k prohledávání.

Klíčová slova

Jedná se o klasický způsob hledání záznamů pomoci klíčových slov. Mnohé databáze umožňují spojovat výrazy logickými spojkami AND nebo OR.

NCBI query example:

## "breast cancer" AND "Homo sapiens"[porgn:__txid9606]

Sekvence

Prohledávání sekvenčních sbírek pomoci sekvencí se vesměs opírá o zjišťování lokální podobnosti pomoci algoritmů/programů jako je BLAST nebo BLAT.

Struktura

Prohledávání databází organických molekul je možné i dotazem ve formě molekulové struktury. Jeden ze zajímavých způsobů popisu struktury je jazyk SMILES, který se opírá o některé pravidla vazeb uhlíku a dalších atomů v organických molekulách.

note Například řetězec CC(C)C1CCCNCOC1 reprezentuje 7-propan-2-yl-1,3-oxazocane, sloučeninu se vzorcem C9H19NO. Závorky označují místo, kde dochází k větvení uhlíkaté kostry a C1 uhlík, který je v řetězci uveden dvakrát a tímto způsobem definuju cyklickou sloučeninu (kruh je od prvního C1 po jeho opětovný výskyt v řetězci SMILES).

7-propan-2-yl-1,3-oxazocane CC(C)C1CCCNCOC1: note

Formáty dat

Individuální sekvence

FASTA

FASTA je historicky jeden z nejstarších způsobů zápisu biologických sekvencí. Jedná se o textový formát pozůstávající z jednořádkové hlavičky a jednoho nebo několika řádků se symboly pro nukleotidy/aminokyseliny.

FASTA sekvence proteinu:

## >gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
## MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
## AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
## QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
## LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK

note Symboly v souborech FASTA i některých dalších se zapisují dle pravidel IUPAC:

##    symbol nukleotid
## 1       A         A
## 2       C         C
## 3       G         G
## 4       T         T
## 5       U         U
## 6       N   A,C,G,T
## 7       R       A,G
## 8       Y       C,T
## 9       K       G,T
## 10      M       A,C
## 11      S       C,G
## 12      W       A,T
## 13      B     C,G,T
## 14      D     A,G,T
## 15      H     A,C,T
## 16      V     A,C,G
## 17      -    mezera
##    symbol alternativa  aminokyselina
## 1       A         ALA        alanine
## 2       B         ASX     ASP or ASN
## 3       C         CYS       cysteine
## 4       D         ASP      aspartate
## 5       E         GLU      glutamate
## 6       F         PHE  phenylalanine
## 7       G         GLY        glycine
## 8       H         HIS      histidine
## 9       I         ILE     isoleucine
## 10      K         LYS         lysine
## 11      L         LEU        leucine
## 12      M         MET     methionine
## 13      N         ASN     asparagine
## 14      P         PRO        proline
## 15      Q         GLN      glutamine
## 16      R         ARG       arginine
## 17      S         SER         serine
## 18      T         THR      threonine
## 19      U             selenocysteine
## 20      V         VAL         valine
## 21      W         TRP     tryptophan
## 22      Y         TYR       tyrosine
## 23      Z         GLX     GLU or GLN
## 24      X         A-Y      libovolná
## 25      *                       STOP
## 26      -                     mezera

FASTQ

Formát, který se používá k zápisu sekvencí DNA nebo RNA ze sekvenátoru. Každá sekvence zabírá v souboru textového formátu 4 řádky, oproti FASTA obsahuje především řádek se zápisem spolehlivosti (pravděpodobnosti chyby) každého nukleotidu, což zvyšuje spolehlivost při dalším zpracování sekvence. Kvalita je zakódovaná do ASCII znaků měnících se vždy po 1/10 log10(P-error).

FASTQ zápis jedné sekvence:

## @SEQ_ID
## GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
## +
## !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

FAST5

SLOW5

Zarovnané sekvence

FASTA/A2M

ALN/CLUSTAL

MSF

STOCKHOLM

Sekvenční grafy

GFA

Variace v sekvencích

CIGAR

VCF

GVF

Anotace sekvencí

GenBank

BED

GFF3

WIG

Fylogenetické stromy

NEWICK

NEXUS

PAUP

PHYLIP

Struktury org. sloučenin

SMILES

Struktura makromolekul (protein/RNA/DNA)

PDB

mCIF

Modely

HMM

SBML

Populární nástroje

BLAST

CLUSTAL

BLAT

MAFFT

BWA/BOWTIE2

VELVET

IGV

MEGA

MEGAN

HMMER

REPEAT MASKER

Online

Resource lists and portals

Learning materials

online

online

  1. An online lecture on public databases.
  2. A YT video walkthrough of several data sources used in biology and bioinformatics.

References

references

references

  1. ref1
  2. ref2

Exercises

exercise

exercise

  1. Answer this question: What is life?
  2. Name a data source not mentioned in this text.

Icons in this material provided by Study icons created by Freepik - Flaticon