Pokracujeme v praci s viacrozmernymi datami “cars” z minuleho tyzdna. Cielom je zoznamit sa s moznostou upravy dat pomocou balickov prostredia tidyverse a vizualizacie v ggplot.

Ak Vam budu pri praci chybat nejake balicky v R, mali by ste byt schopni si ich nainstalovat prikazom install.packages()“. Budu instalovane vo Vasom domovskom adresari.

Pokial nemate uchovanu historiu z minuleho tyzdna:

cardata <- read.table("data/cars.data")
names(cardata) <- c("mpg","cylinders","displacement","horsepower","weight","acceleration","model.year","origin")
carnames <- read.table("data/cars.names")
names(carnames) <- c("name")
cars <- data.frame(c(carnames,cardata))

Len velmi povrchne sa zoznamime s moznostami upravy dat pred vizualizaciou. K tomu posluzia funkcie a balicky zo sady balickov “tidyverse”, hlavne tidyr a dplyr.

Upravime do 3.normalnej formy data v subore le_mess.csv. read_csv() z readr posluzi k nacitaniu dat, operator %>% z tidyr k retazeniu prikazov, funkcia gather() zas k reorganizacii premmennych zo stlpcov do novej tabulky (data frame).

library(readr)
life_exp_df <- read_csv("data/le_mess.csv")
## Parsed with column specification:
## cols(
##   .default = col_double(),
##   country = col_character()
## )
## See spec(...) for full column specifications.
View(life_exp_df)
library(tidyr)
library(dplyr)
life_exp_tidy <- life_exp_df %>% gather(key = "year", value = "life_exp", -country)
View(life_exp_tidy)

Nastudujte material R for Data Science z osnovy, cast Tidy data a vyrieste cvicenie 12.6.4

Naucite sa pouzivat graficke prikazy z balika ggplot2. Vizualizacia dat v nom vychadza z principov grafickej gramatiky (Grammar of Graphics). Tato rozdeluje rozhodovanie o konecnej podobe grafickeho vystupu na pracu s relativne nezavislymi zlozkami ako su priestor, graficke znacky a mapovanie ich vlastnosti na data.

Porovnajte klasicky vystup s pouzitim systemu grid

plot(cars$model.year, cars$mpg)

a obdobny prikaz v ggplot2

library(ggplot2)
quickplot(data=cars, model.year,mpg)
## Warning: Removed 8 rows containing missing values (geom_point).

Obdobny prikaz s pouzitim plnej vyjadrovacej sily je

g <- ggplot(cars, aes(x=model.year,y=mpg))
g + geom_point()
## Warning: Removed 8 rows containing missing values (geom_point).

Vsimnite si ake jednoduche je zmenit typ vizualizacie

g + stat_summary(geom="area")
## Warning: Removed 8 rows containing non-finite values (stat_summary).
## No summary function supplied, defaulting to `mean_se()

V tejto chvili experimentujte s dalsimi moznostami, ktore balicek ggplot2 poskytuje.