User Tools

Site Tools


day2_practice3

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

day2_practice3 [2017/12/12 11:53] (current)
hyjeong created
Line 1: Line 1:
 +   
 +  anscombe 
 +  apply(anscombe,​2,​mean) 
 +  apply(anscombe,​2,​sd) 
 +  cor(anscombe) 
 +   
 +  attach(anscombe) 
 +  cal_corr = c(cor(x1,​y1),​cor(x2,​y2),​cor(x3,​y3),​cor(x4,​y4)) 
 +  names(cal_corr) = paste(paste("​x",​1:​4,​sep=''​),​paste("​y",​1:​4,​sep=''​),​sep='​ vs. ') 
 +  cal_corr 
 +   
 +  res = list() 
 +  res[[1]] = lm(y1~x1) 
 +  res[[2]] = lm(y2~x2) 
 +  res[[3]] = lm(y3~x3) 
 +  res[[4]] = lm(y4~x4) 
 +  summ = matrix(0,​4,​4) 
 +  cname = paste(paste("​x",​1:​4,​sep=''​),​paste("​y",​1:​4,​sep=''​),​sep='​ vs. ') 
 +  colnames(summ) = cname 
 +  rownames(summ) = c("​estimated beta0",​ "​estmated beta1","​estiamted error variance","​R-squre"​) 
 +  for(i in 1:4) 
 +  { 
 +    temp = summary(res[[i]]) 
 +    summ[1:2,i] = temp[[4]][1:​2,​1] 
 +    summ[3,i] = temp[[6]] 
 +    summ[4,i] = temp[[8]] 
 +  } 
 +  summ 
 +   
 +   
 +  #x11() 
 +  #​par(mfrow=c(2,​2)) 
 +  for(i in 1:4) 
 +  { 
 +    plot(anscombe[,​i],​anscombe[,​i+4],​pch=16,​col=2,​main=cname[i],​ 
 +         ​xlab=paste("​x",​i,​sep=''​),​ 
 +         ​ylab=paste("​y",​i,​sep=''​),​ 
 +         ​xlim=c(4,​20),​ylim=c(3,​13)) 
 +    abline(summ[1:​2,​i],​col=4,​lwd=2) 
 +     
 +  } 
 +   
 +   
 +  # ggplot2 
 +  library(ggplot2) 
 +   
 +  head(mtcars) 
 +   
 +  p <- ggplot(mtcars,​ aes(wt, mpg, color=cyl)) 
 +  p <- p + geom_point() 
 +  p # print(p) 
 +   
 +  attributes(p) 
 +   
 +  p$data 
 +  p$layers 
 +  p$scales 
 +  p$mapping 
 +  p$theme 
 +  p$coordinate 
 +  p$facet 
 +  p$plot_env 
 +  p$labels 
 +   
 +  summary(p) 
 +   
 +  p <- ggplot(mtcars,​ aes(factor(cyl),​ fill=factor(cyl))) 
 +  p <- p + geom_bar(width=.5) 
 +  p <- p + facet_grid(. ~ gear) 
 +  p 
 +   
 +   
 +  # aes 
 +  p <- ggplot(data=iris,​aes(x=Sepal.Length,​ y=Sepal.Width)) 
 +  p + geom_point(aes(color=Species)) 
 +   
 +  p <- ggplot(data=iris) 
 +  p <- p + xlab("​Length"​) + ylab("​Width"​) 
 +  p <- p + geom_point(mapping= 
 +                        aes(x=Sepal.Length,​ y=Sepal.Width),​ colour="​blue",​ pch=19) 
 +  p <- p + geom_point(mapping= 
 +                        aes(x=Petal.Length,​ y=Petal.Width),​ colour="​red",​ pch=17) 
 +  p 
 +   
 +   
 +   
 +   
 +  summary(p) 
 +   
 +  p <- ggplot(data=mtcars,​ aes(x=wt, y=mpg)) 
 +  p = p + geom_point(colour="​orange",​ size=6) 
 +  p 
 +   
 +  p <- ggplot(data=mtcars,​ aes(x=wt, y=mpg)) 
 +  p = p + geom_point(aes(colour=cyl,​ size=gear)) 
 +  p 
 +   
 +   
 +  #​geom_line 
 +  x11() 
 +  p <- ggplot(data=mtcars,​ aes(x=wt, y=mpg)) 
 +  p + geom_line() 
 +  x11() 
 +  p2 <- ggplot(data=mtcars,​ aes(x=wt, y=mpg)) 
 +  p2 + geom_line(aes(x=wt,​ y=mpg),​linetype=2,​size=2,​color=2) 
 +   
 +   
 +  # geom_abline 
 +  mw_coef = coef(lm(mpg~wt,​mtcars)) 
 +  p <- ggplot(data=mtcars,​ aes(x=wt, y=mpg)) 
 +  p <- p + xlim(1, 5) + ylim(10, 35) + geom_point() 
 +  p + geom_abline(intercept = mw_coef[1], slope = mw_coef[2],​color=4) 
 +  p + geom_vline(xintercept = 3,color=2) + 
 +    geom_hline(yintercept = 20,​color=2) 
 +   
 +  # geom_abline 
 +  p <- ggplot(data=mtcars,​ aes(x=wt, y=mpg)) 
 +  p = p + geom_point() 
 +  p + geom_smooth() 
 +  p + geom_smooth(aes(linetype=factor(cyl))) 
 +   
 +   
 +  # geom_bar 
 +  p <- ggplot(data=mtcars,​ aes(factor(cyl))) 
 +  p + geom_bar(fill="​steelblue",​color='​black'​) 
 +  p + geom_bar(aes(fill=factor(gear)),​color='​black'​) 
 +   
 +  # geom_area 
 +   
 +  huron <- data.frame(year = 1875:1972, level = as.vector(LakeHuron)) 
 +  p = ggplot(data=huron,​ aes(x=year,​y=level)) 
 +  p + geom_area() 
 +  p + geom_area(fill='​steelblue'​) + 
 +    coord_cartesian(ylim=c(min(huron$level)-2,​max(huron$level)+2)) 
 +   
 +  p = ggplot(data=huron,​  
 +             ​aes(x=year,​y=level,​ 
 +                 ​ymin=huron$level-2,​ 
 +                 ​ymax=huron$level+2)) 
 +  p + geom_ribbon(fill='​steelblue'​) 
 +   
 +   
 +  # geom_boxplot 
 +   
 +  p <- ggplot(mtcars,​ aes(factor(cyl),​ mpg)) 
 +  p + geom_boxplot() 
 +  p + geom_boxplot(aes(fill=factor(carb))) 
 +   
 +  # geom_histogram 
 +  movies = read.csv(file='​movies.csv',​header=T) 
 +  head(movies) 
 +  dim(movies) 
 +  p <- ggplot(data=movies,​ aes(x=rating)) 
 +  p + geom_histogram() 
 +  p + geom_histogram(binwidth=1) 
 +  p + geom_histogram(binwidth=1,​ 
 +                     ​aes(y=..density..,​ fill=..count..)) + 
 +    geom_density(color='​red'​) + 
 +    scale_fill_gradient(low='​white',​high='#​496ff5'​) 
 +   
 +  # geom_density 
 +  p <- ggplot(movies,​ aes(x = rating)) 
 +  p + geom_density() 
 +  p + geom_density(aes(fill=factor(mpaa)),​ alpha=0.25) 
 +   
 +  # geom_text 
 +   
 +  p <- ggplot(mtcars,​  
 +              aes(x=wt, y=mpg,  
 +                  label=rownames(mtcars))) 
 +  p <- p + geom_point() 
 +  p + geom_text(aes(x=wt+0.05,​  
 +                    color=factor(cyl)),​size=5) 
 +   
 +  library(reshape2) 
 +  library(mapproj) 
 +  library(maps) 
 +  crimes <- data.frame(state = tolower(rownames(USArrests)),​ USArrests) 
 +  head(crimes) 
 +   
 +  states_map <- map_data("​state"​) 
 +  head(states_map) 
 +   
 +  p <- ggplot(crimes,​ aes(map_id=state)) 
 +  p <- p + geom_map(aes(fill=Murder),​ map=states_map) 
 +  p <- p + expand_limits(x=states_map$long,​ y=states_map$lat) 
 +  p + coord_map() 
 +   
 +  #ECDF  
 +  df <- data.frame(x = c(rnorm(100,​ 0, 2),​rnorm(100,​ 1, 4)), g = gl(2, 100)) 
 +  p <- ggplot(df, aes(x, color = g)) 
 +  p + stat_ecdf() 
 +  p + stat_ecdf(geom="​line",​ size=1) 
 +   
 +  # stat_function 
 +   
 +  dat <- data.frame(x = rnorm(100)) 
 +  p <- ggplot(dat, aes(x = x)) 
 +  p <- p + geom_density(fill = "​green",​ 
 +                        alpha = 0.15) 
 +  p + stat_function(fun = dnorm,  
 +                    color = "​red",​ fill="​red",​  
 +                    alpha=0.15, geom="​area"​) 
 +   
 +  # coord_cartesian 
 +   
 +  p <- ggplot(data=mtcars,​ aes(x=disp, y=wt)) 
 +  p <- p + geom_smooth() 
 +  p 
 +  p + coord_cartesian(xlim=c(325,​ 500), ylim=c(3,​6)) 
 +   
 +  #​coord_flip 
 +  p <- ggplot(mtcars,​  
 +              aes(factor(cyl),​ mpg)) 
 +  p + geom_boxplot() + 
 +    coord_flip() 
 +   
 +  p <- ggplot(mtcars,​  
 +              aes(factor(cyl))) 
 +  p + geom_bar(fill="​steelblue",​ 
 +               ​color='​black'​) + 
 +    coord_flip() 
 +   
 +  # coord_fixed() 
 +   
 +  x <- c(500, 350, 700, 600, 400) 
 +  y <- c(10, 20, 30, 30, 20) 
 +  dat <- data.frame(x,​ y) 
 +  p <- ggplot(data=dat,​ aes(x=x, y=y)) 
 +  p <- p + geom_point(size=5) 
 +  p 
 +  p + coord_fixed(ratio=1) 
 +   
 +  # coord_map 
 +   
 +  library(maps) 
 +  world <- map_data("​world"​) 
 +  head(world) 
 +  korea <- world[grep("​Korea$",​ world$region),​] 
 +  head(korea) 
 +  p <- ggplot(korea,​ aes(x=long, y=lat, group=group)) 
 +  p <- p + geom_polygon(fill="​white",​ colour="​black"​) 
 +  p 
 +  p + coord_fixed(ratio=1) 
 +   
 +  #​coord_trans 
 +  p <- ggplot(data=diamonds,​  
 +              aes(x=carat,​ y=price, colour=factor(cut))) 
 +  p <- p + geom_point() 
 +  p 
 +  p + coord_trans(x = "​log10",​ y = "​log10"​) 
 +   
 +  # gg map 
 +  library(ggmap) 
 +  lon = 126.653 
 +  lat = 37.45 
 +  map = get_googlemap("​Incheon",​zoom=12,​maptype="​roadmap",​ 
 +                      markers=data.frame(lon,​lat)) 
 +  ggmap(map) 
 +   
 +  # get_map 
 +  food = read.csv(file='​food.csv',​header=T) 
 +  head(food) 
 +  loc = geocode("​Incheon"​) 
 +  loc = as.numeric(loc) 
 +  loc = c(lon,​lat) 
 +  map = get_map(loc,​zoom=13,​maptype='​satellite'​) 
 +  p = ggmap(map, extent='​device'​) +  
 +    geom_point( 
 +      aes(x=Lon,​y=Lat,​size=Rating,​fill=Rating),​ 
 +      alpha=0.6,​pch=21,​data=food) + 
 +    scale_size(range=c(0,​10)) + 
 +    geom_text(aes(x=Lon+0.001,​y=Lat+0.001,​ 
 +                  label=Name),​color="​white",​size=5,​data=food) 
 +  p 
 +   
 +   
 +  # Wordcloud in R 
 +   
 +  #​install.packages(c('​tm',​ '​SnowballC',​ '​wordcloud'​)) 
 +  library(tm) 
 +  library(SnowballC) 
 +  library(wordcloud) 
 +   
 +  jeopQ <- read.csv('​JEOPARDY_CSV.csv',​ stringsAsFactors = FALSE)  
 +   
 +  ### Data Cleaning 
 +  jeopCorpus <- Corpus(VectorSource(jeopQ$Question)) 
 +  jeopCorpus <- tm_map(jeopCorpus,​ removePunctuation) ## . , ? ! () 
 +  jeopCorpus <- tm_map(jeopCorpus,​ removeWords,​  
 +                       ​c("​the",​ "​this",​ "​The",​ "​This",​ stopwords('​english'​))) 
 +  ## stopwords("​en"​) 
 +  jeopCorpus <- tm_map(jeopCorpus,​ stemDocument) ​ ## went -> go 
 +   
 +  wordcloud(jeopCorpus,​ max.words = 100, random.order = FALSE)  
 +   
 +  ​
day2_practice3.txt · Last modified: 2017/12/12 11:53 by hyjeong