suppressPackageStartupMessages({
    library(dplyr)
    library(ggplot2)
    library(GGally)
    library(ggfortify)
})
# 국가 정보가 담긴 파일을 읽는다.
nation <- (
    read.delim('nation.txt', header=T, sep='\t', as.is=T,
               fileEncoding='UTF-8', col.names=c('name', 'population', 'area', 'gdp'))
    %>% tbl_df()
    %>% mutate(gdp_per_capita = round(gdp * 100000000 / population, digits=1)) # 1인당 GDP (gdp 필드의 단위는 "억 달러")
)
nation %>% sample_n(5) # 읽은 데이터 샘플 확인
nation %>% filter(name == '대한민국')
# 우선, 값의 분포와 요소 간의 상관관계를 보자.
ggpairs(nation %>% dplyr::select(population, area, gdp, gdp_per_capita))

# 값이 아주 큰 몇몇 국가 때문에 분포 모양이 늘어지니까, 요소값에 로그를 취해준다.
nation <- (
    nation
    %>% mutate(population_l     = log(1+population),
               area_l           = log(1+area),
               gdp_l            = log(1+gdp),
               gdp_per_capita_l = log(1+gdp_per_capita)
               )
)
ggpairs(nation2 %>% dplyr::select(population_l, area_l, gdp_l, gdp_per_capita_l))