데이터 시각화1

2024. 9. 3. 20:35확률 통계/R 데이터 분석

데이터 시각화 기법

트리맵

  • 사각 타일로 구성되어서 크기와 색을 통해서 정보를 구분한다. 
  • 타일들은 계층 구조로도 되어 있기 때문에 데이터에 존재하는 계층 구조로도 표현할 수 있다.

GNI2014 사용하기

  • GNI, 즉 국민 총소득을 보여주는 데이터셋으로 이를 일단 treemap을 작성하기 위해서는 treemap패키지부터 설치해줘야 한다.

1. packages에 들어가서 install 버튼 클릭
2. treemap을입력하여서 설치해준다.

  • 설치가 끝났다면 다음과 같이 코드를 입력해 준다.
library(treemap)
data(GNI2014)
head(GNI2014)
treemap(GNI2014,
        index = c("continent","iso3"),
        vSize="population",
        vColor = "GNI",
        type="value",
        title="World's GNI")
> head(GNI2014)
  iso3          country     continent population    GNI
3  BMU          Bermuda North America      67837 106140
4  NOR           Norway        Europe    4676305 103630
5  QAT            Qatar          Asia     833285  92200
6  CHE      Switzerland        Europe    7604467  88120
7  MAC Macao SAR, China          Asia     559846  76270
8  LUX       Luxembourg        Europe     491775  75990

결과

  • index: 계층 구조를 설정해 주는데, 여기에서는 continent를 첫 번째 기준으로 하여서 Asia, Africa와 같이 분류하고 그다음으로 iso3(국가별 표준 코드)로 국가들을 분류해 준다. 
cf) 계층별 분류를 하는 경우에서 기준으로 하는 변수들의 순서도 조심해야 한다.
아래와 같은 경우는 iso3를 첫 번째 기준으로 하고 두 번째를 continent로 기준으로 하였을 때 도출되는 결과이다.
library(treemap)
data(GNI2014)
treemap(GNI2014,
        index = c("iso3","continent"),
        vSize="population",
        vColor = "GNI",
        type="value",
        title="World's GNI")

결과

  • vSize: 타일의 크기를 의미한다.
  • vColor: 타일의 컬러를 의미한다.
  • type: 타일을 컬러링 하는 방식으로 index, comp, dens 등으로도 지정할 수 있다.

state.x77 데이터셋으로 트리맵 작성하기

library(treemap)
x<-data.frame(state.x77)
x<-data.frame(x,stname=rownames(x))
treemap(x,
        index=c("stname"),
        vSize="Area",
        vColor="Income",
        type="value",
        title="USA states area and income")

결과

버블 차트

  • 산점도 위에 버블의 크기를 통해서 정보를 표시하는 시각화 기법이다.
x<-data.frame(state.x77)
symbols(x$Illiteracy, x$Murder,
        circles = x$Population,
        inches = 0.3,
        fg="white",
        bg="lightgray",
        lwd=1.5,
        ylab="rate of Illiteracy",
        xlab="crime(murder) rate",
        main="Illiteracy and Crime")
text(x$Illiteracy,x$Murder,
     rownames(x),
     cex=0.6,
     col="brown")

결과

  • 버블 차트는 symbols와 text로 이루어져 있다.

sybols

  • x축은 문맹룰, y축은 범죄율을 의미한다.
  • circles: 원의 크기를 결정한다.
  • inches: 원의 크기를 조절한다. 
  • fg는 테두리의 선, bg는 바탕의 색을 의미한다.
  • lwd: 원의 테두리 선의 두께를 지정한다.
  • xlab과 ylab은 각각 x축, y축의 레이블을 지정한다.

text

  • rownames:  각 원의 이름을 입력해 준다.
  • cex: 텍스트의 크기를 의미한다.

모자이크 플롯

  • 다중 변수에 대한 그룹별로 비율을 면적으로 표시여 전달해 준다.
mosaicplot(~gear+vs, data=mtcars, color=c("green","blue"),main="Gear and Vs")

결과

  • mosaicplot: 모자이크 플롯을 작성해 주는 함수이다. 
  • ~gear+vs: ~다음에 변수를 지정해 주는데, gear를 x축에, vs를 y축에 표시한다.
  • color: 여기에서는 col이 아니라 color를 사용하여서 색상을 지정해 준다.

'확률 통계 > R 데이터 분석' 카테고리의 다른 글

차원 축소  (1) 2024.09.08
ggplot 패키지  (0) 2024.09.05
데이터 전처리  (1) 2024.09.02
자료의 탐색  (0) 2024.09.01
다중변수 자료의 탐색  (0) 2024.08.30