데이터 시각화1
2024. 9. 3. 20:35ㆍ확률 통계/R 데이터 분석
데이터 시각화 기법
트리맵
- 사각 타일로 구성되어서 크기와 색을 통해서 정보를 구분한다.
- 타일들은 계층 구조로도 되어 있기 때문에 데이터에 존재하는 계층 구조로도 표현할 수 있다.
GNI2014 사용하기
- GNI, 즉 국민 총소득을 보여주는 데이터셋으로 이를 일단 treemap을 작성하기 위해서는 treemap패키지부터 설치해줘야 한다.


- 설치가 끝났다면 다음과 같이 코드를 입력해 준다.
library(treemap)
data(GNI2014)
head(GNI2014)
treemap(GNI2014,
index = c("continent","iso3"),
vSize="population",
vColor = "GNI",
type="value",
title="World's GNI")
> head(GNI2014)
iso3 country continent population GNI
3 BMU Bermuda North America 67837 106140
4 NOR Norway Europe 4676305 103630
5 QAT Qatar Asia 833285 92200
6 CHE Switzerland Europe 7604467 88120
7 MAC Macao SAR, China Asia 559846 76270
8 LUX Luxembourg Europe 491775 75990

- index: 계층 구조를 설정해 주는데, 여기에서는 continent를 첫 번째 기준으로 하여서 Asia, Africa와 같이 분류하고 그다음으로 iso3(국가별 표준 코드)로 국가들을 분류해 준다.
cf) 계층별 분류를 하는 경우에서 기준으로 하는 변수들의 순서도 조심해야 한다.
아래와 같은 경우는 iso3를 첫 번째 기준으로 하고 두 번째를 continent로 기준으로 하였을 때 도출되는 결과이다.
library(treemap)
data(GNI2014)
treemap(GNI2014,
index = c("iso3","continent"),
vSize="population",
vColor = "GNI",
type="value",
title="World's GNI")

- vSize: 타일의 크기를 의미한다.
- vColor: 타일의 컬러를 의미한다.
- type: 타일을 컬러링 하는 방식으로 index, comp, dens 등으로도 지정할 수 있다.
state.x77 데이터셋으로 트리맵 작성하기
library(treemap)
x<-data.frame(state.x77)
x<-data.frame(x,stname=rownames(x))
treemap(x,
index=c("stname"),
vSize="Area",
vColor="Income",
type="value",
title="USA states area and income")

버블 차트
- 산점도 위에 버블의 크기를 통해서 정보를 표시하는 시각화 기법이다.
x<-data.frame(state.x77)
symbols(x$Illiteracy, x$Murder,
circles = x$Population,
inches = 0.3,
fg="white",
bg="lightgray",
lwd=1.5,
ylab="rate of Illiteracy",
xlab="crime(murder) rate",
main="Illiteracy and Crime")
text(x$Illiteracy,x$Murder,
rownames(x),
cex=0.6,
col="brown")

- 버블 차트는 symbols와 text로 이루어져 있다.
sybols
- x축은 문맹룰, y축은 범죄율을 의미한다.
- circles: 원의 크기를 결정한다.
- inches: 원의 크기를 조절한다.
- fg는 테두리의 선, bg는 바탕의 색을 의미한다.
- lwd: 원의 테두리 선의 두께를 지정한다.
- xlab과 ylab은 각각 x축, y축의 레이블을 지정한다.
text
- rownames: 각 원의 이름을 입력해 준다.
- cex: 텍스트의 크기를 의미한다.
모자이크 플롯
- 다중 변수에 대한 그룹별로 비율을 면적으로 표시여 전달해 준다.
mosaicplot(~gear+vs, data=mtcars, color=c("green","blue"),main="Gear and Vs")

- mosaicplot: 모자이크 플롯을 작성해 주는 함수이다.
- ~gear+vs: ~다음에 변수를 지정해 주는데, gear를 x축에, vs를 y축에 표시한다.
- color: 여기에서는 col이 아니라 color를 사용하여서 색상을 지정해 준다.
'확률 통계 > R 데이터 분석' 카테고리의 다른 글
| 차원 축소 (1) | 2024.09.08 |
|---|---|
| ggplot 패키지 (0) | 2024.09.05 |
| 데이터 전처리 (1) | 2024.09.02 |
| 자료의 탐색 (0) | 2024.09.01 |
| 다중변수 자료의 탐색 (0) | 2024.08.30 |