R(14)
-
확률 활용
확률의 개념sample 함수를 활용한 랜덤 샘플링replace=T: 반복 선택 가능sample(1:20, 10) #1~20 까지의 숫자에서 10개를 랜덤 선택해줌> sample(1:20, 10) [1] 20 1 6 16 9 17 15 12 8 3sample(1:20, 10, replace=T)> sample(1:20, 10, replace=T) [1] 6 5 6 18 17 2 8 20 12 8백터 형식으로 문자를 저장하여서 샘플링하는 것도 가능sample(c("H","T"),10,replace=T)> sample(c("H","T"),10,replace=T) [1] "T" "T" "H" "H" "T" "T" "H" "H" "H" "T"주사위 두개를 동시에 던지는 경우도 다음과 같이 저장..
2024.10.06 -
지도와 데이터
구글맵 이용 준비구글 맵 사용을 위한 준비 절차R을 최신 버전으로 설치해 주기ggplot2를 최신 버전으로 업데이트ggmap 패키지를 설치구글맵 사용을 위해 API키를 얻는다.R 최선 버전으로 설치하기Tools-Global Options로 순서대로 들어간 뒤 General 항목에서 R version: 에서 R의 버전을 바꾼 다음 Change 버튼을 클릭하여 새로 설치한 버전으로 변경해 준다.ggplot2 패키지 업데이트하기Packages에서 ggplot2 패키지를 검색해 주고 ggplot2를 체크해 주고 Update를 눌러준다.ggmap 패키지 설치Packages-Install에 들어간 뒤에 ggmap을 입력해 주고 Install버튼을 눌러서 설치해 준다.특정 지역의 지도 보기지도 보기library(gg..
2024.09.09 -
차원 축소
차원 축소의 개념보통 1차원 2차원 정도면 적절하게 그래프를 작성할 수 있지만 4차원 데이터의 경우에는 변수가 너무 많기 때문에 그래프를 그리는 데에 문제가 발생한다.이를 해결하기 위해서 사용하는 방법 중 하나는 차원 축소이다.차원 축소(dimension reduction): 고차 데이터를 2,3차 정도의 데이터로 축소하는 방법을 의미한다. 차원 축소하기R에서는 차원을 낮추고 산점도로 작성하기 위해서 t-sne라고 알려진 방법을 사용하면 된다.이 방법을 사용하기 위해서는 Rtsne 패키지를 설치해주어야 한다.4차원 데이터를 2차원 산점도로 작성하기library(Rtsne)library(ggplot2)xx y=which(duplicated(x)): y에는 중복되는 데이터, 즉 duplicated함수를 활용..
2024.09.08 -
데이터 시각화1
데이터 시각화 기법트리맵사각 타일로 구성되어서 크기와 색을 통해서 정보를 구분한다. 타일들은 계층 구조로도 되어 있기 때문에 데이터에 존재하는 계층 구조로도 표현할 수 있다.GNI2014 사용하기GNI, 즉 국민 총소득을 보여주는 데이터셋으로 이를 일단 treemap을 작성하기 위해서는 treemap패키지부터 설치해줘야 한다.설치가 끝났다면 다음과 같이 코드를 입력해 준다.library(treemap)data(GNI2014)head(GNI2014)treemap(GNI2014, index = c("continent","iso3"), vSize="population", vColor = "GNI", type="value", title="World'..
2024.09.03 -
데이터 전처리
결측값데이터의 값들을 다듬고 분석에 적합한 데이터를 확보하는 것을 데이터 전처리라고 한다. 이때 결측값을 처리하는 방법이 데이터 전처리에서 중요한 방법 중 하나이다.결측값 이란?데이터를 수집하면서 그에 알맞는 값을 얻지 못한다면 결측값으로 남게 된다. 이러한 경우에는 결측값을 제거하거나 적당한 값으로 치환한 후에 데이터를 분석하는 방법이 있다.벡터의 결측값 처리NA: 숫자형, 문자형, 논리형 데이터는 결측값을 나타내는 용도로 사용된다.x> sum(x)[1] NA> is.na(x)[1] FALSE FALSE FALSE TRUE FALSE TRUE> sum(is.na(x))[1] 2> sum(x,na.rm=T)[1] 11x에는 NA값이 존재하기 때문에 na값이 있다면 정확한 총합을 구할 수 없다.is.n..
2024.09.02 -
자료의 탐색
BostonHousing 데이터셋변수설명crim지역의 1인당 범죄율rm주택 1가구당 방의 개수dis보스턴의 5개 직업 센터까지의 거리tax재산 세율medv주택 가격mlbench 패키지에서 제공하는 BostonHousing 데이터셋은 보스턴 지역의 주택 가격정보와 주택 가격에 영향을 주는 요소들을 담고 있다.탐색적 데이터 분석과정데이터 셋 준비하기library(mlbench)data("BostonHousing")xmlbench패키지 설치오른쪽 하단에 있는 창에서 Packages를 클릭 후 Install을 클릭한다. 그런 다음 입력창이 열린다면 mlbench를 입력하고 install을 누른다.grp변수 추가하기grp는 25.0이상이면 H, 17.0 이하 이면 L, 나머지는 M으로 분류해 준다.library..
2024.09.01