데이터 종류와 구조

2024. 9. 16. 15:50python study/sw와 ai 데이터 분석

공공데이터 제공 사이트

사이트  설명
 https://www.data.go.kr  한국 정부에서 제공하는 공공데이터(공공데이터포털)
 https://kosis.kr/  통계청에서 공개하는 데이터
https://opendata.hira.or.kr  한국 보건 의료 빅데이터 개방 시스템
https://www.localdata.kr  한국 지방 행정 인허가 데이터 
https://www.mcst.go.kr  한국문화체육관광부 문화 데이터
https://data.seoul.go.kr/  서울 열린데이터 광장
https://data.gg.go.kr  경기도 공공데이터 개발 포털
https://www.data.gov/  미국 정부의 공공데이터
https://data.worldbank.org/  세계 은행에서 제공하는 개방 데이터
https://open.fda.govl  미국 식약청의 개방 데이터
http://www.naver.com  그외 포털 사이트 등

빅데이터의 종류

정형 데이터

  • 미리 정해진 형식, 구조에 따라 저장된 데이터
  • 예) 관계형 데이터베이스 테이블, 스프레드 시트, CSV 등

반정형 데이터

  • 일정한 규칙의 고정된 필드에 저장되어 있지 않지만 데이터 구조 정보를 데이터와 함께 제공하는 데이터
  • 예) XML, HTML, JSON, 웹 문서, 웹로그 등
1. XML (eXtensible Markup Language)
데이터를 구조화하고 저장하기 위한 범용적인 마크업 언어.

2. HTML (HyperText Markup Language)
웹 페이지의 구조와 내용을 정의하기 위한 언어.
주로 텍스트, 이미지, 링크 등 웹 페이지에서 보이는 콘텐츠를 표시하는 데 사용.

3. JSON (JavaScript Object Notation):
데이터를 경량으로 표현하고 교환하기 위한 포맷.
주로 서버와 클라이언트 간 데이터를 주고받을 때 사용.

비정형 데이터

  • 정의된 구조가 없이 데이터 자체만으로 내용에 대한 질의 처리를 할 수 없는 데이터
  • 예) 소셜 데이터, 텍스트 문서, 동영상/음성 데이터, 문서(PDF 등)

(정형) 데이터 구조

데이터는 행(row)과 열(column)로 이루어진다.

  • 행: 하나의 데이터 집합 단위(표의 가로축)
  • 열: 특정 자료형을 가지는 데이터 값(표의 세로축)

그림1

칼럼(column) = 열

칼럼=열(Column) 변수(Variable) 속성(Attribute) 특징(feature)
통계 분야 컴퓨터 분야 인공지능 분야 패턴인식 분야

칼럼의 종류

  • 수치형(Numeric): 정수형(int), 실수형(float), Bool형
  • 범주형(Categoric): 순서형(categoric), 텍스트(object)
위에 있는 그림 1에 관련된 질문
1. 레코드(행)의 개수
2. 칼럼(열)의 개수
3. 수치형 칼럼의 개수
4. 범주형 칼럼의 개수

4개, 4개, 2개, 2개

데이터 정보의 중요성

행과 열

  • 데이터의 크기를 알 수 있음
  • 처리의 양 파악
  • 변수(칼럼)로 변수 간의 관련성에 의문점을 가질 수 있음

칼럼의 종류

  • 칼럼들의 연산 가능 여부 파악
  • 간단한 통계 정보를 통해 데이터에 대한 대략적인 분석 가능
  • 칼럼의 종류에 따라 오류 파악이 쉬워짐

데이터의 크기

행이 많은 경우

  • 행의 개수가 많으면 컴퓨터의 속도가 느려짐→물리적인 비용으로 해결가능
  • 10만 명과 100명의 평균과 특정 값이 비슷하다면 데이터 분석의 결과는 비슷하게 나옴(시간을 낭비하는 결과 초래)

열이 많은 경우

  • 변수 간의 관계에 대해 분석할 수 있는 사항들이 많아짐
  • 분석 방법 및 기술이 다양해짐

행의 개수도 어떤 경우에는 중요하지만 다양한 데이터, 즉 열의 개수가 더 중요함