데이터 종류와 구조
2024. 9. 16. 15:50ㆍpython study/sw와 ai 데이터 분석
공공데이터 제공 사이트
| 사이트 | 설명 |
| https://www.data.go.kr | 한국 정부에서 제공하는 공공데이터(공공데이터포털) |
| https://kosis.kr/ | 통계청에서 공개하는 데이터 |
| https://opendata.hira.or.kr | 한국 보건 의료 빅데이터 개방 시스템 |
| https://www.localdata.kr | 한국 지방 행정 인허가 데이터 |
| https://www.mcst.go.kr | 한국문화체육관광부 문화 데이터 |
| https://data.seoul.go.kr/ | 서울 열린데이터 광장 |
| https://data.gg.go.kr | 경기도 공공데이터 개발 포털 |
| https://www.data.gov/ | 미국 정부의 공공데이터 |
| https://data.worldbank.org/ | 세계 은행에서 제공하는 개방 데이터 |
| https://open.fda.govl | 미국 식약청의 개방 데이터 |
| http://www.naver.com | 그외 포털 사이트 등 |
빅데이터의 종류
정형 데이터
- 미리 정해진 형식, 구조에 따라 저장된 데이터
- 예) 관계형 데이터베이스 테이블, 스프레드 시트, CSV 등
반정형 데이터
- 일정한 규칙의 고정된 필드에 저장되어 있지 않지만 데이터 구조 정보를 데이터와 함께 제공하는 데이터
- 예) XML, HTML, JSON, 웹 문서, 웹로그 등
1. XML (eXtensible Markup Language)
데이터를 구조화하고 저장하기 위한 범용적인 마크업 언어.
2. HTML (HyperText Markup Language)
웹 페이지의 구조와 내용을 정의하기 위한 언어.
주로 텍스트, 이미지, 링크 등 웹 페이지에서 보이는 콘텐츠를 표시하는 데 사용.
3. JSON (JavaScript Object Notation):
데이터를 경량으로 표현하고 교환하기 위한 포맷.
주로 서버와 클라이언트 간 데이터를 주고받을 때 사용.
비정형 데이터
- 정의된 구조가 없이 데이터 자체만으로 내용에 대한 질의 처리를 할 수 없는 데이터
- 예) 소셜 데이터, 텍스트 문서, 동영상/음성 데이터, 문서(PDF 등)
(정형) 데이터 구조
데이터는 행(row)과 열(column)로 이루어진다.
- 행: 하나의 데이터 집합 단위(표의 가로축)
- 열: 특정 자료형을 가지는 데이터 값(표의 세로축)

칼럼(column) = 열
| 칼럼=열(Column) | 변수(Variable) | 속성(Attribute) | 특징(feature) |
| 통계 분야 | 컴퓨터 분야 | 인공지능 분야 | 패턴인식 분야 |
칼럼의 종류
- 수치형(Numeric): 정수형(int), 실수형(float), Bool형
- 범주형(Categoric): 순서형(categoric), 텍스트(object)
위에 있는 그림 1에 관련된 질문
1. 레코드(행)의 개수
2. 칼럼(열)의 개수
3. 수치형 칼럼의 개수
4. 범주형 칼럼의 개수
4개, 4개, 2개, 2개
데이터 정보의 중요성
행과 열
- 데이터의 크기를 알 수 있음
- 처리의 양 파악
- 변수(칼럼)로 변수 간의 관련성에 의문점을 가질 수 있음
칼럼의 종류
- 칼럼들의 연산 가능 여부 파악
- 간단한 통계 정보를 통해 데이터에 대한 대략적인 분석 가능
- 칼럼의 종류에 따라 오류 파악이 쉬워짐
데이터의 크기
행이 많은 경우
- 행의 개수가 많으면 컴퓨터의 속도가 느려짐→물리적인 비용으로 해결가능
- 10만 명과 100명의 평균과 특정 값이 비슷하다면 데이터 분석의 결과는 비슷하게 나옴(시간을 낭비하는 결과 초래)
열이 많은 경우
- 변수 간의 관계에 대해 분석할 수 있는 사항들이 많아짐
- 분석 방법 및 기술이 다양해짐
행의 개수도 어떤 경우에는 중요하지만 다양한 데이터, 즉 열의 개수가 더 중요함
'python study > sw와 ai 데이터 분석' 카테고리의 다른 글
| 데이터 분석 도구(colab) & 데이터 기초 (1) | 2024.09.28 |
|---|---|
| 데이터 구성(seaborn data) (1) | 2024.09.26 |
| 빅데이터와 데이터 분석 (1) | 2024.09.16 |
| 인공지능과 데이터 과학 (4) | 2024.09.16 |
| 인공지능의 과거, 현체, 미래 (2) | 2024.09.16 |