
<데이터 홍수 시대의 주요 원인>
- 인터넷
- 센서
- 스마트폰 (지금은 다양한 분야에서 사용하고 있어서 스마트폰에서 생산되는 데이터의 양과 질이 달라지고 있음)
<데이터 과학>
- 데이터로부터 유용한 정보와 통찰을 끄집어내고 합리적인 의사결정을 돕는 현대적인 학문 분야
- 데이터 과학은 세상과 활발하게 상호작용함
- “데이터로부터 일반화 가능한 지식을 추출하는 연구” - 뉴욕대 다르 교수
- 공유 정신이 강함 : ex) 데이터 과학 커뮤니티 ‘캐글’
- 데이터 과학에서 점증적으로 생각하는 일은 매우 중요함
- 데이터 과학 : 데이터라는 장난감이 널려 있는 놀이터
- 데이터 과학자 : 이 놀이터에서 데이터를 가지고 노는 사람
- 정형 데이터 : 교무 행정 데이터, 정부의 세무나 인구 데이터
- 비정형 데이터 : 이메일이나 편지
<데이터 과학의 절차>
데이터 수집 -> 탐색적 데이터 분석 -> 모델링
데이터 수집
- 주어진 문제와 현장을 잘 살펴 데이터 수집 계획을 수립
ex) 푸드트럭 운영 : 매일 날씨, 요일, 습도, 판매 개수 기록하기
탐색적 데이터 분석 (EDA)
- 수집한 데이터를 바탕으로 변수 사이의 상관관계 등을 살펴 데이터의 특성 파악
- 주로 요약 통계량이나 데이터 시각화를 사용함
- 탐색적 데이터 분석을 하다가 데이터가 부족하다고 판단되면, 데이터 수집 단계로 돌아가 데이터를 추가로 수집해야 함
ex) 월요일은 유독 판매량이 많군. 내일 주문량을 늘려야겠군.
모델링
- 데이터를 가장 잘 설명하는 모델을 찾는 단계
- 모델은 변수 사이의 관계를 나타내는 수학식으로 표현
ex) 모델에 입력하면 주문량을 예측해 줌
<데이터 과학 관련 분야>
- 데이터 과학은 여러 학문과 관련이 깊은 다학제 분야
- 컴퓨터 과학 분야 (프로그래밍, 시각화, 기계 학습)
- 통계학 분야 (확률 통계, 시각화, 회귀)
- 빅데이터 (분산처리, 하둡)
'STUDY✏️ > 데이터과학' 카테고리의 다른 글
[R로 배우는 데이터 과학] 6장 데이터 시각화 :: 시험 대비 요약정리 (0) | 2024.03.24 |
---|---|
[R로 배우는 데이터 과학] 5장 데이터 가공 :: 시험 대비 요약정리 (0) | 2024.03.24 |
[R로 배우는 데이터 과학] 4장 데이터 취득과 정제 :: 시험 대비 요약정리 (2) | 2024.03.23 |
[R로 배우는 데이터 과학] 3장 R의 데이터형과 연산 :: 시험 대비 요약정리 (2) | 2024.03.23 |
[R로 배우는 데이터 과학] 2장 데이터 과학으로 풍덩 :: 시험 대비 요약정리 (2) | 2024.03.22 |