Urdoing=͟͟͞♡d

데이터분석가를 꿈꾸는 박열심의 IT 공간

STUDY✏️/데이터과학

[R로 배우는 데이터 과학] 1장 데이터 과학 알아보기 :: 시험 대비 요약정리

박열심 2024. 3. 22. 11:13
반응형
 

 

<데이터 홍수 시대의 주요 원인>

- 인터넷

- 센서

- 스마트폰 (지금은 다양한 분야에서 사용하고 있어서 스마트폰에서 생산되는 데이터의 양과 질이 달라지고 있음)

 

 

 

<데이터 과학>

- 데이터로부터 유용한 정보와 통찰을 끄집어내고 합리적인 의사결정을 돕는 현대적인 학문 분야

- 데이터 과학은 세상과 활발하게 상호작용함

- “데이터로부터 일반화 가능한 지식을 추출하는 연구” - 뉴욕대 다르 교수

- 공유 정신이 강함 : ex) 데이터 과학 커뮤니티 ‘캐글’

- 데이터 과학에서 점증적으로 생각하는 일은 매우 중요함

 

- 데이터 과학 : 데이터라는 장난감이 널려 있는 놀이터

- 데이터 과학자 : 이 놀이터에서 데이터를 가지고 노는 사람

- 정형 데이터 : 교무 행정 데이터, 정부의 세무나 인구 데이터

- 비정형 데이터 : 이메일이나 편지

 

 

 

<데이터 과학의 절차>

데이터 수집 -> 탐색적 데이터 분석 -> 모델링

 

데이터 수집

- 주어진 문제와 현장을 잘 살펴 데이터 수집 계획을 수립

ex) 푸드트럭 운영 : 매일 날씨, 요일, 습도, 판매 개수 기록하기

 

탐색적 데이터 분석 (EDA)

- 수집한 데이터를 바탕으로 변수 사이의 상관관계 등을 살펴 데이터의 특성 파악

- 주로 요약 통계량이나 데이터 시각화를 사용함

- 탐색적 데이터 분석을 하다가 데이터가 부족하다고 판단되면, 데이터 수집 단계로 돌아가 데이터를 추가로 수집해야 함

ex) 월요일은 유독 판매량이 많군. 내일 주문량을 늘려야겠군.

모델링

- 데이터를 가장 잘 설명하는 모델을 찾는 단계

- 모델은 변수 사이의 관계를 나타내는 수학식으로 표현

ex) 모델에 입력하면 주문량을 예측해 줌

 

 

 

<데이터 과학 관련 분야>

- 데이터 과학은 여러 학문과 관련이 깊은 다학제 분야

- 컴퓨터 과학 분야 (프로그래밍, 시각화, 기계 학습)

- 통계학 분야 (확률 통계, 시각화, 회귀)

- 빅데이터 (분산처리, 하둡)

 

반응형