Urdoing=͟͟͞♡d

데이터분석가를 꿈꾸는 박열심의 IT 공간

반응형

데이터분석 6

[R로 배우는 데이터 과학] 6장 데이터 시각화 :: 시험 대비 요약정리

데이터 시각화의 필요성 - 데이터 시각화는 반드시 거쳐야 하는 필수 과정 - 데이터 과학의 신뢰성을 향상시킬 수 있는 중요한 수단임 시각화의 기본 요소 - plot() - col=요소 : 마커 색상을 요소의 종류에 따라 달리하고 싶을 때 사용 - pch=요소 : 마커 모양을 요소의 종류에 따라 달리하고 싶을 때 사용 - legend() : 범례 - 시각화는 데이터를 올바르게 해석할 수 있게 해주는 동시에, 많은 양의 데이터를 효과적으로 관찰할 수 있게 해주는 역할을 함 - 신뢰도를 높이기 위해 점점 더 많은 데이터를 다루면서 복잡도도 높아짐 - 데이터를 여러 관점에서 보게 함 => 데이터에 포함된 여러 의미에 대한 통찰이 생김 - 다양한 시각화 방법은 데이터 과학의 핵심 기술 ! 시각화의 효과 - 직관(..

[R로 배우는 데이터 과학] 5장 데이터 가공 :: 시험 대비 요약정리

데이터 정제 - 데이터에서 불필요한 요소를 제거하고, 사용하기 편하게 정리 데이터 가공 - 데이터 정제보다 더 광범위하고, 구체적인 목적 아래 이루어짐 - 거의 모든 분야에서 적절한 가공이 필요함 - 데이터를 보다 효과적으로 분석하기 위해 데이터를 만지고 변형하는 작업 - 기본적으로 데이터 프레임을 중심으로 R이 제공하는 다양한 연산자와 함수를 이용해 이루어지는 작업 데이터 가공, 무엇을 하려고? - 통계 분석 : 데이터에 담긴 의미 끄집어내기 - 시각화 : 효과적인 관찰을 위해 - 모델링 : 인과관계를 추정하기 위해 gapminder - 세계 각국의 기대 수명, 1인당 국내총생산, 인구 데이터 등을 집계해 놓음 - country : 국가명, 범주형 - continent : 국가가 속한 대륙, 범주형 -..

[R로 배우는 데이터 과학] 4장 데이터 취득과 정제 :: 시험 대비 요약정리

- 대부분의 데이터는 파일 형태로 존재함 파일 읽기 - read.table() : 일반 텍스트 파일을 읽을 때 사용 - read.csv() : csv 파일을 읽을 때 사용 - header=T : 파일의 첫 행이 각 열의 변수를 나타낸다는 뜻 - csv 파일은 마지막 행에서 꼭 Enter를 누르고 저장해야 함 파일 쓰기 - write.table() : 일반 텍스트 파일로 저장할 때 사용 - write.csv() : .csv 파일로 저장할 때 사용 - quote=F : 문자열을 나타내는 큰따옴표를 제거할 때 사용하는 옵션 ​ - []에 행/열 조건 명시 - if문 활용 - ifelse문 활용 => ifelse(조건식, 참일 경우, 거짓일 경우) ​ ​ ​ - repeat { 반복 수행할 문장 } - whil..

[R로 배우는 데이터 과학] 3장 R의 데이터형과 연산 :: 시험 대비 요약정리

변수 이름 규칙 - 대소문자 구별 - _(밑줄)이나 .(마침표) 사용 가능 - 특수문자 X - 숫자나 _(밑줄)을 변수 이름 첫 글자로 사용 X - if, while, for 등의 예약어 사용 X - 숫자형 int - 문자형 chr - 범주형 factor - 논리형 TRUE, FALSE - NULL : 정의되지 않은 값 - NA : 결측값 - NaN : 연산 불가능한 값 - -Inf와 Inf : 음의 무한대와 양의 무한대 ​ 데이터형 확인 함수들 - class(x) : 객체지향 관점에서 x의 데이터형 - typeof(x) : R언어 자체 관점에서 x의 데이터형 - is.integer(x) : x가 정수형이면 TRUE - is.numeric(x) : x가 실수형이면 TRUE - is.complex(x) :..

[R로 배우는 데이터 과학] 2장 데이터 과학으로 풍덩 :: 시험 대비 요약정리

윈도우 R 다운로드 | R Studio 설치 방법 빅데이터 수업을 위해 R과 R Studio를 설치해봤다 ! 설치 전 환경 설정 R 설치 전에 확인해야 할 것이 있으니 잘 따라오시길 !! 1 계정 버튼 클릭 ! ​ 윈도우의 경우에 Microsoft 계정 이름이 한글이면 urdoingood.tistory.com - R을 사용할 수 있는 환경 - 명령어를 실행해줌 - 도움말, 기본 데이터 제공, 프로그램 관리 등 여러 기능을 함께 제공 - data() : 베이스 R이 제공하는 기본 데이터의 목록을 보고 싶을 때 - 행 : row, 샘플, 관측 - 열 : column, 속성, 특징, 변수 - str() : 데이터의 내용을 요약 - col : 색깔 지정 - xlab : x축 이름 - ylab : y축 이름 - ..

[R로 배우는 데이터 과학] 1장 데이터 과학 알아보기 :: 시험 대비 요약정리

- 인터넷 - 센서 - 스마트폰 (지금은 다양한 분야에서 사용하고 있어서 스마트폰에서 생산되는 데이터의 양과 질이 달라지고 있음) - 데이터로부터 유용한 정보와 통찰을 끄집어내고 합리적인 의사결정을 돕는 현대적인 학문 분야 - 데이터 과학은 세상과 활발하게 상호작용함 - “데이터로부터 일반화 가능한 지식을 추출하는 연구” - 뉴욕대 다르 교수 - 공유 정신이 강함 : ex) 데이터 과학 커뮤니티 ‘캐글’ - 데이터 과학에서 점증적으로 생각하는 일은 매우 중요함 - 데이터 과학 : 데이터라는 장난감이 널려 있는 놀이터 - 데이터 과학자 : 이 놀이터에서 데이터를 가지고 노는 사람 - 정형 데이터 : 교무 행정 데이터, 정부의 세무나 인구 데이터 - 비정형 데이터 : 이메일이나 편지 데이터 수집 -> 탐색적..

반응형