[R로 배우는 데이터 과학] 4장 데이터 취득과 정제

STUDY✏️/데이터과학

[R로 배우는 데이터 과학] 4장 데이터 취득과 정제 :: 시험 대비 요약정리

박열심 2024. 3. 23. 12:24

<파일 읽고 쓰기>

- 대부분의 데이터는 파일 형태로 존재함

파일 읽기

- read.table() : 일반 텍스트 파일을 읽을 때 사용

- read.csv() : csv 파일을 읽을 때 사용

- header=T : 파일의 첫 행이 각 열의 변수를 나타낸다는 뜻

- csv 파일은 마지막 행에서 꼭 Enter를 누르고 저장해야 함

파일 쓰기

- write.table() : 일반 텍스트 파일로 저장할 때 사용

- write.csv() : .csv 파일로 저장할 때 사용

- quote=F : 문자열을 나타내는 큰따옴표를 제거할 때 사용하는 옵션

<조건문>

- []에 행/열 조건 명시

- if문 활용

- ifelse문 활용 => ifelse(조건식, 참일 경우, 거짓일 경우)

<반복문>

- repeat { 반복 수행할 문장 }

- while(조건식) { 조건이 참이면 실행할 문장 }

- for(변수 in 데이터) { 반복 수행할 문장 }

<함수 모음>

- head() : (기본 6개) 앞쪽의 샘플을 보여줌

- tail() : (기본 6개) 뒤쪽의 샘플을 보여줌

- summary() : 요약 통계

- %>% : 파이프, 명령어를 연결하는 연산자

- paste() : 문자열 합치기

<사용자 정의 함수>

함수명 = function(인자) {
+ 수행할 코드
+ return(반환값)
}

<데이터 정제 : 결측값 처리>

- 우리가 수집한 데이터는 결측값이 존재할 수 있음

- 결측값 : 누락된 데이터, 데이터 수집 단계에서 변수에 값이 저장되지 않아 발생하는 값

결측값 처리 방법

- is.na() : NA인 데이터가 있으면 TRUE

- na.omit() : NA가 포함된 행 제거

- na.rm=T : 함수 수행 시, NA를 제외함

<데이터 정제 : 이상값 처리>

- 논리적 혹은 통계학적으로 이상한 데이터가 입력되어 있을 수도 있음

- 이상값 : 다른 관측값과 멀리 떨어진 관측값, 측정값의 변동이 원래 큰 경우나 실험적 오류로 발생할 수 있음

- [이상값을 결측값으로 변경] -> [결측값을 모두 제거] 하는 순서로 이상값을 처리하자 !

- 관측값의 개수가 많으면 boxplot을 활용해 이상값을 처리하자 !

저작자표시 비영리 동일조건 (새창열림)

'STUDY✏️ > 데이터과학' 카테고리의 다른 글

[R로 배우는 데이터 과학] 6장 데이터 시각화 :: 시험 대비 요약정리 (0)	2024.03.24
[R로 배우는 데이터 과학] 5장 데이터 가공 :: 시험 대비 요약정리 (0)	2024.03.24
[R로 배우는 데이터 과학] 3장 R의 데이터형과 연산 :: 시험 대비 요약정리 (2)	2024.03.23
[R로 배우는 데이터 과학] 2장 데이터 과학으로 풍덩 :: 시험 대비 요약정리 (2)	2024.03.22
[R로 배우는 데이터 과학] 1장 데이터 과학 알아보기 :: 시험 대비 요약정리 (0)	2024.03.22

현재글[R로 배우는 데이터 과학] 4장 데이터 취득과 정제 :: 시험 대비 요약정리

마케팅취업, 시험대비, 데이터과학, 면접왕이형, 기업분석, 취업준비, 데이터과학중간고사, 데이터분석, 취준경제신문스크랩, 컴퓨터네트워크, 컴공, 경제신문스크랩양식, 쉽게배우는데이터통신과컴퓨터네트워크, 요약정리, 쉽게배우는데이터통신과컴퓨터네트워크3판, 취준생, 데이터분석취업, 경신스, 경제신문스크랩, R로배우는데이터과학,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

공대생 Urdoing=͟͟͞♡d