Urdoing=͟͟͞♡d

데이터분석가를 꿈꾸는 박열심의 IT 공간

STUDY✏️/데이터과학

[R로 배우는 데이터 과학] 4장 데이터 취득과 정제 :: 시험 대비 요약정리

박열심 2024. 3. 23. 12:24
반응형


<파일 읽고 쓰기>

- 대부분의 데이터는 파일 형태로 존재함

 

파일 읽기

- read.table() : 일반 텍스트 파일을 읽을 때 사용

- read.csv() : csv 파일을 읽을 때 사용

- header=T : 파일의 첫 행이 각 열의 변수를 나타낸다는 뜻

- csv 파일은 마지막 행에서 꼭 Enter를 누르고 저장해야 함

 

파일 쓰기

- write.table() : 일반 텍스트 파일로 저장할 때 사용

- write.csv() : .csv 파일로 저장할 때 사용

- quote=F : 문자열을 나타내는 큰따옴표를 제거할 때 사용하는 옵션

 

 

<조건문>

- []에 행/열 조건 명시

- if문 활용

- ifelse문 활용 => ifelse(조건식, 참일 경우, 거짓일 경우)

<반복문>

- repeat { 반복 수행할 문장 }

- while(조건식) { 조건이 참이면 실행할 문장 }

- for(변수 in 데이터) { 반복 수행할 문장 }

 

 

 

<함수 모음>

- head() : (기본 6개) 앞쪽의 샘플을 보여줌

- tail() : (기본 6개) 뒤쪽의 샘플을 보여줌

- summary() : 요약 통계

- %>% : 파이프, 명령어를 연결하는 연산자

- paste() : 문자열 합치기

 

 

 

<사용자 정의 함수>

함수명 = function(인자) {
+ 수행할 코드
+ return(반환값)
}

 

 

<데이터 정제 : 결측값 처리>

- 우리가 수집한 데이터는 결측값이 존재할 수 있음

- 결측값 : 누락된 데이터, 데이터 수집 단계에서 변수에 값이 저장되지 않아 발생하는 값

 

결측값 처리 방법

- is.na() : NA인 데이터가 있으면 TRUE

- na.omit() : NA가 포함된 행 제거

- na.rm=T : 함수 수행 시, NA를 제외함

 

 

 

<데이터 정제 : 이상값 처리>

- 논리적 혹은 통계학적으로 이상한 데이터가 입력되어 있을 수도 있음

- 이상값 : 다른 관측값과 멀리 떨어진 관측값, 측정값의 변동이 원래 큰 경우나 실험적 오류로 발생할 수 있음

- [이상값을 결측값으로 변경] -> [결측값을 모두 제거] 하는 순서로 이상값을 처리하자 !

- 관측값의 개수가 많으면 boxplot을 활용해 이상값을 처리하자 !

 

반응형