
<파일 읽고 쓰기>
- 대부분의 데이터는 파일 형태로 존재함
파일 읽기
- read.table() : 일반 텍스트 파일을 읽을 때 사용
- read.csv() : csv 파일을 읽을 때 사용
- header=T : 파일의 첫 행이 각 열의 변수를 나타낸다는 뜻
- csv 파일은 마지막 행에서 꼭 Enter를 누르고 저장해야 함
파일 쓰기
- write.table() : 일반 텍스트 파일로 저장할 때 사용
- write.csv() : .csv 파일로 저장할 때 사용
- quote=F : 문자열을 나타내는 큰따옴표를 제거할 때 사용하는 옵션
<조건문>
- []에 행/열 조건 명시
- if문 활용
- ifelse문 활용 => ifelse(조건식, 참일 경우, 거짓일 경우)
<반복문>
- repeat { 반복 수행할 문장 }
- while(조건식) { 조건이 참이면 실행할 문장 }
- for(변수 in 데이터) { 반복 수행할 문장 }
<함수 모음>
- head() : (기본 6개) 앞쪽의 샘플을 보여줌
- tail() : (기본 6개) 뒤쪽의 샘플을 보여줌
- summary() : 요약 통계
- %>% : 파이프, 명령어를 연결하는 연산자
- paste() : 문자열 합치기
<사용자 정의 함수>
함수명 = function(인자) {
+ 수행할 코드
+ return(반환값)
}
<데이터 정제 : 결측값 처리>
- 우리가 수집한 데이터는 결측값이 존재할 수 있음
- 결측값 : 누락된 데이터, 데이터 수집 단계에서 변수에 값이 저장되지 않아 발생하는 값
결측값 처리 방법
- is.na() : NA인 데이터가 있으면 TRUE
- na.omit() : NA가 포함된 행 제거
- na.rm=T : 함수 수행 시, NA를 제외함
<데이터 정제 : 이상값 처리>
- 논리적 혹은 통계학적으로 이상한 데이터가 입력되어 있을 수도 있음
- 이상값 : 다른 관측값과 멀리 떨어진 관측값, 측정값의 변동이 원래 큰 경우나 실험적 오류로 발생할 수 있음
- [이상값을 결측값으로 변경] -> [결측값을 모두 제거] 하는 순서로 이상값을 처리하자 !
- 관측값의 개수가 많으면 boxplot을 활용해 이상값을 처리하자 !
'STUDY✏️ > 데이터과학' 카테고리의 다른 글
[R로 배우는 데이터 과학] 6장 데이터 시각화 :: 시험 대비 요약정리 (0) | 2024.03.24 |
---|---|
[R로 배우는 데이터 과학] 5장 데이터 가공 :: 시험 대비 요약정리 (0) | 2024.03.24 |
[R로 배우는 데이터 과학] 3장 R의 데이터형과 연산 :: 시험 대비 요약정리 (2) | 2024.03.23 |
[R로 배우는 데이터 과학] 2장 데이터 과학으로 풍덩 :: 시험 대비 요약정리 (2) | 2024.03.22 |
[R로 배우는 데이터 과학] 1장 데이터 과학 알아보기 :: 시험 대비 요약정리 (0) | 2024.03.22 |