
<변수>
변수 이름 규칙
- 대소문자 구별
- _(밑줄)이나 .(마침표) 사용 가능
- 특수문자 X
- 숫자나 _(밑줄)을 변수 이름 첫 글자로 사용 X
- if, while, for 등의 예약어 사용 X
<데이터형>
- 숫자형 int
- 문자형 chr
- 범주형 factor
- 논리형 TRUE, FALSE
- NULL : 정의되지 않은 값
- NA : 결측값
- NaN : 연산 불가능한 값
- -Inf와 Inf : 음의 무한대와 양의 무한대
데이터형 확인 함수들
- class(x) : 객체지향 관점에서 x의 데이터형
- typeof(x) : R언어 자체 관점에서 x의 데이터형
- is.integer(x) : x가 정수형이면 TRUE
- is.numeric(x) : x가 실수형이면 TRUE
- is.complex(x) : x가 복소수형이면 TRUE
- is.character(x) : x가 문자형이면 TRUE
- is.na(x) : x가 NA이면 TRUE
데이터형 변환 함수들
- as.factor(x) : 범주형으로 변환
- as.integer(x) : 정수형으로 변환
- as.numeric(x) : 숫자형으로 변환
- as.character(x) : 문자형으로 변환
- as.matrix(x) : 행렬로 변환
- as.array(x) : 배열로 변환
<연산자>
산술 연산자
- 덧셈 : +
- 뺄셈 : -
- 곱셈 : *
- 나눗셈(실수 나눗셈) : /
- 지수승 : ^ 또는 **
- x를 y로 나눈 나머지(정수 나눗셈 나머지) : x%%y
- x를 y로 나눈 몫(정수 나눗셈 몫) : x%/%y
연산자 우선순위 (높은 순)
지수승 > 단항 플러스와 마이너스 > %%와 %/% 등 연산자 > 곱셈과 나눗셈 > 덧셈과 뺄셈 > 비교 연산자 > 논리 부정 > 논리 and > 논리 or
<벡터>
벡터
- 단일값(scalar)들의 모임
- 하나의 벡터 변수에 여러 개의 값을 저장할 수 있음
- 하나의 벡터 변수에는 동일한 데이터형을 가지는 값이 들어갈 수 있음
벡터 생성
- 시작값:종료값
- vector(length=n) : 요소가 n개인 빈 벡터 생성
- c() : 일반 벡터 생성
- seq(from=초기값, to=종료값, by=증가값) : 순열 벡터 생성
- rep(벡터, times=반복횟수) : 반복 벡터 생성
벡터 연산
- 벡터끼리 연산 수행 시, 벡터의 길이가 같거나 벡터 요소 개수가 배수의 관계에 있을 때만 가능
- all(조건) : 모든 요소가 조건을 만족하는지 비교하여 T/F로 표시
- any(조건) : 요소 중 일부라도 조건을 만족하는지 비교하여 T/F로 표시
- union(x, y) : 합집합
- intersect(x, y) : 교집합
- setdiff(x, y) : 차집합
- setequal(x ,y) : 두 벡터의 요소가 동일한지 비교하여 T/F로 표시
<배열 (행렬)>
배열 생성
- array() : N차원 배열
- matrix() : 2차원 배열
- cbind() : 열 단위로 묶기
- rbind() : 행 단위로 묶기
- byrow=T : 데이터를 행 단위로 배치할지 여부
배열 연산
- 행렬의 덧셈과 뺄셈 : +, -
- R에서의 행렬 곱셈 : *
- 수학적인 행렬 곱셈 : %*%
- 전치 행렬 : t(), aperm()
- 역행렬 : solve()
- 행렬식 : det()
배열에 유용한 함수
- apply(행렬데이터, 숫자, 연산수행함수) : 배열의 행 또는 열별로 함수 적용 (숫자가 1이면 함수를 행별로 적용, 숫자가 2이면 함수를 열별로 적용)
- dim() : 배열의 크기, 차원의 수
- sample() : 벡터나 배열에서 샘플 추출, 기본값은 12개
<데이터 프레임>
데이터 프레임
- 흔히 사용하는 표 형태의 데이터
- 행렬과 달리, 여러 데이터형을 가질 수 있음
- 리스트와 달리, 행의 수를 일치시켜 저장해야 함
데이터 프레임 관련
- data.frame() : 데이터 프레임 생성
- [ , ] : 행과 열에 접근 (열의 속성명은 문자열로 인식되도록 따옴표 안에 써야 함)
- attach() : 데이터셋의 각 속성을 변수로 이용할 수 있게 함
- detach() : attach 해제
- with() : 데이터 프레임에 다양한 함수 적용
- subset() : 데이터 프레임에서 일부 데이터만 추출
- na.omit() : NA를 제외하고 추출 (결측값 제거)
- merge() : 여러 데이터 프레임 병합
<리스트>
- 데이터 프레임보다 넓은 의미의 데이터 모임
- 서로 다른 기본 데이터형을 갖는 자료구조를 포함할 수 있음
- 데이터 프레임과 달리, 모든 속성의 크기가 같을 필요는 없음
리스트 관련
- list() : 리스트 생성
- $ 또는 [[ ]] : 리스트 요소에 접근
- lapply() : 리스트에 apply 함수를 적용하고 싶을 때 사용
- sapply() : lapply보다 더 간단하게 표현, 한 가지 타입으로만 표현 가능
- mapply() : 함수에 벡터 또는 리스트로 주어진 인수에 대한 결과를 리턴
- tapply() : 그룹별로 특정 함수를 적용하고자 할 때 사용
그룹 (n1, m1), (n2, m2)를 list(c(n1, n2), c(m1, m2))로 표현하는 것임
배열 또는 행렬로 리턴함
클러스터링 알고리즘에 적용 가능
'STUDY✏️ > 데이터과학' 카테고리의 다른 글
[R로 배우는 데이터 과학] 6장 데이터 시각화 :: 시험 대비 요약정리 (0) | 2024.03.24 |
---|---|
[R로 배우는 데이터 과학] 5장 데이터 가공 :: 시험 대비 요약정리 (0) | 2024.03.24 |
[R로 배우는 데이터 과학] 4장 데이터 취득과 정제 :: 시험 대비 요약정리 (2) | 2024.03.23 |
[R로 배우는 데이터 과학] 2장 데이터 과학으로 풍덩 :: 시험 대비 요약정리 (2) | 2024.03.22 |
[R로 배우는 데이터 과학] 1장 데이터 과학 알아보기 :: 시험 대비 요약정리 (0) | 2024.03.22 |