Urdoing=͟͟͞♡d

데이터분석가를 꿈꾸는 박열심의 IT 공간

STUDY✏️/데이터과학

[R로 배우는 데이터 과학] 3장 R의 데이터형과 연산 :: 시험 대비 요약정리

박열심 2024. 3. 23. 10:23
반응형


<변수>

변수 이름 규칙

- 대소문자 구별

- _(밑줄)이나 .(마침표) 사용 가능

- 특수문자 X

- 숫자나 _(밑줄)을 변수 이름 첫 글자로 사용 X

- if, while, for 등의 예약어 사용 X

 

 

 

<데이터형>

- 숫자형 int

- 문자형 chr

- 범주형 factor

- 논리형 TRUE, FALSE

- NULL : 정의되지 않은 값

- NA : 결측값

- NaN : 연산 불가능한 값

- -Inf와 Inf : 음의 무한대와 양의 무한대

데이터형 확인 함수들

- class(x) : 객체지향 관점에서 x의 데이터형

- typeof(x) : R언어 자체 관점에서 x의 데이터형

- is.integer(x) : x가 정수형이면 TRUE

- is.numeric(x) : x가 실수형이면 TRUE

- is.complex(x) : x가 복소수형이면 TRUE

- is.character(x) : x가 문자형이면 TRUE

- is.na(x) : x가 NA이면 TRUE

 

데이터형 변환 함수들

- as.factor(x) : 범주형으로 변환

- as.integer(x) : 정수형으로 변환

- as.numeric(x) : 숫자형으로 변환

- as.character(x) : 문자형으로 변환

- as.matrix(x) : 행렬로 변환

- as.array(x) : 배열로 변환

 

 

 

<연산자>

산술 연산자

- 덧셈 : +

- 뺄셈 : -

- 곱셈 : *

- 나눗셈(실수 나눗셈) : /

- 지수승 : ^ 또는 **

- x를 y로 나눈 나머지(정수 나눗셈 나머지) : x%%y

- x를 y로 나눈 몫(정수 나눗셈 몫) : x%/%y

 

연산자 우선순위 (높은 순)

지수승 > 단항 플러스와 마이너스 > %%와 %/% 등 연산자 > 곱셈과 나눗셈 > 덧셈과 뺄셈 > 비교 연산자 > 논리 부정 > 논리 and > 논리 or

 

 

 

<벡터>

벡터

- 단일값(scalar)들의 모임

- 하나의 벡터 변수에 여러 개의 값을 저장할 수 있음

- 하나의 벡터 변수에는 동일한 데이터형을 가지는 값이 들어갈 수 있음

 

벡터 생성

- 시작값:종료값

- vector(length=n) : 요소가 n개인 빈 벡터 생성

- c() : 일반 벡터 생성

- seq(from=초기값, to=종료값, by=증가값) : 순열 벡터 생성

- rep(벡터, times=반복횟수) : 반복 벡터 생성

 

벡터 연산

- 벡터끼리 연산 수행 시, 벡터의 길이가 같거나 벡터 요소 개수가 배수의 관계에 있을 때만 가능

- all(조건) : 모든 요소가 조건을 만족하는지 비교하여 T/F로 표시

- any(조건) : 요소 중 일부라도 조건을 만족하는지 비교하여 T/F로 표시

- union(x, y) : 합집합

- intersect(x, y) : 교집합

- setdiff(x, y) : 차집합

- setequal(x ,y) : 두 벡터의 요소가 동일한지 비교하여 T/F로 표시

 

 

 

<배열 (행렬)>

배열 생성

- array() : N차원 배열

- matrix() : 2차원 배열

- cbind() : 열 단위로 묶기

- rbind() : 행 단위로 묶기

- byrow=T : 데이터를 행 단위로 배치할지 여부

 

배열 연산

- 행렬의 덧셈과 뺄셈 : +, -

- R에서의 행렬 곱셈 : *

- 수학적인 행렬 곱셈 : %*%

- 전치 행렬 : t(), aperm()

- 역행렬 : solve()

- 행렬식 : det()

 

배열에 유용한 함수

- apply(행렬데이터, 숫자, 연산수행함수) : 배열의 행 또는 열별로 함수 적용 (숫자가 1이면 함수를 행별로 적용, 숫자가 2이면 함수를 열별로 적용)

- dim() : 배열의 크기, 차원의 수

- sample() : 벡터나 배열에서 샘플 추출, 기본값은 12개

 

 

 

<데이터 프레임>

데이터 프레임

- 흔히 사용하는 표 형태의 데이터

- 행렬과 달리, 여러 데이터형을 가질 수 있음

- 리스트와 달리, 행의 수를 일치시켜 저장해야 함

 

데이터 프레임 관련

- data.frame() : 데이터 프레임 생성

- [ , ] : 행과 열에 접근 (열의 속성명은 문자열로 인식되도록 따옴표 안에 써야 함)

- attach() : 데이터셋의 각 속성을 변수로 이용할 수 있게 함

- detach() : attach 해제

- with() : 데이터 프레임에 다양한 함수 적용

- subset() : 데이터 프레임에서 일부 데이터만 추출

- na.omit() : NA를 제외하고 추출 (결측값 제거)

- merge() : 여러 데이터 프레임 병합

 

 

<리스트>

- 데이터 프레임보다 넓은 의미의 데이터 모임

- 서로 다른 기본 데이터형을 갖는 자료구조를 포함할 수 있음

- 데이터 프레임과 달리, 모든 속성의 크기가 같을 필요는 없음

 

리스트 관련

- list() : 리스트 생성

- $ 또는 [[ ]] : 리스트 요소에 접근

- lapply() : 리스트에 apply 함수를 적용하고 싶을 때 사용

- sapply() : lapply보다 더 간단하게 표현, 한 가지 타입으로만 표현 가능

- mapply() : 함수에 벡터 또는 리스트로 주어진 인수에 대한 결과를 리턴

- tapply() : 그룹별로 특정 함수를 적용하고자 할 때 사용

그룹 (n1, m1), (n2, m2)를 list(c(n1, n2), c(m1, m2))로 표현하는 것임

배열 또는 행렬로 리턴함

클러스터링 알고리즘에 적용 가능

 
반응형