-
[R]_30일차_06.03프로그래밍/R 2021. 6. 3. 22:25
06-5_파생변수 추가하기
- 파생변수 추가하기
06-6_집단별로 요약하기
- 집단별로 요약하기
- dplyr 조합하기
- 가로로 합치기
- 다른 데이터를 활용해 변수 추가하기
- 세로로 합치기
group_by()
- 변수 항목별로 데이터를 분리한다
mpg
- 열
- manufacturer
- model
- displ
- year
- cyl
- trans
- drv
- cty
- hwy
- fl
- class
06-7_데이터 합치기
- 가로로 합치기 (join)
- left_join()
- 조인함수는 많다 (inner_join() - jeft_join() - right_join() - full_join() )
- by 옵션
- 해당 변수를 기준으로 join 함수 실행
- by 옵션
- 세로로 합치기 (union)
- bind_rows()
stringAsFactors = F
- 문자를 factor 타입으로 변환하지 않도록 설정하는 파라미터
- dataframe()은 변수에 문자가 들어 있으면 factor 타입으로 변환하도록 기본 설정되어 있다.
6장 정리
# 1. 조건에 맞는 데이터만 추출하기 exam %>% filter(english >= 80) # 여러 조건 동시 충족 exam %>% filter(class == 1 & math >= 50) # 여러 조건 중 하나 이상 충족
CH07_데이터 정제 (빠진 데이터, 이상한 데이터 제거하기)
07-1_결측치 정제하기
- 결측치 란?
- 비어있는 값
- R에서는
NA
로 표기- ★
NA
앞 뒤에 따옴표""
를 붙이지 않는다!
- ★
is.na()
함수- 결측치는 TRUE, 아니면 FALSE 반환
table()
에 적용 → 데이터에 결측치가 총 몇개 있는지 반환!is.na()
filter()
에 적용 → 결측치가 있는 행 제거 (원본 데이터는 그대로 존재!)- 일일히 변수를 지정해야 행 제거 가능
na.omit()
함수
- 일일히 변수를 지정해야 행 제거 가능
결측지 처리하는 방식
- 제거하는 방식 → 행 제거
- 다른 값으로 대체하는 방식 → 대체 값을 무엇으로 정할지 결정 해야함
- 결측치가 몇퍼센트 있는지 파악해야 함
- 평균의 오류를 조심해야함
na.omit()
함수- 변수를 지정하지 않고 결측치가 있는 행을 한 번에 제거 가능
함수의 결측치 제외 기능
- na.rm 파라미터
- na.rm = T
- 결측치 제외하고 함수 적용
'프로그래밍 > R' 카테고리의 다른 글
[R] wordcloud2 패키지 실습 (0) 2021.06.07 [RStudio, 스크랩] Error-.onLoad가 loadNamespace()에서 'rJava'때문에 실패했습니다 (0) 2021.06.06 [R]_31일차_06.04 (0) 2021.06.06 [오류] 함수 "%>%"를 찾을 수 없습니다 (0) 2021.06.03 [R]_28일차_06.01 (0) 2021.06.02