ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [R]_30일차_06.03
    프로그래밍/R 2021. 6. 3. 22:25

    06-5_파생변수 추가하기

    • 파생변수 추가하기

    06-6_집단별로 요약하기

    • 집단별로 요약하기
    • dplyr 조합하기
    • 가로로 합치기
    • 다른 데이터를 활용해 변수 추가하기
    • 세로로 합치기

    group_by()

    • 변수 항목별로 데이터를 분리한다

    mpg

      • manufacturer
      • model
      • displ
      • year
      • cyl
      • trans
      • drv
      • cty
      • hwy
      • fl
      • class

    06-7_데이터 합치기

    • 가로로 합치기 (join)
      • left_join()
      • 조인함수는 많다 (inner_join() - jeft_join() - right_join() - full_join() )
        • by 옵션
          • 해당 변수를 기준으로 join 함수 실행
    • 세로로 합치기 (union)
      • bind_rows()

    stringAsFactors = F

    • 문자를 factor 타입으로 변환하지 않도록 설정하는 파라미터
    • dataframe()은 변수에 문자가 들어 있으면 factor 타입으로 변환하도록 기본 설정되어 있다.

    6장 정리

    # 1. 조건에 맞는 데이터만 추출하기
    exam %>% filter(english >= 80)
    
    # 여러 조건 동시 충족
    exam %>% filter(class == 1 & math >= 50)
    
    # 여러 조건 중 하나 이상 충족

    CH07_데이터 정제 (빠진 데이터, 이상한 데이터 제거하기)


    07-1_결측치 정제하기

    • 결측치 란?
      • 비어있는 값
      • R에서는 NA 로 표기
        • NA 앞 뒤에 따옴표""를 붙이지 않는다!

    is.na() 함수

    • 결측치는 TRUE, 아니면 FALSE 반환
    • table() 에 적용 → 데이터에 결측치가 총 몇개 있는지 반환
    • !is.na()
    • filter() 에 적용 → 결측치가 있는 행 제거 (원본 데이터는 그대로 존재!)
      • 일일히 변수를 지정해야 행 제거 가능 na.omit() 함수

    결측지 처리하는 방식

    • 제거하는 방식 → 행 제거
    • 다른 값으로 대체하는 방식 → 대체 값을 무엇으로 정할지 결정 해야함
      • 결측치가 몇퍼센트 있는지 파악해야 함
      • 평균의 오류를 조심해야함

    na.omit() 함수

    • 변수를 지정하지 않고 결측치가 있는 행을 한 번에 제거 가능

    함수의 결측치 제외 기능

    • na.rm 파라미터
    • na.rm = T
      • 결측치 제외하고 함수 적용

    댓글

Designed by Tistory.