-
[R] 텍스트 마이닝 (웹 특정 페이지 읽어오기프로그래밍/R 2021. 6. 8. 20:15
본 내용은 '2021년 혁신성장 청년인재 집중양성 사업'의 ‘인공지능 개발자 양성 과정’ 강좌를 수강하면서 강의 및 강의노트를 참고하여 작성한 내용입니다.
06 KoNLP를 이용한 한국어 텍스트 마이닝 (wordcloud2)
library(KoNLP) library(tm) library(XML) library(wordcloud2) library(SnowballC) library(RCurl) useNIADic() #사전로드 #웹특정페이지 읽기 위키빅데이터 t <- readLines('https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0') d <- htmlParse(t, asText=TRUE) #HTML 읽기기 clean_doc <- xpathSApply(d, "//p", xmlValue) #R데이터형으로 변환 class(clean_doc) #단어 추출 nouns <- extractNoun(clean_doc) mnous <- unlist(nouns) #리스트 --> 문자열 mnous_freq <- table(mnous) #단어 빈도수 class(mnous_freq) head(mnous_freq) #내림차순으로 정렬 v <- sort(mnous_freq, decreasing = TRUE) class(v) head(v) #워드클라우그 그리기 wordcloud2(v) # 모든 단어 표시 ################################################# class(v) v1 <- v[1:100] # 상위 100개 단어만 골라 표시 wordcloud2(v1)
한국어 텍스트 마이닝 (wordcloud2)
library(tm) library(XML) library(wordcloud2) library(SnowballC) library(RCurl) #웹에서 한국어 페이지 가져오기 t <- readLines('https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0') d <- htmlParse(t, asText = TRUE) #HTML 파일 읽기 clean_doc <- xpathSApply(d, "//p", xmlValue) #R데이터 타입으러 변환 #Corpus 말뭉치로 변환환 doc <- Corpus(VectorSource(clean_doc)) inspect(doc) #Corpus 내용 표시 #불용어 처리 doc <- tm_map(doc, content_transformer(tolower)) doc <- tm_map(doc, removeNumbers) doc <- tm_map(doc, removePunctuation) doc <- tm_map(doc, stripWhitespace) #DTM으로변환환 dtm <- DocumentTermMatrix(doc) dim(dtm) inspect(dtm) #DocumentTermMatrix 내용표시 m = as.matrix(dtm) #매트릭으로 변환 v = sort(colSums(m), decreasing = TRUE) #정렬 d = data.frame(word = names(v), freq = v) #데이터프레임으로 변환 class(d) str(d) d1 = d[1:500, ] # 500개 단어만 표시 wordcloud2(d1)
'프로그래밍 > R' 카테고리의 다른 글
[R] 상관분석, 그래프 그리기(히트맵) (0) 2021.06.09 [R] 지도 시각화 (미국 주별 강력 범죄율 단계 구분도, 대한민국 시도별 인구, 결핵 환자 수 단계 구분도, 지도 시각화, 구글 차트) (0) 2021.06.08 [R] wordcloud2 패키지 실습 (0) 2021.06.07 [RStudio, 스크랩] Error-.onLoad가 loadNamespace()에서 'rJava'때문에 실패했습니다 (0) 2021.06.06 [R]_31일차_06.04 (0) 2021.06.06