[R] 텍스트 마이닝 (웹 특정 페이지 읽어오기

06 KoNLP를 이용한 한국어 텍스트 마이닝 (wordcloud2)
한국어 텍스트 마이닝 (wordcloud2)

프로그래밍/R 2021. 6. 8. 20:15

본 내용은 '2021년 혁신성장 청년인재 집중양성 사업'의 ‘인공지능 개발자 양성 과정’ 강좌를 수강하면서 강의 및 강의노트를 참고하여 작성한 내용입니다.

06 KoNLP를 이용한 한국어 텍스트 마이닝 (wordcloud2)

library(KoNLP)
library(tm)
library(XML)
library(wordcloud2)
library(SnowballC)
library(RCurl)

useNIADic() #사전로드

#웹특정페이지 읽기 위키빅데이터
t <- readLines('https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0')
d <- htmlParse(t, asText=TRUE) #HTML 읽기기
clean_doc <- xpathSApply(d, "//p", xmlValue) #R데이터형으로 변환
class(clean_doc)

#단어 추출
nouns <- extractNoun(clean_doc)
mnous <- unlist(nouns) #리스트 --> 문자열
mnous_freq <- table(mnous) #단어 빈도수 
class(mnous_freq)
head(mnous_freq)

#내림차순으로 정렬
v <- sort(mnous_freq, decreasing = TRUE)
class(v)
head(v)

#워드클라우그 그리기
wordcloud2(v)             # 모든 단어 표시

#################################################
class(v)
v1 <- v[1:100]              # 상위 100개 단어만 골라 표시 
wordcloud2(v1)

한국어 텍스트 마이닝 (wordcloud2)

wordcloud2_tm_basic_2.R

library(tm)
library(XML)
library(wordcloud2)
library(SnowballC)
library(RCurl)

#웹에서 한국어 페이지 가져오기
t <- readLines('https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0')
d <- htmlParse(t, asText = TRUE) #HTML 파일 읽기
clean_doc <- xpathSApply(d, "//p", xmlValue) #R데이터 타입으러 변환

#Corpus 말뭉치로 변환환
doc <- Corpus(VectorSource(clean_doc))
inspect(doc) #Corpus 내용 표시

#불용어 처리
doc <- tm_map(doc, content_transformer(tolower))
doc <- tm_map(doc, removeNumbers)
doc <- tm_map(doc, removePunctuation)
doc <- tm_map(doc, stripWhitespace)

#DTM으로변환환
dtm <- DocumentTermMatrix(doc)
dim(dtm)
inspect(dtm) #DocumentTermMatrix 내용표시

m = as.matrix(dtm) #매트릭으로 변환
v = sort(colSums(m), decreasing = TRUE) #정렬
d = data.frame(word = names(v), freq = v) #데이터프레임으로 변환
class(d)
str(d)

d1 = d[1:500, ]                # 500개 단어만 표시
wordcloud2(d1)

'프로그래밍 > R' 카테고리의 다른 글

[R] 상관분석, 그래프 그리기(히트맵) (0)	2021.06.09
[R] 지도 시각화 (미국 주별 강력 범죄율 단계 구분도, 대한민국 시도별 인구, 결핵 환자 수 단계 구분도, 지도 시각화, 구글 차트) (0)	2021.06.08
[R] wordcloud2 패키지 실습 (0)	2021.06.07
[RStudio, 스크랩] Error-.onLoad가 loadNamespace()에서 'rJava'때문에 실패했습니다 (0)	2021.06.06
[R]_31일차_06.04 (0)	2021.06.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

한 사람의 지혜창고 한 사람의 지혜창고

06 KoNLP를 이용한 한국어 텍스트 마이닝 (wordcloud2)

한국어 텍스트 마이닝 (wordcloud2)

'프로그래밍 > R' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

06 KoNLP를 이용한 한국어 텍스트 마이닝 (wordcloud2)

한국어 텍스트 마이닝 (wordcloud2)

'프로그래밍 > R' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역