R语言文本分析+词云图绘制

Floren han

已于 2023-03-25 23:19:38 修改

阅读量2.2k

点赞数 4

文章标签： r语言

于 2023-01-01 13:39:48 首次发布

本文链接： https://blog.csdn.net/weixin_63144912/article/details/128511538

版权

利用R语言进行文本分析(词云图制作

在我们日常的工作、学习生活中，肯定会遇到一些情况需要进行文本分析，进行工作报告的时候、写论文的时候等等等等，如果我们能将数据可视化，那就会是一个很好的展示

在网络上有许多关于R语言词云图的制作，但是真正清晰明了的我觉得不是很多，这篇文章就以党的二十大报告为例做一次简单的文本分析并展示词云图
关于jieba和wordcloud2
jieba是用于处理自然语言的分词项目，功能很强大，词云图的制作离不开分词，获取了文章的词频才能做出词云图；wordcloud2是绘制词云图的工具。下面是代码部分

install.packages("jiebaRD")
install.packages("jiebaR")
install.packages("wordcloud2")
install.packages("wordcloud")
install.packages("RcolorBrewer")

library(jiebaRD)
library(jiebaR)
library(wordcloud2)
library(wordcloud)
library(RcolorBrewer)

setwd("D:/R/wordcloud") #设置工作目录
word = scan(file = "二十大报告.txt", sep = '\n', what = "", encoding = "UTF-8")
#worker() 用于新建分词引擎，可以同时新建多个分词引擎。
worker <- worker(type = "mix", stop_word = "stopword.txt")
#这里的stop_word是关键词用停止词库，也就是不统计那些很容易出现的词比如“的”“好”,自己创建一个停词词库就行
result = segment(word, worker)#分词
result = sort(table(result), decreasing = T)#分类
write.csv(result, "aresult.csv")#将分词结果写成表格文件
result[1:100]#展示词频排列第一到第100的词
wordcloud2(result[1:100])#展示词云图