Chapter 2.2 高频词和关键词提取(二)

9 篇文章 3 订阅
订阅专栏

知识点2.2.1 TF-IDF算法的基本思想

TF-IDF算法由TF和IDF两部分组成,是TF算法和IDF算法的综合使用

TF(词频):某词在某文档中出现的次数/该文档的总词数,词频越高表示该词对该文档的表达能力越强

IDF(逆文档频次):log(语料库中的总文档数/(1+语料库中出现某词的文档数)),分母加1是使用了拉普拉斯平滑,以避免个别新词没有在语料库中出现而导致分母为0的情况,逆文档频次越高表示该词对该文档的区分能力越强

例:“发展”在2021年的政府工作报告中出现的频数较高(TF较高),但在每一年的政府工作报告中都出现(IDF较低),因此“发展”可能不是2021年政府工作报告的关键词

​ “高质量”在2021年政府工作报告中出现的频数较高(TF较高),且仅在近几年的政府工作报告中出现(IDF也较高),因此“高质量”可能就是2021年政府工作报告的关键词

优点:便于理解,便于计算

缺点:考虑信息不够全面(词性、位置)

改进:在传统TF-IDF算法的基础上,按词性(比如名词)、位置(比如起始段落或结尾段落)等信息赋予某些词更高的权重

知识点2.2.2 基于jieba的TF-IDF关键词提取

基于jieba的TF-IDF关键词提取的特点:

  1. 能够直接分词
  2. 能够使用自定义词典(新词、停用词)
  3. 能够直接计算TF-IDF值(无需训练模型)
  4. 能够使用自定义语料库(计算IDF值)
  5. 计算结果以列表形式呈现(而非矩阵)
  6. 适用于单文本关键词提取
#载入需要的程序模块
import jieba.analyse
#导入需分析的文档(str类型),并打印
with open('C:\\Users\\dell-pc\\desktop\\2021.txt', "r", encoding = 'utf-8') as f:
    chap2_tf = f.read()
    print(chap2_tf)
#导入自定义的停用词词典
jieba.analyse.set_stop_words('C:\\Users\\dell-pc\\desktop\\停用词.txt')
#使用tf-idf算法提取前20个关键词(基于jieba默认的计算idf值的语料库)
freq_tf = jieba.analyse.extract_tags(chap2_tf, topK = 20)
freq_tf
#使用tf-idf算法提取前20个关键词及tf-idf值
freq_tf = jieba.analyse.extract_tags(chap2_tf, topK = 20, withWeight = True)
freq_tf
#使用tf-idf算法提取前20个指定词性的关键词及tf-idf值(n表示名词)
freq_tf = jieba.analyse.extract_tags(chap2_tf, topK = 20, withWeight = True, allowPOS=('n'))
freq_tf

知识点2.2.3 关键词的词云图展示

#载入需要的程序包
import wordcloud
import matplotlib.pyplot as plt
#导入需要的中文字体
myfont = r'C:\Windows\Fonts\msyhbd.ttc'
#绘制词云图(如要绘制前50个关键词的词云图,则需在关键词提取命令中将topK设置为50)
word_cloud = wordcloud.WordCloud(font_path = myfont,
                                 width = 1200,
                                 height = 800,
                                 mode = 'RGBA',
                                 background_color = None,
                                 max_words = 50,
                                 colormap = 'cividis').fit_words(dict(freq_tf))
  • font_path 设置自定义字体路径
  • width 设置图片宽度,默认为400
  • height 设置图片高度,默认为200
  • mode 默认为‘RGB’,当设置为’RGBA’时背景色为透明
  • background_color 设置图片背景色,默认为黑色
  • max_words 设置图片显示的词数,默认为200
  • colormap 设置字体颜色

wordcloud官方网址(https://amueller.github.io/word_cloud/)

字体颜色参考网址(https://matplotlib.org/stable/gallery/color/colormap_reference.html)

#展示词云图
plt.imshow(word_cloud)
plt.axis("off")
plt.show() 
#保存词云图
word_cloud.to_file("chap202.png")

欢迎关注微信公众号“Trihub数据社”

高频词提取
weixin_39890933的博客
03-03 2258
高频词一般指的是在文章中出现频率较高的且有意义的一些词语,一定程度上代表了文档的焦点所在。所以也可以将其当做关键词。 本文的分词工具使用了jieba分词。 首先,引入要用的包并且读取待处理的文档数据: import glob import random import jieba def get_content(path): with open(path,'r',encoding='gbk'...
PHP和MySQL Web开发第4版 源代码 补齐Chapter02/Chapter03
09-08
完全版!补齐缺少的 Chapter02 Chapter03 如果不对不要钱!
chapter 0_ABAQUS次开发_
09-28
悬臂梁模型 在压力荷载作用下的建模、分析提交和后处理
chapter23 基于蚁群算法的维路径规划算法.rar_chapter23_needsufx_维路径_蚁群路径规划_路径规
09-23
在matlab用蚁群算法实现对维路径的规划
计算机图形学:Chapter 1 图形系统和模型.ppt
05-21
计算机图形学:Chapter 1 图形系统和模型.ppt
chapter 7.1 编程规范和范例-综合文档
05-24
chapter 7.1 编程规范和范例
TF-IDF:自动提取关键词
超级圈的博客
06-20 1万+
目录: 一、TF-IDF基础知识 1.TF-IDF 2.举例介绍 TF-IDF调用两个方法 1.CountVectorizer 2.TfidfTransformer 3.别人示例 一、TF-IDF基础知识 1.TF-IDF TF-IDF(Term Frequency-InversDocumentFrequency)是一种常用于信息处理和数...
《程序员》06年9期智慧擂台 :高频词提取
热门推荐
《程序员》官方BLOG
09-29 2万+
 “技术的比拼,思维的碰撞——智慧擂台,给广大程序员展示智慧的舞台。”高频词提取——对统计纯文本中高频词程序的优化文 / 王尧  高频词提取是一道很容易让人产生兴趣的题目,同时也是一道典型的计算机算法题目。主要涉及到“排序”和“搜索”两大经典课题。它的速度的快慢也取决于相应数据结构的设计。对于程序员的基本素质训练有很好的帮助。 这个算法可以分成“计数”和
jieba实现基于tf-idf算法的关键词提取(附完整代码)
qq_45402214的博客
11-10 1万+
@基于itf-idf算法的关键词提取 提出问题 假设我们现在有一篇文章,需要提取这篇文章的关键词,要怎样才能通过计算机实现呢? TF-IDF算法介绍 一篇文章的关键词基本都是能体现文章的内容,而且几乎是在文章中频繁出现的词,统计文章中各个词出现的次数,出现最多的则是这篇文章的关键词了,那具体是怎么统计呢,这里有一个专业术语叫词频(term frequency),简称TF。计算公式如下: TF(词频) = 某次在文章中出现的次数 / 文章中的总词数 举例子:我正在学习人工智能,并且我一定会成功的。 **通过j
自然语言处理(三)文章高频词提取
curry3030的博客
07-05 1万+
一、高频词提取简介 高频词一般是指文档中出现频率较高且并非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档,可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论的焦点。其中高频词提取其实就是自然语言处理中的TF(Term Frequency)策略。 、数据集下载及算法介绍 数据集下载地址:https://github.com/nlpinaction/le...
基于树型结构和加权熵的中文高频词提取算法 (2011年)
04-26
提出了一种基于树型结构和加权嫡的中文高频词提取算法。简单介绍了中文的树型 结构和加权信息嫡,详细叙述了算法的原理和设计步骤,并给出了具体的算法描述。实验结果 表明,该算法是可行和有效的。
关键词抽取算法介绍:TF-IDF和TextRank
anshuai_aw1的博客
11-25 4800
一、前言 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度;从某天所有的新闻中提取出这些新闻的关...
利用python进行tf-idf算法绘制词云图_python TF-IDF算法实现文本关键词提取
weixin_42494796的博客
01-30 1538
TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词。所以我们需要一个重要性调整系数来衡量一个词是不是常见词。该权重为IDF(Inverse Document Frequency)逆文档频率,它的大小与一个词的常见程度成反比。在我们得到词频(TF)和逆文档频率(IDF)以后,将两个值相乘,即可得...
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”评论数据情感分析
马哥的专栏
05-05 2664
"谷爱凌"热门弹幕python舆情分析。针对"谷爱凌"弹幕数据,采用python的情感分析、文本挖掘等数据分析技术,判断网友评论导向,得出有价值的分析结论。
文本特征词选择及TF-IDF算法应用
最新发布
qq_36128101的博客
03-25 984
文本特征词选择,也称为关键词提取,是自然语言处理NLP)中的一项重要任务,它的目的是从文本数据中识别出最能代表文本内容的词语。这些特征词能够用于**概括主题**,为文本分析、信息检索、内容摘要等应用提供基础。
NLP高频词提取
Chelseady的博客
12-13 1316
import glob import jieba def get_content(path): with open(path,'r',encoding='gbk',errors='ignore') as f: content='' for l in f: l=l.strip() content+=l ...
大数据高频词算法实战(一)
Hello World
03-30 839
一、序言           我们群里发了了一个挑战,题目大概是:2亿随即字符串,在一个txt 文本里面,找出出现频率最高的前100 个字符串,双核CPU,4G 内存,当然JVM 只开了1G。          其实类似的题目,很多公司也都有了,但是可能思想说得多,实战稍微少点,这里我抽空也写了一种通用的,凡是上诉题目都可以按方法进行处理,也做可以做其他扩展和优化。   、设计原理 ...
TF-IDF? 这一篇就够了
Miracle8070
02-11 2524
今天用朴素贝叶斯做文本分类的时候,需要把普通的文本转成计算机可以识别的特征向量, 这里用到了一种TF-IDF的统计方法,所以先解释一下这个: 什么是TF-IDF值呢? TF-IDF 是一个统计方法,用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。 TF-IDF 实际上是两个词组 Term Frequency 和 Inverse Document Frequency 的总称,两者缩...
tf-idf原理 & TfidfVectorizer参数详解及实战
机器学习、深度学习、文本分类、异常检测、风控等知识的积累和分享
09-05 1万+
tf-idf作为文体特征提取的常用统计方法之一,适合用于文本分类任务,本文从原理、参数详解及实战全方位详解tf-idf,掌握本篇即可轻松上手并用于文本数据分类。tf 表示(某单词在某文本中的出现次数/该文本中所有词的词数),idf表示(语料库中包含某单词的文本数、的倒数、取log),tf-idf则表示,tf-idf认为词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在整个语料库中出现的频率成反比下降。idf表达式如下,其中k为包含某词的文本数,n为整个语料库的文本数。...
数字集成电路电路系统与设计第版答案chapter 5
11-02
由于没有具体提供《数字集成电路电路系统与设计第版》第五章的问题或者概要,无法为你提供详细的答案。然而,对于数字集成电路系统与设计的内容,以下是一些可能在第五章中涉及的主题和概念: 1. 计数器设计:在数字电路中,计数器是一种用于计算和显示计数的电路。第五章可能介绍了时序逻辑电路中常见的计数器设计,如进制计数器和BCD计数器。 2. 触发器和时序逻辑门设计:触发器是一种用于存储和延迟信号的数字逻辑电路。第五章可能解释了触发器的工作原理并介绍了不同类型的触发器,如D触发器和JK触发器。此外,章节中还可能探讨了时序逻辑门的设计和实现。 3. 有限状态机设计:第五章可能涉及有限状态机的设计和实现。有限状态机是一种模型,用于描述系统在特定条件下的行为。章节中可能介绍了状态转换图和状态转换表的使用,并探讨了如何设计和优化有限状态机。 4. 存储器设计:数字电路中的存储器用于存储和检索数据。第五章可能介绍不同类型的存储器,如SRAM和DRAM,并探讨存储器的设计和接口。 总之,第五章可能介绍了数字集成电路系统与设计的一些重要概念和技术,包括计数器设计、触发器和时序逻辑门设计、有限状态机设计以及存储器设计。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 【手把手陪你学R】用ggplot2包画箱线图 11644
  • 【手把手陪你学R】用corrplot画相关系数图 5809
  • 【手把手陪你学Python】用pyecharts画词云图 4943
  • 【手把手陪你学R】用fmsb包画雷达图 4719
  • Python综合评价模型(八)熵权法 4105

分类专栏

  • Python综合评价 8篇
  • 手把手陪你学Python 22篇
  • 手把手陪你学文本分析 9篇
  • Excel VS Python 9篇
  • 手把手陪你学R 3篇

最新评论

  • 【手把手陪你学R】用fmsb包画雷达图

    m0_71014426: Error in radarchart(center, pcol = colors, plwd = 2, plty = 1) : unused arguments (pcol = colors, plwd = 2, plty = 1)有人知道吗

  • Excel VS Python 第六期——设置数据索引

    m0_69268603: 如何数据是三维的,怎么建立索引啊

  • Python综合评价模型(一)TOPSIS法

    Alex·Fall: 请问是否要补充正向化操作?

  • Python综合评价模型(六)层次分析法

    Yif18: 查表的时候就查n就行

  • Python综合评价模型(八)熵权法

    Yif18: 案例中指标都是正向的,所以只是用了minmax_p函数,文章中同时提供负向指标的标准化函数是为了便于其他同学在遇到实际问题的时候使用

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Python综合评价模型(九)CRITIC法
  • Python综合评价模型(八)熵权法
  • Python综合评价模型(七)变异系数法
2023年9篇
2022年9篇
2021年15篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码霍邱模板推广公司连云港百度关键词包年推广报价揭阳模板推广推荐石家庄外贸网站设计价格张家口建网站多少钱连云港网站优化报价周口企业网站制作价格松原网站搭建哪家好抚州网站搜索优化多少钱迪庆网站建设设计多少钱白银阿里店铺运营价格扬州网站搭建多少钱呼和浩特营销型网站建设阜新网站制作多少钱聊城网站搭建多少钱许昌外贸网站制作推荐汉中品牌网站设计公司商洛网站推广系统宿州模板网站建设价格辽源模板网站建设玉林网站优化推广推荐梧州网络广告推广报价仙桃推广网站报价宜昌网站关键词优化徐州网络广告推广哪家好梅州模板制作推荐阜新营销型网站建设报价德宏推广网站公司赣州网站优化按天扣费惠州网络营销公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化