热词的识别与提取算法

 

 

1.什么是热词

热词特点: 
1.某一时间段内起点低,增长迅速 
2.具有很强的延续性,和热词相关的其他词也被报道 
3.热度随着时间的流逝而改变

2.热词排名计算的两种方法

热词排名方法一:贝叶斯平均法(Bayesian average)

先来理解一下利用贝叶斯统计算法的公式: 
QQ截图20160606113934.png-6.2kB 
WR是每个词的加权得分,WR越大表示热度越大 
R是该词汇的平均得分(这里设定都为1) 
v是总词频 
m是排名前n的词汇的最低词频(n是自定义的阀值)

热词排名法二:牛顿冷却定律

将热词排名想象成一个即自然冷却的过程。可以利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程。 
牛顿冷却定律:物体的冷却速度,与其当前温度与室温之间的温差成正比。 
若仅仅使用今天与昨天的搜索量对比,时间差为1,最终的冷却系数可以通过如下公式计算: 
QQ截图20160608135424.png-16.3kB

为了防止除数为0,将公式改为 
QQ截图20160608135615.png-13.8kB 
若冷却系数越低则说明热度就越大

3.实验设计

3.1 数据获取

数据来源:搜狗搜索引擎网页查询一个月的日志。数据大小1.02G,每天搜索日志大约为50M。 
数据格式:访问时间 用户ID 查询词 改URL在返回结果中的排名 用户点击的顺序号 用户点击的URL 
字段之间用\t分割,此处只关心查询词,将其过滤出来。

3.2 热词的评价标准

(1)统计词语一周内的词频,词频在当天未峰值,并大于某一阀值 
(2)该峰值与起始值差值大于某一阀值 
(3)热度值大于某一阀值

写成公式,可如下表示: 
QQ截图20160606131714.png-15kB

H(w)为热度 
Atp(w)当前词频 
all(w)表示以Ayp(w)为中心的前后三天的词频 
BeTp(w)为起始词频 
c1,c2为阀值。

3.3 实验目的

取出每天排名前五的词汇作为热词

3.4 热词排名的方法步骤

QQ截图20160606132055.png-23.7kB

(1)提查询词,作者用了正则表达式来提取查询词,但起始字段是按\t分割的话,直接用split(“\t”)(2)取出索引为3的字段就可以了。 
(2)对查询词进行中文分词 
(3)利用贝叶斯平均或者牛顿冷却定律计算词语的热度,并对热度倒叙排序 
(4)对每天的热词进行相关搜索,核实该热词是否真实存在 
(5)利用热词评价指标,计算准确率

4.实验过程

4.1 贝叶斯平均实验

今天的词频比昨天的词频增长地越多,那么说明这个词今天越热,但是如何表示这个增长呢?首先肯定会想到减法,让今天的词频减去昨天的词频,差越大表示热度越大,但是以下两个词就戳穿了这个逻辑的BUG:

好男儿   0      441
男同志   3410   3925
  • 1
  • 2

好男儿从0到441,搜索量猛增,男同志虽然也增长了那么多,但他本来基数就大,所以好男儿更应该被选为热词。故光看增长量是有误区的

文献中作者又提到采用除法的形式,今天的词频除以昨天的词频,倍数越大则热度越大,但是同理,如果除数的基数很小,那么它的倍数就会很大,这样的逻辑也有失偏颇。

最后作者采用了归一法 
今天词频/(昨天词频+今天词频) 
如下图例子: 
QQ截图20160606134839.png-103.9kB

现在采用贝叶斯平均法,计算词项的热度。 
QQ截图20160606135221.png-12.4kB

比如计算“俞思远”这个词的热度,套用以上公式 
QQ截图20160606135338.png-11.1kB

同理,我们可以求出所有词的热度,画成了一个折线图如下: 
QQ截图20160608131728.png-91.1kB

4.2 牛顿冷却定律实验

利用以上提到的牛顿冷却定律的公式对以上词语进行计算,可以得到每个词的冷却系数。冷却系数越低则说明热度越大,如下表: 
QQ截图20160608132335.png-70.2kB

进一步对冷却系数取反,代表词的上升趋势,如下图: 
QQ截图20160608132435.png-102.5kB

牛顿冷却定律相比于贝叶斯平均法的有点在于其热度的变化比较清晰。但是,对于(当前词频)/(历史词频)的比值较大的词估计过高,贝叶斯平均法则没有这个问题

4.3 热词评价值的改进

作者将以上两种方法进行了结合。分别通过两个方法计算出两个热度,然后对两个值各自设置一个权值,得到综合的H(w)热度值。公式如下: 
QQ截图20160608133020.png-31.3kB 
Atp(w)为当前词频 
B(w)为贝叶斯平均值 
α(w)为负冷却系数 
Btp(w)为历史词频

作者通过训练与测试发现上述阀值取下列值比较合适: 
QQ截图20160608134443.png-32.8kB 
(关于阀值的制定,我觉得不能完全参照作者的,在具体项目中应当自己测试出最符合本项目的阀值)

改进热词评价后,以下是计算出的新热度值 
QQ截图20160608134619.png-75.8kB

lionzl
关注 关注
  • 8
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
如何对热词进行提取
seaboat——a free boat on the sea.(公众号:远洋号)
05-15 6207
热词简单地理解热词就是某文档中出现频率高的且非无用的词语。朴素的想法文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。干扰项 标点符号,一般标点符号没有价值,去掉。 停词,停词没有特别的意义,一般也要去掉,比如“是”,“的”,”the”,”that”,”this”等。 词权重现在可能还存
NLP之通过词频发现中文新词
ithinking110的博客
12-25 1144
NLP之通过词频发现中文新词新词发现文本片段代码实现计算自由度 新词发现 新词发现任务是中文自然语言处理的重要步骤。新词有“新”就有“旧”,属于一个相对个概念,在相对的领域(金融、医疗),在相对的时间(过去、现在)都存在新词。文本挖掘会先将文本分词,而通用分词器精度不过,通常需要添加自定义字典补足精度,所以发现新词并加入字典,成为文本挖掘的一个重要工作。 这个和 HMM 发现未登录词还有区别,HM...
python爬虫之分析文本数据的词频
naer_chongya的博客
06-15 2072
Python是一种高级编程语言,也是数据科学中的一种重要工具。在文本数据分析中,Python提供了许多功能强大的库和工具,其中一个重要的工具就是分析文本数据的词频。分析文本数据的词频是文本分析的重要方法,也是自然语言处理的重要应用。通过分析文本数据中的词频,我们可以了解到文本数据中出现频率较高的单词或短语,进而对文本数据进行分类、主题分析等操作,为后续的分析工作提供支持。在本文中,我们将详细介绍如何使用Python对文本数据进行词频分析,并通过一个示例来详细解释Python的代码实现过程。
热词发现的算法都有哪些?
Tiffany_Li2015的博客
12-09 1932
1、TFIDF的运用,如算出每个文档中单词的TFIDF后,比较大小,直接加权或者取TopN.这个可以自己写也可以用工具sklearn.(不过使用中文时注意上篇中提到的注意事项) 2、主题模型方法,使用gensim中的LDA等 最后使用词云工具如pyTagcloud进行可视化展示
热词统计发现算法3则
pi9nc的专栏
07-15 8067
2013-06-27 16:17 84人阅读 评论(0) 收藏 举报 目录(?)[+] 转载于http://qing.blog.sina.com.cn/2090594487/7c9bf0b733001jsa.html 以搜索为例,点击类似。所有变换和简化须不影响排序结果。 排位变化 最初的算法参考电影排行榜,统计昨日Top词、前日Top词,然后计算每个词w
有100W个关键字,长度小于等于50字节。用高效的算法找出top10的热词,并对内存的占用不超过1MB。
stay hungry,stay foolish
12-10 2000
①先把100W个关键字hash映射到小文件,根据题意,100W*50B = 50*10^6B = 50M,而内存只有1M,故干脆搞一个hash函数 % 50,分解成50个小文件; ②针对对每个小文件依次运用hashmap(key,value)完成每个key的value次数统计,后用堆找出每个小文件中value次数最大的top 10; ③最后依次对每两小文件的top 10归并,得到最终的top
一种图像边沿特征提取算法与路径识别系统.pdf
05-17
图像边沿特征提取算法与路径识别系统 本资源摘要信息主要介绍了一种基于图像边沿特征提取算法的路径识别系统的设计和实现。该系统旨在解决自动驾驶过程中路径类型预判较慢且准确度不高的问题。 知识点一:图像边沿...
人脸识别特征提取算法研究.pdf
09-23
人脸识别特征提取算法研究 人脸识别是当前模式识别和人工智能领域的一个研究热点,而人脸特征提取是人脸识别技术的关键。独立成分分析(ICA)是一种新型的多维数字信号处理技术,其基本思想是在最大程度上保持信息...
算法识别图片提取汉字数字信息.rar
11-30
算法自动识别图片提取信息中的用户名,工号等信息,显示在界面上,悬浮窗,托盘vs2017 release版本,图片置顶放到桌面中央便于识别,工程中属性中包含了算法和opencv库,要根据需求修改对应目录名。
java使用Nagao算法实现新词发现、热门词的挖掘
09-03
主要介绍了java使用Nagao算法实现新词发现、热门词的挖掘的思路和详细代码,需要的朋友可以参考下
人脸分形特征提取识别算法分析与探究.pdf
05-19
人脸分形特征提取识别算法分析与探究.pdf
人脸识别特征提取算法研究
05-18
人脸检测识别技术在警察执法中的应用.pdf
新词发现方法,新词发现算法有哪些,热词的发现方法,互联网热词挖掘方法
创业者
04-02 689
(1)从大数据中抽取:通过抓取互联网上的海量语料,利用统计模型和自然语言处理技术,挖掘新的高频单词或词组,比如Google的Ngram Viewer。(4)热词挖掘:基于特征提取结果,运用机器学习算法和自然语言处理技术,对文本进行分析和挖掘,挖掘出热词和相关热点话题。(2)基于社交媒体的新词发现:通过分析社交媒体平台上的大量用户互动记录,挖掘出新词,比如Twitter的实时搜索。(3)基于词向量的算法:通过对文本数据进行分词,建立文本的向量表示,计算新词与现有词语的相似度,从中挖掘新词。
数据结构和算法|堆的应用
sinat_27143551的博客
03-07 556
搜索引擎的热门搜索排行榜功能你用过吗?你知道这个功能是如何实现的吗?实际上,它的实现并不复杂。搜索引擎每天会接收大量的用户搜索请求,它会把这些用户输入的搜索关键词记录下来...
天天学算法——搜索热词关联(TopK)
continueOo的博客
08-20 4040
目录: 《剑指offer》面试题-topk算法 搜索热词关联算法 代码实现以及java学习 写在前面每次写博客都爱先扯点乱七八糟的东西,这是工作准备写的第2篇博客,之前写过一篇hadoop入门,那里还留下了一个搜索引擎的demo没有去完成,这次学习热词关联刚好也是和搜索引擎相关,所以借此机会把这篇记录下来,一方面花了3天来学习了这个内容,确实学到了不少东西,二来下次写搜索引擎的hadoop的demo
舆情中的热词分析,没你想的那么简单
weixin_33893473的博客
01-16 1298
背景 阿里云公众趋势分析产品通过云服务的方式,将阿里巴巴成熟的舆情分析技术共享给广大开发者。热词分析是公众趋势分析最近刚刚上线的功能,用户反馈效果还不错。这个功能听起来很简单,不就是对数据源进行分词,然后再统计一下热度么?No!它可没那么简单。 分词和实体识别 良好的分词是热词分析的基础。对于绝大部分分词工具来说,最大的挑战在于识别从未见过的网络热门词、...
基于易支付二开的前端模板美化源码.zip
最新发布
06-17
基于易支付二开的前端模板美化源码
图像识别特征提取算法有那哪些
03-28
常见的图像识别特征提取算法包括: 1. SIFT (Scale-Invariant Feature Transform) 2. SURF (Speeded Up Robust Features) 3. ORB (Oriented FAST and Rotated BRIEF) 4. HOG (Histogram of Oriented Gradients) 5. LBP (Local Binary Patterns) 6. CNN (Convolutional Neural Network) 7. PCA (Principal Component Analysis) 8. GIST (GIST Descriptor) 9. Color Histograms 10. Bag of Visual Words (BoVW)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • utf8转gb2312精简版 47197
  • utf8转gb2312 34894
  • 关于研究课题中的技术路线与实施方案 31126
  • 国家分级保护规范要求解读 22103
  • 如何查询Oracle数据库的操作日志 19753

分类专栏

  • 专利 5篇
  • .Net相关 120篇
  • 3D 6篇
  • c# 24篇
  • Firefox 8篇
  • Linux Fedora 117篇
  • map server 3篇
  • Oracle 15篇
  • pacs&lis 11篇
  • PowerDesigner 12篇
  • silverLight 41篇
  • ssdt及驱动 68篇
  • XSS 7篇
  • 加壳 5篇
  • 数据库 140篇
  • 数据恢复 5篇
  • 测试 13篇
  • 生活 42篇
  • 编程杂烩 263篇
  • 网站管理 27篇
  • 网络编程 179篇
  • 计算机安全 260篇
  • 项目管理 335篇
  • LAMP 84篇
  • RFID 2篇
  • 标签技术 12篇
  • python 90篇
  • ubuntu 161篇
  • VOIP_RTC 9篇
  • 图像处理(OpenCV) 9篇
  • Android 10篇
  • DLP 228篇
  • java 141篇
  • Algorithm 102篇
  • SVM 16篇
  • APR 11篇
  • MySQL 19篇
  • xml 10篇
  • boost 8篇
  • squid 4篇
  • netlink 1篇
  • 大数据和数据挖掘 89篇
  • hadoop 25篇
  • NoSQL 4篇
  • 自然语言处理NLP 31篇
  • 威胁情报 2篇
  • 硬件 1篇
  • mac os ios 2篇
  • AI 4篇
  • 微信小程序 1篇
  • 云计算 7篇

最新评论

  • Fungible:以数据为中心时代来临

    li� x?n y�: 这两个白皮书能分享一下吗qaq

  • 字典树Trie和三叉搜索树Ternary Tree的学习总结

    @__Chao - L: 我在Java里面也实现了类似的功能,同时建议在Java里面用map来装子节点就好了。还有就是这样实现的应该要从第一个单词开始匹配,不能从第二个以后的单词开始匹配吧?

  • KeUserModeCallback 用法详解

    下山买菜-: 太干了 看不懂 我是菜鸡 呜呜呜

  • thrift开发问题总结

    稻草。: python也有相互覆盖的问题

  • 读取指定用户注册表代码

    CRongQ: 改为KEY_ALL_ACCESS就可以了

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Fungible:以数据为中心时代来临
  • Gartner:用自适应安全架构来应对高级定向攻击
  • 前后端常见的几种鉴权方式
2021年10篇
2020年11篇
2019年67篇
2018年3篇
2017年86篇
2016年153篇
2015年193篇
2014年251篇
2013年382篇
2012年374篇
2011年373篇
2010年184篇
2009年251篇
2008年1篇

目录

目录

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码六安网站seo优化多少钱眉山英文网站建设报价长治关键词排名多少钱鹰潭关键词排名包年推广推荐济南推广网站多少钱三明seo网站优化价格济宁网站seo优化报价济南关键词按天计费临夏关键词排名包年推广多少钱宝安百度网站优化排名公司德阳百姓网标王价格临猗网站推广系统多少钱武汉网站seo优化报价孝感网站优化软件报价呼和浩特推广网站多少钱盐城SEO按效果付费多少钱庆阳SEO按天扣费公司张北网站优化按天计费报价海东网站建设推荐林芝百度网站优化公司吉祥网站优化排名永州关键词按天扣费山南SEO按天收费公司漯河建站推荐广东建网站报价赣州网站推广系统多少钱临汾网站seo优化价格亳州至尊标王推荐永州网站推广系统哪家好洛阳外贸网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化