百度热搜榜标题与热搜指数爬虫(python)

新手第一次写博客,仿照老师给的爬虫结构写了一个

用python写的爬虫,爬取了热搜榜的内容

源码:

# -*- coding: utf-8 -*-
"""
Created on Sun Mar  5 09:38:08 2023

@author: DELL
"""

url = 'http://top.baidu.com/buzz?b=1&fr=topindex'
def getSoup(Url):
      headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
} # 设置请求头
      proxy = {'http': 'http://101.4.136.34:82'}# 设置代理 http-协议类型 101.4.136.34-代理ip  82-代理端口
      urls=requests.get(url,headers=headers)
      r = requests.get(url, headers=headers, timeout=30)
      r.encoding = r.apparent_encoding# 获取网页的编码格式
      context = r.text # 获取HTML网页
      soup = BeautifulSoup(r.text,'html.parser') # 解析网页 
      return soup
def getContext():
    soup = getSoup(url)
    # 获取<div class='category-wrap_iQLoo horizontal_1eKyQ'></div>所有标签项
    info_clear_all = soup.find_all('div', class_='category-wrap_iQLoo horizontal_1eKyQ')
    for a in info_clear_all:
        # 获取标题
        label_a_title = a.find('div', class_='c-single-text-ellipsis')  # 获取标题所在的a标签
        title = label_a_title.text.replace(' ', '').strip().replace('\n', '')  # 获取标题
        print('标题:'+title)
        # 获取热搜指数
        hot_index = a.find('div', class_='hot-index_1Bl1a')
        hot_index_num = hot_index.text.replace(' ', '').strip().replace('\n', '')
        print('热搜指数:'+hot_index_num)
        
        
if __name__ == "__main__":
    getContext()

结果如下:

打混人,偷懒魂
关注 关注
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Python爬取百度搜榜
买烤麸烤饼儿的博客
08-28 3850
1. 简介 去年用C#给自己博客写的每日新闻爬虫突然就不能用了,最近闲下来看了一下,原来是百度搜榜的前端页面改版了,那难怪。这次索性人生苦短,我选Python吧。 2. 百度搜榜源码观察 百度搜榜的网址如下: 百度搜榜 去了点开源码一看,我乐了。 百度很贴心的在最前面用注释写好了搜榜内容的数据字典,也不知道是后端程序员生成出来忘记删了,还是真就方便大家爬呢。 那么接下来就好办了。 3. 获取网页html源码 使用python的urllib.request包,我就直接上代码了,大家看吧 #获取网页
python爬取知乎live_Python爬虫 - 简单抓取百度指数
weixin_39964899的博客
11-26 339
前言有点忙,没空写东西,这是之前写的,加了些配图而已这次要爬的网站是百度指数正文一、分析打开网站(百度指数),呈现出来是这样的如果索的话就需要登陆了,如果没有什么特别频繁的请求的话,直接登陆复制Cookie就完事了这里以 酷安 为例索这一栏是选择时间范围的,拖拽它能将范围选择更广我将其拖拽至2011,调试窗口可以看到请求,是个GET请求,参数有四个,除了 area 其他的都很好理解切换到 Pr...
python爬取百度榜链接
weixin_44783823的博客
08-23 758
目标网址:https://www.baidu.com/ 所要获取的内容: 链接分析:你会发现(自己看下图哈),所以只需要获取关键字,再构建就可以啦 完整代码: import requests import pprint import re import urllib.parse url = 'https://www.baidu.com/' headers = { 'Host': 'www.baidu.com', 'Referer': 'https://www.baidu.com/',
python爬虫练习-爬取百度
qq_41477300的博客
10-27 1801
写在前面: 比较简单,就写的也很简单,爬取的内容是标题指数 import requests from bs4 import BeautifulSoup url = 'http://top.baidu.com/buzz?b=1&fr=topindex' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0
Python 百度 全页面爬取
AdigaAdele的博客
06-29 270
import requests import xlwt from bs4 import BeautifulSoup def getCid(): hd = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.4071 SLBChan/21"} url = "ht
新版百度指数爬虫
buhdda 的地盘
11-08 4265
百度指数改版之后的数据获取逻辑 改版前 百度指数在改版之前它的获取逻辑可以说是非常复杂。。。算是比较经典的了。。。看过很多人的文章,人们有用图片截取然后识别,有的是用 比例计算。。。都算是可用的方法,一个偶然的机会,在github上面找到一个百度指数爬虫项目,方法算是比较新颖,给了我一点启发,selenium还可以这样用,真的是学到了,附上链接,有兴趣的小伙伴可以去研究一下 https://gi...
Python爬虫框架scrapy获取百度
最新发布
06-09
创建一个基础的Scrapy项目演示如何定义这样的结构和...同时,对于百度这样的大型网站,其robots.txt文件可能禁止爬虫访问某些页面,因此在进行任何爬取活动前,请确保阅读并遵守目标网站的使用条款和robots.txt文件。
Python网络爬虫之爬取微博
09-19
主要介绍了Python网络爬虫之爬取微博的相关知识,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
python网络爬虫:实现百度搜榜前50数据爬取,生成CSV文件
01-20
使用python爬虫:实现百度搜榜前50数据爬取,生成CSV文件(一)代码(二)结果 爬虫新手,边学边用,尝试着爬取百度搜榜前50的数据,将数据以CSV文件格式保存下来,并以爬取时间作为文件名保存。 (一)代码 ...
python-requests-百度关键字爬虫
05-10
主要使用requests方法对百度关键词进行爬取并保存在表格中,可以设置起始时间等
Python微博搜榜信息爬取项目.zip
06-03
所上传的资源是python编写的微博信息爬取项目,内含源代码+sql脚本,另外还对过程中可能出现的问题进行了汇总,对于正在学习这方面的你是一个很好的选择,希望对你有所帮助。
百度指数爬虫
weixin_44226126的博客
02-17 403
python爬取百度标题_Python爬取百度和数据处理
weixin_39639643的博客
11-20 1188
一、主题式网络爬虫设计方案1.主题式网络爬虫名称:爬取百度2.主题式网络爬虫爬取的内容与数据特征分析:百度排行,标题度3.主题式网络爬虫设计方案概述:先索网站,查找数据并比对然后再输入代码进行爬取。难点在于文件的生成和读取。二、主题页面的结构特征分析1.主题页面的结构与特征分析2.Htmls页面解析三、网络爬虫程序设计1.数据爬取与采集importrequestsfrom bs4 i...
百度指数爬取
niu_yifan的博客
11-28 724
有分析需求需要一个能够衡量歌星或乐队影响力的指标。首先爬取了新浪微博相关主体的粉丝数量,这里有一个问题就是有的明星影响力很大但并不用微博,导致微博的粉丝数量并不多,如:周杰伦。为解决这一问题,又去爬取了百度索和头条指数,在爬取过程中遇到一些问题,特此记录一下。使用的是python的requests。其中共有2个坑,1是url中的params的编码,另一个是请求头中的Cipher-Text参数。
爬取百度知道分类_百度指数爬虫|介绍篇
weixin_39940788的博客
11-21 559
简单介绍 前段时间帮别人写了几个爬虫,其中有一个是爬取百度指数。绝大多数人应该都知道这个东西,我在这里再说明一下哈! 百度指数百度提供的可以查看人们每天索关键词的次数的功能,具体长下面这个样子: 它可以显示每一天有多少人索指定的关键词,而且可以自己选择PC端(用电脑索)、移动端,可以自己选择不同的省份。而这次我就编写了一个百度指数爬虫 那么爬百度指数可以干什么呢...
百度爬虫 使用selenium + beautifulsoup 百度索关键词爬虫 代码整理
weixin_43810303的博客
10-25 976
百度爬虫 使用selenium + beautifulsoup 对百度索关键词进行爬虫,使用openpyxl保存至excel文件,包含了断点续传功能以及中断提示
python百度搜榜爬取
小菜鸡学编程的博客
11-30 1082
# terminal中安装库 bs4 requests # pip install bs4 requests import requests from bs4 import BeautifulSoup import bs4 def get_html(url,headers): r = requests.get(url,headers=headers) r.encoding = r.apparent_encoding return r.text def get_pages(ht.
Python爬虫百度指数爬取+导入数据库+QuickBI展示
weixin_34200157的博客
11-28 5435
python+mysql+quickbi,十大车厂的百度指数可视化趋势
python网络爬虫:用selenium+BeautifulSoup库实现百度搜榜数据的爬取
weixin_38262238的博客
06-24 4997
上图就是百度实时点的界面,本次的任务就是爬取到排行榜上的前50排名的关键词以及它的指数。用到的库:1、selenium              2、BeautifulSoup              3、xlwt(一):分析:爬取一个网页的首要工作是分析网页的源代码:可以看到tr标签里面就有我们想要的东西,排名,关键词,指数tr标签里面的三个class属性为:first,keywor...
python爬虫百度
07-27
Python爬虫百度是指使用Python编写程序来获取百度搜榜的数据。根据提供的引用内容,可以看出有多种方法可以实现这个目标。 引用\[1\]提供了一种使用Python爬虫获取百度搜榜前50数据并保存为CSV文件的方法。...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 百度热搜榜标题与热搜指数爬虫(python) 573
  • c++单链表拆分 189
  • C#实现记事本 93
  • Windows程序设计1:信用卡还款 87
  • Windows程序设计2:对象集合排序 70

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • C#实现记事本
  • c++单链表拆分
  • Windows程序设计2:对象集合排序
2023年5篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码辽阳百度爱采购价格广安如何制作网站多少钱许昌网站优化推广公司遂宁网站seo优化报价亳州网站设计模板拉萨百度网站优化排名哪家好玉溪网站制作哪家好凉山设计网站报价亳州网站建设报价南昌网站排名优化哪家好横岗高端网站设计推荐布吉SEO按效果付费陇南建设网站价格江门网站制作公司宝安网站制作推荐陇南SEO按天收费大鹏网站排名优化公司长治百姓网标王推广多少钱和田营销网站报价抚州关键词排名公司长治网站设计模板哪家好天水百度爱采购哪家好黄冈网站优化按天计费多少钱广州建站推荐鸡西网站优化排名价格白山百姓网标王推广多少钱金昌模板推广公司惠州营销网站哪家好晋城网站开发哪家好鸡西关键词按天扣费公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化