一个价值一千五的外包项目!抓取大众点评的店铺信息!

前言

今天在群里有人派外包的其中一个是抓取大众点评的店铺信息,价格一千五,三天内完成!很多刚学编程的小伙伴,应该觉得这个一千五也太容易拿了,相对于大众点评这个网站,其实不是像爬小说,爬表情包那样容易的,大众点评这个网站它是有反爬的!其实也就两个点!

1.正则表达式撰写

2.破解字体反爬

这个网站难一点的就这两个地方!其他都和爬其他网站的思路基本差不多,如果有新手小伙伴的,那今天就跟小编一起来完成这个1500块钱的外包项目吧!

正文

需要安装的库:

import urllib.request
from bs4 import BeautifulSoup
import re
from fontTools.ttLib import TTFont
import xlwt

过程中使用的部分软件:

  • 正则表达式测试器

  • fontcreator

  • 合适的OCR软件

记录操作步骤及代码如下所示:

1. 网页解析

1.1 爬取数据解析

选择餐饮店铺数量较多的上海万象城店,搜索结果界面如下:

  • 每页显示15条数据,共10页内容

  • 每条店铺信息包含内容如下:

店铺名称

是否提供团购/为分店/广告

星级、评分、评价人数、人均价格

口味、环境、服务

菜品种类、地址分区、详细地址

推荐菜

团购信息、优惠信息

1.2 网址解析

首页URL地址:http://www.dianping.com/search/keyword/1/10_%E4%B8%87%E8%B1%A1%E5%9F%8E](http://www.dianping.com/search/keyword/1/10_万象城)

第二页URL地址:http://www.dianping.com/search/keyword/1/10_%E4%B8%87%E8%B1%A1%E5%9F%8E/p2](http://www.dianping.com/search/keyword/1/10_万象城/p2)

第三页URL地址:http://www.dianping.com/search/keyword/1/10_%E4%B8%87%E8%B1%A1%E5%9F%8E/p3

建立循环:

for i in range(1,11)
baseURL = 'http://www.dianping.com/search/keyword/1/10_%E4%B8%87%E8%B1%A1%E5%9F%8E/p'
URL = baseURL + str(i)

1.3 登陆处理

大众点评的网页翻页需要登陆。这里采用手机验证码的方式登陆,使用开发者工具提取cookie、User-Agent,打包为headers。

1.4 定义爬取函数askURL

def askURL(URL):
   head = {"User-Agent": "", “cookie": ""}#保密原因,省略使用的User-Agent与Cookie
   request = urllib.request.Request(URL, headers=head)
   html = ""
   html = urllib.request.urlopen(request).read().decode('utf-8') #使用UTF-8解码
   return (html)

2. 数据爬取与提取

2.1 数据爬取

循环调用askURL函数,爬取每页信息,储存在字符串变量html中

def getData(baseURL):
   for i in range(1,10):
       URL = baseURL + str(i)
       html = askURL(URL)#html是askURL的返回结果,循环下的html记录单页的爬取结果,因此数据解析提取也需要在循环内进行

使用开发者工具读取源码,可以看到全部的店铺信息储存在ID为shop-list-all-list的div标签中,每个li标签为一条店铺记录。其中pic分类记录缩略图、txt分类记录店铺信息,svr-info记录团购信息

2.2 使用BeautifulSoup

方案1:提取多个标签,手动合并

       soup = BeautifulSoup(html, "html.parser")
       soupfind = soup.find_all('div', { 'class' :{"pic" , "txt" , "svr-info"}})#提取多个标签下信息时的处理方式,会提取为3个列表,需要手动合并为一个
       #仅提取单个标签时的写法
       # soupfind = soup.find_all('div', class_ :"txt" )
       
       #合并过程(仅供参考)
       soup_find = []
       i = 0
       while i < len(soupfind):
           l = ""
           l = str(soupfind[i]) + str(soupfind[i+1]) + str(soupfind[i+2])
           soup_find.append(l)
           i += 3

但后续操作中发现,部分店铺不含团购信息,导致”svr-info“class下面为空值,每三个合并出现错误

方案2:由于每个店铺的全部信息含在一个<li>标签下

def getData(baseURL):
   for i in range(1, 11):
       URL = baseURL + str(i)
       html = askURL(URL)
       soup = BeautifulSoup(html, "html
简单抓取大众点评网某一大类点评数目
01-29
能够简单的抓取大众点评网的某一大类的(比如我测试的是火锅类)的点评数目,商铺星级以及商铺名称,
大众点评 —— 爬虫 小样例
迷途无归的博客
10-02 3632
这是一个大众点评数据的爬取爬取信息包含:是否含有广告推广,商店名称,电话号码;并将爬取的数据保存到csv文件以及mysql数据库。 数据采集视频:https://www.bilibili.com/video/av32892172/ github源码参考:https://github.com/hilqiqi0/crawler/tree/master/simple/dianping 采用技术:...
吃货必看:如何用爬虫工具快速获取当地1000+5星网红餐厅信息
网页爬虫与数据采集 · 八爪鱼
05-20 2089
人们都说,认识一座城,从认识它的美食开始。 作为一名妥妥的吃货,小八做旅行攻略时,最最最爱的就是美食PART啦! 小八最常用的是大众点评网,简直吃货神器。(小八木有收广告费哦) 话说做攻略也是很花时间的哦,需要一个个点击进去,筛选,记录,一晃神2个小时就过去了。 小八作为大数据界的鱼,当然不可能跟你们一般的人类一样一个个去网上搜咯,小八都是几百几百的条数...
Python爬虫 | 以滑雪为例演示大众点评商铺信息采集(字体反爬
可以叫我才哥
01-08 942
文章目录1.简述2.字体反爬处理2.1.获取字体文件链接2.2.创建三类字体与实际字符映射关系3.单页店铺信息解析4.全部页数据获取4.1.获取数据页数4.2.采集全部数据5.总结 1.简述 冬天是一个适合滑雪的季节,但是滑雪需谨慎,比如初学者就不要上高级道,能不能滑心里要有点哔数。 那么今天,咱们就以滑雪为关键字,演示一下如何用Python爬虫采集大众点评商铺信息吧。 在搜索结果以翻页的形式通过 request.get() 即可获取页面数据,然后再对网页数据进行相关解析即可获得我们需要的商铺信息。 不过
反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息
胡侃有料的博客
04-11 1万+
every blog every motto: Let’s be loyal to our ideals, let’s face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大众点评的数据,在这顺便总结一下,重新整理一下思路。希望能帮助那个此时正在奋斗的你,你并不是一个人在战斗! 正文: 现在大众点评采取了css反爬机制,爬取难度越来越大。目前只有店铺名是明文(如图一) ...
爬取评分网站上面的商家信息
weixin_43857838的博客
12-07 3997
写在前面 由于项目需要爬取某个商场的全部店铺信息,所以叫我来爬某众点评,这是我第一次爬虫,感觉还挺好玩的。下面我以新手的角度写一下爬取的过程。
一个python项目使用requests抓取数据
01-17
python项目
一个python项目,使用requests抓取数据
最新发布
01-20
python项目
egad:埃加德! 一个进化的抓取分析数据集
05-30
进化的抓取分析数据集,可实现机器人操纵的多样性和可重复性 2020 年 4 月被 IEEE RA-L 接受。 [ ] 数据集下载 有关概述、数据集下载和多媒体材料,请参阅。 作为库安装 此代码是在使用 Python 3.7.4 的 Ubuntu ...
newswatch:这是一个新闻抓取、搜索和分析系统!
06-01
新闻观察这是一个新闻抓取、搜索和分析系统!
网络爬虫入门——案例三:爬取大众点评的商户信息
dayang8769的博客
06-08 1251
pyspider:http://demo.pyspider.org/ CSS选择器:http://www.w3school.com.cn/cssref/css_selectors.asp Beautiful Soup:http://beautifulsoup.readthedocs.io/zh_CN/latest/ 正则表达式:http://www.cnblogs.com/deer...
爬虫css解密 大众点评
weixin_50346059的博客
11-30 754
网址:http://www.dianping.com/beijing/ch10 代码: """ CSS加密:比较简单 CSS ---> 层叠样式表,操作样式 CSS都是对字体进行加密处理的,在网页源代码中显示[&#x+16进制数;] 分析: 1. 找到css加密文件即可 @font-face是CSS中的一个模块, 作用:可以将自定义的字体嵌入到网页中,让网页的字体不仅仅限定在WEB安全字体 2. 从css文件中找到包含字体的woff文件
爬取大众点评数据的血泪史
Tracy_LeBron的博客
07-09 2万+
公司最近致力于实现餐饮行业的AI发展模式,领导希望采集一些餐饮数据来提供理论支持。所以没多少头发的我 ,被喊过来做数据收集。 想到餐饮数据的收集,第一反应是去爬取美团/大众点评的数据,对比了下美大众点评的数据,发现两者差不多,没什么太大的不同,但大众点评的数据更符合我们的需求(其实是听说大众点评反爬没有那么狠),就果断选择爬取大众点评的数据。很怀念大众点评没有被美团收购的时光,那个时候数据是随便...
python爬虫进阶-大众点评店铺信息字体反爬-静态映射)
jia666666的博客
09-30 2224
目的 获取大众点评店铺信息 详细需求 http://www.dianping.com/shenzhen/ch10 思路解析 一 通过F12查找目标信息位置,进行分析 同理进行其他信息的解析,分析汇总 店铺名称:源网页获取 商家评分:源网页获取 评价: 人均: 口味: 环境: 服务: 标签: 地址:源网页获取 推荐菜:源网页获取 二 字体反爬解析 三 根据其后的链接,保存为ttf在本地,查看TTF字体映射 字体工具:FontCreatorPortable,自行百度下载安装 在线工具:ht
Python3 实现大众点评网酒店信息和酒店评论的网页爬取
LeiGaiceong的博客
11-16 8841
Python3 实现大众点评网酒店信息和酒店评论的网页爬取概要本文根据已有的的”大众点评网”酒店主页的URL地址,自动抓取所需要的酒店的名称、图片、经纬度、酒店价格、星级评分、用户评论数量以及用户评论的用户ID、用户名字、评分、评论时间等,并且将爬取成功的内容存放到.txt文档中。本文是在博文http://blog.csdn.net/drdairen/article/details/51146961
爬取大众点评数据
weixin_43291997的博客
11-16 4147
大众点评抓取 网址链接 http://www.dianping.com/shoplist/shopRank/pcChannelRankingV2?rankId=fce2e3a36450422b7fad3f2b90370efd71862f838d1255ea693b953b1d49c7c0 通过观察每个城市的链接主要区别于ranKld,每个城市有特定的ID,因此先获取到相应城市的ID,便可进行后续...
爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评
热门推荐
不温卜火
11-18 8万+
  大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行更新,博客主页:https://buwenbuhuo.blog.csdn.net/。 PS:由于现在越来越多的人未经本人同意直接爬取博主本人.
美团/饿了么外卖CPS联盟返利公众号小程序裂变核心源码
01-25 1415
外卖红包小程序 美团外卖小程序 饿了么外卖小程序 美团饿了吗红包,先领红包再下单。外卖红包,cps分成,别人领红包下单,你拿佣金。 Github 地址 https://github.com/peizhou/waimai_cps_liebian 技术栈 服务端api基于Node.js+ThinkJS+MySQL 后台管理 基于VUE.js+element-ui 后台地址 http://q.mybei.cn/ 演示账号:18512341234 演示密码:123456 裂变原理 裂变原理: 用户A点外卖,佣金
Python3网络爬虫基础实战
08-22
本课程适合具备Python基础的志士进行爬虫入门!这里有大量的常见网站爬行案例;这里有系统、明了的知识体系;后面还有一个小挑战!
Python抓取大众点评代码
11-12
以下是Python抓取大众点评代码的示例: ```python import requests from bs4 import BeautifulSoup # 设置请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发送请求 url = 'https://www.dianping.com/' response = requests.get(url, headers=headers) # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 获取商户详情页链接 links = [] for item in soup.find_all('a', class_='tit'): links.append(item.get('href')) # 拼接链接 for link in links: full_link = 'https://www.dianping.com' + link print(full_link) ``` 该示例使用requests库发送请求,使用BeautifulSoup库解析HTML,获取每个商户的详情页链接,并将其拼接成完整的链接。你可以根据自己的需求修改代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Python调用kafka构建完整实例分析与应用! 75922
  • 用Python画中国地图,实现各省份数据可视化!可视化简直了! 30911
  • Python爬虫超详细讲解(零基础入门,老年人都看的懂)! 30110
  • 黑丝YYDS,通过五十行代码分分钟下载上万张黑丝小姐姐纯欲高清图!(宅男福利) 30052
  • 如何使用Python爬虫+数据分析对新冠疫情数据实时监控! 18463

分类专栏

  • Python 1020篇
  • 程序员 203篇
  • gpt 1篇
  • 抖音
  • 无水印
  • 自动化 2篇
  • 请假条 1篇

最新评论

  • Python 爬取前程无忧最新招聘数据 matplotlib数据分析与可视化!

    djy280017: 爬出来的都是空,哪位大佬会解决呀

  • 一个精壮的代购骗子被我用Python彻底征服了。居然坑到我头上来了。

    不瘦25斤不换头像: 那 只知道QQ小号怎么办

  • Python爬取彼岸图4k壁纸,想要什么类型的壁纸就输入什么壁纸,太方便了。

    汗文'Lee: 但是爬取的不是3840*2160的高清大图,爬取的结果是450 × 287的高清图。请问怎么解决这个问题?

  • 爬取国家地表水水质自动监测实时数据发布系统!动态爬虫!

    辛特: 需要自己修改

  • 爬取国家地表水水质自动监测实时数据发布系统!动态爬虫!

    需要小猫: 兄弟 你的可以运行吗 求回复

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 我用什么写Python?
  • Python真就无所不能?居然还能开发APP软件。
  • 本周最火 AutoGPT!GitHub3.6万+标星,解决复杂任务全程无需人类插手!
2023年20篇
2022年76篇
2021年304篇
2020年1277篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码海南网站推广中山英文网站建设报价延边网络营销推荐资阳seo网站推广价格塘坑seo网站优化公司湛江SEO按天收费价格诸城网站建设设计价格深圳百度网站优化排名价格辽阳营销型网站建设哪家好seo排名多少钱南宁外贸网站建设推荐哈尔滨网站定制多少钱吕梁网站制作设计报价临汾百度爱采购济源品牌网站设计多少钱洛阳SEO按天计费哪家好九江网站排名优化哪家好和县网站建设设计哪家好文山网站推广系统推荐佛山网站优化按天扣费推荐吉林企业网站改版公司黔东南网站改版推荐吴忠网站搭建公司淮南百搜标王推荐毕节建设网站公司三明关键词排名包年推广价格观澜seo优化价格张家界关键词按天扣费价格安顺百姓网标王推广哪家好揭阳百度爱采购歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化