盘一盘2021全球流量最高的网站~

世界上流量最大的网站有哪些,也许我们都能脱口而出,比如 Google,YouTube,Facebook 还有 PxxnHub 等等,今天我们就通过多个维度来看看,那些叱咤全球的流量网站!

03564cde7c102b106eaf732b21db320a.png

数据获取

首先我们还是先抓取数据,目标网站是如下地址

https://www.visualcapitalist.com/the-50-most-visited-websites-in-the-world/

该页面有如下一个表格,里面罗列的全球流量前50的网站,我们就抓取这个数据

f532e65baa1f5db97707dc8d6720112c.png

下面进行编码,使用 requests 访问页面,通过 BeautifulSoup 解析网页

import requests
import pandas as pd
from bs4 import BeautifulSoup


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"}

res = requests.get("https://www.visualcapitalist.com/the-50-most-visited-websites-in-the-world/", headers=headers)

soup = BeautifulSoup(res.text)
tbody = soup.find("table").find("tbody")
tr_list = tbody.find_all("tr")
data_list = []
for tr in tr_list:
    tds = tr.find_all("td")
    tmp = []
    for td in tds:
        tmp.append(td.text)
    data_list.append(tmp)
print(data_list)

Output:

[['1', 'Google.com', '92.5B', 'U.S.', 'Search Engines'],
 ['2', 'Youtube.com', '34.6B', 'U.S.', 'TV Movies and Streaming'],
 ['3',
  'Facebook.com',
  '25.5B',
  'U.S.',
  'Social Networks and Online Communities'],
 ['4',
  'Twitter.com',
  '6.6B',
  'U.S.',
  'Social Networks and Online Communities'],
 ['5', 'Wikipedia.org', '6.1B', 'U.S.', 'Dictionaries and Encyclopedias'],
 ['6',
  'Instagram.com',
  '6.1B',
  'U.S.',
  'Social Networks and Online Communities'],
  ....

拿到上述数据之后,我们整理成 DataFrame 形式

df = pd.DataFrame(data_list)
df.rename(columns={0:'Rank',1:'WebSite',2:'Traffic', 3:'Country', 4:'Type'},inplace=True)
df['new_Traffic'] = df['Traffic'].apply(lambda x: x.split("B")[0] if "B" in x else float(x.split("M")[0])/1000)
print(df)

Output:

Rank	WebSite	Traffic	Country	Type	new_Traffic
0	1	Google.com	92.5B	U.S.	Search Engines	92.5
1	2	Youtube.com	34.6B	U.S.	TV Movies and Streaming	34.6
2	3	Facebook.com	25.5B	U.S.	Social Networks and Online Communities	25.5
3	4	Twitter.com	6.6B	U.S.	Social Networks and Online Communities	6.6
4	5	Wikipedia.org	6.1B	U.S.	Dictionaries and Encyclopedias	6.1
5	6	Instagram.com	6.1B	U.S.	Social Networks and Online Communities	6.1
6	7	Baidu.com	5.6B	China	Search Engines	5.6
7	8	Yahoo.com	3.8B	U.S.	News and Media	3.8
8	9	xvideos.com	3.4B	Czech Republic	Adult	3.4
9	10	pornhub.com	3.3B	Canada	Adult	3.3
10	11	Yandex.ru	3.2B	Russia	Search Engines	3.2
11	12	Whatsapp.com	3.1B	U.S.	Social Networks and Online Communities	3.1
12	13	Amazon.com	2.9B	U.S.	Marketplace	2.9
...

接下来我们再转换下格式,保存成csv文件,留着后面使用

web_name = df['WebSite'].values.tolist()
newdf = pd.DataFrame(np.repeat(df.values,24,axis=0))
newdf.columns = df.columns
newdf['date'] = ''
for i, r in newdf.iterrows():

    print(r['WebSite'])
    tag = 0
    ni = 0
    for j in web_name[::-1]:
        if r['WebSite'] == j:
            print(tag)
            print(ni)
            r['date'] = d_list[tag:]
            ni += 1
        tag += 1
newdf=newdf[['WebSite','Type','new_Traffic', 'date']]
newnew = newdf.rename(columns={'WebSite':'name','Type': 'type', 'new_Traffic':'value'})
newnew.to_csv('newdf.csv', index=0)

972989f7b9f7b32c76bca66c9834ea4c.png

可视化分析

首先导入需要的库

from pyecharts.charts import Bar,Map,Line,Page,Scatter,Pie,Polar
from pyecharts import options as opts
from pyecharts.globals import SymbolType,ThemeType
from pyecharts.charts import Grid, Liquid
from pyecharts.commons.utils import JsCode

排名前十榜单

根据流量的大小,获取排名前十的榜单

x_data = df['WebSite'].values.tolist()[:10]
y_data = df['new_Traffic'].values.tolist()[:10]

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(),
                     yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30)))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

1ccb7c8fd25d0d045e97dd694ce96fd6.png

可以看出 Google.com 一骑绝尘,是巨无霸的存在,紧随其后的就是全球最大的视频分享网站油管,而我们都熟悉的,呸,是你们都熟悉的P站排在第十,也是个不错的排名哦

排名前二十榜单

再来看看前二十的情况

x_data = df['WebSite'].values.tolist()[10:20]
y_data = df['new_Traffic'].values.tolist()[10:20]

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(),
                     yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30)))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

4c4d822fd671dae629a77f90ef82aea2.png

前二十相对差距就没有那么大了,Zoom,亚马逊等知名网站都在这个区间

国家排名

下面我们根据网站所属国家进行排名

country_group = df.groupby("Country").count().sort_values(by=["Rank"], ascending=False)
x_data = country_group.index.tolist()[:7]
y_data = country_group["Rank"].values.tolist()[:7]

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(),
                     xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='top'))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

91a9be039cbb6aa5b587152378c008ff.png

漂亮国遥遥领先,作为当今世界第一强国,其领先优势是全方位的,排名2-4位的分别为中国,日本和俄罗斯

散点图视角

c = (
    Scatter()
    .add_xaxis(x_data)
    .add_yaxis("", y_data)
    .set_global_opts(
        title_opts=opts.TitleOpts(),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
        visualmap_opts=opts.VisualMapOpts(type_="size", max_=30, min_=1),
    )
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(c, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

93501de817c35d7dba981a49e3bcd7cc.png

网站类型

下面我们来看下不同网站类型的分布情况

type_group = df.groupby("Type").count().sort_values(by=["Rank"], ascending=False)
x_type = type_group.index.tolist()
y_type = type_group["Rank"].values.tolist()

test = ['Social Networks and Online Communities',
 'Marketplace',
 'News and Media',
 'Search Engines',
 'Adult',
 'Programming and Developer Software',
 'Email']
c = (
    Polar()
    .add_schema(angleaxis_opts=opts.AngleAxisOpts(data=x_type[:9], type_="category"))
    .add("", y_type[:9], type_="bar", stack="stack0")
    .set_global_opts(title_opts=opts.TitleOpts(title=""))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(c, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

b929274638ac026b2142ebf2ca8cbf29.png

可以看到,网站类型最多的就是社交&在线交流类型的网站,比如Facebook,Twitter等,然后以Amazon为首的购物网站也占据了很大一部分

各类型网站所占比例

l1 = (
    Liquid()
    .add("", [y_type[2]/sum(y_type)], center=["35%", "75%"])
    .set_global_opts(title_opts=opts.TitleOpts(title=""))
)

l2 = Liquid().add(
    "lq",
    [y_type[0]/sum(y_type)],
    center=["25%", "26%"],
    label_opts=opts.LabelOpts(
        font_size=50,
        formatter=JsCode(
            """function (param) {
                    return (Math.floor(param.value * 10000) / 100) + '%';
                }"""
        ),
        position="inside",
    ),
)
l3 = (
    Liquid()
    .add("", [y_type[1]/sum(y_type)], center=["75%", "26%"])
    .set_global_opts(title_opts=opts.TitleOpts(title=""))
)
l4 = Liquid().add(
    "",
    [y_type[3]/sum(y_type)],
    center=["65%", "75%"],
    label_opts=opts.LabelOpts(
        font_size=50,
        formatter=JsCode(
            """function (param) {
                    return (Math.floor(param.value * 10000) / 100) + '%';
                }"""
        ),
        position="inside",is_show=True
    ),
)

grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE)).add(l1, grid_opts=opts.GridOpts()).add(l2, grid_opts=opts.GridOpts()).add(l3, grid_opts=opts.GridOpts()).add(l4, grid_opts=opts.GridOpts())
grid.render_notebook()

aca19ea80864162e97b1f40b563b61a0.gif

032077e07f9af60b38e65c772712b212.png

动态排行展示

下面我们通过一个小视频来更加直观看下全球top网站的排名情况

最后再来一张神图,非常惊艳

96024f276cbe8c3bc01de4f073c74b6f.gif

这张图目测通过 Matplotlib 应该可以实现,大家帮忙给文章点赞在看,如果数量够多,咱们就找时间复现一下~

好了,以上就是今天分享的所有内容,如果对你有帮助,帮忙点赞在看支持哦~

各位伙伴们好,詹帅本帅搭建了一个个人博客和小程序,汇集各种干货和资源,也方便大家阅读,感兴趣的小伙伴请移步小程序体验一下哦!(欢迎提建议)
推荐阅读



牛逼!Python常用数据类型的基本操作(长文系列第①篇)
牛逼!Python的判断、循环和各种表达式(长文系列第②篇)

牛逼!Python函数和文件操作(长文系列第③篇)

牛逼!Python错误、异常和模块(长文系列第④篇)
小詹学 Python
关注 关注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
2021全球网站流量最高网站Python 带你看一看
周萝卜的博客
08-08 4355
世界上流量最大的网站有哪些,也许我们都能脱口而出,比如 Google,YouTube,Facebook 还有 PxxnHub 等等,今天我们就通过多个维度来看看,那些叱咤全球流量网站! 数据获取 首先我们还是先抓取数据,目标网站是如下地址 https://www.visualcapitalist.com/the-50-most-visited-websites-in-the-world/ 该页面有如下一个表格,里面罗列的全球流量前50的网站,我们就抓取这个数据 下面进行编码,使用 requests
最小流量循环阀产品手册.pdf
09-24
- **历史难题**: 传统最小流量循环阀存在汽蚀严重、漏流量大、噪音高、使用寿命短等问题,长期以来一直困扰着全球阀门行业的专家们。 #### 三、技术创新与设计原理 - **环流对冲式原理**: - **设计背景**: 该技术...
Api-xvideos.zip
09-18
Api-xvideos.zip,XVIDEOS API库XVIDEOS,一个api可以被认为是多个软件设备之间通信的指导手册。例如,api可用于web应用程序之间的数据库通信。通过提取实现并将数据放弃到对象中,api简化了编程。
xvideos服务器找不到,查看域名服务器命令: $ dig -t NS xvideos.com
weixin_34620658的博客
07-31 4万+
$ dig -t NS xvideos.com; <<>> DiG 9.8.3-P1 <<>> -t NS xvideos.com;; global options: +cmd;; Got answer:;; ->>HEADER<;; flags: qr rd ra; QUERY: 1, ANSWER: 6, AUTHORITY: ...
xvideos打开显示服务器出错,为什么打开xvideo显示网页
weixin_42299645的博客
08-12 3万+
满意答案eepgycj42016.03.31采纳率:54%等级:9已帮助:1814人打开xvideo显示网页。网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站。网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记...
一盘 2021 年程序员们喜欢的网站数据
AI科技大本营
01-20 406
作者 | 周萝卜来源 | 萝卜大杂烩世界上流量最大的网站有哪些,也许我们都能脱口而出,比如 Google,YouTube,Facebook 还有 PxxnHub 等等,今天我们就通过多个维...
知道吗?你们求的这些网站占据了互联网流量的30%甚至更高(科普贴)
senbomax的博客
03-02 7054
上网之人,多少都会接触过成人网站。这是一个举世公认的事实。不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在互联网上有着超高流量网站。根据 Google DoubleClick 的 Ad Planner 服务(通过cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站全球最大的色情网站 Xvideos 每月网页浏览量(Page Views,PV)...
网站运行环境分析与速度测试.pptx
10-07
首先,Alexa数据分析是一个重要的工具,它提供了全球网站的排名信息,帮助我们了解网站流量和用户行为。Alexa数据包括但不限于全球排名、国家排名、访问量、页面浏览量、平均访问时长等指标。通过对这些数据的分析...
电商行业深度研究报告:阿里巴巴,练就核心商业强大基本-华创证券-20190326.pdf
09-10
阿里巴巴作为中国市值最高的公司之一,其成功离不开其核心商业的强大基础。核心商业构成了阿里巴巴生态体系的基石,不仅为其带来了稳定的收入流,还为其他业务的发展提供了必要的资金支持。 阿里巴巴经历了一系列的...
xxx@xxx.com
09-09
lorem ipsm dolor sit amet
【解决方案】为全球通信服务提供商提供突破性的性能.pdf
最新发布
10-24
此外,这些系统还配备了采用英特尔® 傲腾™ 技术的固态,从而进一步提升了其性能,比基准系统提升了最高 2.21 倍。 英特尔® 至强® 铂金 8180 处理器为服务器硬件提供了坚实的基础,可显著加快亚信 BSS 工作...
某程序员上线原谅宝:抓取全球不可描述网站和社交平台10万渣女
iOS_开发
06-12 8064
黑客技术点击右侧关注,了解黑客的世界!Linux编程点击右侧关注,免费入门到精通!程序员严选甄选正品好物,程序员生活指南!来源丨工程狮一图https://www.jian...
AppleWebKit/537.36(KHTML,likeGecko)与cdn讲解
Recently祝祝的博客
02-04 3万+
WebKit 是一个开源的浏览器引擎,与之相对应的引擎有Gecko(Mozilla Firefox 等使用),Trident(也称MSHTML,IE 使用)和EdgeHTML(也称Chakra,Edge和其他UWP浏览器使用)。 Apple开发了Safari,使用了KHTML,同时也增加了很多新特性,后来另起炉灶叫了WebKit,但是它有希望能够看到那些为KHTML编写的网页,于是Safari标称自己为Mozilla/5.0 (Macintosh; U; PPC Mac OS X; de-de) Apple
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.3...
weixin_42591908的博客
01-25 4859
这是一个浏览器用户代理字符串。它表示使用的是 Mozilla 引擎(版本 5.0)运行在 Linux 操作系统的 64 位平台上,使用的是 AppleWebKit 和 Chrome 的版本 (537.36)和 Safari 的版本(109.0.0.0) 以及 Edge (109.0.1518.53)。 ...
http://www.log4myself.com/
11-06 1万+
http://www.log4myself.com/ very good
浏览器及手机版本型号判断
qq_43628158的博客
05-17 5198
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-06-15——这56个免费资源网站,能让你永久告别资源付费!
热门推荐
折枝
06-15 32万+
一、视频类 1. 预告片世界:https://www.yugaopian.cn/ 2. 33台词:http://33.agilestudio.cn/ 3.MixKit:https://mixkit.co/free-stock-video/ 4.Pexel:https://www.pexels.com/zh-cn/video/ 5.Videezy:https://www.videezy.com/ 6.VJShi:https://www.vjshi.com/ 二、PPT模板类 1.51PPT模板:h...
http://www.microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=83c3a1ec-ed72-4a79-8961-25635db0192b visal studio 200
qyweiyy88的专栏
05-30 3万+
 http://www.microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=83c3a1ec-ed72-4a79-8961-25635db0192b visal studio 2008 trial 90 day.
Linux创建UEFI启动系统U教程
"这篇文档详细记录了如何在Linux环境下制作一个用于UEFI启动的系统U。主要涉及的步骤包括U的准备工作、格式化、分区、文件系统的创建以及系统文件的拷贝和配置。" UEFI(统一可扩展固件接口)是一种替代传统...
写文章

热门文章

  • 全网最强下载神器IDM使用教程:如何利用IDM加速下载百度网盘大文件 131904
  • 宅男福利!程序员周末看片神器,关键还开源 67420
  • 被封杀4年的看片神器终于解禁了,要跟百度网盘抢生意? 41295
  • 手把手教你安装win10+Ubuntu16.04的双系统(全网最详细) 38618
  • 用户怒了!红帽公司宣布CentOS 8将停止维护,“免费” RHEL 寿终正寝 25199

最新评论

  • 骚操作 !用 Python 偷偷抓取女朋友的行踪(女朋友在哪里)

    TBSBB0431: 这个能查到具体位置吗

  • Python+Matplotlib+LaTeX玩转数学公式

    一一佰: 博主您好,链接失效了表情包

  • 10个有趣且易上手的AI项目(附Python源代码)

    梦想成为大王: 打不开网址表情包

  • Matplotlib绘制动态曲线图,超简单!!

    2302_79963008: 那个线推进与点的变化不知道为啥没用,我检查代码也查不出哪里有问题

  • Python视频制作工具Manim入门,文本使用详细介绍

    2301_80876485: 我想问一下No module named 'pkg_resources'是怎么回事,我查了好久找不到解决方法

大家在看

  • 原生cesium 实现 mars3d 蓝色风地图 滤镜 代码 188
  • 课程设计之在线课堂管理平台的设计与实现【完整版】
  • 第一个 Flux IpAdapter 模型开源
  • eureka原理实践
  • FL Studio24.1.1.4285中文版破解终身使用无需激活

最新文章

  • (待会删)yyds!疯传全网的AI资源,请低调使用!
  • 【文末送书】今年的互联网公司时薪排行榜!
  • 好用!找到一个帮程序员接私活的神器
2023年26篇
2022年272篇
2021年439篇
2020年642篇
2019年521篇
2018年8篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码盐田百度网站优化排名坪山外贸网站设计坂田seo排名大鹏网页设计双龙网站开发惠州高端网站设计荷坳外贸网站设计横岗建网站塘坑网站seo优化南山建网站观澜SEO按效果付费永湖百度爱采购塘坑百搜标王大运营销网站丹竹头网站设计坪地如何制作网站横岗关键词按天计费宝安网站推广方案大运关键词按天计费罗湖seo平湖模板制作双龙营销型网站建设西乡百度关键词包年推广西乡网站定制坂田网站优化荷坳百度seo大运建设网站塘坑网站推广方案塘坑网站建设荷坳建网站歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化