【数据分析实例】6000 条倒闭企业数据分析

214 篇文章 5 订阅
订阅专栏

1、 数据集说明

这是一份来自 和鲸社区的倒闭企业数据集,总计 6,272 条记录,大小为 2.3 M,包含 21 个字段。

import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import pandas as pd 
data = pd.read_csv('com.csv')
data.head()
data['death_year']=pd.to_datetime(data['death_data']).dt.year
data['death_month']=pd.to_datetime(data['death_data']).dt.month

首先通过以上对数据的初步了解设立分析目标:

1、整体概况:分析各年份被淘汰的公司总数;按月份查看不同年份的淘汰情况;被淘汰公司的寿命;不同省市的整体情况;被淘汰的原因;

2、特定分析:抽取经济发达地区北、上、广作进一步的分析,主要淘汰的行业;公司类型;

2、各年份被淘汰的公司总数对比

plt.figure(1,figsize=(16,8))
sns.countplot(x='death_year',data=df,color='CadetBlue')
plt.title('各年份被淘汰的公司总数',fontsize=20)

plt.xlabel('')
plt.ylabel('')
plt.xticks(rotation=45)
plt.grid(False)
con=list(df.groupby('death_year').death_year.count().values)
for y,x in enumerate(con):
    plt.text(y,x,'%s' %x,va='center',size=14)

公司倒闭得最多得年份竟然是2017年…

3、被淘汰公司的倒闭时间集中所在的月份

# 分析被淘汰的公司阵亡月份
data1=data[data['death_year'].isin(['2015','2016','2017','2018','2019'])]

plt.figure(1,figsize=(16,8))
sns.countplot(x='death_month',hue='death_year',data=data1,palette='Paired')
plt.title('2015-2019年各月份被淘汰的公司总数',fontsize=20)

在这里插入图片描述

4、被淘汰公司在倒闭当年的寿命

data['live_years']=data['live_days']/365
data['存活年限'] = pd.cut(x=data['live_years'],bins=[0,1,3,5,10,25])

sns.set_context("notebook", font_scale=1.3)
sns.catplot(x='death_year',y='live_days',hue='存活年限',kind='swarm',data=data,height=8,aspect=2,palette='Set2')
plt.title('各年份被淘汰公司的寿命',fontsize=20)

plt.xticks(rotation=45)
plt.show()

5、被淘汰公司的主要死亡原因

reason_index=data['death_reason'].value_counts()[1:11].index
reason=data.loc[data['death_reason'].isin(reason_index),'death_reason']

plt.figure(1,figsize=(16,8))
sns.countplot(x=reason.values,order=reason_index,color='CadetBlue')
plt.title('被淘汰公司的十大死亡原因',fontsize=20)

plt.ylabel('')
plt.xlabel('')
plt.xticks(rotation=45)
plt.grid(False)
con=list(data['death_reason'].value_counts()[1:11].values)
for y,x in enumerate(con):
    plt.text(y,x,'%s' %x,va='center',size=14)
plt.show()

6、死亡公司的地区分布

from pyecharts import options as opts
from pyecharts.charts import Map

data['com_addr'] = data['com_addr'].apply(lambda x: x.strip())
s = data.groupby('com_addr').size()

c = (
Map()
    .add("死亡企业数量", [*s.items()], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="地区分布"),
        visualmap_opts=opts.VisualMapOpts(max_=200),
    )
)
c.render_notebook()

在这里插入图片描述

7、行业排行TOP10

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker

s = data.groupby('cat').size().sort_values(ascending=False)[:10].to_dict()

c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .set_global_opts(title_opts=opts.TitleOpts(title="行业排行TOP10"))
)
c.render_notebook()

在这里插入图片描述

8、细分领域TOP20

s = data.groupby('se_cat').size().sort_values(ascending=False)[:20].sort_values(ascending=True).to_dict()

c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="细分领域TOP20"))
)
c.render_notebook()

在这里插入图片描述

9、年份分布

data['born_year'] = data['born_data'].apply(lambda x: x[:4])
data['death_year'] = data['death_data'].apply(lambda x: x[:4])
s1 = data.groupby('born_year').size()
s2 = data.groupby('death_year').size()
s1 = pd.DataFrame({'year': s1.index, 'born': s1.values})
s2 = pd.DataFrame({'year': s2.index, 'death': s2.values})
s = pd.merge(s1,s2, on='year', suffixes=['born', 'death'])
s = s[s['year'] > '2008']

c = (
    Bar()
    .add_xaxis( s['year'].to_list())
    .add_yaxis("新生企业数量", s['born'].to_list())
    .add_yaxis("死亡企业数量", s['death'].to_list())
    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
)
c.render_notebook()

在这里插入图片描述

10、企业存活时长

def live_year(x):
    if x < 365:
        return '不到1年'
    if x < 365 * 2:
        return '1-2年'
    if x < 365 * 3:
        return '2-3年'
    if x < 365 * 4:
        return '3-4年'
    if x < 365 * 5:
        return '4-5年'
    if x < 365 * 10:
        return '5-10年'
    return '10年以上'

s = data.groupby(data['live_days'].apply(lambda x: live_year(x))).size()

from pyecharts import options as opts
from pyecharts.charts import Pie

c = (
    Pie()
    .add("", [*s.items()])
    .set_global_opts(title_opts=opts.TitleOpts(title="企业存活时长"))
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()

在这里插入图片描述

11、投资人词云

from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

invest = {}
for row in data['invest_name'].values:
    if not pd.isnull(row):
        for name in row.split('&'):
            invest[name] = invest.get(name, 0) + 1
invest = [*invest.items()]
invest.sort(key=lambda x: x[1], reverse=True)
c = (
    WordCloud()
    .add("", invest[:150], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="投资人词云"))
)
c.render_notebook()

在这里插入图片描述

12、倒闭原因词云

death_reason = {}
for row in data['death_reason'].values:
    if not pd.isnull(row):
        for name in row.split(' '):
            death_reason[name] = death_reason.get(name, 0) + 1
c = (
    WordCloud()
    .add("", [*death_reason.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="倒闭原因词云"))
)
c.render_notebook()

在这里插入图片描述

13、ceo描述词云

import jieba
ceo_per_des = {}
for row in data['ceo_per_des'].values:
    if not pd.isnull(row):
        result = jieba.lcut(row)
        for name in result:
            if len(name) == 1:
                break
            ceo_per_des[name] = ceo_per_des.get(name, 0) + 1
ceo_per_des = [*ceo_per_des.items()]
ceo_per_des.sort(key=lambda x: x[1], reverse=True)
c = (
    WordCloud()
    .add("", ceo_per_des[:100], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="ceo描述词云"))
)
c.render_notebook()

python公司分析_Python分析6000家破产IT公司
weixin_39960793的博客
12-15 670
前一阵有个字节跳动的程序员火了,年仅28岁实现了财务自由,宣布提前退休。最直接的原因是选择了一家发展前景很好的创业公司。当然平时我们经常能听到,某某人加入创业公司,xx年后公司上市,身价暴涨,财务自由。但这都是小概率事件,大部分人往往要么等不到公司上市就离职,要么公司还没上市就破产。这两天找到一份近几年破产的IT公司名单,共6000家,下面就对这份数据做个简单分析。分析思路大致如下:了解整体概况单...
爬取6271家死亡公司数据,看十年创业公司消亡史
zhuxiao5的博客
11-26 1306
↑关注+置顶~有趣的不像个技术号昨天在【凹凸数读】发了一篇关于创业公司的文章,原文链接如下:今天我来写一写它的python版本。前段时间老罗和王校长都成为自己的创业公司成了失信人,小五打算上IT桔子看看他们的公司。意外发现IT桔子出了个死亡公司库(https://www.itjuzi.com/deathCompany),统计了2000-2019年之间比较出名的公司“死亡”数据。小五利用pyth...
6000倒闭企业数据分析.rar
11-28
6000企业倒闭数据分析
Company Bankruptcy Prediction(公司破产的预测)-数据集
03-12
Bankruptcy data from the Taiwan Economic Journal for the years 1999–2009. 《台湾经济月刊》1999-2009年破产数据。 data.csv
避坑!用大数据告诉你,那些被淘汰的公司,都有哪些特征?
Leo的博客
11-23 742
最近,某家公司被讨论的沸沸扬扬: 上一个被如此讨论的还是某个带颜色的自行车,结果大家也知道了,维稳而已。 不知道大家有没有听过一个段子,入职3天,公司倒闭了,由此,我想到了一个话题:如果可以提前知道什么样的公司会被淘汰,哪些因素会使员工离职,是不是能起到一些帮助? 这也就是我们所说的人力数据分析,只不过扩大到了另一个层面。 我们通过收集到相关的数据,然后做出可视化,就可以得到结果了。 一、数据来源 根据各大数据网站的项目或者数据集,还有一些专业的统计网站,有些是现成的,也有些是需要通过.
TEJU:使用机器学习技术对破产数据集进行欺诈检测和改进分类性能-研究论文
06-10
欺诈检测是主要的挑战问题之一。 本文解决的问题是欺诈检测和提高性能。 欺诈者日新月异,很难识别哪些数据是欺诈,哪些是合法的。 在本文中,设计了一个框架 TEJU 作为欺诈检测,并使用机器学习技术提高破产数据集的分类性能。 因此,我们可以通过使用 kNN 的机器学习技术来减少问题,并且主要目标应用两个模式之间的距离计算相似度并分类到每个类别中。 然后基于框架的实验结果来提高性能分析的准确性、ROC 曲线值和错误率。
python数据分析实例 python数据分析实例(源码)
最新发布
05-19
python数据分析实例 python数据分析实例(源码) # python数据分析 #### 介绍 python数据可视化例子 ##### 1.SARIMAX模型对公路车流量预测 ##### 2.古诗词云统计 ##### 3.对大数据岗位可视化分析
R 语言数据分析实例.zip
01-12
R语言数据分析
开放数据分析应用实例人口专题.docx
12-16
开放数据分析应用实例人口专题是龙岗区政府基于开放数据分析技术而开发的一项人口专题数据集,旨在提供高质量的数据资源,帮助企业或个人更好地了解龙岗区的人口结构和分布情况,以便更好地进行投资决策和市场分析。...
五组数据告诉你倒闭企业的“死亡画像”
数据猿
03-18 1926
数据猿发布最新招聘公告:①阿里数据中台品牌团队四大职位虚位以待②蚂蚁金服大数据部2020实习生招募全面启动③TalkingData北京招资深银行行业BD...
论文研究 - 机器学习方法预测公司破产
05-31
机器学习已经取得了巨大的进步,这是过去十年来的演进。 它被广泛用于做出导致最有价值的决策的预测。 许多经济学专家将源自机器学习的模型用作重要的帮助,许多公司将使用神经网络(破产预测模型)作为防止潜在失败的指南。 但是,尽管神经网络可以处理大量的属性因子,但是当进行更多统计时,它会导致过度拟合。通过使用K最近邻和随机森林,我们可以从不同的角度获得更好的结果。 通过比较两种方法的结果,证明了破产计算的最佳算法。
和鲸社区的数据集如何下载
07-13 1万+
不在遭受下载限额困扰
【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】
laoman456的博客
10-27 8109
【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩】https://b23.tv/zKOtd3L 目 录 一 引言​1 二 系统分析​2 2.1 必要性和可行性分析​2 2.2 技术分析​2 三 总体设计​4 3.1 可视化界面设计​4 3.2 数据库设计​4 3.3 网页设计​5 四 实验实现​6 4.1 大数据实验环境的搭建​6 4.1.1 Linux系统及相关软件的配置​6 4.1.2 JDK的安装​7 4.1.3 Scala的安装​
ClickHouse实战--clickhouse使用场景与原理解析
热门推荐
阿华田的博客
10-20 1万+
ClickHouse简介 ClickHouse是Yandex提供的一个开源的列式存储数据库管理系统,多用于联机分析(OLAP)场景,可提供海量数据的存储和分析,同时利用其数据压缩和向量化引擎的特性,能提供快速的数据搜索。注意到ClickHouse是一个数据库管理系统,而不是单个数据库。 ClickHouse 特点 读多于写 大宽表,读大量行但是少量列,结果集较小通常存在一张或是几张多列的大宽表,列数高达数百甚至数千列。对数据分析处理时,选择其中的少数几列作为维度列、其他少数几列作为指标列,然后.
【机器学习】数据挖掘实战:金融贷款分类模型和时间序列分析
fengdu78的博客
12-22 3508
今天给大家带来一个企业数据挖掘实战项目,金融贷款分类模型和时间序列分析,文章较长,建议收藏!如果本文对你有所帮助,记得文末点赞和在看,也可分享给你需要的朋友~项目背景银行和其他金融贷款机...
基于多机器学习模型的破产预测
u010652413的博客
09-18 1738
基于多机器学习模型的破产预测 在第一种公开数据集上的实现: # -*- coding: utf-8 -*- """ Created on Mon Sep 14 13:17:40 2020 @author: Long Yu """ # In[1]: Import several important libs. import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt fro
鞋类数据集总结
TomRen
02-17 4751
本文总结了收集到的鞋类数据集
用Excel做数据分析回归分析.pdf
11-01
。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 二十三、 爬取mzsock网站写真社区 93438
  • EPERM: operation not permitted, mkdir 'C:\Program Files\nodejs' 25416
  • 一阶暂态电路三要素法和三种响应 22494
  • RLC 串联电路 21487
  • 共集电极放大电路 18900

分类专栏

  • 玩转 Python 数据分析 付费 67篇
  • Python金融量化 付费 24篇
  • 玩转Python机器学习 付费 34篇
  • Java系列 付费 99篇
  • TensorFlow 付费 103篇
  • 玩转Python爬虫 付费 83篇
  • Python教程系列专栏 付费 97篇
  • 大数据系列 hadoop Spark 系列 付费 37篇
  • (2-2)Elasticsearch系列 付费 10篇
  • 深度学习系列 1篇
  • 原力计算 214篇
  • 机器学习算法专题(精讲)蓄力计划 95篇
  • math 1篇
  • (7-1)互联网格局和人生的感想 13篇
  • (9-1)个人思考和感悟 1篇
  • 深度学习和目标检测系列教程 (300 ) 26篇
  • Python100例编程题 1篇
  • 树莓派 2篇
  • 恶补C++ 24篇
  • 剑指 Offer 1篇
  • 语音 2篇
  • (3-1)前端系列 74篇
  • 我的化工专业 95篇
  • (3-2)深入Git,Nginx,和Linux运维知识 21篇
  • 零基础学习NLP 19篇
  • (4-1)Go系列 11篇
  • openwrt 2篇
  • (3-2)Django系列 31篇
  • leetcode 19篇
  • (7-2)大四刷题拼offer系列 25篇
  • 遇到的Bug 49篇
  • kaggle 8篇
  • 案例 33篇
  • R 7篇

最新评论

  • 12 | 爬取信用中国,里面的行政许可内容,行政处罚,守信激励的内容

    jerrsy7: 现在有验证码怎么办呢

  • Python中的itchat模块使用大全

    Nameikeshi: 现在还有别的解决方法吗?

  • 【数据分析实例】1 亿条淘宝用户行为Hive数据分析

    qq_58421227: 数据集在阿里云天池可以找到,连接不知道你们能不能打开,就是一样的数据 https://tianchi.aliyun.com/dataset/649

  • 【数据分析实例】1 亿条淘宝用户行为Hive数据分析

    一盆萝卜丁: 求数据集

  • 采用statsmodels处理多元回归问题

    2301_79470918: 这里不需要划分测试集和训练集吗

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Tensorflow深度学习系列专栏简介
  • 9 | Tensorflow io流和 tfrecord读取操作
  • 8 | Tensorflow中的batch批处理
2024年4篇
2023年141篇
2022年18篇
2021年209篇
2020年368篇
2019年609篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小刘要努力。

顺便点一个赞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码龙岗网站定制龙岗百度网站优化排名观澜外贸网站制作南联网站优化按天计费西乡网站建设设计民治企业网站建设坪地网站优化坪山SEO按天计费南联百度爱采购荷坳网站建设设计木棉湾网站建设设计大运网站推广系统坪山网站设计模板东莞网站定制光明网站搜索优化沙井网站seo优化同乐建设网站大浪阿里店铺托管东莞百度标王南联建站东莞网站优化按天扣费吉祥百度网站优化永湖企业网站建设大鹏网络推广大鹏百姓网标王光明网站推广系统龙岗高端网站设计木棉湾百度竞价大运网站关键词优化广州网络广告推广歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化