只因写了一段爬虫,公司200多人被抓!

640?wx_fmt=jpeg
“一个程序员写了个爬虫程序,整个公司200多人被端了。”
“不可能吧!”
刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
朋友说,消息很确认并且已经进入审判阶段了。
01.对消息进一步确认
朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序员这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作的机会。
他们为什么想扩展人群到程序员这个行业呢?其实就是因为他们代理了这名程序员的官司,才发现很多程序员完全不懂法,直接说是法盲一点都不过分。
刚好我也很好奇程序员因爬虫被抓这个案子,看看到底是怎么回事,就和两名律师以及朋友坐到一起,深入交流后才知道整个事件的来龙去脉。
这名程序员在被警察逮捕后,警察审问期间一直不承认自己触犯了法律,并且也完全没有意识到自己犯法了。进去之后总以为警察搞错了,过几天就会把自己放出来,结果也错过了取保候审的机会。
律师说,这名程序员的妈妈当时在他毕业的时候,就因程序员这个行业太辛苦不同意他做程序员,但他对这个行业一直都很感兴趣,坚持做了一名码农,没想到两年后出现了这个事情。
他们家里人都后悔死了,距离事发当日到现在已经过去了半年,当事者还被关在监狱中。不管这件事如何收尾,对这名程序员和他的家庭都是一个很大的打击。
以下内容根据部分推测和网上资料整理而出,可能会有细微偏差。
640?wx_fmt=png

02.一个爬虫引发的案件

某一个知名互联网公司,突然发现公司的服务器连续几天压力倍增,导致公司内部系统崩溃不能访问,公司领导责令技术部尽快解决。
该公司系统平时访问量一直比较平稳,但不知为何这几天系统压力突然大增,经过技术人员几天调查发现了一个惊人的真相,公司客户信息被抓取,并且某个接口访问量巨大。
随着技术人员的深入调查发现的现象更加震惊,入侵者利用这个入口已经窃取了大量的客户信息,并且所有的线索都指向了一家大数据公司。
这家公司的主要业务就是,出售简历数据库。经核查该公司出售的简历数据中,就包含自己家客户的简历信息。
技术部上报领导之后,公司开会商议后决定报案。
03.案发现场
案发前一段时间,小明(化名)接到了技术部领导的需求,要求写一段爬虫批量从网上的一个接口抓取数据,爬虫开发完后测试没有问题,小明就将程序上传到了公司服务器。
程序运行了一段时间后,也许是有了新的需求,也许是小明想对爬虫程序进行进一步的优化,将爬虫的线程数,由原来比较小的值调到一个比较大的值。
完善后的程序上传到服务器后,小明跟踪了下爬虫的进展,运行平稳并且速度快了很多。提交之后像往常一样,小明就把这件事情忘了。
小明没想到自己这次提交的爬虫程序,竟然能把对方的服务搞挂了,也没想到自己因为写了一段代码而坐牢。
640?wx_fmt=png

04.整个公司被抓

2019年的某一个工作日,公司员工像往常一样忙忙碌碌,某个程序员和产品经理正在为了一个需求争吵,小明带着耳机正坐在办公室敲代码。
突然就来了一大群警察,要求所有人离开工位,双手离开电脑、手机等设备。整个公司的人都懵了,不知道发生了什么事情,但也都照办了。
警察很快查封了公司的所有办公用品,问技术部相关人员要了服务器的信息,公司全体上下 200 多人无差别的全部送到看守所了解情况。
在去看守所的路上,大家都还心里想这是不是搞错了,我们只是一个科技公司公司又没有骗人,怎么就集体被抓了。
小明也一直认为自己没有犯罪,自己只是一名技术人员而已,所有的工作也都是按照领导要求来执行的,应该很快就会把我们释放了吧。
随后,公司非核心人员都被释放了出来,主要集中在 HR、行政人员。最后确认公司 36 人被捕,其中大部分是程序员。
被捕后小明委托的律师事务所,就是和我们交流的两位律师的事务所,据说小明入狱后就一直不认为自己有罪,也因一直拒绝认罪从而错过了取保候审的机会。
目前小明还在等待最后的审判。。。
05.涉事公司背景
640?wx_fmt=png
巧达科技号称是中国最大的用户画像关键数据服务提供商,专注于大数据及人工智能领域前瞻性产品研发,客户覆盖互联网行业及泛金融领域。
高管多为百度出身,公司2017年净赚1.86亿元。
公司2014年7月成立,B轮估值2亿美元,目前已经到了C轮融资阶段,投资者包括李开复创新工场、百度风投齐玉杰、中信产业基金、人工智能产业基金等等。
巧达的创始人成予曾经是百度第一任产品部负责人、联合创始人沈毅曾经是百度电子商务事业部技术总监和百度爱乐活技术副总裁。
公司曾宣称通过整合多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿+用户综合数据,绘制出了涉及中国8亿人口的多维度数据。其中,包含个人隐私与非隐私信息。
此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。
也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。
“基本上所有你能数的上名的大型互联网公司,都是巧达科技的客户。”一位之前简历中介生意的从业者。
06.近期多个大数据公司被查
最近的大数据行业,风声鹤唳。
在中秋节前一天,中国电信控股的子公司天翼征信传出风声,其总经理、副总经理以及市场人员被警察带走,原因是与其合作的大数据公司被警方调查。
在天翼之前,新颜科技CEO黄向前被警方带走、魔蝎科技公司CEO周江翔涉事被查、公信宝公司门口被贴了封条、知名第三方数据服务公司聚信立宣布将暂停对外提供用户授权的运营商爬虫服务……
此外,国内大数据风控平台龙头同盾科技也被曝爬虫部门已解散,CEO蒋韬已出国避风头,对此,同盾科技昨日发表辟谣声明表示,子公司杭州信川科技有限公司确实停止爬虫业务,但其他言论均属不实。
.....
据内部消息,最近监管对数据乱象出手,开始清理行动,15家公司被列入调查名单,其中几家估值都超几十亿。
国内很多大数据公司的数据来源多多少少都有一定的问题,随着我国今年6月1日起,《中华人民共和国网络安全法》将实施,所有的网上行为将越来越严格,如果还按照之前的惯性去操作,迟早会出问题。
07.程序员谨慎使用技术
不知道大家是否发现,随着国家经济的不断发展,以前可能处于灰色阶段的行业,现在几乎都慢慢不能做了。写这篇文章的目的,也是为了警示大家技术是无罪的,但是用到了错的地方代价也是非常巨大的。
我之前看过这样一个报道,一个程序员因为爱好写了一个小程序,并且把此程序上传到了互联网上,没想到过了两年之后,有人利用这个小程序非法获利500多万。
虽然这名程序员并没有因为这个程序而获利,但是间接给犯罪人员提供了犯罪的工具,最后被判刑 2 年缓期 2 年执行。
程序员的生活是简单的,工作大概也只关心代码和BUG。小明也从来没有把自己的职业和犯罪联系在一起。
技术本身是不违法的,就好像一把水果刀,如果用来削苹果削梨没有任何问题,但是用来伤人就是凶器,就要被列入物证list。
爬虫也是如此,在大多数情况下,只是采集互联网上的公开信息,很难说是违法行为。但是一旦涉及入侵到别人系统去获取数据,那必然存在着法律风险。
可能很多同学是懵的,很多互联网公司就是靠抓取数据活着的。他只是正常执行公司安排的工作任务,怎么就涉嫌犯罪了呢?
这里结合律师朋友给出的一些建议,这里摘录出来仅供参考。
08.单位犯罪和个人犯罪的关系
首先了解一下单位犯罪。除了自然人犯罪,还有单位犯罪,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害社会的行为。
我国刑法对单位犯罪原则上采取双罚制度,即单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员判处刑罚。相关司法解释规定,在审理单位故意犯罪案件时,对其直接负责的主管人员和其他直接责任人员,可不区分主犯、从犯,按照其在单位犯罪中所起的作用判处刑罚。
因此,公司犯罪有可能会牵连员工,尤其是案件中对非法获取数据有直接责任的爬虫工程师。这也是为什么当事人在公司人小言微但还是被批捕的原因。
其次,是否可以“不知者不为罪”来辩解?刑法原则之一是法无明文规定不为罪,并没有“不知者不为罪”。主观上的恶意是衡量犯罪的要素之一,结合客观上的行为来推理主观恶意。破解别人的服务器,获取别人不公开的信息,不能说没有恶意,不能以不懂法来搪塞。
09.重点:什么样的爬虫是违法?
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
重点关注:下列情况下,爬虫有可能违法,严重的甚至构成犯罪。
  1. 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

  2. 爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

  3. 爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。

10.最后

最后提醒大家敬畏法律,热爱生活。
愿每一个程序员都可以用自己的技术去改变世界,让我们的社会变得更加美好!

推荐阅读

640?wx_fmt=png
你点的每个“在看”,我都认真当成了喜欢
Python大本营
关注 关注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
python爬虫爬取企业详细信息
02-23
python爬虫爬取企业详细信息,并保存到mysql数据库,包含代理IP的使用。
一.(python爬虫ai企查)
yhyyhyyhygood的博客
07-25 3835
在互联网领域,爬虫一般指取众多公开网站网页上数据的相关技术,此处不是我们说的脊椎动物,哈哈,言归正传,其实个人认为就是凭借一些小技巧,去获取一些公开的数据,反正不要钱,此前一直在用Java,最近接触了python,我也是python小白,接下来我们言归正传。......
python爬虫 爬取爱企查公司信息
weixin_45329040的博客
11-25 9262
python爬虫、 爬取爱企查公司信息、投机取巧
爱企查爬虫selenium
ghjikd的博客
04-25 1915
这个是为了寻求一个可以实现模拟登录功能的大佬,我已经实现了,爬取第一页,但是到了第二页需要登录,我就不会了。或者有想法一起探讨。会先登录然后再爬取的也行。 import time from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selen
爱企查 爬取公司基本信息
StevenDouglas的博客
10-12 8997
@[TOC]爱企查爬取公司基本信息 前言: 前几天老板让我爬下制造业相关的公司,最开始说用企查查,但是你懂的,6页之后就要收费了,不能白嫖。就是前6页页不好爬,超频访问阻拦着我。但是VIP似乎可以直接导出,不用爬虫,遂和老板交涉,哪怕花点儿呢。 老板直言:不是花不起这钱,当程序员的,不能受这个气。 于是和企查查斗智斗勇半天无果后,我果断换了百度旗下的爱企查,强烈推荐爱企查,良心企业。注册账号能看100页左右的数据,还没有超频限制。 废话不多说,下面给大家整俩自己爬虫代码。 第一份是爱企查中的制造业公司
爬虫笔记!!!!!!!!!!!!
06-02
一些关于笔记的记录
自己一段爬虫类练习代码
05-19
经典的爬虫代码,供大家学习如何防爬虫,请大家慎重爬虫,以免给别人造成不必要的损失~
一个Java语言的自动化爬虫工具
04-25
一个Java语言的自动化爬虫工具。运行Java应用,可直接在网页进行爬虫任务配置,可对爬虫任务进行定时触发,爬取内容保存至本地或者数据库中。一个Java语言的自动化爬虫工具。运行Java应用,可直接在网页进行爬虫...
Python爬虫集合,内含各大网站爬虫,应有尽有,爬虫爱好者不容错过!!!.zip
12-28
解锁网络数据的宝藏:Python爬虫工具与教程集合 一、探索网络信息的无限宝藏 在互联网的海洋中,蕴藏着海量的有价值信息。如何合法、高效地获取这些信息?Python爬虫工具与教程为您揭开这一神秘面纱。通过这些资源...
Python爬虫基本使用 requests安装 HTTP HTTPS
05-17
用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件 以Allow开头的URL地址 允许某爬虫引擎访问 以Disallow开头的URL地址 不允许...
Python从入门到入狱,警方上门,23人被带走…这种开发千万别干!【附爬虫教程】
WANGJUNAIJIAO的博客
12-17 3003
据悉,王某漪等人此前曾合伙创业,但因经营不善没有赚到钱,心灰意冷之际,他们发现买卖购物网站上的客户信息可以赚大钱,于是便走上了这条违法犯罪的不归路。在市局网安总队等有关部门的支持下,经过半个多月的缜密侦查,将一个非法获取计算机信息系统数据的犯罪团伙一网打尽,获 23 名犯罪嫌疑人。专案组通过大量工作发现,除该购物网站外,许多热门 APP 的“直播间”里也都出现过类似现象,而相关的异常流量情况均指向同一网站。如果大家想学习Python爬虫,数据采集,我这里有正规的教程,熬夜整理了一个月,希望对大家有帮助!
企查查爬虫python实现(一)整体方法
qq_41900846的博客
12-04 7404
企查查的爬虫的python实现,采用selenium模块+chromedriver驱动
使用python程序取天眼查,企查查和爱企查上的企业基本信息
azurelaker的博客
09-20 6562
的方式
爬虫到底违法吗?你离违法还有多远?
关注我!带你一路 "狂飙" 到底!
11-05 1981
知乎上之前那个很火的被了的人,从回答内容中来看其实就是做打码平台的那个微凉,他这一个平台据说赚了至少千万,主要应该是提供给做黑产的人使用了,这种情况下被是迟早的事。最有效的技术其实不是技术而是方法,这个方法就是账号收费,将你的数据变成需要花多少钱才能看到这样子的,就能做到啥高端技术都不用上、轻松提高爬虫方的获取数据成本的效果,当然这也需要结合良好的产品设计,否则普通用户的体验会很差。答:让需要数据的人提需求,如果你自己就是那个需要数据的人,那就去做市场调研,看看你需要的数据在哪里能找到。
【Python网络爬虫】企查查批量查询接口爬虫
moyuweiqing的博客
10-24 2867
在http请求中,主要包含两种方式,一种是get请求另一种是post请求,在post请求中,请求headers中的哈希加密参数的生成a_default()函数和r_default()函数中生成,函数中的其中一个参数名为data,此时,data为post请求中的数据,为字典类型;但在get请求中,由于和post请求不一样,数据中并没有data部分的内容,因此,在get请求中,headers中哈希加密参数的生成不需要传递参数data,或者data的值为默认值,即为空字典。
技术总监被判 3 年、一程序员被判 18 个月:爬虫软件对服务器进行自动化程序攻击,造成服务器阻塞,系统不能正常运行
m0_48891301的博客
09-21 1309
被告人:杨某某,男,1986年出生,大学本科被告人:张某某,男,1991年出生,大学本科杨某某是深圳市快鸽互联科技有限公司的技术总监,负责该公司网络技术开发及应用,是张某某的上司。张某某是深圳市快鸽互联科技有限公司技术部的员工。深圳市快鸽互联科技有限公司主营业务是为按揭贷款购房的客户提供赎楼及债务置换贷款等。
只因一段爬虫公司 200 多人
墨鱼菜鸡
09-09 3404
作者 |纯洁的微笑 本文经授权转载自纯洁的微笑(ID:keeppuresmile) “一个程序员了个爬虫程序,整个公司200多人被端了。” “不可能吧!” 刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有过几段爬虫呢?只因爬虫程序就被端有点夸张了吧。...
Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
m0_59162248的博客
03-27 2245
最近我学习和实践网络爬虫,总想着在这儿点数据在那儿点数据。但不知为什么,取别人网站数据时,总会产生莫名恐慌生怕自己一不小心就侵权了,然后被关在监狱摩擦所以我想现在这个时候,非常有必要仔细研究一下有关网络爬虫的规则和底线。我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的。哪些情况下网络爬虫采集数据后具备法律风险?
python如何爬取爱某查类数据
Z_suger7的博客
04-03 656
其实在准备爬爱某查数据的时候,我对启某宝、企某查类似的网站分布从数据的完整性和数据的更新及时性分析了,结果个人觉得爱某查的数据比其他网站的要完整,数据维度要多一些,数据更新的时候也比较快,所以最后选择了爬取天某查里面的企业数据,难度相比也要稍等小一点。最近因为公司业务需求了一套分布式多线程的爱某查爬虫系统,实现了对爱某查整个网站的全部数据各种维度的采集和存储,经常在论坛或爬虫群里面看一些做技术的朋友在爬爱某查类型的网站的时候会遇到以下几个问题,所以了这篇文章一些简单的解决方案分享给大家。
python 给我一段 爬虫
最新发布
06-13
Python是广泛用于网络爬虫和数据处理的一种高级编程语言,它的简洁语法和强大的第三方库(如requests、BeautifulSoup、Scrapy等)使得编爬虫变得相对容易。下面是一个简单的Python爬虫示例,使用了requests和...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 手把手教你利用爬虫爬网页(Python代码) 293328
  • 完了!Windows弱爆了!它才是程序员的首选! 94717
  • 110道Python面试题 78092
  • 重磅!你们一直催的 PyEcharts教程来啦 65319
  • “程序员数学不行,干啥都不行!”高级开发:90%都是瞎努力! 60802

最新评论

  • 5大必知的图算法,附Python代码实现

    ACcf: 算法竞赛(xcpc)可以用networkx吗

  • 手把手教你学会LDA话题模型可视化pyLDAvis库

    小白在呐喊: 我也是这个问题,请问你解决了吗

  • 教程 | 用Python识别图片验证码中的文字

    嗨Spider-Man: 老哥 gif图片咋识别啊

  • 手把手教你学会LDA话题模型可视化pyLDAvis库

    甚也不会: TypeError: DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given?为什么会出现这个问题

  • 收藏!人工智能学习路径总结

    机器学习杨卓越: 难受,就是没人收藏表情包

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 用Python爬取了2900多款防脱洗发水数据并进行可视化分析,助你缓解脱发困扰
  • 分享一个Pyecharts中非常重要的组件,可以大大提高绘制图表的效率
  • MyBatis Plus 批量数据插入功能,yyds!
2021年425篇
2020年625篇
2019年902篇
2018年4篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码百色百姓网标王多少钱盐城推广网站推荐连云港seo优化价格松岗企业网站建设价格大芬网站建设公司萍乡推广网站报价漯河关键词排名价格福永SEO按天扣费多少钱临夏关键词按天扣费公司焦作至尊标王价格衢州优化报价永州网站关键词优化公司恩施SEO按天收费坪山百度网站优化排名哪家好本溪百度标王公司坪山百度网站优化排名价格南充关键词排名公司清远网站建设设计兰州营销型网站建设推荐晋城品牌网站设计报价龙岗关键词排名延边网站关键词优化多少钱中山seo优化推荐秦皇岛seo网站优化多少钱思茅百姓网标王推广公司定西百度网站优化排名多少钱安康企业网站建设多少钱新乡百度网站优化排名哪家好哈密至尊标王定西百搜标王歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化