在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
做爬虫合不合法?这得分情况而定,最近有程序员因为做爬虫而被刑侦的报道,相信很多人都已经知道了。但是爬虫本身这个岗位是合法的,只是有的公司用错了地方。那么爬取什么内容是合法的?什么内容是违法的呢?根据《中华人民共和国网络安全法》的最新规定,爬取涉及个人隐私的信息是不合法的。下面我们来看看爬虫合法和不合法的具体边界在哪里,大家在做爬虫工作的时候要注意了。

首先还是那句老话,爬虫技术本身无罪是合法的,可以说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。但是爬虫技术用错了地方就会构成犯罪行为,在今年国家颁布《中华人民共和国网络安全法》之后,很多以前处于灰色地带的业务都不能做了。因为最新的安全法强调:贩卖个人信息超过50条属于“情节严重”,需要追求其法律责任。很多涉及版权信息的网站,比如书籍、影视剧、课程等后期也会面临越来越严格的审查,这就是目前大的形势。
那么什么样的爬虫是非法的呢?前面说了,不能涉及隐私,另外还有三种情况也是不合法的,情节严重的还有可能构成犯罪行为。比如:
1、爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
2、爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
3、爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
讲了不合法的爬虫行为,那么爬取什么内容是合法的呢?归纳起来也是三点:
1、 遵守 Robots 协议。Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
2、不能造成对方服务器瘫痪。但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
3、不能非法获利。恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。或者是把别人网站上的付费课程爬取下来,私自售卖也是一样的不合法行为。
综上所述,做爬虫合不合法,还要看你爬取什么内容。一般情况下,正规公司和企业的爬虫岗位都是合法的。当然,大家也需要牢记,不要使用爬虫爬取个人隐私信息和非法获利,就不会触碰到法律的底线。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
python为什么叫爬虫?为什么python开发会突然火起来?
python的脚本特性,python易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以两者经常联系在一起。Python抓取网页文档的接口更简洁;相比于其他动态脚本语言,Python的urllib2包提供了较为完整的访问网页文档的API。
17857
2019-06-10 15:11:35
新手小白必看 Python爬虫学习路线全面指导
爬虫是大家公认的入门Python最好的方式,没有之一。虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成就感。因此小编整理了新手小白必看的Python爬虫学习路线全面指导,希望可以帮到大家。
9721
2019-12-05 14:17:14
如何使用Python爬虫抓取数据?
Python爬虫应用十分广泛,无论是各类搜索引擎,还是日常数据采集,都需要爬虫的参与。其实爬虫的基本原理很简单,今天小编就教大家如何使用Python爬虫抓取数据,感兴趣的小伙伴赶紧看下去吧!
9072
2019-08-13 18:56:48
如何自学Python爬虫?新手入门教程
如何自学Python爬虫?在大家自学爬虫之前要解决两个常见的问题,一是爬虫到底是什么?二是问什么要用Python来做爬虫?爬虫其实就是自动抓取页面信息的网络机器人,至于用Python做爬虫的原因,当然还是为了方便。本文将为大家提供一份详细的新手入门教程,带大家从入门到精通Python爬虫技能。
7734
2019-11-21 11:55:13
全套Python学习路线,快速上手
Python的初学者总希望能够得到一份Python学习路线图,小编经过多方面汇总,总结出比较全套Python学习路线,快速上手。
7073
2022-05-31 12:00:05
