在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创爬虫应用场景的利弊分析

发布时间：2020-04-15 10:51:25 浏览 10918 来源：博学谷作者：照照A

相信大家在春节的时候都有过抢火车票的经历，对一些抢票软件一定不会感到陌生。今天我们就来从技术的角度，来看看抢票软件背后的东西——爬虫。通俗点说，爬虫就是模拟人的行为去各个网站溜达，并把看到的信息背回来的探测机器。如今随着网络和大数据的发展，爬虫的应用场景变得越来越广泛，下面我们就一起来分析一下爬虫应用场景的利弊吧！

爬虫应用场景

应用场景一：出行行业

爬虫应用得最多的非出行行业莫属。为什么呢？拿12306网站为例，作为全中国唯一一家卖火车票的官方网站，只要你想坐火车都不得不在这个网站购票。因此，催生了很多抢票神器，比如智行火车票就是运用爬虫技术不断刷新 12306 网站的火车余票，一旦发现有票，就马上拍下来，然后让你付款买票。这样的好处当然是十分明显的，我们在家只要懂动动手指就可以把票抢到，但是12306网站本身却并不欢迎这种爬取行为，毕竟高频率的网页浏览和点击会造成网站的崩溃，而且对不会抢票的人来讲还是不太公平的。所以，爬虫技术对出行行业有利有弊。

应用场景二：社交平台

社交平台是爬虫经常光顾的地方之一，尤其是微博更是爬虫的重灾区。爬虫可以获取某个人的微博列表、微博的状态、索引等等等等。有些人可能想问了，这些获取这些信息有什么用呢？试想一下，如果我能随心所欲地指挥一帮机器人，打开某人的微博，然后刷到某一条，然后疯狂关注、点赞或者留言，这就是标准的僵尸粉上班儿的流程。通过这一套骚操作可以给某个的微博账号做僵尸粉的数量，以及点赞评论等等。还有利用爬虫做出的僵尸粉在微博上抢红包等等骚操作。

应用场景三：电商平台

相信大家对所谓的“比价平台”“聚合电商”和“返利平台”都不陌生了吧，其实它们的原理也是爬虫技术的应用。比如你搜索一样商品，这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东，还有唯品会苏宁易购。这就是爬虫的功劳。它们去淘宝上，把某个商品的图片和价格统统扒下来，然后在自己的平台上展示。这个原理和搜索引擎的工作原理差不多，只不过他们展示的不是网页而是商品。但是被放在一起比价，对于消费者来讲可能是一件好事，但是许多电商平台就不这样想了。当然，电商对抗爬虫有另外的方法，那就是“web 应用防火墙”，关于反爬虫技术这里就不展开讲了。

应用场景四：搜索引擎

做SEO优化的都知道，搜索引擎决定哪个网页排名靠前，主要一个指标就是看哪个搜索结果被人点击的次数更多，而有一种黑色SEO手段就是利用爬虫不断刷页面点击流量。举个例子，搜索某个特定的“关键词”，然后在结果里拼命地点击某个链接，那么这个网站在搜索引擎的权重里自然就会上升。但是这种做法是错误的，是爬虫被用来钻空子的弊端。任何一个搜索引擎肯定都不允许外人对于自己的搜索结果动手动脚，否则就会丧失公立性。所以百度搜索引擎会通过不定期调整算法来对抗黑色SEO的行为。而网站一旦被发现就会遭受 “降权”处理，可谓是得不偿失。总的来讲，爬虫技术有利有弊，就看你如何运用它了。

分析爬虫应用场景的利弊，我们可以发现爬虫技术更像是一把双刃剑，技术本身是无罪的主要看使用爬虫技术的人如何运用。当然爬取网络上的公开信息还是不算违法的，如果你想利用爬虫技术窃取隐私信息来牟利则是万万不可取的。总之，大家一定要在法律允许的范围使用爬虫技术。

Python爬虫网络爬虫

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：掌握爬虫技术需要学哪些内容？下一篇：学Python的理由有哪些？这四大理由足够了

相关推荐 更多

Python爬虫框架有哪些？

在大数据时代，掌握数据就掌握了企业发展的方向。爬虫作为抓取互联网数据的一个途径，成为企业需求量非常大的岗位之一。一般情况下小型的爬虫需求直接使用request库+BS4就可以解决了。稍微复杂一点的可以使用selenium解决JS的异步加载问题。而如果遇到大型的爬虫需求，则需要考虑使用框架了。下面我们来一起学习以及各框架。

9868

2019-07-15 17:57:58

Python框架Python爬虫
Python爬虫一般用什么框架比较好？

Python爬虫一般用什么框架比较好？一般来讲，只有在遇到比较大型的需求时，才会使用Python爬虫框架。这样的做的主要目的，是为了方便管理以及扩展。本文将向大家推荐十个Python爬虫框架，它们分别是Scrapy、Crawley、Portia、newspaper、python-goose、Beautiful Soup、mechanize、selenium、cola和PySpider。

9959

2019-10-21 16:51:17

Python开发Python爬虫软件工具
做爬虫合不合法？爬取什么内容是合法的？

做爬虫合不合法？这得分情况而定，最近有程序员因为做爬虫而被刑侦的报道，相信很多人都已经知道了。但是爬虫本身这个岗位是合法的，只是有的公司用错了地方。那么爬取什么内容是合法的？什么内容是违法的呢？根据《中华人民共和国网络安全法》的最新规定，爬取涉及个人隐私的信息是不合法的。下面我们来看看爬虫合法和不合法的具体边界在哪里，大家在做爬虫工作的时候要注意了。

14669

2019-11-22 21:07:36

Python爬虫反爬技术
Python主要用来做什么？

Python可以做web应用开发、网络爬虫、AI人工智能与机器学习、处理数据用来分析、数据科学：包括机器学习、数据分析和数据可视化、脚本等方面开发。

7850

2020-06-30 11:53:32

Python开发Python爬虫
常见的反爬虫技术有哪些？如何防止别人爬自己的网站？

搜索引擎可以通过爬虫抓取网页信息，同时也有很多企业通过爬虫获取其他平台的信息用于数据分析或者内容优化，但是对于自身网站有些页面或者信息并不希望被爬虫抓取，那我们如何来实现反爬虫技术呢？如何防止别人爬自己的网站呢？

11747

2020-08-24 14:20:55

Python爬虫网络爬虫反爬技术