在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创七种反爬技术大解析

发布时间：2019-07-26 15:27:12 浏览 11593 来源：博学谷资讯作者：照照

反爬虫今天小编来和大家谈谈反爬技术。要了解反爬技术就必须要知道爬虫，所谓爬虫其实就是由计算机自动与服务器交互获取数据的工具。目前常见而好用的反爬技术有七种，它们分别是：user-agent，验证码，封IP，滑块验证，关联请求上下文，JavaScript 参与运算以及提高数据获取成本。下面就来仔细分析一下这七种反爬技术吧。

反爬技术,解析

1、user-agent

数据请求头，最初级的反爬，只要在请求中模拟请求头即可轻松飘过。

解决方法：可以自己设置一下user-agent，或者更好的是，可以从一系列的user-agent里随机挑出一个符合标准的使用

2、验证码

验证码是最常用的反爬虫措施，但简单验证码通过机器学习自动识别，通常正确率能达到50%以上甚至更高。

复杂验证码通过提交到专门的打码平台进行人工打码，依据验证码的复杂度，打码工人平均每码收1-2分钱，成本比较低。也同样容易被绕过，使得数据容易被爬取。

3、封IP

这是最有效也最容易误杀的方案。该策略建立在 IP 稀有的前提下，目前通过代理池购买，ADSL，或者拨号 VPS 等方式，可以低成本获取数十万的 IP 池，导致单纯的封IP策略效果越来越差。

解决方法：

比较成熟的方式是：IP代理池

简单的说，就是通过ip代理，从不同的ip进行访问，这样就不会被封掉ip了。可是ip代理的获取本身就是一个很麻烦的事情，网上有免费和付费的，但是质量都层次不齐。如果是企业里需要的话，可以通过自己购买集群云服务来自建代理池。

4、滑块验证

滑块验证结合了机器学习技术，只需要滑动滑块，而不用看那些复杂到有时人眼也无法分辨的字母。但由于部分厂商实现时校验算法较为简单，导致经常只需要相对简单的模拟滑动操作就能绕过，从而使得数据被恶意爬取。类似案例：淘宝，阿里云，淘宝联盟。

5、关联请求上下文

反爬虫可以通过 Token 或网络请求上下文是否进行了完整流程的方式来判断是否真人访问。但对具有协议分析能力的技术人员来说进行全量模拟并没有太大困难。类似案例：知乎，百度登录过程。

6、JavaScript 参与运算

简单的爬虫无法进行 js 运算，如果部分中间结果需要 js 引擎对 js 进行解析和运算，那么就可以让攻击者无法简单进行爬取。但爬虫开发者依然可以通过自带 js 引擎模块或直接使用 phantomjs ，chrome等无端浏览器进行自动化解析。

解决方法：这里就要请出一个大杀器：”PhantomJS“PhantomJS是一个Python包，他可以在没有图形界面的情况下，完全模拟一个”浏览器“，js脚本验证什么的再也不是问题了。

7、提高数据获取成本

当面对的是职业选手时，只能通过提升对方人力成本来实现，比如代码混淆、动态加密方案、假数据，混淆数据等方式，利用开发速度大于分析速度的优势，来拖垮对方的意志。如果对方咬定不放松，那只能持续对抗，直到一方由于机器成本或人力成本放弃。典型案例：汽车之家字体替换，去哪儿网网隐藏在CSS元素坐标中。

以上就是七种反爬技术的解析，大家都弄清楚了吗？

反爬技术专业技能

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：网络协议http和https区别？网站为什么要进行HTTPS改造？下一篇：七个提升Python运行性能的小技巧

相关推荐 更多

网络协议http和https区别？网站为什么要进行HTTPS改造？

网络协议http和https区别？网站为什么要进行HTTPS改造？HTTP是互联网上应用最为广泛的一种网络协议，是一个客户端和服务器端请求和应答的标准；HTTPS：是以安全为目标的HTTP通道，简单讲是HTTP的安全版即HTTP下加入SSL层。HTTPS是基于tls和ssl加密的HTTP协议，网络传输是加密的，因此它的安全是显而易见的，包括防窃听、篡改、劫持。

9908

2019-07-26 14:28:19

Python开发专业技能网络编程
Python图像处理工具推荐附用法介绍

今天小编要向大家推荐五款Python图像处理工具，分别是scikit-image、 Numpy、Scipy、 PIL/ Pillow和OpenCV-Python。并且还会介绍这五款工具的用法，有需求的小伙伴赶紧看下去吧！

9498

2019-08-05 17:03:03

软件工具专业技能
网站数据分析报告分为几个部分？

网站数据分析报告分为几个部分？网站数据分析内容广泛由多部分组成。网站分析大致分为三个方面：网站的流量分析；网站的内容分析；网站的转化分析。网站的核心目标是ROI。完成KPI目标，首先有访客；其次，针对访问者的需求展示内容、商品和信息，并且让客户喜欢这些内容；最后，让访问者转化为客户，购买信息和商品。

8385

2019-09-09 15:54:29

专业技能大数据分析
使用Django开发网站需要具备哪些知识？

只学习Django是不是就可以开发一个网站？还需要具备哪些知识？

8119

2020-08-24 11:47:13

Python开发Python框架专业技能
常见的反爬虫技术有哪些？如何防止别人爬自己的网站？

搜索引擎可以通过爬虫抓取网页信息，同时也有很多企业通过爬虫获取其他平台的信息用于数据分析或者内容优化，但是对于自身网站有些页面或者信息并不希望被爬虫抓取，那我们如何来实现反爬虫技术呢？如何防止别人爬自己的网站呢？

11822

2020-08-24 14:20:55

Python爬虫网络爬虫反爬技术