在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创常见的反爬虫技术有哪些？如何防止别人爬自己的网站？

发布时间：2020-08-24 14:20:55 浏览 12215 来源：博学谷作者：枫调

　　搜索引擎可以通过爬虫抓取网页信息，同时也有很多企业通过爬虫获取其他平台的信息用于数据分析或者内容优化，但是对于自身网站有些页面或者信息并不希望被爬虫抓取，那我们如何来实现反爬虫技术呢？如何防止别人爬自己的网站呢？

常见的反爬虫技术有哪些？如何防止别人爬自己的网站？

　　爬虫不仅会占用大量的网站流量，造成有真正需求的用户无法进入网站，同时也可能会造成网站关键信息的泄漏，所以为了避免这种情况发生网站开发工程师必须掌握相应的反爬虫技术。下面为大家提供几种可行的反爬虫方案:

　　1、通过user-agent来控制访问

　　user-agent能够使服务器识别出用户的操作系统及版本、cpu类型、浏览器类型和版本。很多网站会设置user-agent白名单，只有在白名单范围内的请求才能正常访问。所以在我们的爬虫代码中需要设置user-agent伪装成一个浏览器请求。有时候服务器还可能会校验Referer，所以还可能需要设置Referer(用来表示此时的请求是从哪个页面链接过来的)。

　　2、通过IP来限制

　　当我们用同一个ip多次频繁访问服务器时，服务器会检测到该请求可能是爬虫操作。因此就不能正常的响应页面的信息了。当然这种反爬虫技术可以通过使用IP代理池来反反爬虫。网上就有很多提供代理的网站。

　　3、设置请求间隔

　　一般爬虫抓取网站时会制定相应的爬虫策略，但是有些恶意的爬虫会不间断的工具某个网站，面对这种情况，我们可以通过设计请求间隔来实现反爬虫，避免在爬虫短时间内大量的访问请求影响网站的正常运行。

　　4、自动化测试工具Selenium

　　Web应用程序测试的Selenium工具。该工具可以用于单元测试，集成测试，系统测试等等。它可以像真正的用户一样去操作浏览器(包括字符填充、鼠标点击、获取元素、页面切换)，支持Mozilla Firefox、Google、Chrome、Safari、Opera、IE等等浏览器。

　　5、参数通过加密

　　某些网站可能会将参数进行某些加密，或者对参数进行拼接发送给服务器，以此来达到反爬虫的目的。这个时候我们可以试图通过js代码，查看破解的办法。或者可以使用"PhantomJS",PhantomJS是一个基于Webkit的"无界面"(headless)浏览器，它会把网站加载到内存并执行页面上的JavaScript，因为不会展示图形界面，所以运行起来比完整的浏览器更高效。

　　6、通过robots.txt来限制爬虫

　　robots.txt是一个限制爬虫的规范，该文件是用来声明哪些东西不能被爬取。如果根目录存在该文件，爬虫就会按照文件的内容来爬取指定的范围。例如大家可以尝试方位淘宝的robots.txt文件：https://error.taobao.com/robots.txt。可以看到淘宝对爬虫访问的限制。“User-agent: *”表示禁止一切爬虫访问。
　　爬虫与反爬虫是互联网开发工程师之间的斗智斗勇。作为网站开发者即要掌握爬虫的技术，还要跟进一步去了解如何实现反爬虫。

Python爬虫网络爬虫反爬技术

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：如何入门学习Python爬虫下一篇：开发中Django和Flask框架的区别是什么？

相关推荐 更多

python为什么叫爬虫？为什么python开发会突然火起来？

python的脚本特性，python易于配置，对字符的处理也非常灵活，加上python有丰富的网络抓取模块，所以两者经常联系在一起。Python抓取网页文档的接口更简洁;相比于其他动态脚本语言，Python的urllib2包提供了较为完整的访问网页文档的API。

18756

2019-06-10 15:11:35

Python开发Python爬虫
python网络爬虫培训班怎么样

python网络爬虫培训班怎么样？能学到东西吗？很多想转型做python开的的比较适合选择专业的python网络爬虫培训班，这样可以系统的学习专业知识，比较好的python培训班还有相关的项目实战项目，比如博学谷的Python+人工智能在线就业班,学习完可以掌握服务器端程序开发、web系统设计与开发、爬虫系统、数据分析、数据挖掘、机器学习、图像识别、深度学习等技术知识。

10740

2019-06-24 16:25:46

Python培训班Python爬虫网络爬虫
如何利用Python爬取网页？

如今，网络爬虫早已被广泛应用在爬取网页上。虽然有许多编程语言都可以写爬虫，但是Python绝对是最好的选择。这是因为Python作为一种新手友好的语言，上手简单的同时标准库齐全，还有丰富的各种开源库，开发效率更是不用说，高于绝大多数语言。那么如何利用Python爬取网页呢？或者换句话说，怎样编写Python语言使用网络爬虫呢？

7994

2019-09-17 14:53:05

Python爬虫网络爬虫自学Python
零基础学Python爬虫难不难？要怎么学？

零基础学Python爬虫难不难？要怎么学？众所周知，Python是最容易上手的编程语言，如果有一定基础，学会Python爬虫也是分分钟钟的事。对于零基础的学习者来说，Python爬虫也是比较简单的，只要先学习Python这门编程语言，再会写几行代码就可以做爬虫了。现在的学习资源也有很多，比如在博学谷平台上的Python爬虫教程。一起来看看具体怎么学习Python爬虫吧！

9628

2019-10-11 11:31:19

Python教程Python开发网络爬虫
做爬虫合不合法？爬取什么内容是合法的？

做爬虫合不合法？这得分情况而定，最近有程序员因为做爬虫而被刑侦的报道，相信很多人都已经知道了。但是爬虫本身这个岗位是合法的，只是有的公司用错了地方。那么爬取什么内容是合法的？什么内容是违法的呢？根据《中华人民共和国网络安全法》的最新规定，爬取涉及个人隐私的信息是不合法的。下面我们来看看爬虫合法和不合法的具体边界在哪里，大家在做爬虫工作的时候要注意了。

14909

2019-11-22 21:07:36

Python爬虫反爬技术