在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
如今,网络爬虫早已被广泛应用在爬取网页上。虽然有许多编程语言都可以写爬虫,但是Python绝对是最好的选择。这是因为Python作为一种新手友好的语言,上手简单的同时标准库齐全,还有丰富的各种开源库,开发效率更是不用说,高于绝大多数语言。那么如何利用Python爬取网页呢?或者换句话说,怎样编写Python语言使用网络爬虫呢?
1、编写执行代码
首先,你要安装requests和BeautifulSoup4,然后执行如下代码.
import requests
from bs4 import BeautifulSoup
iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'
res = requests.get(iurl)
res.encoding = 'utf-8'
#print(len(res.text))
soup = BeautifulSoup(res.text,'html.parser')
#标题
H1 = soup.select('#artibodyTitle')[0].text
#来源
time_source = soup.select('.time-source')[0].text
#来源
origin = soup.select('#artibody p')[0].text.strip()
#原标题
oriTitle = soup.select('#artibody p')[1].text.strip()
#内容
raw_content = soup.select('#artibody p')[2:19]
content = []
for paragraph in raw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#责任编辑
ae = soup.select('.article-editor')[0].text
2、观看视频学习
如果大家觉得光是文字不足以弄清Python爬取网页的技巧,也可以免费观看博学谷的学习视频。该课程视频主要讲述利用Python语言实现网络爬虫的技巧,学完这门课程后,大家可以学习到scrapy的操作,制作属于自己的爬虫,并了解网页解析的技巧。下面是视频课程主要内容:
第一章 网络爬虫简介
(1)网络爬虫的定义
(2)URL的概述
(3)url请求的基本操作
(4)百度贴吧小爬虫-上
(5)百度贴吧小爬虫-下
(6)正则表达式
第二章 scrapy制作小爬虫
(1)内涵段子小爬虫上
(2)回顾
(3)内涵段子小爬虫下
(4)scrapy制作小爬虫上
(5)scrapy制作小爬虫下
相信大家看完博学谷的网络爬虫课程,就能轻松利用Python爬取网页。对Python爬虫感兴趣的同学,还在等什么,现在就上博学谷官网,开始观看视频学习吧!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
如何快速实现爬虫从入门到精通
爬虫技术是现在互联网最常用的技术手段之一,甚至很多公司设置专门的爬虫工程师。而且爬虫工程师的薪资水平已经达到10-30K之间。掌握爬虫技术就为自己未来职业发展增加了一项必要的技能。那跨行业,或者零基础的情况下,如何快速实现爬虫从入门到精通水平呢?
7625
2019-07-24 18:34:32
Python爬虫一般用什么框架比较好?
Python爬虫一般用什么框架比较好?一般来讲,只有在遇到比较大型的需求时,才会使用Python爬虫框架。这样的做的主要目的,是为了方便管理以及扩展。本文将向大家推荐十个Python爬虫框架,它们分别是Scrapy、Crawley、Portia、newspaper、python-goose、Beautiful Soup、mechanize、selenium、cola和PySpider。
7767
2019-10-21 16:51:17
学Python为什么大家都推荐去培训
在Python的广泛应用于人才市场大量需求的背景下,越来越多的同学开始学习Python编程语言。作为高级编程语言Python简单易学可读性强,有利于学习者快速入门。一般来说如果零基础自学Python的话,大概学习周期在6-12个月,然而自学的同学大部分都被推荐过去参加培训。在这里小编与大家交流一下为什么学习Python推荐去参加培训!
5018
2019-11-22 18:31:00
做Python网络爬虫需要掌握哪些核心技术?
在当下这个社会,如何有效地提取并利用信息成为一个巨大的挑战。基于这种巨大的市场需求,爬虫技术应运而生,这也是为什么现在爬虫工程师的岗位需求量日益剧增的原因。那么做Python网络爬虫需要掌握哪些核心技术呢?以博学谷推出的《解析Python网络爬虫》课程为例,内容涉及Scrapy框架、分布式爬虫等核心技术,下面我们来一起看一下Python网络爬虫具体的学习内容吧!
7680
2019-12-04 17:38:16
Python bs4怎么安装?
bs4是BeautifulSoup4的简称,它是一个可以从HTML中提取数据的Python第三方库。具体来讲,bs4可以从茫茫的HTML代码中准确查找出你想要的内容,甚至一个小小的字符串。听起来是不是感觉bs4很厉害的样子?那么,Python bs4怎么安装呢?下面小编带领大家一步步的实现安装与导入的过程。
6404
2020-08-07 09:54:41
热门文章
- 前端是什么
- 前端开发的工作职责
- 前端开发需要会什么?先掌握这三大核心关键技术
- 前端开发的工作方向有哪些?
- 简历加分-4步写出HR想要的简历
- 程序员如何突击面试?两大招带你拿下面试官
- 程序员面试技巧
- 架构师的厉害之处竟然是这……
- 架构师书籍推荐
- 懂了这些,才能成为架构师 查看更多
扫描二维码,了解更多信息
