当前位置:首页 > 嵌入式培训 > 嵌入式学习 > 讲师博文 > Python 网络爬虫

Python 网络爬虫 时间:2017-11-03      来源:未知

当我们想买一款手机,当我们想知道其他人对一款产品的评价,当我们有各种各样疑问的时候,我们总是要打开百度,Google等搜索引擎,搜索相关问题。而不是在自己电脑里,或者到书架上翻书查找。这是因为大量的数据来源于互联网,而百度和Google就是一个从互联网上抓取数据的大爬虫。

 

当我们在浏览器里输入网址发出请求后,浏览器会向web服务器发出http请求,而web服务器回应的就是我们请求的html网页,浏览器再解析html网页,显示其中的文本和图片等信息。

所谓的网络爬虫就类似于这个过程,它模拟的就是浏览器请求网页的过程。这里我们使用urllib可以实现该功能。要注意urllib在python2中有两个版本,urllib和urllib2,在python3中它们已经被整合到一起,叫urllib。

 

以下代码获取糗事百科的网页:

此代码获取的是全部html网页,浏览器可以解析显示有意义的信息。我们就需要进步处理,提取信息。

我们发现html网页中的段子总是包含在这样的html代码中:

我们可以使用正则表达式获取其中的数据,添加代码如下:

再一次输出已经是我们想要获取的部分:

上一篇:Qt打包文档(window平台)

下一篇:Linux字符设备驱动模型之Linux内核模块参数

热点文章推荐
华清学员就业榜单
高薪学员经验分享
热点新闻推荐
前台专线:010-82525158 企业培训洽谈专线:010-82525379 院校合作洽谈专线:010-82525379 Copyright © 2004-2018 北京华清远见科技发展有限公司 版权所有 ,京ICP备16055225号,京公海网安备11010802025203号

回到顶部