Python爬虫urllib2的使用方法详解-创新互联

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。

成都创新互联服务项目包括潍坊网站建设、潍坊网站制作、潍坊网页制作以及潍坊网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,潍坊网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到潍坊省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!

urllib2是Python2.x自带的模块(不需要下载,导入即可使用)

urllib2官网文档:https://docs.python.org/2/library/urllib2.html

urllib2源码

urllib2在python3.x中被改为urllib.request

urlopen

我们先来段代码:

#-*- coding:utf-8 -*-
#01.urllib2_urlopen.py
#导入urllib2库
import urllib2
#向指定的url发送请求,并返回服务器的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
#类文件对象支持文件对象的操作方法,如read()方法读取文件
html = response.read()
#打印字符串
print(html)

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网站栏目:Python爬虫urllib2的使用方法详解-创新互联
标题网址:http://ybzwz.com/article/dcgoid.html