什么是Python爬虫爬取资料时遇到的cookie
什么是Python爬虫爬取资料时遇到的cookie?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
成都创新互联公司坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站建设、成都网站制作、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的扎鲁特旗网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!
cookie 的由来
大家都知道HTTP协议是无状态的。
无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,
它不会受前面的请求响应情况直接影响,也不会直接影响后面的请求响应情况。
一句有意思的话来描述就是人生只如初见,对服务器来说,每次的请求都是全新的。
状态可以理解为客户端和服务器在某次会话中产生的数据,那无状态的就以为这些数据不会被保留。
会话中产生的数据又是我们需要保存的,也就是说要“保持状态”。因此Cookie就是在这样一个场景下诞生。
cookie 定义
Cookie具体指的是一段小信息,它是服务器发送出来存储在浏览器上的一组组键值对,
下次访问服务器时浏览器会自动携带这些键值对,以便服务器提取有用信息。
1. 由服务器让浏览器进行设置的
2. 浏览器保存在浏览器本地
3. 下次访问时自动携带
cookie的工作原理是:由服务器产生内容,浏览器收到请求后保存在本地;当浏览器再次访问时,
浏览器会自动带上Cookie,这样服务器就能通过Cookie的内容来判断这个是“谁”了。
简单的来说:cookie就是保存在浏览器本地上的一组组键值对。
cookie 简单应用
1. 登录(只是cookie一种应用)
2. 保存浏览习惯 如:分页浏览器,显示数据条数(只是cookie一种应用)
3. 简单的投票 计数(只是cookie一种应用)
当我们关闭cookie的时,登录博客园效果
查看cookie
cookie设置
获取Cookie
request.COOKIES['key'] request.get_signed_cookie('key', default=RAISE_ERROR, salt='', max_age=None) get_signed_cookie方法的参数: - default: 默认值 - salt: 加密盐 - max_age: 后台控制过期时间
设置Cookie
rep = HttpResponse(...) rep = render(request, ...) rep.set_cookie(key,value,...) rep.set_signed_cookie(key,value,salt='加密盐',...)
参数:
- key, 键 - value='', 值 - max_age=None, 超时时间 - expires=None, 超时时间(IE requires expires, so set it if hasn't been already.) - path='/', Cookie生效的路径,/ 表示根路径,特殊的:根路径的cookie可以被任何url的页面访问 - domain=None, Cookie生效的域名 - secure=False, https传输 - httponly=False 只能http协议传输,无法被JavaScript获取(不是绝对,底层抓包可以获取到也可以被覆盖)
删除Cookie
def logout(request): rep = redirect("/login/") rep.delete_cookie("user") # 删除用户浏览器上之前设置的user的cookie值 return rep
简单的创建一个django项目,使用cookie完成用户登录状态的效验
1.login.html
登录
2.views.py
from django.views import View #导入基于类的视图模块 from django.shortcuts import render, redirect, HttpResponse#导入响应三剑客 class Login(View): #登录逻辑视图函数 def get(self, request, *args, **kwargs): #处理get请求方法 return render(request, 'login.html') #如果是get请求(页面刷新等操作),还是登录页面 def post(self, request, *args, **kwargs): #处理post请求方法 username = request.POST.get('username') #form表单提交的账户 pwd = request.POST.get('pwd') #form表单提交的密码 if username == 'gkf' and pwd == '318': #账户密码简单校验 url = request.GET.get('return_url') #获取return_url,后面的路径信息 if url: #如果有路径信息 ret = redirect(url) #重定向要访问的路径 else: ret = redirect('/index/') #如果没有,默认重定向index页面 ret.set_cookie('is_login', '1') #利用cookie标识登录状态 return ret #响应请求 return render(request, 'login.html', {'error': '用户名或密码错误'})#密码账户错误,重定向login.html并提示 def login_required(func): #装饰器函数,用来判断,访客登录状态 def inner(request, *args, **kwargs): is_login = request.COOKIES.get('is_login') #获取is_login的状态值 url = request.path_info #访问页面的路径信息 if is_login != '1': #如果状态值不为1表示未登录 return redirect('/login/?return_url={}'.format(url))#返会login页面,并把之前访问页面信息,拼接在路径后面 ret = func(request, *args, **kwargs) #如果状态值是1,执行视图函数 return ret #响应请求 return inner @login_required #判断登录状态装饰器 def index(request): #处理index路由请求的视图函数 return HttpResponse('首页') #简单模拟首页 @login_required #判断登录状态装饰器 def home(request): #处理home路由请求的视图函数 return HttpResponse('home') # #简单模拟home页
密码账户错误登录失败
访问home也 登录成功跳转home页面
直接从login页面直接登录,默认返回index页面
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。
分享标题:什么是Python爬虫爬取资料时遇到的cookie
文章起源:http://ybzwz.com/article/pocood.html