python爬取学信网登录页面的例子-创新互联
我们以学信网为例爬取个人信息
创新互联是一家专业提供七星关区企业网站建设,专注与成都做网站、网站制作、H5技术、小程序制作等业务。10年已为七星关区众多企业、政府机构等服务。创新互联专业网站建设公司优惠进行中。**如果看不清楚
按照以下步骤:**
1.火狐为例 打开需要登录的网页–> F12 开发者模式 (鼠标右击,点击检查元素)–点击网络 –>需要登录的页面登录下–> 点击网络找到 一个POST提交的链接点击–>找到post(注意该post中信息就是我们提交时需要构造的表单信息)
import requests from bs4 import BeautifulSoup from http import cookies import urllib import http.cookiejar headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0', 'Referer':'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check', } session = requests.Session() session.headers.update(headers) username = 'xxx' password = 'xxx' url = 'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check' def login(username,password,lt,_eventId='submit'): #模拟登入函数 #构造表单数据 data = { #需要传去的数据 '_eventId':_eventId, 'lt':lt, 'password':password, 'submit':u'登录', 'username':username, } html = session.post(url,data=data,headers=headers) def get_lt(url): #解析登入界面_eventId html = session.get(url) #获取 lt soup = BeautifulSoup(html.text,'lxml',from_encoding="utf-8") lt=soup.find('input',type="hidden")['value'] return lt lt = get_lt(url)#获取登录form表单信息 以学信网为例 login(username,password,lt) login_url = 'https://my.chsi.com.cn/archive/gdjy/xj/show.action' per_html = session.get(login_url) soup = BeautifulSoup(per_html.text,'lxml',from_encoding="utf-8") print(soup) for tag in soup.find_all('table',class_='mb-table'): print(tag) for tag1 in tag.find_all('td'): title= tag1.get_text(); print(title)
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
文章名称:python爬取学信网登录页面的例子-创新互联
标题路径:http://ybzwz.com/article/doejdi.html