Python爬虫教程:利用Python爬虫实现CSDN模拟登录

python

大纲

  • 前言
  • 分析加密参数
  • uaTokenwebUmidToken
  • 发送模拟请求
  • 对比解决障碍
  • 浏览器发送postman模仿
  • 小结
  • 编写代码
  • pythonjava

 

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465

前言

  • 很久以前研究过csdn的模拟登录,记得那个时候的csdn登录还是一个`form``表单,然后参杂着一些参数。使用遍历input元素把表单各个参数拿下来。存下直接post即可登陆成功。
  • 前几天再次看了下亲爱的csdn。突然发现多了这连个参数。这就勾起了我的性趣和好奇心:我靠,就一年没见,csdn也搞这么一大串加密?并且以看两种加密方式还不一样哇?有点东西!
  • 下面就分享一下分析的过程!由于时间有限,只能每晚抽点时间研究,如果大家感觉不够深入或者讲的不好请谅解!大家也可以看另一篇破解的文章
    爬虫之网易云js解密剖析

使用工具:

  • 谷歌浏览器
  • postman发送请求调试
  • fidder抓包

分析加密参数

可以根据上图分析得知:有uaToken 和webUmidToken两个token。
分析参数肯定是要打断点的,一般有直接搜索,查看js调用堆栈,和hook查找找到参数位置。我是利用搜索找参数。
分析前先做好一些预备工作,多发几个请求,刷新页面。你会发现:

  1. 不刷新页面的话uaToken不会变化。
  2. webUmidToken每次都不一样。
  3. 每次cookie不变。

uaToken

  • 查找uaToken发现这段代码比较诡异。打断点debug。发现没错,这就是我们要找的!点击F11,进入子函数查看发生了什么。
  • 进去发现它执行e()函数。再次F11查看。

  • 通过校验发现e函数其实就是一个加密函数,关键是它跟我们的核心数据(账号、cookie、密码等)无关,所以这个加密数据空有其架势无作用。你可以保存一个直接一直使用一个(如果可逆后台可能会根据字符串进行校验是否符合规则)。

webUmidToken

每次刷新都会发现他在变化,鉴于前面的token都没啥作用,我大胆猜测,他也不影响登录!就先不debug分析了。


发送模拟请求

  • 通过浏览器的头发送请求信息。你会发现:不管你怎么模拟都是各种错误,要么类型错误,要么繁忙,要么类型错误。(可以看得出csdn是java后台,个人感觉接口异常处理的还有问题。暴露方法了)

对比解决障碍

有时候浏览器太过于局限。用fidder找到其中不同之处。用浏览器和postman发送请求找到其中参数的不同之处。

浏览器发送

postman模仿

  • 你可以发现其中主要是格式区别,和部分头信息浏览器不显示需要加上。然后发送请求检验!

小结

  1. 后来发现其实那两个token,和cookie为空都没有关系!(可能扫码登录验证的token,有兴趣可以自行分析)
  2. cookie也没有限制,在登录时候根本不要cookie都可以。按理论来说应该进入页面返回一组cookie,用这个cookie访问登录接口有效才行,显然csdn没有。
  3. 分析一波约等于白分析,登录机制太简单了。
  4. content-length别乱加,加错了它后台校验或出错
  5. 也就是登录著需要type,账号密码即可,其他设为空都行。要注意的就是参数发送的格式!raw文本。
  6. 以后见到类似先测试登录,不能盲目分析。虽然能够增加经验,但是有点浪费时间。。像csdn这次就是。。啥都没用。

编写代码

思路:访问登录接口,用返回的cookie访问我关注的人的文章!

python

import requests

from bs4 import BeautifulSoup

url="https://passport.csdn.net/v1/register/pc/login/doLogin"

header={"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",

"referer":"https://passport.csdn.net/login",

"origin":"https://passport.csdn.net",

"content-Type":"application/json;charset=UTF-8",

"x-requested-with":"XMLHttpRequest",

"accept":"application/json, text/plain, */*",

"accept-encoding":"gzip, deflate, br",

"accept-language":"zh-CN,zh;q=0.9",

"connection": "keep-alive"

,"Host": "passport.csdn.net"

}

data="{"loginType":"1","pwdOrVerifyCode":"你的密码","

""userIdentification":"你的账号","uaToken":"","

""webUmidToken":""}"

req=requests.post(url,data=data,headers=header)

cookies = requests.utils.dict_from_cookiejar(req.cookies)

res=req.text

print(res)

print(req.status_code)

print(cookies)

url2="https://blog.csdn.net/nav/watchers"

req2=requests.get(url2,cookies=cookies)

soup=BeautifulSoup(req2.text,"lxml")

print(soup.text)

java

依赖jsoup、fastjson

package csdn;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import java.util.Scanner;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.alibaba.fastjson.JSONObject;

import org.jsoup.Connection.Response;

publicclass csdn {

static Map<String, String> cookies;

privatestaticvoid dologin(String username, String password) throws IOException {

String url = "https://passport.csdn.net/v1/register/pc/login/doLogin";

Map<String, String> data = new HashMap<String, String>();

data.put("loginType", "1");

data.put("pwdOrVerifyCode", password);

data.put("userIdentification", username);

data.put("loginType", "1");

data.put("uaToken", "");

data.put("webUmidToken", "");

String dataString = JSONObject.toJSONString(data);

JSONObject JSON = JSONObject.parseObject(dataString);

Connection con = Jsoup.connect(url).header("user-agent",

"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36")

.header("referer", "https://passport.csdn.net/login").header("origin", "https://passport.csdn.net")

.header("content-Type", "application/json;charset=UTF-8").header("x-requested-with", "XMLHttpRequest")

.header("accept", "application/json, text/plain, */*").header("accept-encoding", "gzip, deflate, br")

.header("accept-language", "zh-CN,zh;q=0.9").header("connection", "keep-alive")

.header("Host", "passport.csdn.net").header("Cookie", "").requestBody(JSON.toJSONString())

.ignoreContentType(true)// 非常重要

.maxBodySize(1000).method(Connection.Method.POST);

System.out.println(JSON.toJSONString());

Response response = con.execute();

cookies = response.cookies();

System.out.println(response.body());

}

publicstaticvoid main(String[] args) throws IOException {

// TODO Auto-generated method stub

Scanner sc = new Scanner(System.in);

System.out.println("输入账号:");

String username = sc.next();

System.out.println("输入密码:");

String password = sc.next();

dologin(username, password);

}

}


如有错误请指教!

以上是 Python爬虫教程:利用Python爬虫实现CSDN模拟登录 的全部内容, 来源链接: utcz.com/z/531187.html

回到顶部