python利用requests库模拟post请求时json的使用 - Python

TOP

python利用requests库模拟post请求时json的使用(一)

2018-12-06 22:08:52 【大中小】浏览:217次

Tags：python 利用 requests 模拟 post 请求 json 使用

　　我们都见识过requests库在静态网页的爬取上展现的威力，我们日常见得最多的为get和post请求，他们最大的区别在于安全性上：

1、GET是通过URL方式请求，可以直接看到，明文传输。

2、POST是通过请求header请求，可以开发者工具或者抓包可以看到，同样也是明文的。 3.GET请求会保存在浏览器历史纪录中，还可能会保存在Web的日志中。

　　两者用法上也有显著差异（援引自知乎）：

1、GET用于从服务器端获取数据，包括静态资源(HTML|JS|CSS|Image等等)、动态数据展示(列表数据、详情数据等等)。

2、POST用于向服务器提交数据，比如增删改数据，提交一个表单新建一个用户、或修改一个用户等。

对于Post请求，我们可以通过浏览器开发者工具或者其他外部工具来进行抓包，得到请求的URL、请求头（request headers）以及请求的表单data信息，这三样恰恰是我们用requests模拟post请求时需要的，典型的写法如下：

　　 response=requests.post(url=url,headers=headers,data=data_search)

　　由于post请求很多时候是配合Ajax（异步加载）技术一起使用的，我们抓包时，可以直接选择XHR（XmlHttpRequest）-ajax的一种对象，帮助我们滤掉其他的一些html、css、js类文件，如下图所示（截取自Chrome）：

双击点开，就可以在页面右边的Headers页下看到General、Response Headers、Request Headers、Form Data几个模块，

其中General模块能看到请求的方法和请求的URL以及服务器返回的状态码（200（成功）服务器已成功处理了请求。通常，这表示服务器提供了请求的网页。）

而Response Headers部分，可以看到缓存控制、服务器类型、返回内容格式、有效期等参数（笔者截图所示，返回的为json文件）：

Request Header模块是非常重要的，可以有效地将我们的爬取行为模拟成浏览器行为，应对常规的服务器反爬机制：

其中Content-Type、Cookie以及User-Agent字段较为重要，需要我们构造出来（其他字段大多数时候，不是必须）

由于Cookie字段记录了用户的登陆信息，每次都不同，且同一个cookie存在一定有效期，当我们结合Selenium来组合爬取页面信息时，可以通过selenium完成网页的登陆校验，然后利用selenium提取出cookie，再转换为浏览器能识别的cookie格式，通常代码如下所示：

cookies = driver.get_cookies() #利用selenium原生方法得到cookies ret='' for cookie in cookies: cookie_name=cookie['name'] cookie_value=cookie['value'] ret=ret+cookie_name+'='+cookie_value+';' #ret即为最终的cookie，各cookie以“;”相隔开

紧接着，我们需要构造headers部分（即请求头），我们挑重点的几个字段进行构造：

headers={ 'Host':'**********.com', 'Referer':'http://****************/check/index.do', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36', 'X-Requested-With':'XMLHttpRequest', 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'Cookie':ret #需要登陆后捕获cookie并调用 }

我们在网页中点击“确定”按钮，网页则会异步加载，后台发出post请求，取到json文件并渲染到网页表单中，比如我们根据需求填写了部分字段（这些就是我们post请求的data信息），然后观察后台的form data信息：

后台Form data 捕获到的data参数如图：

类似于字典格式，其中condition键对应的value较为复杂——列表中包含字典，字典中还有部分函数，其中字符串中既有单引号又有双引号交错。属于关键信息，page决定了网页的翻页在第几页，而rows则表示每次请求的数据限定的最大行数。

本例中问题的关键是，如何把想要的信息（譬如来源于excel配置文件）传递到condition字段对应的值内，确保Form data信息灵活可配置，大抵用法如下：

data_search={ 'page':1, 'rows':15, 'condition': """[\ {"column":"BPM_DEF_NAME","exp":"like","value":""},\ {"column":"DELETE_STATUS","exp":"=","value":0},\ {"column":"TO_CHAR(TO_DATE(CREATE_DATE,'YYYY-MM-DD HH24:MI:SS'),'YYYY-MM-DD')","exp":">=","value":"YYYY-MM-DD"},\ {"column":"TO_CHAR(TO_DATE(CREATE_DATE,'YYYY-MM-DD HH24:MI:SS'),'YYYY-MM-DD')","exp":"<=","value":"YYYY-MM-DD"},\ {"column":"CHECK_TYPE","exp":"like","value":"2"},\ {"column":"LOCKED_STATUS","exp":"=","value":0},\ {"column":"DELETE_STATUS","orderType":"default","orderKey":

首页上一页 1 2 下一页尾页 1/2/2
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：python爬虫beautifulsoup4系列1	下一篇：09 初识函数