设为首页 加入收藏

TOP

Python爬虫多线程抓取代理服务器(二)
2014-11-24 03:11:45 来源: 作者: 【 】 浏览:6
Tags:Python 爬虫 线程 代理 服务器
t '.'*10+"总共有%s个代理通过校验" %len(checkedProxyList) +'.'*10


#持久化
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()部分log: 目标网站: http://www.88181.com/proxy1.html
目标网站: http://www.88181.com/proxy2.html
目标网站: http://www.88181.com/proxy3.html
目标网站: http://www.88181.com/proxy4.html
目标网站: http://www.88181.com/proxy5.html
目标网站: http://www.88181.com/proxy6.html
目标网站: http://www.88181.com/proxy7.html
目标网站: http://www.88181.com/proxy8.html
..........总共抓取了800个代理..........
..........总共有478个代理通过校验.........
173.213.113.111:8089 United States 0.341555833817
173.213.113.111:3128 United States 0.347477912903
210.101.131.232:8080 韩国 首尔 0.418715000153
.....


首页 上一页 1 2 下一页 尾页 2/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇C++模板函数声明定义分离编译错误.. 下一篇Python通过代理多线程抓取图片

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

·请问微信4.0版本xwec (2025-12-24 22:48:42)
·电脑NVIDIA的文件夹 (2025-12-24 22:48:40)
·如何看待微信新版本 (2025-12-24 22:48:37)
·C语言中如何将结构体 (2025-12-24 22:20:09)
·纯C语言结构体成员变 (2025-12-24 22:20:06)