设为首页 加入收藏

TOP

爬虫——综合案例流程版(二)
2018-10-19 15:55:20 】 浏览:48
Tags:爬虫 综合 案例 流程
待的时间(就是当前时间减去本次访问的时间)
  • 注:若delay<(这次访问时间-上次访问时间),说明已经等够了,可以直接访问
  • 得到键(域名):urlparse().netloc
    1 urlparse('http://www.baidu.com/index.html?x=123&y=789#13579')
    2 ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='', query='x=123&y=789', fragment='13579')
  • 从domains字典中get获取上次访问时间
  • 通过ifelse计算还需等待的时间并睡眠(time.sleep) -一次访问后保存本次访问到domains字典中
  • 爬虫通用类封装run方法

    执行流程

    • 判断队列中是否存在待爬取的网址
    • 判断爬取网址是否遵守robots约定,不遵守则跳出禁止下载
    • 对当前爬取网址限流
    • 获取当前的访问深度
    • 判断当前访问深度是否在规定范围内
    • 下载爬取网址得到爬取结果
    • 判断爬取结果是否为空
    • 爬取结果不为空则保存
    • 获取出爬取结果里的所有链接
    • 使用过滤器筛选出指点关键字的链接
    • for循环补全每个链接
    • 补全同时判断链接是否访问过
    • 未被访问过则深度加1
    • 并加入队列
    首页 上一页 1 2 下一页 尾页 2/2/2
    】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
    上一篇Python学习 :六个标准数据类型 下一篇基于Django 的 FreeSwitch 开源GU..

    最新文章

    热门文章

    Hot 文章

    Python

    C 语言

    C++基础

    大数据基础

    linux编程基础

    C/C++面试题目