TOP

01_爬虫的基本概念和流程
2019-06-11 22:06:13 】 浏览:48次 本网站的内容取自网络,仅供学习参考之用,绝无侵犯任何人知识产权之意。如有侵犯请您及时与本人取得联系,万分感谢。
Tags:01_ 爬虫 基本 概念 流程

为什么我们要学习爬虫?学习爬虫有什么意义?

 • 进行数据分析,可以爬取网站上面的数据,来进行数据分析
 • 我们现在身处大数据时代,大数据的数据是怎么来的?
  • 爬虫来获取(方法之一)
   • 比如微博的微指数可以看热词的趋势
  • 从官方下载
   • 利用爬虫下载
  • 买数据
  • 很多网页会通过cookie来获取用户的浏览信息,然后保存到后台形成大数据
 • 学完爬虫把爬取到的内容直接呈现出来
  • 做成新闻网页等等
  • 视频网页等等
  • 音乐app网页等
 • 其他用途
  • 12306抢票
  • 微信公众号的爬取
  • 短信轰炸
  • 网络上的投票

爬虫的定义是什么呢?

 • 网络爬虫又叫网页蜘蛛,网络机器人
  • 模仿客户端发送网络请求,接受请求响应
  • 按照一定的规则,自动地抓取互联网信息的程序
  • 原则上,只要是浏览器能做的事,爬虫都能做
 • 爬虫一般分为哪几类?
  • 通用爬虫
   • 搜素引擎的爬虫
  • 聚焦爬虫
   • 针对特定引擎特定网站的爬虫
   • 我们重点写的是聚焦爬虫

爬虫的合法性

 • 什么是robots协议?
  • 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
  • 一般在当前网站的根目录里的/robots.txt
  • 是道德层面上的,如果爬取的数据只是个人使用,那还好
   • 不过最好还是遵守
 • 如果是个人分析所用,不泄漏转载 合法
 • 如果是真实数据,比如营业地址,电话清单等, 合法
  • 但如果是黑客手段获取的某公司人员的个人信息,这个不好了
 • 如果是原创作品,最好不要转载

聚焦爬虫的基本流程是什么?

 • 首先准备我们要提取的url_list
  • 然后我们发送请求获取响应
  • 从响应里面提取我们要的数据
   • 把数据提取出来
   • 把下一步要进行发送请求的url提取出来
    • 重复1-3
  • 把数据保存到数据库,或者导出为csv等格式的文件

请关注公众号获取更多资料


01_爬虫的基本概念和流程 https://www.cppentry.com/bencandy.php?fid=77&id=226560

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Web框架之Django_04 模板层了解(.. 下一篇自定义socket 模拟B/S服务端

评论

验 证 码:
表 情:
内 容: