设为首页 加入收藏

TOP

python爬虫知识体系 python     python入门
2019-05-16 02:57:26 】 浏览:42
Tags:python 爬虫 知识 体系   入门

今天,从全局的视野剖析Python爬虫,分析爬虫可能涉及到的方方面面,了解爬虫可能涉及到的知识点!

Part1-Road Map

在这里插入图片描述

Part2-Analysis

I - Python环境:基于Python的爬虫,电脑中必须具有Python环境,否则系统无法运行。Python环境大致可分为两类,一类是Python官方软件,一类是第三方Python集成环境,例如Anaconda、Canopy、WinPython等,黄象探长仅用过Anaconda,大家选取一个适合自己的就可以。

II - 存储环境:我们抓取的数据可以到本地文件,例如txt、CSV、Excel等文件中,也可以存储到数据库中。当存储到数据库中时,需要系统中具有数据库环境,因此电脑中需要安装MySQL、Mongo等数据库,其中MySQL是存储结构化数据的,而Mongo是存储半结构化数据的。
在这里给大家分享一些python入门的学习教程和方法,以及目前python最新的学习线路,欢迎大家加入python学习交流qq群:515267276
III - 爬虫库:具体与爬虫有关的库可以分为请求库、解析库、存储库等,其中请求库是用来请求页面,获取页面源代码的Python库,有Python自带的urllib以及第三方的requests、selenium库;解析库是对获取到的源代码解析的Python库,从源代码中提取我们需要的信息,有Python自带的re库以及第三方的beautifulsoup、pyquery库;存储库是对提取的数据信息进行保存的Python库,把提取到的数据信息存储到本地文件、数据库中,方便我们随时使用,有pymysql、pymongo等库。

IV - 爬虫框架:以上内容完全可以帮助我们构建一个Python爬虫程序(通过直接编码的方式),但为了简化爬虫工作,使我们不被繁杂的代码所累,Python框架应运而生,它使我们仅关注爬虫的逻辑,简化了我们的工作,经常用到的爬虫框架有Scrapy、PySpider等。

V - 其他:同时我们爬虫过程中可能会遇到其他的问题,例如大量数据时分布式爬虫的搭建、反爬技术的破解等。

以上就是Python爬虫可能会涉及到的知识点,希望能帮助大家对爬虫有一个基本了解!


编程开发网
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇cmd中执行Python命令时>>&g.. 下一篇yum安装报错:"ImportError:..