由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑。
一. 相关软件的安装:
1. homebrew:
homebrew 是mac os系统下的包管理器由于功能齐全所以在这里比较推荐大家安装,安装及使用教程在我的另一篇博客中,在此附上链接 homebrew的安装。
2. anaconda:anaconda是python下的包管理器,支持创建虚拟环境等功能,个人认为比自带的pip好用,安装anaconda可以前往其官网,链接如下:
https://www.continuum.io/downloads,选择python3版本的安装包下载即可。
二. 请求库的安装
requests:由于requests是第三方库,所以需要手动安装,安装过程如下。
1 .相关链接
Github:https://github.com/requests/requests
PyPi:https://pypi.python.org/pypi/requests
官方文档:http://www.python-requests.org
中文文档:http://docs.python-requests.org/zh_CN/latest
2. 安装库,我们使用conda指令进行安装,在终端中输入如下指令即可成功安装requests库
conda install requests
Selenium:是一个自动化的测试工具,利用它可以驱动浏览器执行特定的动作,如过页面的数据通过java script动态加载则需要使用到它,其安装过程如下。
1. 相关链接
官方网站:http://www.selenium.org
Github:https://github.com/seleniumHQ/selenium/tree/master/py
PyPi:https://pypi.python.org/pypi/selenium
官方文档:http://selenium-python.readthdocs.io
中文文档:http://selenium-python-zh.readthedocs.io
2. 安装库,我们同样使用 conda指令进行安装,在终端中输入如下指令即可安装selenium库
conda install selenium
ChromeDriver:应为selenium需要浏览器配合使用,那么如果默认使用的是chrome浏览器,则需要安装chromeDrvier驱动(版本需要与你使用的chrome的版本兼容),其安装过程如下。
1. 相关链接
官方网站:http://sites.google.com/a/chromium.org/chromedriver
下载地址: http://chromedriver.storage.googleapis.com/index.html
2. 安装chromedriver,由于我们安装了homebrew包管理器,我们就可以直接使用brew指令进行安装,在终端中输入下列代码即可进行安装chromedriver了
brew cask install chromedriver
3. 安装好后,我们可以在程序中进行测试,代码如下
from selenium import webdriver browser = webdriver.Chrome()
若能正确弹出空白的chrome浏览器,则证明配置没有问题啦!
三. 解析库安装
lxml:是python的一个解析库,用于解析html和xml并且对xpath表达式提供了支持,是一个很基础的解析库,安装方式如下。
1. 相关链接
官方网站:http://lxml.de
Github:https://github.com/lxml/lxml
PyPI:https://pypi.python.org/pypi/lxml
2.我们使用conda指令进行安装,只需在终端中输入以下代码安装即可
conda install lxml
BeautifulSoup:你没看错,它叫美丽汤,它可以解析html和xml并支持多种方式操作网页中的标签和属性,非常强大的解析库并且官方文档也很友好,安装方式如下。
1. 相关链接
官方文档:https://www.cremmy.com/software/BeautifulSoup/bs4/doc
中文文档:https://www.cremmy.com/software/BeautifulSoup/bs4/doc.zh
2. 我们依旧使用conda指令进行安装,在终端中输入如下代码安装即可
conda install beautifulsoup4
3. 安装好后,我们可以在程序中测试它的解析功能,代码如下
from urllib.request import urlopen from bs4 import BeautifulSoup if __name__ == "__main__": html = urlopen("http://www.cnblogs.com") #urlopen 获取html页面 bs_obj = BeautifulSoup(html) #BeauitfulSoup解析后返回 print(bs_obj.