设为首页 加入收藏

TOP

python爬虫beautifulsoup4系列1
2018-12-06 22:08:53 】 浏览:8
Tags:python 爬虫 beautifulsoup4 系列

前言

以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。

 

一、安装

1.打开cmd用pip在线安装beautifulsoup4

>pip install beautifulsoup4

 

二、解析器

1.我们主要用第一个html.parser,这个是python的标准库,可以直接用。其它几个需要安装对应解析器,

下表列出了主要的解析器,以及它们的优缺点:

 

三、打印首页博客的时间

1.这里直接定位不好定位到,可以先定位它的父元素:class="dayTitle"


编程开发网
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇python flask豆瓣微信小程序案例 下一篇python利用requests库模拟post请..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

array(4) { ["type"]=> int(8) ["message"]=> string(24) "Undefined variable: jobs" ["file"]=> string(32) "/mnt/wp/cppentry/do/bencandy.php" ["line"]=> int(214) }