TOP
|
Python爬虫(学习笔记)(四)
|
Direction of Text Display |
文本显示方向 |
br |
Break |
换行 |
center |
Centered |
居中(文本) |
font |
Font |
字体 |
u |
Underlined |
下划线(文本) |
s/ strike |
Strikethrough |
删除线 |
div |
Division |
分隔 |
span |
Span |
范围 |
ol |
Ordered List |
排序列表 |
ul |
Unordered List |
不排序列表 |
li |
List Item |
列表项目 |
dl |
Definition List |
定义列表 |
dt |
Definition Term |
定义术语 |
dd |
Definition Description |
定义描述 |
del |
Deleted |
删除(的文本) |
ins |
Inserted |
插入(的文本) |
h1~h6 |
Header 1 to Header 6 |
标题1到标题6 |
p |
Paragraph |
段落 |
hr |
Horizontal Rule |
水平尺 |
href |
hypertext reference |
超文本引用 |
alt |
alter |
替用(一般是图片显示不出的提示) |
src |
Source |
源文件链接 |
cell |
cell |
巢 |
cellpadding |
cellpadding |
巢补白 |
cellspacing |
cellspacing |
巢空间 |
nl |
navigation lists |
导航列表 |
tr |
table row |
表格中的一行 |
th |
table header cell |
表格中的表头 |
td |
table data cell |
表格中的一个单元格 |
iframe |
Inline frame |
定义内联框架 |
optgroup |
Option group |
定义选项组 |
通过etree-xpath获取二手房源标题
from lxml import etree import requests #指定URL url='https://nc.58.com/ershoufang/' #UA伪装 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'} #获取整页文本 page_text=requests.get(url=url,headers=headers).text #初始化etree对象 tree=etree.HTML(page_text) #第一次解析,获取对象列表 div_list=tree.xpath('//section[@class="list"]/div') #打开文件 fp=open('./58.txt','w',encoding='utf-8') #遍历对象列表 for div in div_list: #第二次解析,获取二手房源标题 title=div.xpath('./a/div/div/div/h3/text()')[0] #数据持久化,写入本地文件 fp.write(title+'\n') #print(title) |
导入包 指定URL ua伪装 获取页面文本 初始化etree对象 通过xpath表达式 解析获取指定内容 数据持久化存储 |
解析方式总结
名称 |
正则表达式 |
BeautifulSoup |
xpath |
安装 |
-- |
pip install bs4 pip install lxml |
pip install xpath pip install lxml |
导入包 |
import re import requests |
from bs4 import BeautifulSoup import requests |
from lxml import etree import requests |
原理 |
获取整页文本 指定re表达式 通过re方法 |
|