Python爬虫（学习笔记） - Python

TOP

Python爬虫（学习笔记）(四)

2023-07-23 13:45:23 【大中小】浏览:97次

	Direction of Text Display	文本显示方向
br	Break	换行
center	Centered	居中（文本）
font	Font	字体
u	Underlined	下划线（文本）
s/ strike	Strikethrough	删除线
div	Division	分隔
span	Span	范围
ol	Ordered List	排序列表
ul	Unordered List	不排序列表
li	List Item	列表项目
dl	Definition List	定义列表
dt	Definition Term	定义术语
dd	Definition Description	定义描述
del	Deleted	删除（的文本）
ins	Inserted	插入（的文本）
h1~h6	Header 1 to Header 6	标题1到标题6
p	Paragraph	段落
hr	Horizontal Rule	水平尺
href	hypertext reference	超文本引用
alt	alter	替用(一般是图片显示不出的提示)
src	Source	源文件链接
cell	cell	巢
cellpadding	cellpadding	巢补白
cellspacing	cellspacing	巢空间
nl	navigation lists	导航列表
tr	table row	表格中的一行
th	table header cell	表格中的表头
td	table data cell	表格中的一个单元格
iframe	Inline frame	定义内联框架
optgroup	Option group	定义选项组

通过etree-xpath获取二手房源标题

from lxml import etree

import requests

#指定URL

url='https://nc.58.com/ershoufang/'

#UA伪装

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}

#获取整页文本

page_text=requests.get(url=url,headers=headers).text

#初始化etree对象

tree=etree.HTML(page_text)

#第一次解析，获取对象列表

div_list=tree.xpath('//section[@class="list"]/div')

#打开文件

fp=open('./58.txt','w',encoding='utf-8')

#遍历对象列表

for div in div_list:

#第二次解析，获取二手房源标题

title=div.xpath('./a/div/div/div/h3/text()')[0]

#数据持久化，写入本地文件

fp.write(title+'\n')

#print(title)

导入包

指定URL

ua伪装

获取页面文本

初始化etree对象

通过xpath表达式

解析获取指定内容

数据持久化存储

解析方式总结

名称	正则表达式	BeautifulSoup	xpath
安装	--	pip install bs4 pip install lxml	pip install xpath pip install lxml
导入包	import re import requests	from bs4 import BeautifulSoup import requests	from lxml import etree import requests
原理	获取整页文本指定re表达式通过re方法

首页上一页 1 2 3 4 5 6 下一页尾页 4/6/6
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：科技报告数据语料处理（关键词、..	下一篇：Python绘制饼状图对商品库存进行..