设为首页 加入收藏

TOP

Python爬虫(学习笔记)(四)
2023-07-23 13:45:23 】 浏览:97
Tags:Python 爬虫 习笔记
          

Direction of Text Display

文本显示方向

br            

Break

换行

center    

Centered

居中(文本)

font          

Font

字体

u              

Underlined

下划线(文本)

s/ strike      

Strikethrough

删除线

div              

Division

分隔

span          

Span

范围

ol                

Ordered List

排序列表

ul               

Unordered List

不排序列表

li

List Item

列表项目

dl                

Definition List

定义列表

dt                 

Definition Term

定义术语

dd             

Definition Description

定义描述

del               

Deleted

删除(的文本)

ins               

Inserted

插入(的文本)

h1~h6

Header 1 to Header 6

标题1到标题6

p

Paragraph

段落

hr                

Horizontal Rule

水平尺

href

hypertext reference

超文本引用

alt

alter

替用(一般是图片显示不出的提示)

src

Source

源文件链接

cell

cell

cellpadding

cellpadding

巢补白

cellspacing

cellspacing

巢空间

nl

navigation lists

导航列表

tr

table row

表格中的一行

th

table header cell

表格中的表头

td

table data cell

表格中的一个单元格

iframe

Inline frame

定义内联框架

optgroup

Option group

定义选项组

通过etree-xpath获取二手房源标题

from lxml import etree

import requests

#指定URL

url='https://nc.58.com/ershoufang/'

#UA伪装

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}

#获取整页文本

page_text=requests.get(url=url,headers=headers).text

#初始化etree对象

tree=etree.HTML(page_text)

#第一次解析,获取对象列表

div_list=tree.xpath('//section[@class="list"]/div')

#打开文件

fp=open('./58.txt','w',encoding='utf-8')

#遍历对象列表

for div in div_list:

    #第二次解析,获取二手房源标题

    title=div.xpath('./a/div/div/div/h3/text()')[0]

    #数据持久化,写入本地文件

    fp.write(title+'\n')

    #print(title)

 

 

 

导入包

指定URL

ua伪装

获取页面文本

初始化etree对象

通过xpath表达式

解析获取指定内容

数据持久化存储

 

解析方式总结

名称

正则表达式

BeautifulSoup

xpath

安装

--

pip install bs4

pip install lxml

pip install xpath

pip install lxml

导入包

import re

import requests

from bs4 import BeautifulSoup

import requests

from lxml import etree

import requests

原理

获取整页文本

指定re表达式

通过re方法

首页 上一页 1 2 3 4 5 6 下一页 尾页 4/6/6
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇科技报告数据语料处理(关键词、.. 下一篇Python绘制饼状图对商品库存进行..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目