设为首页 加入收藏

TOP

Python爬虫10-页面解析数据提取思路方法与简单正则应用
2019-03-19 06:07:56 】 浏览:68
Tags:Python 爬虫 10- 页面 解析 数据 提取 思路 方法 简单 正则 应用
GitHub代码练习地址:正则1:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py

一、页面解析和数据提取

  ①结构化数据: 先有的结构,在谈数据
  JSON文件
JSON Path
转换成Python类型进行操作(json类)
  XML文件
转换成python类型(xmltodict)
XPath
CSS选择器
正则
   ②非结构化数据:先有数据,再谈结构
    文本
   电话号码
    邮箱地址
通常处理此类数据,使用正则表达式
   Html文件
  正则
  XPath
  CSS选择器

二、正则简单应用
python中正则模块是re
使用大致步骤:
  1. compile函数将正则表达式的字符串编译为一个Pattern对象
  2. 通过Pattern对象的一些列方法对文本进行匹配,匹配结果是一个Match对象
  3. 用Match对象的方法,对结果进行操纵
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇万能的Python,还能用来制作高大.. 下一篇python原创第八篇~python世界里的..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目