设为首页加入收藏

编程入门

首页

C语言

C++开发

Python

Java

AI大数据: Hadoop

Hdfs

Spark

Hive

HBase

Flume

Kfaka

操作系统: Win

Linux

OS X

其它

windows编..

linux编程..

网络编程

热门语言: GO

PHP

R语言

.Net

Swift

Ruby

Scala

等级考试: C语言

C++

JAVA

面试

当前位置：

首页 -> 软件分析设计 -> 分析设计

TOP

webmagic 基本的方法(一)

2019-09-17 18:43:11 【大中小】浏览:44次

Tags：webmagic 基本方法

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能

PageProcessor 需要自己写

Scheduler 除非项目有一些特殊的分布式需求，否则无需自己定制

Pipeline 要保存到数据库需要自己定制

Selectable

方法	说明	示例
xpath(String xpath)	使用XPath选择	html.xpath("//div[@class='title']")
$(String selector)	使用Css选择器选择	html.$("div.title")
$(String selector,String attr)	使用Css选择器选择	html.$("div.title","text")
css(String selector)	功能同$()，使用Css选择器选择	html.css("div.title")
links()	选择所有链接	html.links()
regex(String regex)	使用正则表达式抽取	html.regex("\<div\>(.\*?)\")
regex(String regex,int group)	使用正则表达式抽取，并指定捕获组	html.regex("\<div\>(.\*?)\",1)
replace(String regex, String replacement)	替换内容	html.replace("\","")

返回结果

方法	说明	示例
get()	返回一条String类型的结果	String link= html.links().get()
toString()	功能同get()，返回一条String类型的结果	String link= html.links().toString()
all()	返回所有抽取结果	List links= html.links().all()
match()	是否有匹配结果	if (html.links().match()){ xxx; }

Spider

方法	说明	示例
create(PageProcessor)	创建Spider	Spider.create(new GithubRepoProcessor())
addUrl(String…)	添加初始的URL	spider .addUrl("http://webmagic.io/docs/")
addRequest(Request...)	添加初始的Request	spider .addRequest("http://webmagic.io/docs/")
thread(n)	开启n个线程	spider.thread(5)
run()	启动，会阻塞当前线程执行	spider.run()
start()/runAsync()	异步启动，当前线程继续执行	spider.start()
stop()	停止爬虫	spider.stop()
test(String)	抓取一个页面进行测试	spider .test("http://webmagic.io/docs/")
addPipeline(Pipeline)	添加一个Pipeline，一个Spider可以有多个Pipeline	spider .addPipeline(new ConsolePipeline())
setScheduler(Scheduler)	设置Scheduler，一个Spider只能有个一个Scheduler	spider.setScheduler(new RedisScheduler())
setDownloader(Downloader)	设置Downloader，一个Spider只能有个一个Downloader	spider .setDownloader(new SeleniumDownloader())
get(String)	同步调用，并直接取得结果	ResultItems result = spider .get("http://webmagic.io/docs/")
getAll(String…)	同步调用，并直接取得一堆结果	List<ResultItems> results = spider .getAll("http://webmagic.io/docs/", "http://webmagic.io/xxx")

Site

方法	说明	示例
setCharset(String)	设置编码	site.setCharset("utf-8")
setUserAgent(String)	设置UserAgent	site.setUserAgent("Spider")
setTimeOut(int)	设置超时时间，单位是毫秒	site.setTimeOut(3000)
setRetryTimes(int)	设置重试次数	site.setRetryTimes(3)
setCycleRetryTimes(int)	设置循环重试次数	site.setCycleRetryTimes(3)
addCookie(String,String)	添加一条cookie	site.addCookie("dotcomt_user","code4craft")
setDomain(String)	设置域名，需设置域名后，addCookie才可生效	site.setDomain("github.com")
addHeader(String,String)	添加一条addHeader	site.addHeader("Referer","https://github.com")
setHttpProxy(HttpHost)	设置Http代理	site.setHttpProxy(new HttpHost("127.0.0.1",8080))

Xsoup

Name	Expression	Support
nodename	nodename	yes
immediate parent	/	yes
parent	//	yes

首页上一页 1 2 下一页尾页 1/2/2
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：数据系统的未来------《Designing..	下一篇：Cas 使用maven的overlay搭建开发..

最新文章

通俗易懂设计模式解析——观察者模式

Ansible playbook

设计模式-行为型-解释器模式

Tair分布式缓存

ELK日志分析系统(1)-基本环境搭建

热门文章

java sql 编辑器数据库备份还原 qu..

设计模式-生成器（Builder）

基于容器微服务的PaaS云平台设计（..

Spring框架Controller层(表现层)针..

RabbitMQ + PHP （二）AMQP拓展安装

Hot 文章

java sql 编辑器数据库备份还原 qu..

设计模式-生成器（Builder）

基于容器微服务的PaaS云平台设计（..

Spring框架Controller层(表现层)针..

RabbitMQ + PHP （二）AMQP拓展安装

Python

827

Django框架系列目录

664

创建Anaconda虚拟Pyt

1261

Python获取主目录的

899

Python中跨越多个文

549

chatgpt使用python写

751

一条爬虫抓取一个小

623

Python教程：sys.std

681

Python教程(13)——P

866

Docker安装配置Jupyt

750

【matplotlib基础】-

C 语言

551

C语言入坑总结

637

C数据结构-线性表之顺序表

1401

Programming abstractions in..

564

C语言内存布局

847

最全的李慧芹APUE-标准IO笔记

755

alog一个日志库

614

1.1.初识STM32及新建工程

814

codeblock安装及汉化教程

629

东方博宜OJ1000 熟悉一下Onli..

1360

关于指针与引用传递的效率问题

C++基础

1229

KMP 字符串匹配学习笔记

909

2.10 PE结构：重建重定位表结..

588

【Qt6】列表模型——抽象基类

709

2.12 PE结构：实现PE字节注入

636

576

2.14 PE结构：地址之间的转换

629

4.1 应用层Hook挂钩原理分析

989

使用Vulkan-Loader将ncnn代码..

650

4.3 IAT Hook 挂钩技术

556

C++ 学习笔记、01 | 开发简单..

大数据基础

1027

多线程：线程的同步

586

vertica-->kafka-

908

665

解决android studio

601

Kafka史上最详细原理

631

Error while fetchin

768

【Kafka】安装与快速

506

667

flume读取日志数据写

668

Authentication plug

linux编程基础

729

如何在Python中过滤字符串列表

733

如何在Python中读写文件

755

初识Lambda表达式

815

深入理解Python中的列表推导..

1038

如何在Python中执行外部命令

1095

设计模式之单例模式理解

615

跟我学Python GUI编程系列 - ..

1379

21道并发编程面试题

621

深入理解 Hadoop 序列化

994

CAS无锁机制深入理解

C/C++面试题目

1229

KMP 字符串匹配学习

588

【Qt6】列表模型——

909

2.10 PE结构：重建重

636

709

2.12 PE结构：实现PE

576

2.14 PE结构：地址之

989

使用Vulkan-Loader将

629

4.1 应用层Hook挂钩

650

4.3 IAT Hook 挂钩技

556

C++ 学习笔记、01 |

Copyright@https://www.cppentry.com all rights reserved 粤ICP备13067022号-3