设为首页 加入收藏

TOP

Sparkler:Spark上的爬虫
2019-01-06 01:29:24 】 浏览:68
Tags:Sparkler Spark 爬虫

本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。


10633020d5a71eb36127560b24bb0348f14e90b3

8959ecb6ad39759d17034941955e949cb66cc642

08fcf4ae43969efc75d1de164b57a955e66e808f

d50aa937835c04f1de3ad40c4acd7470eb541ac5

537d198339a070daccc2e7a061cad2da3dc4cc45

3e9b56c4827e65f30f27bff6d9c7a0e20df5089c

cf4d6d54bd18cd7146badc9c4501c7ed57ce9cdc

4cf3b480c758f57012f46161521318c0dd1a0166

7a7e4404d2714f3f16a741b4a5fbb9b2fdf27c32

006143b63581c29d1328993a1afb380011e92ffb

c6c5b34623a4258ec7e39d6cc09c1e6cc039f197

880974766e9db77a2b80d029aae2f89a3aaf1469

65edf31d9da9612291b0b544e2ecb491f7061726

da1b82d8337614e0603497b650d02aa23461e844

31e5b03840efd19370061d06c2b68d0ee924e6ff

5d3166fa8825705f96254387c013290a1d745e5d

2e29f9702bdd00aa85c5760eae768aa4353bef44

071138ccb8068a2a81af8171cecb82148bde766f

6226cdb8b7b052608525f6a46ae92c890e91f9a7

de68e5beffb6b7974afe8e8e1cb961f81a3c68dc

d57f9d44d244569acb02056d53c0b91d0c9327a7

b2fdca30592c01a2ea016de583c8f0a814701c71

d7da30b0d2bb6fb86843430edb67714c8a751114

0cee7ef8316df00715b90518d229925cebd80ea8

5e38c8e49c4e91fbb1f7e2a8d587e4720730be0b

083e032f7255bd1d815edfb2390fbe763d95a71f

19ec1ec97180b798a52774e0721c6406fc299444


】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark与深度学习框架——H2O、dee.. 下一篇如何在万亿级别规模的数据量上使..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目