设为首页 加入收藏

TOP

C++ 实现网络爬虫(二)
2015-07-20 17:50:07 来源: 作者: 【 】 浏览:9
Tags:实现 网络 爬虫
? ? startupWSA();
? ? Go("www.hao123.com", 200);
? ? cleanupWSA();
? ? return 0;
}
复制代码
该爬虫只花了1个小时左右.
?
其实我想说, 写的很烂, 大伙不要喷.
?
?
?
http协议, socket, 正则表达式咱们就不说了..
?
说说这个原理,?
?
所有的 URL 全都放在 urls 这个队列中.
?
首先要 push 一个根 URL.
?
之后爬虫就行动了.
?
过程大概是这样:
?
从urls取出一个URL => 读出URL网页全部内容 => 分析所有URL => 把URL放进 urls => 从 urls 弹出一个 URL.
?
?
?
URL 是 host + get.
?
因此需要一个 binaryString 把它切开.
?
效率也不是很快, 1分钟大概4W条URL, 去掉重复至少也有好几千吧.
?
?
首页 上一页 1 2 下一页 尾页 2/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇hdu 4971 多校10最大权闭合图 下一篇HDU-4973-A simple simulation pr..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

·C语言中如何将结构体 (2025-12-24 22:20:09)
·纯C语言结构体成员变 (2025-12-24 22:20:06)
·C语言中,指针函数和 (2025-12-24 22:20:03)
·哈希表 - 菜鸟教程 (2025-12-24 20:18:55)
·MySQL存储引擎InnoDB (2025-12-24 20:18:53)