链家广州二手房的数据与分析——爬取数据 - R语言 - 程序员开发

设为首页加入收藏

编程入门

首页

C语言

C++开发

Python

Java

AI大数据: Hadoop

Hdfs

Spark

Hive

HBase

Flume

Kfaka

操作系统: Win

Linux

OS X

其它

windows编..

linux编程..

网络编程

热门语言: GO

PHP

R语言

.Net

Swift

Ruby

Scala

等级考试: C语言

C++

JAVA

面试

当前位置：

首页 -> 其它语言 -> R语言

TOP

链家广州二手房的数据与分析——爬取数据

2019-08-15 00:09:15 【大中小】浏览:65次

Tags：广州二手房数据分析

之前在博客分享了利用 R 和 rvest 包爬虫的基础方法。现在就来实战一下：爬取链家网广州 40,000+ 套二手房的数据。
lianjia homepage

之前在 Web Scraping with R 说过的爬虫方法在这篇中就不在赘述了。这里就分享怎么样爬取网站中翻页的数据。

>> Web Scraping across Multiple Pages

首先观察翻页页面的 url 规律，比如广州链家二手房数据：

第一页：https://gz.lianjia.com/ershoufang/

第二页：https://gz.lianjia.com/ershoufang/pg2/

第三页：https://gz.lianjia.com/ershoufang/pg3/

......

由此可推断，url 为 "https://gz.lianjia.com/ershoufang/pg" + 页码

1) 假设我们需要爬去第 1 页到第 100 页的房屋总价。那么我们可以先尝试爬取第一页的数据，并封装成一个函数.

getHouseInfo <- function(pageNum, urlWithoutPageNum) {
  url <- paste0(urlWithoutPageNum, pageNum)
  webpage <- read_html(url,encoding="UTF-8")
  total_price_data_html <- html_nodes(webpage,'.totalPrice span')
  total_price_data <- html_text(total_price_data_html)
  data.frame(totalprice = total_price_data)
}

2) 然后利用上述的函数循环爬取第 1 页到第 100 页的数据，并将多页的数据合并成一个 data frame

url <- "https://gz.lianjia.com/ershoufang/pg"
houseInfo <- data.frame()
for (ii in 1:1553){
  houseInfo <- rbind(houseInfo, getHouseInfo(ii, url))
}

>> Sample Code

知道如何爬取翻页的数据后我们就可以尝试完整的爬取广州链家网上 4w+ 套二手房的详细信息（包括区域，小区，几室几厅，有无电梯等等）了。

数据量比较大，爬取数据需要一些时间。爬取完毕如果要保存数据需要注意选择适合的编码，不然容易乱码。提供一个可在 Mac Excel 打开的 cvs 格式。

>> 后续分析

链家广州二手房的数据与分析——数据分析1
链家广州二手房的数据与分析——数据分析2


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：KEGG富集分析散点图.md	下一篇：画相关性热图

最新文章

【转载】R语言面向对象编程

再次入坑写学习笔记

性能的极致,Rust的加持,Zed-Dev编辑..

pheatmap实用参数（二）

Redis的五大数据类型及其使用场景

热门文章

R 分类进行数值处理

多准则决策模型-TOPSIS评价方法-源码

R语言-回归分析笔记

【R语言进行数据挖掘】决策树和随机..

R语言利器之ddply和aggregate

Hot 文章

R 分类进行数值处理

多准则决策模型-TOPSIS评价方法-源码

R语言-回归分析笔记

【R语言进行数据挖掘】决策树和随机..

R语言利器之ddply和aggregate

Python

819

Django框架系列目录

654

创建Anaconda虚拟Pyt

1254

Python获取主目录的

890

Python中跨越多个文

543

chatgpt使用python写

744

一条爬虫抓取一个小

614

Python教程：sys.std

673

Python教程(13)——P

860

Docker安装配置Jupyt

740

【matplotlib基础】-

C 语言

540

C语言入坑总结

631

C数据结构-线性表之顺序表

1392

Programming abstractions in..

553

C语言内存布局

841

最全的李慧芹APUE-标准IO笔记

750

alog一个日志库

606

1.1.初识STM32及新建工程

807

codeblock安装及汉化教程

623

东方博宜OJ1000 熟悉一下Onli..

1352

关于指针与引用传递的效率问题

C++基础

1223

KMP 字符串匹配学习笔记

902

2.10 PE结构：重建重定位表结..

578

【Qt6】列表模型——抽象基类

702

2.12 PE结构：实现PE字节注入

627

568

2.14 PE结构：地址之间的转换

621

4.1 应用层Hook挂钩原理分析

980

使用Vulkan-Loader将ncnn代码..

644

4.3 IAT Hook 挂钩技术

551

C++ 学习笔记、01 | 开发简单..

大数据基础

1018

多线程：线程的同步

579

vertica-->kafka-

902

657

解决android studio

594

Kafka史上最详细原理

621

Error while fetchin

759

【Kafka】安装与快速

496

658

flume读取日志数据写

649

Authentication plug

linux编程基础

719

如何在Python中过滤字符串列表

728

如何在Python中读写文件

747

初识Lambda表达式

805

深入理解Python中的列表推导..

1028

如何在Python中执行外部命令

1085

设计模式之单例模式理解

601

跟我学Python GUI编程系列 - ..

1366

21道并发编程面试题

614

深入理解 Hadoop 序列化

984

CAS无锁机制深入理解

C/C++面试题目

1223

KMP 字符串匹配学习

578

【Qt6】列表模型——

902

2.10 PE结构：重建重

627

702

2.12 PE结构：实现PE

568

2.14 PE结构：地址之

980

使用Vulkan-Loader将

621

4.1 应用层Hook挂钩

644

4.3 IAT Hook 挂钩技

551

C++ 学习笔记、01 |

Copyright@https://www.cppentry.com all rights reserved 粤ICP备13067022号-3