基于HDFS的云盘存储系统( 百度网盘底层就是HDFS)
普通的商用机器
内存 磁盘
数据的安全性
HDFS设计目标
哪些操作:
put get
rm -R
mv
JAVA API
核心
HDFS 集群
极速秒传:
本身并没有上传数据,对每一个上传的文件生成一个码,如hashcode,显示的图标指向的是一个地址。
Hadoop三大发行版本比较
apache
在企业实际使用当中,并不多
最原始(最基础)版本
cloundera(官网查看)
flume,hue,impala
Hortonworks Hadoop(官网查看)
HDP Hortonworks Data Platform
分析待分析的数据集,各字段的关系
开始分析前,“数据质量”=》原始数据清洗 -MapReduce
往往数据不合格,导致应用程序出问题(考虑不全),空指针异常
数据分析
获取访问日志中的IP(如果中间经过代理,name访问地址是代理地址的IP)
依据IP地址确定区域,定向营销【IP地址-》地域】
用户统计,访问某一网站数
准确性(同一外网,不同内网)
用于记录访问时间和时区
分析用户访问网站的时间段
针对销售来说,合理安排值班销售课程
业务需求之请求地址(截取请求地址的后面资源定位部分)
用户最关注的网站-》课程
定向投放此套课程,做好相关课程
转入连接
可用于结算
收集数据
程序
put hdfs
flume
shell 脚本
处理数据
预处理
MapReduce
Hive
处理
MapReduce
Hive
----需要对结果集进行处理,数据格式(json或导入到RDBMS)
展示数据
报表工具展示