设为首页 加入收藏

TOP

Hadoop笔记 实战
2018-11-13 13:58:01 】 浏览:29
Tags:Hadoop 笔记 实战

基于HDFS的云盘存储系统( 百度网盘底层就是HDFS)

普通的商用机器

内存 磁盘

数据的安全性

HDFS设计目标

哪些操作:

put get

rm -R

mv

JAVA API

核心

HDFS 集群

极速秒传:

本身并没有上传数据,对每一个上传的文件生成一个码,如hashcode,显示的图标指向的是一个地址。



Hadoop三大发行版本比较

apache

在企业实际使用当中,并不多

最原始(最基础)版本

cloundera(官网查看)

flume,hue,impala

Hortonworks Hadoop(官网查看)

HDP Hortonworks Data Platform


分析待分析的数据集,各字段的关系

开始分析前,“数据质量”=》原始数据清洗 -MapReduce

往往数据不合格,导致应用程序出问题(考虑不全),空指针异常


数据分析

获取访问日志中的IP(如果中间经过代理,name访问地址是代理地址的IP)

依据IP地址确定区域,定向营销【IP地址-》地域】

用户统计,访问某一网站数

准确性(同一外网,不同内网)



用于记录访问时间和时区

分析用户访问网站的时间段

针对销售来说,合理安排值班销售课程


业务需求之请求地址(截取请求地址的后面资源定位部分)

用户最关注的网站-》课程

定向投放此套课程,做好相关课程


转入连接

可用于结算



收集数据

程序

put hdfs

flume

shell 脚本

处理数据

预处理

MapReduce

Hive

处理

MapReduce

Hive

----需要对结果集进行处理,数据格式(json或导入到RDBMS)

展示数据

报表工具展示













】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Permission denied: user=root, a.. 下一篇大数据学习6:HDFS的一些理解

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目