设为首页 加入收藏

TOP

数据处理案例,数据质量案例
2014-11-23 20:03:54 来源: 作者: 【 】 浏览:39
Tags:数据处理 案例 数据 质量
1)名称错误
北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了
北京海定区世纪城:北京海淀区

2)
全半角替换
”北京*餐饮有限公司“改为””北京*餐饮有限公司““

3)空格替换
海淀区世纪城金源时代商务中心 C座


4)数据补齐
樊城区建华路:出现这个地址,应该加上湖北省襄阳市。
a、做一张地区MAPPING表{省份、市、县、镇乡},如果有邮编号,首先我们可以根据邮编号找到对应的地区,则匹配成功
b、如果没有邮编号,则根据名字来匹,这种数据就要看这个区的名称是不是有多个,找到相关模式匹配成功(区分不出来的,挑出来,再想办法)


5)数据拆分,利于统计分析
北京市海淀区世纪城翠叠园10楼4单元:最好拆分成"北京市","海淀区","世纪城","翠叠园" ,"10楼","4单元"

6)怎么处理 数据库不识别的字?
数据库不识别的字,例如" " 在数据库中为" "

7)
证件类型 :
ID代表身份证,OTH可能代表其他(other)
jz 代表什么意思呢?
找到国家规定法定证件种类{身份证,学生证,工作证、士兵证、军官证、护照和户口本}

8)
字段转换:时间字段的值转换成统一的时间格式。"2011-11-18 7:08:30","2011-3-30 15:03:53" 统一转换成时间格式 MySQL 中用 str_to_date(Version,'%Y-%m-%d %k:%i:%s')

9)
身份证号码补录:"130203790302***",再看一下出生日期“19790302”,则应该是"13020319790302***"。{以前老身份证应该年用的都是两位吗?}

10)
将邮编号为空的数据补齐:根据地址信息补还是根据身份证号前6位所映射出来的邮编。

11)
将地址列中有公司名称“海淀区世纪城金源时代商务中心**** 北京***传播有限公司”拆开成两个字段。


12)
时间字段为空的,怎么补齐这个数据?{这个字段很关键}

13)怎么来处理下面问题?
遇到多打了几个字,需要替换:“北京市海淀区世纪城远大园****1203号遭1“改为”“北京市海淀区世纪城远大园****1203号““


14)衍生数据(获得更加多的信息)
根据数据{手机号、邮箱},搜集信息,猜测用户所在工作地,学历等等
根据生日,计算出现在年龄。
根据身份证前6位,找到身份证所在地。{这个地址更可能是老家地址}{而地址栏的地址更可能是工作出差地址}
根据开房时间,计算出开房时间段。{不知道一般哪个时间段开房的人很危险,呵呵}
根据身份证前6位找到老家的人,然后再看一下在北京开房的人,算出大概有多少人在北京开房的老乡人数。
可计算出用户开房时的年龄:开房时间-出生日期
根据所在公司,算出用户所在行业


15)找出有价值用户 {给用户评级等等}

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇10053事件分析案例一则 下一篇IT忍者神龟之Hibernat持久化对象-..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: