MongoDB千万级数据的分析

一、导入

清单1：

读取CSV文件，存储到数据库中

#-*- coding:UTF-8 -*-

'''

Created on 2013-10-20

@author: tyk

'''

from pymongo.connection import Connection

from time import time

import codecs

import csv

import os

rootdir = "2000W/" # 指明被遍历的文件夹

'''

def process_data():

conn = Connection('localhost', 27017) #获取一个连接

##conn.drop_database('guestHouse')

db = conn.TYK

guest = db.guestHouse

guest_info = []

for parent, dirnames, filenames in os.walk(rootdir): #三个参数：分别返回1.父目录 2.所有文件夹名字（不含路径） 3.所有文件名字

for filename in filenames:

ErrorLine = []

key_length = 0

fullname = os.path.join(parent,filename)

try:

#with codecs.open(fullname, encoding='utf_8') as file:

with codecs.open(fullname, encoding='utf_8_sig') as file:#忽略UTF-8文件前面的BOM

keys = file.readline().split(',')#先读掉第一行的注释

key_length = len(keys)

spamreader = csv.reader(file)#以CSV格式读取，返回的不再是str,而是list

for line in spamreader:

if key_length != len(line):#部分数据不完整，记录下来

ErrorLine.append(line)

else:

each_info = {}

for i in range(1, len(keys)):#过滤第一个字段Name,姓名将不再存到数据库中

each_info[keys[i]] = line[i]

guest_info.append(each_info)

if len(guest_info) == 10000:#每10000条进行一次存储操作

guest.insert(guest_info)

guest_info = []

except Exception, e:

print filename + "\t" + str(e)

#统一处理错误信息

with open('ERR/' + os.path.splitext(filename)[0] + '-ERR.csv', 'w') as log_file:

spamwriter = csv.writer(log_file)

for line in ErrorLine:

spamwriter.writerow(line)

#最后一批

guest.insert(guest_info)

if __name__ == '__main__':

start = time()

process_data()

stop = time()

print(str(stop-start) + "秒")

后来睡着了、关机了，耗时多久也不得而知了⊙ ⊙b汗

总结：

1.文件编码为UTF-8，不能直接open()打开读取。

2.文件已CSV格式进行存储，读取时用CSV模块处理来读取。这是读出来的数据每行为一个list。注意，不能简单的以","拆分后进行读取。对于这种形状"a,b,c", d的数据是无法正确解析的。

3.对于UTF-8文件，如果有BOM的形式去读是要以'utf_8_sig'编码读取，这样会跳过开头的BOM。如果不处理掉BOM，BOM会随数据一同存到数据库中,造成类似" XXX"的现象（有一个空格的假象）。

如果真的已经存到库中了，那只有改key了

db.guestHouse.update({}, {"$rename" : {" Name" : "Name"}}, false, true)

另外，网上还有一种方法（尝试失败了，具体原因应该是把字符串转换成字节码然后再去比较。怎么转这个我还不会...）

#with codecs.open(fullname, encoding='utf-8') as file:

with codecs.open(fullname, encoding='utf_8_sig') as file:

keys = file.readline().split(',')

if keys[0][:3] == codecs.BOM_UTF8:#将keys[0]转化为字节码再去比较

keys[0] = keys[0][3:]

扩展：

今天发现MongoDB本身就带有导入功能mongoimport，可以直接导入CSV文件...

小试一把

1.不做错误数据过滤，直接导入。用专利引用数据做一下实验（《Hadoop权威指南》一书中的实验数据）

实验数据：

"PATENT","GYEAR","GDATE","APPYEAR","COUNTRY","POSTATE","ASSIGNEE","ASSCODE","CLAIMS","NCLASS","CAT","SUBCAT","CMADE","CRECEIVE","RATIOCIT","GENERAL","ORIGINAL","FWDAPLAG","BCKGTLAG","SELFCTUB","

首页上一页 1 2 3 下一页尾页 1/3/3

上一篇 postgresql创建function使两个表..

下一篇 mongoDB第八讲：分片

MongoDB千万级数据的分析(一)