设为首页 加入收藏

TOP

mongodb中处理插入数据去重问题
2015-11-21 02:05:08 来源: 作者: 【 】 浏览:0
Tags:mongodb 处理 插入 数据 问题

最近在写一个爬虫工具,将网站的数据储存到mongodb中,由于数据有重复的,所以我就在建立数据库的时候,为集合建立了索引,下面说下我的步骤,集合名称为drugitem,

下面是集合截图:

?

\ \

?

我要为name字段创建唯一索引,因为要保证name没有重复:

\

就这样我运行程序发现数据比原来没有设置唯一索引时少了好多,我仔细查看发现程序在name字段重复的地方停止了,这不是我想要的结果,因为后面的数据还没有查询完成。于是我就删除了原来创建的name索引:

\

然后remove数据,重新按照老办法重新抓取数据,这样一来数据是得到了,但是本质问题还没解决,里面含有许多重复数据,于是我使用唯一索引+去重操作得到最终结果:

\

这样做的前提是集合中已经含有所有数据,这样处理后会发现drugitem集合中文档减少,说明去除了重复的文档。

问题虽然解决了,但是我觉得还是不太合适,难道我们每次都要这样处理才能得到最终数据?能不能在程序中插入的时候加以判断(或许这样会增加插入时间)或者在建立集合的时候提前配置好?由于本人初次接触mongodb,希望有高手看到后给予指点。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇mac上brew安装pg数据库默认没有创.. 下一篇toadfororacle中文显示乱码

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: