最近一个项目要用到文档数据库,顺便查了一下 NoSQL 方面的资料。当前几个比较流行的文档数据库引擎有 MongoDB, CouchDB, Couchbase, OrientDB 等,朋友推荐的是 MongoDB 和 RethinkDB,和 MongoDB 类似 RethinkDB 是一个主要用来存储 JSON 文档的数据库引擎(MongoDB 存储的是 BSON),可以轻松和多个节点连成分布式数据库,非常好用的查询语言以及支持表的 joins 和 group by 操作等。
加入 RethinkDB 官方源后安装:
拷贝一个例子配置文件后修改 bind 部分以便可以从其他机器访问:
启动 rethinkdb:
访问 http://192.168.2.39:8080/ 就可以看到 rethinkdb 的管理界面了:

如果不喜欢在命令行工作,web 界面还提供了 Data Explorer 在线查询工具,支持语法高亮、在线函数提示等,不用额外查帮助文件。

要用程序的方式和 rethinkdb 打交道的话就需要安装客户端驱动(client drivers),官方支持的驱动有 java script, Ruby 和 Python 3种语言,社区支持的驱动几乎包括了 C, Go, C++, Java, PHP, Perl, Clojure, Erlang 等所有主流编程语言。本人用 Python 多一些,所以这里安装 Python 客户端驱动:
测试一下驱动是否能工作了,如果 import rethinkdb 没有出错基本就可以说明模块安装成功:
gene2go.txt 是一个含有基因数据的文本文件,大概1000多万行记录,格式如下:
写个简单程序把 gene2go.txt 的数据导入到 rethinkdb 里: