设为首页 加入收藏

TOP

一个通用的Trie树,标准C++实现
2014-11-24 13:15:13 来源: 作者: 【 】 浏览:0
Tags:一个 通用 Trie 标准 实现

1 Trie简介


Trie树,又称单词查找树键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。


在本文中,对于输入的进行序列化,比如输入“单词查找树”,序列化为“单/词/查/找/树”,这样可以进行任何一种自定义的数据插入和查询。序列化输入可以根据自己的需要进行相应的改动,这样可以把Trie树结构应用到很多其他的语言和领域。


本Trie树结构的优点在于


1 不限制子节点的数量;


2 自定义的输入序列化,突破了具体语言、应用的限制,成为一个通用的框架;


3 可以进行最大Tokens序列长度的限制;


4 根据已定阈值输出重复的字符串;


5 提供单个字符串频度查找功能;


6 速度快,在两分钟内完成1998年1月份人民日报(19056行)的重复字符串抽取工作。




3 实现代码


Trie.h


】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇一步一步走进Linux HOOK API 下一篇Linux内核实践之tasklet机制

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: