搜索学习基础--分词器的使用 - Kafka

TOP

搜索学习基础--分词器的使用

2019-05-13 14:33:12 【大中小】浏览:140次

在代码实现倒排索引这节中，我们的分词方式是对文本按空格分词。而在我们实际过程中，我们对分词的要求是苛刻的，我们会在不同的场景下使用不同的分词器。现在，我们先使用标准分词器StandardAnalyzer这个工具来进行分词的测试。

首先我们需要引入jar包，这是一个Lucene全文检索引擎中自带的分词器.

<dependency>
         <groupId>org.apache.lucene</groupId>
          <artifactId>lucene-analyzers-common</artifactId>
          <version>4.7.2</version>
</dependency>

简单的使用

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

import java.io.IOException;
import java.io.StringReader;

/**
 * created by yuyufeng on 2017/11/9.
 */
public class LearnAnalyzer {
    public static void main(String[] args) {
        // 构建分词器
        Analyzer analyzer = new StandardAnalyzer();

        // 获取Lucene的TokenStream对象
        TokenStream ts = null;
        try {
            ts = analyzer.tokenStream("myfield", new StringReader(
                    "这是一个分词的例子，我们来使用一下试试。 Let's use it."));
            // 获取词元位置属性
            OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
            // 获取词元文本属性
            CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
            // 获取词元文本属性
            TypeAttribute type = ts.addAttribute(TypeAttribute.class);

            // 重置TokenStream（重置StringReader）
            ts.reset();
            // 迭代获取分词结果
            while (ts.incrementToken()) {
                System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : "
                        + term.toString() + " | " + type.type());
            }
            // 关闭TokenStream（关闭StringReader）
            ts.end(); // Perform end-of-stream operations, e.g. set the final offset.

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            // 释放TokenStream的所有资源
            if (ts != null) {
                try {
                    ts.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }
}

运行结果：

0 - 1 : 这 | <IDEOGRAPHIC>
1 - 2 : 是 | <IDEOGRAPHIC>
2 - 3 : 一 | <IDEOGRAPHIC>
3 - 4 : 个 | <IDEOGRAPHIC>
4 - 5 : 分 | <IDEOGRAPHIC>
5 - 6 : 词 | <IDEOGRAPHIC>
6 - 7 : 的 | <IDEOGRAPHIC>
7 - 8 : 例 | <IDEOGRAPHIC>
8 - 9 : 子 | <IDEOGRAPHIC>
10 - 11 : 我 | <IDEOGRAPHIC>
11 - 12 : 们 | <IDEOGRAPHIC>
12 - 13 : 来 | <IDEOGRAPHIC>
13 - 14 : 使 | <IDEOGRAPHIC>
14 - 15 : 用 | <IDEOGRAPHIC>
15 - 16 : 一 | <IDEOGRAPHIC>
16 - 17 : 下 | <IDEOGRAPHIC>
17 - 18 : 试 | <IDEOGRAPHIC>
18 - 19 : 试 | <IDEOGRAPHIC>
21 - 26 : let's | <ALPHANUM>
27 - 30 : use | <ALPHANUM>

StandardAnalyzer是一个标准的分词器，它以非字母符来分割文本信息，并将语汇单元统一为小写形式，并去掉数字类型的字符。而我们的中文词组的分词显然不同。所以，对于中文的分词，我们常用的有IK分词器

<dependency>
  <groupId>com.janeluo</groupId>
  <artifactId>ikanalyzer</artifactId>
  <version>2012_u6</version>
</dependency>

上面的代码修改分词器的实现：
Analyzer analyzer = new IKAnalyzer(true);

分词结果：
0 - 2 : 这是 | CN_WORD
2 - 4 : 一个 | CN_WORD
4 - 6 : 分词 | CN_WORD
6 - 7 : 的 | CN_WORD
7 - 9 : 例子 | CN_WORD
10 - 12 : 我们 | CN_WORD
12 - 14 : 来使 | CN_WORD
14 - 17 : 用一下 | CN_WORD
17 - 19 : 试试 | CN_WORD
21 - 24 : let | ENGLISH
25 - 26 : s | ENGLISH
27 - 30 : use | ENGLISH
31 - 34 : it. | LETTER

显然，这个是中英文分词的，相比StandardAnalyzer更适合我们日常使用

常见的分词器

名称	分词规则	备注
WhitespaceAnalyzer	以空格作为切词标准，不对语汇单元进行其他规范化处理。	适用英文
SimpleAnalyzer	以非字母符来分割文本信息，并将语汇单元统一为小写形式，并去掉数字类型的字符
StopAnalyzer	停顿词分析器会去除一些常有a,the,an等等，也可以自定义禁用词
StandardAnalyzer	标准分析器是Lucene内置的分析器,会将语汇单元转成小写形式，并去除停用词及标点符号
CJKAnalyzer	中日韩分析器，能对中，日，韩语言进行分析的分词器	对中文支持效果一般
SmartChineseAnalyzer		对中文支持稍好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理
IKAnalyzer	支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符优化的词典存储，更小的内存占用。支持用户词典扩展定义	常用
HanLP	HanLP实现了许多种分词算法，每个分词器都支持特定的配置	国产，实现了许多种分词算法，支持自命名体识别等


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：linux 信号	下一篇：Android View中getViewTreeObserv..