设为首页 加入收藏

TOP

elasticsearch中的数据类型search_as_you_type及查看底层Lucene索引(一)
2023-08-26 21:11:03 】 浏览:46
Tags:elasticsearch search_as_you_type 查看底 Lucene 索引

search_as_you_type字段类型用于自动补全,当用户输入搜索关键词的时候,还没输完就可以提示用户相关内容。as_you_type应该是说当你打字的时候。它会给索引里的这个类型的字段添加一些子字段_2gram _3gram和_index_prefix。_2gram的意思是,如果一个值是abcd, 2 gram就是ab bc cd, 3 gram就是abc bcd cde.先混个眼熟。

先看看这个search_as_you_type怎么用,创建索引:

PUT test_ngram
{
  "mappings": {
    "properties": {
      "title": {
        "type": "search_as_you_type"
      }
    }
  }
}

插入一个文档:

PUT test_ngram/_doc/1
{
 "title":"i am joe"
}

进行搜索:

GET test_ngram/_search
{
  "query": {
    "multi_match": {
      "query": "jo",
      "type": "bool_prefix",
      "fields": [
        "title"
      ]
    }
  }
}

这里的搜索条件是jo,不是一个完整的词,是joe的开头两个字母但是仍然能搜索到结果,分数是1.0,如果搜索 i jo,也能搜索到结果,分数是1.287682,更高,注意这里原来的值是 i am joe,搜索条件是i jo,中间没有am也能搜索,说明是把搜索条件分成了 i 和jo两个单词,即搜索了i也搜索了jo,一个单词 i 匹配评分是1,但是两个单词 i 和 jo都匹配分数就更高,是1.287682,如果jo没有匹配的话分数应该更低,比如你搜索 i oj 分数就是0.2876821

然后我们再来看看三个词的搜索 i am jo ,可以看到分数更高了是1.5753641,说明这三个词都匹配到了,最后一个是前缀匹配,那如果我们搜索 i a jo呢,分数又降低和两个词匹配一样的分数1.287682,说明a并没有匹配到,为什么a不能匹配到am呢,不是前缀匹配吗?这里只能是最后一个单词是前缀匹配,比如这里的 jo,注意是搜索条件里面的最后一个单词不是字段值里面的最后一个单词,你搜索i a分数也是1.287682,也能匹配2个词。

所以结论就是这里会对搜索条件的最后一个词进行前缀匹配(如果是中文的话,不是按空格分词,而是根据ik分词器分词)。

还要注意这里的"type": "bool_prefix",指定了这个参数才能使用前缀匹配,如果去掉这个参数再搜索 jo 是没有结果的。

 

然后还有一点这里使用multi_match是为了多字段搜索,所以你可以在fields参数里面多指定几个参数:

"fields": ["title","title._2gram","title._3gram"],这样也能搜索出结果,但是一般都要带上主字段"title",否则搜索不到结果,比如:

GET test_ngram/_search
{
  "query": {
    "multi_match": {
      "query": "wa",
      "type": "bool_prefix", 
      "fields":  ["title._2gram","title._3gram"]
    }
  }
}

这样就搜索不到,要加上主字段title,  "fields": ["title","title._2gram","title._3gram"]就能搜到了。

 

那么前面提到的_2gram _3gram和_index_prefix是怎么回事呢?,也就是了解search_as_you_type的工作原理,这里我们可以打开底层的Lucene索引来具体看看到底这两个字段是怎么回事

那么怎么才能查看es底层的Lucene索引呢,首先有一个工具叫luke,以前是一个独立的项目,github地址是

https://github.com/DmitryKey/luke

但是后来已经合并到Lucene本身里面了,你可以下载Lucene

https://lucene.apache.org/core/downloads.html

这里我用的es版本是7.1.0,下载的Lucene版本是8.7.0,下载的lucene-8.7.0.tgz,(点击Older releases),下载了解压,找到里面的luke文件夹,如果是windows,有一个luke.bat双击就能运行。运行后是一个swing的界面,可以打开Lucene索引,但是相关的Lucene索引在哪呢?

通过es查询:

GET test_ngram

响应里面有一个        "uuid" : "GwxlNOMaRiabTL0BmStlAA",通过它就可以找到索引,比如我这里的位置就是

...\elasticsearch-7.10.1-windows-x86_64\elasticsearch-7.10.1\data\nodes\0\indices\GwxlNOMaRiabTL0BmStlAA

具体位置根据你的设置不同而不同。通过这个地址可以在luke里面打开它,点击open,就选择这个路径,打开后看到如下界面:

为什么啥也没有呢?好问题。因为es的索引还在缓存中,没有落盘,如何才能让它保存了我们好看呢?调用es的接口:

POST test_ngram/_flush

然后在luke中点击reopen current index,就可以看到有数据。但是这里为了看得更清楚,我们先删除所有文档,再插入一个简单的值:"on",先删除文档:

POST test_ngram/_delete_by_query
{
  "query":{
    "match_all":{}
  }
}

再插入一个文档并flush:

POST test_ngram/_doc/1
{
 "title":"on"
}
POST test_ngram/_flush

然后在luke中点击reopen current index,可以看到

左边是索引里字段,如果你选择_2gram或者_3gram,然后点击show top terms 你会看到右边是空的,为什么呢,因为这个唯一的文档里面只有一个字段,这个字段的值还只有一个词,所以不

首页 上一页 1 2 下一页 尾页 1/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇【狂神说Java】Java零基础学习笔.. 下一篇class<T extends interface>..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目