elasticsearch 官方优化建议 - JAVA

TOP

elasticsearch 官方优化建议(一)

2023-07-25 21:32:49 【大中小】浏览:56次

Tags：elasticsearch 方优化

1.一般建议

??a.不要返回过大的结果集。这个建议对一般数据库都是适用的，如果要获取大量结果，可以使用search_after api，或者scroll （新版本中已经不推荐）。

??b.避免大的文档。

2. 如何提高索引速度

　　a.使用批量请求。为了达到最好的效果，可以进行测试，递增地提高bulk的数量，比如从100，到200，再到400，达到一个吞吐量和响应时间的平衡。

　　b.使用多线程发送数据。

　　c.关闭或者减小refresh_interval。从内存缓存写入磁盘缓存（memorybuffer -> filesystem cache），这个过程叫做refresh。在这个过程之前内存缓存里面的文档是不可被搜索的，这也是为什么es被称为近实时索引的原因。

????在索引初始化（大量导入文档）的时候，可以关闭refresh_interval。当产品允许较大的不可搜索时间，可以将index.refresh_interval设置为30s，提高索引速度。

　　d.初始化时关闭复制分片。索引时设置index.number_of_replicas为0，避免主分片复制数据，索引完毕后再调整到正常的复制分片数。

　　e.关闭swapping。swap会极大地降低es的索引速度。

Swap分区（即交换区）在系统的物理内存不够用的时候，把硬盘空间中的一部分空间释放出来，以供当前运行的程序使用。
那些被释放的空间可能来自一些很长时间没有什么操作的程序，这些被释放的空间被临时保存到Swap分区中，等到那些程序要运行时，再从Swap分区中恢复保存的数据到内存中。

　　f.给文件系统缓存分配足够多的内存。文件系统换行用来处理io操作，至少要将物理机一半的内存分配给文件系统缓存。比如物理机内存64g，那么至少分配32g给文件系统缓存，剩下的内存才考虑分配给es。

　　g.使用自动生成的id。如果使用指定的id，es会检查这个id是否已经存在，而且随着文档数越多，这个判重操作越耗时。索引的时候，如果没有指定id，es会自动生成id。

{
    "_index": "sales",
    "_type": "_doc",
    "_id": "xb7IY4cB6Rdc8HbDycuE", // auto-generated id
    "_version": 1,
    "result": "created",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 10,
    "_primary_term": 1
}

　　h.使用更好的硬件。比如SSD，或者Amazon的Elastic Block Storage。

　　i.调整索引缓存大小。确保每个索引分片能获得512M的缓存，即 indices.memory.index_buffer_size = 512M，大于512M没有更多提升效果。

　　j.使用cross-cluster replication 来实现读写分离，这样让索引集群压力更小。这和mysql中的读写分离很类似。

3.如何提到搜索速度

　　a.给文件系统缓存分配足够多的内存。

　　b.在linux环境中设置合适的readahead。但是es中的查询更多的是随机io，过大的readahead反而使文件系统的页缓存严重抖动，从而使查询性能下降。

Linux的文件预读readahead，指Linux系统内核将指定文件的某区域预读进页缓存起来，便于接下来对该区域进行读取时，不会因缺页（page fault）而阻塞。因为从内存读取比从磁盘读取要快很多。
预读可以有效的减少磁盘的寻道次数和应用程序的I/O等待时间，是改进磁盘读I/O性能的重要优化手段之一。使用命令lsblk查看readahead值。

??c.使用更好的硬件。

　　d.好的文档模型。酌情使用nested query, parent query, 避免使用join query。

文档模型	对比普通查询
nested query	慢几倍
parent query	慢几百倍
join query	应当避免

　　e.尽可能少的查询字段。在越多的字段上匹配，查询速度就越慢。在索引的时候可以将需要查询的多个字段聚合到一个字段中。使用copy_to 可以自动实现这一功能，以下示例将name和plot字段聚合到name_and_plot字段中。

PUT movies
{
  "mappings": {
    "properties": {
      "name_and_plot": {
        "type": "text"
      },
      "name": {
        "type": "text",
        "copy_to": "name_and_plot"
      },
      "plot": {
        "type": "text",
        "copy_to": "name_and_plot"
      }
    }
  }
}

??f.预先索引数据。比如如果想对price字段做range聚合，那么预先计算出单个文档的price范围，那么就能将range聚合转化成terms聚合。这样确实能提高效率，但是不太灵活。

插入文档：

PUT index/_doc/1
{
  "designation": "spoon",
  "price": 13
}

range聚合查询：

GET index/_search
{
  "aggs": {
    "price_ranges": {
      "range": {
        "field": "price",
        "ranges": [
          { "to": 10 },
          { "from": 10, "to": 100 },
          { "from": 100 }
        ]
      }
    }
  }
}

另一种做法，预先计算price_range:

PUT index
{
  "mappings": {
    "properties": {
      "price_range": {
        "type": "keyword"
      }
    }
  }
}

PUT index/_doc/1
{
  "designation": "spoon",
  "price": 13,
  "price_range": &quo

首页上一页 1 2 3 下一页尾页 1/3/3
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：java -- 练习题	下一篇：spring6.0.x源码调试环境搭建