超详细的Elasticsearch高性能优化实践

作者:微信小助手

发布时间:2019-05-20T22:56:12

之前分享的一篇《掌握它才说明你真正懂 Elasticsearch》相信让大家对 ES 的原理都有所了解,这篇将从 ES 的 API 应用测试,性能优化,开发使用等方面展开,深入学习 ES。


ES 性能调优


ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。


写优化


假设我们的应用场景要求是,每秒 300 万的写入速度,每条 500 字节左右。


针对这种对于搜索性能要求不高,但是对写入要求较高的场景,我们需要尽可能的选择恰当写优化策略。


综合来说,可以考虑以下几个方面来提升写索引的性能:

  • 加大 Translog Flush ,目的是降低 Iops、Writeblock。

  • 增加 Index Refresh 间隔,目的是减少 Segment Merge 的次数。

  • 调整 Bulk 线程池和队列。

  • 优化节点间的任务分布。

  • 优化 Lucene 层的索引建立,目的是降低 CPU 及 IO。


①批量提交


ES 提供了 Bulk API 支持批量操作,当我们有大量的写任务时,可以使用 Bulk 来进行批量写入。


每次提交的数据量为多少时,能达到最优的性能,主要受到文件大小、网络情况、数据类型、集群状态等因素影响。 


通用的策略如下:Bulk 默认设置批量提交的数据量不能超过 100M。数据条数一般是根据文档的大小和服务器性能而定的,但是单次批处理的数据大小应从 5MB~15MB 逐渐增加,当性能没有提升时,把这个数据量作为最大值。


我们可以跟着,感受一下 Bulk 接口,如下所示:

$ vi request
$ cat request
"index" : { "_index" : "chandler","_type""test""_id" : "1" } }
"name" : "钱丁君","age""18" }
$ curl -s -H "Content-Type: application/json" -XPOST localhost:9200/_bulk --data-binary @request; echo
{"took":214,"errors":false,"items":[{"index":{"_index":"chandler","_type":"test","_id":"1","_version":1,"result":"created","_shards":{"total":2,"successful":1,"failed":0},"_seq_no":0,"_primary_term":1,"status":201}}]}
$ curl -XGET localhost:9200/chandler/test/