ES查询优化随记1: 多路向量查询 & KNN IO排查 & 高效Filter使用

马璞玉 发表于 2025-6-3 00:02:04

哈哈最近感觉自己不像算法倒像是DB，整天围着ES打转，今天查IO，明天查内存，一会优化查询，一会优化吞吐。毕竟RAG离不开知识库，我们的选型是ES，于是这一年都是和ES的各种纠葛。所以顺手把近期获得的一些小tips记下来，万一有人和我踩进了一样的坑，也能早日爬出来。当前使用的ES版本是8.13，和7版本有较大的差异，用7.X的朋友这一章可能有不适配。本章主要覆盖以下

[*]多Query向量查询的各种方案：Script，Knn(mesearch)
[*]KNN查询IOUtil过高问题排查
[*]如何使用Filter查询更高效
多Query向量查询的各种方法

大模型的知识库都离不开向量查询，并且当前的RAG往往会对用户query进行多角度的改写和发散，因此会涉及多query同时进行向量查询。如果用ES实现的话，常用的有以下几种形式

[*]多向量Pooling Script查询：多个query的向量平均后进行查询，查询效果不好，因为Pooling往往会损失很多信息，虽然把多个向量压缩成了一个向量，查询效率更高压力更小，但是效果差的离谱。但是对使用ES 7.X版本的朋友可能也是一种选择。
query_body = {
"size":10
"query": {
         "bool": {
            "must": [{
               "script_score": {
                     "query": {"match_all": {}},
                     "script": {
                        "source": f"cosineSimilarity(params.query_vector, 'vectors')",
                        "params": {"query_vector": avg_embedding}
                     }
               }
            }]
         }
   }
}

[*]向量script循环取cosine的最大值或者平均值：使用ES 7且的朋友一般的选项，因为7的版本里部分没有KNN的支持，因此只能使用script线性遍历向量。而不把所有向量召回的内容都取回来进行重排序主要是IO的考虑，返回的条数更少传输压力更小。以下为python的查询示例，embedding_list是多query的向量数组。
query_body = { "query": {    "function_score": {          "script_score": {             "script": {                "source": """                      double max_score = -1.0;                      if (doc.size() == 0) return 0; // 空值保护                      for (int i=0; i

页: [1]

程序园's Archiver

ES查询优化随记1: 多路向量查询 & KNN IO排查 & 高效Filter使用