文本检索打分

概述

文本检索打分用于衡量表中某一行数据与查询文本之间的相关程度。当执行包含全文检索条件的查询（例如 MATCH_ANY、MATCH_ALL 等）时，Doris 会为每一行返回一个数值型的打分结果，表示该行与查询条件的匹配强度。该打分值可用于结果排序，以便优先返回与查询最相关的内容。

当前 Doris 使用 BM25（Best Matching 25） 算法进行文本相关性计算。

BM25 是一种基于概率模型的文本相关性算法。它通过综合考虑词频、逆文档频率以及记录长度，对匹配结果进行加权计算。 BM25 相比传统 TF-IDF 模型具有更好的鲁棒性和可调性，能有效平衡长文本与短文本的得分差异。

BM25 的核心计算公式如下：

score = IDF × (tf × (k1 + 1)) / (tf + k1 × (1 - b + b × |d| / avgdl))

其中：

默认参数：

辅助统计量：

IDF = log(1 + (N - n + 0.5) / (n + 0.5))
avgdl = total_terms / total_rows

其中：

最终的总得分为所有查询词的单词得分之和。

为启用打分计算，下推条件需满足：

SELECT *,
       score() AS relevance
FROM search_demo
WHERE content MATCH_ANY '检索测试'
ORDER BY relevance DESC
LIMIT 10;

该语句会根据 BM25 打分结果返回前 10 条最相关的记录。