• -------------------------------------------------------------
  • ====================================

【Elasticsearch】打分策略详解与explain手把手计算

elasticsearch dewbay 6年前 (2019-04-12) 2093次浏览 已收录 0个评论 扫描二维码

一、目的
一个搜索引擎使用的时候必定需要排序这个模块,一般情况下在不选择按照某一字段排序的情况下,都是按照打分的高低进行一个默认排序的,所以如果正式使用的话,必须对默认排序的打分策略有一个详细的了解才可以,否则被问起来为什么这个在前面,那个在后面不好办,因此对 Elasticsearch 的打分策略详细的看了下,虽然说还不是了解的很全部,但是大部分都看的差不多了,结合理论以及搜索的结果,做一个简单的介绍

二、Elasticsearch 的打分公式
Elasticsearch 的默认打分公式是 lucene 的打分公式,主要分为两部分的计算,一部分是计算 query 部分的得分,另一部分是计算 field 部分的得分,下面给出 ES 官网给出的打分公式:

score(q,d) =
queryNorm(q)
· coord(q,d)
· ∑ (
tf(t in d)
· idf(t)²
· t.getBoost()
· norm(t,d)
) (t in q)
在此给每一个部分做一个解释
queryNorm(q):
对查询进行一个归一化,不影响排序,因为对于同一个查询这个值是相同的,但是对 term 于 ES 来说,必须在分片是 1 的时候才不影响排序,否则的话,还是会有一些细小的区别,有几个分片就会有几个不同的 queryNorm 值

queryNorm(q)=1 / √sumOfSquaredWeights 

上述公式是 ES 官网的公式,这是在默认 query boost 为 1,并且在默认 term boost 为 1 的情况下的打分,其中

sumOfSquaredWeights =idf(t1)idf(t1)+idf(t2)idf(t2)+…+idf(tn)*idf(tn)

其中 n 为在 query 里面切成 term 的个数,但是上面全部是在默认为 1 的情况下的计算,实际上的计算公式如下所示:

coord(q,d):
coord(q,d)是一个协调因子它的值如下:

coord(q,d)=overlap/maxoverlap
其中 overlap 是检索命中 query 中 term 的个数,maxoverlap 是 query 中总共的 term 个数,例如查询词为“无线通信”,使用默认分词器,如果文档为“通知他们开会”,只会有一个“通”命中,这个时候它的值就是 1/4=0.25
tf(t in d):
即 term t 在文档中出现的个数,它的计算公式官网给出的是:

tf(t in d) = √frequency
即出现的个数进行开方,这个没什么可以讲述的,实际打分也是如此
idf(t):
这个的意思是出现的逆词频数,即召回的文档在总文档中出现过多少次,这个的计算在 ES 中与 lucene 中有些区别,只有在分片数为 1 的情况下,与 lucene 的计算是一致的,如果不唯一,那么每一个分片都有一个不同的 idf 的值,它的计算方式如下所示:

idf(t) = 1 + log ( numDocs / (docFreq + 1))
其中,log 是以 e 为底的,不是以 10 或者以 2 为底,这点需要注意,numDocs 是指所有的文档个数,如果有分片的话,就是指的是在当前分片下总的文档个数,docFreq 是指召回文档的个数,如果有分片对应的也是在当前分片下召回的个数,这点是计算的时候与 lucene 不同之处,如果想验证是否正确,只需将分片 shard 的个数设置为 1 即可。
t.getboost():
对于每一个 term 的权值,没仔细研究这个项,个人理解的是,如果对一个 field 设置 boost,那么如果在这个 boost 召回的话,每一个 term 的 boost 都是该 field 的 boost

norm(t,d):
对于 field 的标准化因子,在官方给的解释是 field 越短,如果召回的话权重越大,例如搜索无线通信,一个是很长的内容,但都是包含这几个字,但是并不是我们想要的,另外一个内容很短,但是完整包含了无线通信,我们不能因为后面的只出现了一次就认为权重是低的,相反,权重应当是更高的,其计算公式如下所示:

其中 d.getboost 表明如果该文档权重越大那么久越重要

f.getboost 表明该 field 的权值越大,越重要

lengthnorm 表示该 field 越长,越不重要,越短,越重要,在官方文档给出的公式中,默认 boost 全部为 1,在此给出官方文档的打分公式:

norm(d) = 1 / √numTerms
该值在计算的时候总是无法对上,查询网上的资料说是在打分的时候将结果先进行压缩,然后解压缩,所以结果跟原始值对不上,个人理解有点像量化的过程,因为在实际explain的时候发现该值有一定的规律性
三、实际的打分explain
在实际的时候,例如搜索“无线通信”,如下图所示,因为一些私人原因,将一些字段打码,查询的时候设置explain为 true,如下图所示:

因为使用的是默认的分词器,所以最后的结果是将“无线通信”分成了四个字,并且认为是四个 term 来进行计算,最后将计算的结果进行相加得到最后的得分 0.7605926,这个分数是“无”的得分+“线”的得分+“通”的得分+“信”的得分,四个 term 的得分如下图所示:

最后的得分是 0.7605926=0.118954286+0.1808154+0.14515185+0.31567,与上述符合,因为四个词都出现了所以在这里面的 coord=1,总分数的计算知道后,我们单看每一部分的得分的计算,以“无”为例进行介绍:

其中每一个 term 内部分为两部分的分数,一部分是 queryweight,一部分是 fieldweight,其中总分数=queryweight*fieldweight

例如此处 queryweight=0.51195854,fieldWeight=0.2323514,所以总的分数就是 0.118954286

queryweigth 计算:
对于 queryweight 部分的计算分为两个部分 idf 和 querynorm,其中 idf 的值是 2.8618271,这个值是如何计算的呢

idf=1+ln(1995/(309+1))=2.8618271,说明在分片四里面共有 1995 个文档,召回了包含“无”的 309 个文档,因此为这个值

querynorm 部分的计算:根据上面“无”“线”“通”“信”四个的分数计算,可以看到,idf 的值分别为

无:2.8618271

线:3.1053379

通:2.235371

信:2.901306

所以按照计算公式

querynorm=1 / √2.86182712.8618271+3.10533793.1053379+2.2353712.235371+2.9013062.901306=0.1788922
所以 queryweight 部分的值是 0.1788922*2.8618271=0.51195854

再次总结下此处的公式:queryweight=idf*queryNorm(d)

fieldweight 部分计算:
idf 的计算上边已经算过,在此不详细叙述

tf 的值是在此处出现 3 次,所以为√3=1.7320508

fieldnorm 的值不知道如何计算,按照公式计算不出来explain的值,网上资料说是编解码导致的,哪位朋友知道如何计算麻烦回复下,多谢

总结下 fieldweight 部分的计算公式:fieldweight=idftffieldnorm=1.73205082.86182710.046875=0.2323514

所以总体的计算就是

score=queryweightfieldweight=idfqueryNorm(d)idftffieldnorm=coordqueryNorm(d)tfidf^2*fieldnorm
四、参考文档
http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html

https://www.elastic.co/guide/en/elasticsearch/guide/current/scoring-theory.html#field-norm

作者:molong1208
来源:CSDN
原文:https://blog.csdn.net/molong1208/article/details/50623948
版权声明:本文为博主原创文章,转载请附上博文链接!


露水湾 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:【Elasticsearch】打分策略详解与explain手把手计算
喜欢 (0)
[]
分享 (0)
关于作者:
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址