检索Evaluation
Evaluation Criteria of Unranked Retrieval
- | Retrieved | Not-retrieved |
---|---|---|
relevante | TP(true positive) | FN(false negative) |
Non-relevant | FP(false positive) | TN(true negative) |
Precision AND Recall
Precision-Recall Curve
通常precision和recall是呈一种负相关的关系,recall越高,precision越低。precision-recall curve以recall为横坐标,以precision为纵坐标,表示precision-recall变化关系。
F-Score
组合precision和recall的评价参数。
通常我们取$\beta=1,2,3..=,1$,也就是$\alpha=0.5$,也就是harmonic mean,也写作$F_1$,当取$\beta=1,2,3..$,也就得到$F_1, F_2, F_3..$:
Precision for Rankded retrieval
P@k AND R@k
用于表示在top k结果中的precision和Recall,如P@10,表示top 10结果的precision。
MRR
也就是Mean reciprocal rank,reciprocal rank表示对于一个query第一个正确结果排名位置的倒数值,也就是$RR=\frac {1}{rank}$。MRR表示多个query的RR的平均值:
维基百科给出了一个很好的例子:
query | results | correct response | rank | reciprocal rank |
---|---|---|---|---|
cat | cattern,cati,cats | cats | 3 | 1/3 |
torus | toril,tori,toruses | tori | 2 | 1/2 |
virus | viruses,virii,viri | viruses | 1 | 1 |
$MRR=\frac {(\frac 13 + \frac 12 + 1)}{3}=0.61$
MAP
Mean average precision,上面的MRR适合只考虑第一个正确结果检索性能使用,如果有多个正确结果且都要考虑,则应该使用MAP。
假设query q有m个correct document(or query suggestion etc.).
$RankSet_i$表示document i排序所在的位置及以上的位置所有的document。假设docuement i=3,排在第7的位置,则$RankSet_3$为1-7的documents,$P(RankSet_i)$即是这个set的precision。
MAP为多个query的AP的mean:
DCG and nDCG
DCG:Discounted cumulative gain
nDCG:Normalized Discounted cumulative gain
给每个文档指定一个得分,我们希望的得分越高的文档排在越前面。
假设一个排名是: $G=[5,2,3,0,10,3]$
cumulativfe gain可以计算如下:
加上一个惩罚系数,排名越后惩罚越多:
存在理想的排序$G^`=[10,5,3,3,2,0]$,使得DCG的得分最高。
使用这个最高得分normal实际的排序,得到就是nDCG得分。
Other Criteria of Effective IR
- diversity
- credibility
- comprehensibility