异常检测评价

异常检测效果评价大多是采用基于label的评价指标,比如AUC/pAUC/precision@rankN(比如最可能异常排名前10,真长异常个数是8,指标就是80%)等等。算法类论文,只需要用公开数据集进行label based的指标比较就行。但是工程实践中有两个原因,导致label based的评价指标不合适。
1.真实数据集,自己的定义label可能只是异常的其中一种,在某些特征空间中还并不是异常,这个时候如果还采取label based的评价就不太公平;
2.真实数据集,label不可获取的时候
所以我们需要找到另外的评价方式,着重评价系统寻求异常的能力。
我现在正在探索的方法:
1.类似TSNE等算法把高维投影到二维,再画图观察系统找异常的能力
2.Criteria based on Excess-mass and Mass-Volume curves

还google了一些可能有用的信息:
The evaluation of anomaly detection techniques on unlabeled is somehow problematic. It should be done via an external knowledge source (e.g. domain specialist).
For real applications, when there is no access to domain specialist, the computer-based alternative can be use of ensemble detectors along with computer-based knowledge sources. I personally used ensemble of detectors along with background knowledge (web) to detect anomalies

这个链接提到了三种方法,后2种没看懂,第一种我正在探索
https://medium.com/balabit-unsupervised/how-to-evaluate-unsupervised-anomaly-detection-for-user-behavior-analytics-88f3d5de2018

目前主要还是在搜,相关的一些评价技术,和其他人的一些想法

on the internal evaluation of unsupervised outlier detection.pdf 这篇没有引用
How to evaluate the quality of unsupervised Anomaly Detection Algorithms.pdf这篇有19的引用

留言

熱門文章