2018年10月15日-18日,在美国孟菲斯市举办的第29届国际软件可靠性工程旗舰会议——IEEE International Symposium on Software Reliability Engineering (ISSRE 2018, CCF推荐软件工程领域B类国际会议)上,软件学院教师张圣林博士与清华大学计算机系裴丹教授、马明华博士,以及搜狗公司高级研发工程师黄昕、代红伟合作发表的论文“Robust and Rapid Adaption for Concept Drift in Software System Anomaly Detection”获得最佳学术论文奖(Best Research Paper Award)。张圣林老师为该论文的通讯作者。该论文为张圣林老师发表在ACM CoNEXT 2015论文工作上的拓展工作。
最佳学术论文奖获奖证书
此次会议由FedEx公司主办,孟菲斯大学承办,赞助商包括Google, Nokia Bell Labs, IEEE Computer Society 和IEEE Reliability Society等研究机构。会议官方网站为http://2018.issre.net/。
该论文提出了一种新型的研究框架——StepWise。StepWise 能快速且准确地适应异常检测系统面临概念偏移(Concept Drift)的问题。概念偏移是指异常检测的对象 KPI(关键业务指标)时序数据发生剧变。概念漂移会直接导致异常检测系统的准确率降低,而StepWise能够使得异常检测算法快速适应并恢复到原来的准确率。 StepWise能应对各种类型的异常检测算法。下图是 StepWise 的设计框架。
StepWise框架图
StepWise 主要分为三个部分:
概念偏移的检测:StepWise 系统要位于异常检测系统之前,KPI 数据流输入后首先检测是否有概念偏移。
区分概念偏移是否符合预期:如果有概念偏移,我们需要区分其是否符合预期,不符合预期的概念偏移运维工程师要快速处理该异常,符合预期的进行下一步。
迅速适应符合预期的概念偏移:就是要使得概念偏移后新的数据分布也能快速适配原来精心设计的异常检测算法和参数,输出的数据进行异常检测。
StepWise 系统给出快速鲁棒的概念偏移检测与适应方法,通过 iSST-EVT、DiD 和 RLM 适应算法,运维工程师不再需要人工的设置检测算法的参数和阈值,也使得异常检测系统能够持续有效的发挥作用。该工作的评估实验基于搜狗搜索部门提供的真实运维数据,使用几百条、六个月范围有标注的 KPI 数据,发现对比传统不做概念偏移适应的异常检测方法,使用 StepWise 能使得多种常用异常检测算法的平均准确率(F1-score)提升 206%,适应时间约为 6 分钟。