南开大学软件学院成功承办AIOps 挑战赛暨首届 AIOps 研讨会

为了解决互联网运维难题(故障发现、故障止损、故障修复、故障规避等),我们筹办了AIOps(智能运维)挑战赛http://iops.ai,旨在借助社区的力量,运用人工智能算法解决各类运维难题。iops.ai于2017年12月1日上线了它的第一个挑战赛——KPI异常检测挑战赛,发力解决运维领域最大的痛点之一——异常检测。挑战赛所用数据来自于搜狗、腾讯游戏、eBay、百度、阿里巴巴等国内外一流互联网公司的真实运维环境。挑战赛吸引了三百多名选手组成的125支队伍参加比赛,且最终有40支队伍提交了比赛结果。经过4个月的初赛、1个月的决赛后,2018年5月19日于北京,举行了AIOps挑战赛决赛暨首届AIOps研讨会,进行了KPI异常检测挑战赛的决赛答辩,角逐出了冠亚季军,分享了近10万元的奖金池。现场活动精彩纷呈,会场火热爆满。

嘉宾合影

 上午9点,计算机学会互联网专业委员会副主任、北京邮电大学马严教授作了主办方致辞,回顾与展望了网络领域技术的发展,并介绍了智能网络,展望了人工智能在网络领域的研究、发展与应用。 

然后,清华大学副教授裴丹博士进行了承办方致辞,详细地介绍了AIOps挑战赛的情况,向AIOps挑战赛决赛暨首届AIOps研讨会的主办方计算机学会、协办方计算机学会互联网专业委员会、承办方清华大学计算机系和南开大学软件学院、数据提供方(EBay、搜狗、百度、腾讯游戏、阿里巴巴)、网站建设方(腾讯游戏)、资金提供方(华为)、决赛环境提供方(Microsoft Azure)分别表示了感谢。

上午10点,翘首以待的决赛答辩正式开始,预赛排名前五的队伍按抽签顺序进行了答辩,详细地介绍了每支队伍解决竞赛异常检测问题的思路,并回答了评委和参会观众们的提问。本次比赛的评委团如下:陈 宇 百度 数据架构师,前 MSRA 研究员 马 严 北京邮电大学 教授 张玉志 南开大学 教授 边凯归 北京大学 副教授 崔 勇 清华大学 教授 王之梁 清华大学 副教授 裴 丹 清华大学 副教授

选手答辩结束后,在评委确定最终名次期间,南开大学软件学院院长张玉志教授作了承办方致辞,强调了学术界与工业界合作的重要性,展望了人工智能技术的发展,并对AIOps的发展给予了祝福。

最终,来自云智易控科技有限公司的logicmonitor-AI团队获得冠军,斩获8万元奖金。

来自新华三技术有限公司的D.I.(H3C)团队和来自中国工程物理研究院的ICA128团队,分获第二、三名。

此外,为了促进智能运维技术的迅速发展,加强工业界与学术界的交流,我们同时组织召开了首届AIOps研讨会。研讨会就经典运维问题的最新研究进展和发展趋势,以及国内外顶尖IT公司对智能运维的需求展开讨论,并邀请了学者和工业界代表做会议报告。

来自百度运维部的陈宇老师,介绍了其发表在USENIX SRECon 2018的论文Automatic Diagnosis Metric Screening for Service,介绍了百度运维部在互联网服务自动故障诊断方面的研究成果。

之后,来自北京大学信息科学技术学院的边凯归副教授,就Proactive Video Push for Optimizing Bandwidth Consumption in Hybrid CDN-P2P VoD Systems(发表在IEEE INFOCOM 2018)做了报告,展示了边教授与爱奇艺合作的在视频流带宽优化方面的最新研究成果。

随后,清华大学的崔勇教授,进行了以Machine Learning for Networking: Workflow, Advances and Opportunities(发表在IEEE Network)为主题的报告,综述了在机器学习在计算机网络方面的优势和机会。

清华大学交叉信息学院的徐葳博士,介绍了其在IEEE/IFIP DSN 2017会议发表的论文,What Can We Learn from Four Years of Data Center Hardware Failures? 该论文获得了IEEE/IFIP DSN 2017会议的最佳论文奖,分析并研究了数据中心硬件故障的数据。

来自微软亚洲研究院的隋楷心博士,介绍了其发表在USENIX ATC 2018的论文Improving Service Availability of Cloud Systems by Predicting Disk Error,展示了微软在预测磁盘故障方面的最新研究成果。

南开大学软件学院的张圣林博士,介绍了其在SIGMETRICS 2018发表的论文PreFix: Switch Failure Prediction in Datacenter Networks,论文首次提出了一种数据中心交换机故障预测机制。

清华大学计算机系的博士生聂晓辉,介绍了Reducing Web Latency through Dynamically Setting TCP Initial Window with Reinforcement Learning(发表在IEEE/ACM IWQOS 2018),介绍了一种使用强化学习的方法动态地调整TCP初始窗口以减少Web延迟的机制。

最后,清华大学计算机系的博士生许昊文,介绍其发表在WWW 2018上的工作Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications,向大家展示了基于VAE的无监督异常检测的算法。

点击阅读原文,进入http://workshop.aiops.org/ 

获取更多会议议程,现场高清大图及嘉宾致辞,选手答辩,AIOps研讨会相关资料及ppt


FaLang translation system by Faboba