2F03C

 

  孙永谦

  所属部门: 软件工程系

  电子邮件: sunyongqian(at)nankai.edu.cn

  职 称: 副教授

  学 历: 博士

  所学专业:

  研究方向: 智能运维,人工智能,网络智能管理

 个人主页: http://nkcs.iops.ai/




个人简介

孙永谦(Yongqian Sun)现为南开大学软件学院副教授, 于2018年获清华大学工学博士学位(计算机科学与技术专业)。博士期间在清华大学计算机科学与技术系 NetMan 实验室就读,导师为赵有健教师裴丹教授。主攻智能运维方向(AIOps),包括Web应用(搜索引擎、电商网站等)中服务等业务的异常检测、异常定位、告警聚合收敛、故障定位分析等,期待大型互联网企业中的服务运维工作朝着智能化、精准化、高度自治化的方向发展。本人科研中注重科研问题的实际应用价值,追求产学研结合的科研成果。因此,博士在读期间与百度公司合作,通过3.5年的长期实习,挖掘大型Web应用在实际中存在的前沿问题,结合机器学习的算法解决一线运维难题。发表的一些成果已被多家大型互联网企业采用(如 华为、腾讯、百度、蚂蚁金服等)。目前本人仍在 NetMan 实验室担任助理工作,现主持或参加与多家企业的项目合作(快手、腾讯、今日头条、华为、中兴、天津云账户、虎牙直播的合作项目),以期研究问题能在工业应用价值与科研价值中寻求最佳结合点。此外,2018年12月至2019年7月,与裴丹教授一道,本人作为首席技术负责人参与2019国际AIOps挑战赛的筹备、举办工作。

课题组现已与华为、阿里巴巴、腾讯、今日头条、百度、中兴、网商银行、天津云账户、虎牙等国内一流IT公司建立了合作关系,分析互联网服务应用层面和机器层面的数据,解决影响用户体验的问题。课题组长期欢迎更多优秀的研究生、本科生加入,共同解决学术价值与工业应用价值兼备的前沿难题,提高广大Web应用用户的体验!


教育背景

2012-2018,清华大学,工学博士,计算机科学与技术专业(导师:赵有健裴丹

2008-2012,西北工业大学,理学学士,应用数学系 统计学专业(现 数学与统计学院 应用概率统计系



撰写论文、专著等


  1. Shenglin Zhang, Zhongjie Pan, Heng Liu, Pengxiang Jin, Yongqian Sun*, Qianyu Ouyang, Jiaju Wang, Xueying Jia, Yuzhi Zhang, Hui Yang, Yongqiang Zou, and Dan Pei. Efficient and Robust Trace Anomaly Detection for Large-Scale Microservice Systems. The 34th IEEE International Symposium on Software Reliability Engineering (ISSRE 2023). Florence, Italy, October 2023 (CCF B).

  2. Dongwen Li, Shenglin Zhang, Yongqian Sun*, Yang Guo, Zeyu Che, Shiqi Chen, Zhenyu Zhong, Minghan Liang, Minyi Shao, Mingjie Li, Shuyang Liu, Yuzhi Zhang, and Dan Pei. An Empirical Analysis of Anomaly Detection Issues for Multivariate Time Series. The 34th IEEE International Symposium on Software Reliability Engineering (ISSRE 2023). Florence, Italy, October 2023 (CCF B).

  3. 夏思博,马明华,金鹏翔,崔丽月,张圣林,金娃,孙永谦,裴丹. 搜索服务响应时间异常诊断.《计算机研究与发展》,2023 (CCF T1)

  4. Yicheng Sui, Yuzhe Zhang, Jianjun Sun, Ting Xu, Shenglin Zhang*, Zhengdan Li, Yongqian Sun, Fangrui Guo, Junyu Shen, Yuzhi Zhang, Dan Pei, Xiao Yang, Li Yu. LogKG: Log Failure Diagnosis through Knowledge Graph. IEEE Transactions on Services Computing, 2023 (CCF A).

  5. 马玲; 樊漆亮; 许婷; 郭冠琛; 张圣林; 孙永谦; 张玉志. 基于强化学习的在离线混部调度策略. 通信学报. 2023. (CCF T1)

  6. Shenglin Zhang, Pengxiang Jin, Zihan Lin, Yongqian Sun*, Bicheng Zhang, Sibo Xia, Zhengdan Li, Zhenyu Zhong, Minghua Ma, Wa Jin, Dai Zhang, Zhenyu Zhu, Dan Pei. Robust Failure Diagnosis of Microservice System through Multimodal Data. IEEE Transactions on Services Computing, 2023 (CCF A, accepted, to appear).

  7. Chenyu Zhao, Minghua Ma, Zhenyu Zhong, Shenglin Zhang*, Zhiyuan Tan, Xiao Xiong, Lulu Yu, Jiayi Feng, Yongqian Sun, Yuzhi Zhang, Dan Pei, Qingwei Lin, Dongmei Zhang. Robust Multimodal Failure Detection for Microservice Systems. THE 29TH ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Long Beach, CA, USA, August 2023 (CCF A).

  8. Yongqian Sun, Minghan Liang, Zeyu Che, Dongwen Li, Tinghua Zheng, Shenglin Zhang*, Pengtian Zhu, Yuzhi Zhang, Dan Pei. Efficient Multivariate Time Series Anomaly Detection Through Transfer Learning for Large-Scale Web services. The 2023 IEEE International Conference on Web Services, Chicago, USA, July 2023 (CCF B)

  9. Yongqian Sun, Daguo Cheng, Tiankai Yang, Shenglin Zhang*, Man Zhu, Xiao Xiong, Qiliang Fan, Minghan Liang, Dan Pei, Tianchi Ma, Yu Chen. Efficient and Robust KPI Outlier Detection for Large-Scale Datacenters. IEEE Transactions on Computers, 2023 (CCF A).

  10. Zeyan Li, Junjie Chen, Yihao Chen, Chengyang Luo, Yiwei Zhao, Yongqian Sun, Kaixin Sui, Xiping Wang, Dapeng Liu, Xing Jin, Qi Wang, Dan Pei. Generic and Robust Root Cause Localization for Multi-Dimensional Data in Online Service Systems, Journal of Systems & Software, 2023, (CCF B)

  11. Yiran Cheng, Bo Cheng, Pengxiang Jin, Yongqian Sun*, Xiaohui Nie, Nengwen Zhao, Shenglin Zhang, Dan Pei. Effective Attribute Selection for Multi-dimensional Root Cause Analysis. IEEE International Symposium on Software Reliability Engineering (ISSRE), Charlotte, North Carolina, USA, October 31 – November 3, 2022 (CCF B).

  12. Shenglin Zhang, Zhenyu Zhong, Dongwen Li, Qiliang Fan, Yongqian Sun*, Man Zhu, Yuzhi Zhang, Dan Pei, Jiyan Sun, Yinlong Liu, Hui Yang, Yongqiang Zou. Efficient KPI Anomaly Detection Through Transfer Learning for Large-Scale Web Services. IEEE Journal on Selected Areas in Communications (JSAC), vol. 40, no. 8, pp. 2440-2455, Aug. 2022.(CCF A, SCI Indexed, Impact Factor: 9.144).

  13. 孙永谦,张茹茹,林子涵,张圣林,谭智元,张玉志. KPI异常检测方法评估. 数据与计算发展前沿》先进智能计算平台及应用专刊,2022年6月,第4卷第3期,p46-65(CCF T3类期刊).

  14. Yongqian Sun, Kunlin Jian, Liyue Cui, Guifei Jiang, Shenglin Zhang*, Yuzhi Zhang, Dan Pei. Online Malicious Domain Name Detection with Partial Labels for Large-Scale Dependable Systems. The Journal of Systems & Software (JSS), 190: 1-12, 2022 (CCF B, SCI中科院2区, Impact Factor: 2.829).

  15. Yongqian Sun, Daguo Cheng, Pengxiang Jin, Quan Ding, Shenglin Zhang*, Xu Chen, Yuzhi Zhang, Minghan Liang, Dan Pei, Jianyan Zheng, Sen Luo, Xinyu Tang. Robust Anomaly Clue Localization of Multi-dimensional Derived Measure for Online Video Services. IEEE Transactions on Services Computing (TSC), 2022.  (CCF A, SCI中科院1区, Impact Factor: 8.21).

  16. Shenglin Zhang, Dongwen Li, Zhenyu Zhong, Jun Zhu, Minghan Liang, Jiexi Luo, Yongqian Sun*, Ya Su, Sibo Xia, Zhongyou Hu, Yuzhi Zhang, Dan Pei, Jiyan Sun and Yinlong Liu. Robust System Instance Clustering for Large-Scale Web Services. The Web Conference (WWW), Virtual Conference, April 25-29, 2022 (CCF A).

  17.      孙永谦; 张茹茹; 林子涵; 张圣林; 谭智元; 张玉志. KPI 异常检测方法评估. 数据与计算发展前沿, 2022, 4(3): 46-65. (CCF T3)

  18.      李思毅; 马诗雨; 崔丽月; 张圣林; 孙永谦; 张玉志. 微服务架构下的根因定位方法综述. 数据与计算发展前沿, 2022, 4(3): 78-89. (CCF T3)

  19. Shenglin Zhang, Chenyu Zhao, Yicheng Sui, Ya Su*, Yongqian Sun, Yuzhi Zhang, Dan Pei, Yizhe Wang. “Robust KPI Anomaly Detection for Large-Scale Software Services with Partial Labels”.IEEE International Symposium on Software Reliability Engineering (ISSRE), October 25-28, 2021, Wuhan, China (CCF B).

  20. Ruming Tang, Cheng Huang, Yanti Zhou, Hanwen Wu, Xianglin Lu, Yongqian Sun, Qi Li, Jinjin Lin, Weiyao Huang, Siyuan Sun, Dan Pei. "A Practical Machine Learning-Based Framework to Detect DNS Covert Communication in Enterprises". SecureComm 2020. Online, October, 2020. (CCF C)

  21. 苏金树,赵宝康,董德尊,吕高锋,文梅,魏亮,彭伟,李福亮,张圣林,孙永谦. 新一代数据中心网络技术研究进展.《CCF 2019-2020中国计算机科学技术发展报告》,机械工业出版社,2020.10.

  22. Yuan Meng, Shenglin Zhang*, Yongqian Sun, Ruru Zhang, Zhilong Hu, Yiyin Zhang, Chenyang Jia, Zhaogang Wang, Dan Pei. "Localizing Failure Root Causes in a Microservice through Causality Inference".  International Symposium on Quality of Service (IWQoS), Hangzhou, China, June 2020 (CCF B)

  23. Shenglin Zhang, Ying Liu, Weibin Meng, Jiahao Bu, Sen Yang, Yongqian Sun*, Dan Pei, Jun Xu, Yuzhi Zhang, Lei Song, Ming Zhang. "Efficient and Robust Syslog Parsing for Network Devices in Datacenter Networks". IEEE Access, Volume 8, pp 30245-30261, February 2020 (JCR Zone 2, SCI Indexed, IF: 4.098)

  24. 张圣林,林潇霏,孙永谦*,张玉志,裴丹. 基于深度学习的无监督KPI异常检测. 《数据与计算发展前沿》, 2(3): 87-100, 2020.6 (CCF T3类期刊)

  25. 张圣林,李东闻,孙永谦*,孟伟彬,张宇哲,张玉志,刘莹,裴丹. 面向云数据中心多语法日志通用异常检测机制. 《计算机研究与发展》,57(4):778-790, 2020.(CCF A类 中文)

  26. Ruming Tang, Zheng Yang, Zeyan Li, Weibin Meng, Haixin Wang, Qi Li, Yongqian Sun, Dan Pei, Tao Wei, Yanfei Xu, Yan Liu. "ZeroWall: Detecting Zero-Day Web Attacks through Encoder-Decoder Recurrent Neural Networks". IEEE International Conference on Computer Communications (INFOCOM), Beijing, China, Apr 27-30, 2020 (CCF A)

  27. Zeyan Li, Chengyang Luo, Yiwei Zhao, Yongqian Sun*, Kaixin Sui, Xiping Wang, Dapeng Liu, Xing Jin, Qi Wang, Dan Pei, "Generic and Robust Localization of Multi-Dimensional Root Causes",IEEE International Symposium on Software Reliability Engineering (ISSRE), Berlin, Germany, October 2019 (CCF B)

  28. Yuan Meng,Shenglin Zhang*, Zijie Ye, Benliang Wang, Zhi Wang, Yongqian Sun, Qitong Liu, Shuai Wang, Dan Pei. “Causal Analysis of the Unsatisfying Experience in Realtime Mobile Multiplayer Games in the Wild”. IEEE International Conference on Multimedia and Expo (ICME), Shanghai, China, July 2019 (CCF B)

  29. Dapeng Liu, Youjian Zhao, Haowen Xu, Yongqian Sun, Dan Pei, Jiao Luo, Xiaowei Jing, Mei Feng, “Opprentice: Towards Practical and Automatic Anomaly Detection Through Machine Learning”, ACM The 2015 Internet Measurement Conference 2015 (IMC), Tokyo, Japan, Oct 2015. (CCF B 类会议)

  30. Guo Chen, Dan Pei, Youjian Zhao and Yongqian Sun, “Designing Buffer Capacity of Crosspoint-Queued Switch”, The 11th IFIP International Conference on Network and Parallel Computing (NPC), Ilan, Taiwan, Sep 2014. (CCF C 类会议)


科研项目、成果、获奖、专利等情况

主要科研项目


  1. 全链路压测演练场景下智能辅助性能工程,CCF-华为胡杨林基金软件工程专项,2023-2024,项目负责人

  2. 基于操作系统通用QoS指标特征反映业务状况的研究, 腾讯基础平台技术犀牛鸟专项研究计划,2023-2024,项目负责人

  3. 服务变更评估方法研究开发,云账户技术(天津)有限公司,2023.02-2024.06,项目负责人

  4. 面向多模态数据的大规模云平台故障诊断机制研究,国家自然科学基金面上项目,2023.1-2026.12,主要参与人

  5. 面向复杂异构指标的 Web 服务根因分析研究,天津市自然科学基金,2021.10-2023.9,项目负责人

  6. 基于指标和调用链的异常检测算法研究开发,云账户技术(天津)有限公司,2021.03-2022,项目负责人

  7. 复杂业务场景下的故障智能发现与动态决策系统方法研究,北京达佳互联信息技术有限公司(快手),2021.09-2021.08,项目负责人

  8. 基于强化学习的多维度KPI异常定位机制研究, 腾讯科技(深圳)有限公司,2020.03-2021.02,项目负责人

  9. 多维属性KPI的异常定位, 北京字节跳动网络技术有限公司,2019.06-2020.06,项目负责人

  10. 监控指标相关分析和挖掘,浙江天猫技术有限公司(阿里巴巴),2019.02-2020.01,项目负责人

  11. 在线视频服务的异常定位研究,广州虎牙信息科技有限公司,2019.03-2020.03,项目负责人

  12. 基于大数据分析的互联网服务性能管理体系结构研究,国家自然科学基金面上项目,2015.01-2018.12,参与


指导学生参与竞赛或项目

2022-2023,大学生创新创业训练计划 市级,指导2支队伍

2022美国大学生数学建模竞赛,指导1支队伍

2020美国大学生数学建模竞赛,指导1支队伍

2019美国大学生数学建模竞赛,指导2支队伍


个人曾获奖项


       2022-2023年,
南开大学智能基座产教融合协同育人基地 “金课”建设计划教改项目

2021-2022年,校级“一流课程建设”的教改项目

2021年,教育部-华为智能基座“栋梁之师”

2020年,华为云与计算“先锋教师”

2019,天津市“131”创新型人才培养工程第三层次 


专利

张圣林,李东闻,孙永谦,钟震宇,张玉志. 一种基于大规模网络的数据分类方法和装置. 中国发明专利, 202210306441.9, 2022.08.05, 2022-8-5, 已受理

张圣林,金鹏翔,孙永谦,张弼铖,林子涵,夏思博,金娃. 基于图卷积神经网络的微服务故障诊断方法、装置及设备. 中国发明专利, 202210736465.8,2022-6-27,已受理

孙永谦,金鹏翔,张圣林,夏思博,林子涵,张弼铖,金娃. 微服务故障检测方法、装置、存储介质及计算机设备.  中国发明专利, 202210705260.3, 2022-6-21, 已受理

孙永谦; 张茹茹; 张圣林; 熊潇; 林子涵; 杨晖; 李筱沛; 于洪建; 李晓桐 ; 周期性数据异常的检测方法、装置、电子设备及存储介质,  中国发明专利,202210423200.2,2022-4-21, 已受理

邹永强; 杨晖; 李筱沛; 于洪建; 李晓桐; 孙永谦; 张茹茹; 张圣林; 谭智元; 文雨晨 ; 单指标异常的检测方法、装置、电子设备及可读存储介质 申请人, 中国发明专利, 202210418771.7,2022-4-21,已受权

孙永谦;朱曼;张圣林. 通过AI的方式对软件变更后的健康状态进行评估的方法. 中国发明专利:2022101878107,2022.2,已受理

张圣林;李东闻;陈锐;孙永谦;张玉志. 基于迁移学习的日志异常检测方法. 中国发明专利:202010813538X,2020.8,已受理

陈云;王博;王栋;曲显平;郭宣佑;孙永谦;万阳沙.系统监控方法和装置. 2018.09.11-2038.09.11, 中国发明专利:CN201610814685.2,已授权




讲授课程

《算法导论》;

并行与分布式程序设计》;

《软件概论》;

《计算机概论》;


社会兼职

CCF互联网专委会执行委员

CCF软件工程专委会执行委员

CCF服务计算专委会执行委员

TPC Member of PRICAI 2023, ICA3PP 2023, HDR-Net 2019/2020, AIOps workshop 2020


IEEE Member

ACM Member






FaLang translation system by Faboba