



一、实验室概况与核心目标
南开大学智能运维课题组(AIOPs 实验室)致力于探索 AIOps 前沿技术,官网为[https://nkcs.iops.ai/](https://nkcs.iops.ai/)。其研究聚焦云平台、数据中心、操作系统等 IT 系统的智能运维,涵盖故障检测、诊断、定位、处置、预测及用户体验评估等核心领域,通过机器学习、深度学习、大语言模型等技术挖掘运维数据规律,旨在提升系统可靠性、稳定性与安全性。
二、多元科研平台支撑
实验室依托南开大学软件学院,整合先进计算与关键软件(信创)海河实验室、天津市软件体验与人机交互重点实验室、数据与智能系统安全教育部重点实验室等资源,形成多学科交叉融合的研究生态,为智能运维技术的基础研究与应用创新提供了坚实的平台保障。
三、核心团队与科研力量
团队核心成员包括软件学院副院长张圣林(副教授、博导)、孙永谦(副教授、博导),带领 50余 名博士研究生与硕士研究生组成研发梯队。顾问科学家阵容强大,涵盖南开大学讲席教授张玉志、张海宁,清华大学长聘副教授裴丹,南开大学英才教授田军等,兼具学术深度与产业经验,助力团队把握行业前沿方向。
四、学术积淀与科研实践
实验室在智能运维领域累计发表论文 70 余篇,其中 CCF A 类 36 篇、B 类 26 篇,申请发明专利 13 项(授权 5 项),成果见于 IEEE TC、KDD、WWW 等顶级期刊与会议。科研项目覆盖国家自然科学基金、天津市基金及华为、腾讯、阿里等企业合作项目 40 余项,深度参与国家重点研发计划,形成 “基础研究 — 技术转化 — 产业应用” 的全链条布局。
五、行业影响力与社会贡献
团队获中国电子学会科技进步一等奖、天津市科技进步一等奖等省部级奖励,四度摘得国际软件可靠性会议 ISSRE 最佳论文奖(中国大陆唯一),并获华为 “最佳技术合作教授”、麒麟软件 “突出贡献奖”。同时,积极推动学术生态建设,联合发起 CCF 智能运维挑战赛与 OpenAIOps 社区,核心成员担任CCF 互联网专委、服务计算专委、软件工程专委常委、执行委员等,助力国内外智能运维领域的协同创新。
六、行业挑战与研究路径
面对在线服务故障频发、定位耗时的痛点(如滴滴、ChatGPT 系统崩溃案例),实验室针对数百万时序指标数据噪声大、TB 级日志语义复杂、人工根因定位低效等核心挑战,提出 “行为建模 + 因果推理” 两阶段方法论,通过单组件检测、多模态融合、跨组件推理分层次攻克技术瓶颈,目标缩短故障定位时间,提升运维效率。
七、核心技术突破与应用落地
实验室形成三大创新成果:其一,基于生成模型的指标异常检测技术,融合变分自编码器与压缩感知,解决指标噪声与概念偏移问题,F1 值提升 206%,部署于中国移动、字节跳动等企业;其二,基于语言模型的日志检测方法,通过上下文语义解析与多模态融合,F1 值提升 33%,获华为核心奖项;其三,基于因果推理的根因定位技术,利用贝叶斯模型与关联规则挖掘,Top-1 准确率提升 52%,服务于华为、阿里等企业。当前,团队正推进基于 LLM 的运维大模型研究,结合私域数据与公域语料,实现人机协同运维,已与多家头部企业开展合作,推动行业智能化升级。