科学研究

科研新闻

当前您的位置: 首页 > 科学研究 > 科研新闻 > 正文

软件学院师生论文被软件工程领域顶会ICSE 2026录用

发布日期:2025-12-23 浏览量:

近日,南开大学软件学院智能运维实验室的三篇研究论文成功被软件工程领域的CCF A类国际顶级会议—— IEEE/ACM 48th International Conference on Software Engineering (ICSE 2026) SEIP Track录用。该会议将于2026412日至18日在巴西里约热内卢Rio de Janeiro, Brazil)举行。以下是论文的简介:


论文标题:When LLMs Listen to Experts: Accurate Failure Diagnosis in Operating Systems


作者:赵咏欣,张圣林*,孙雨昕,辜文蔚,孙永谦,王禄平,施立,黄城,杨国东,张瓅玶,裴丹


作者单位:南开大学、阿里巴巴集团、清华大学


Part.1 摘要

高效的故障诊断对保障生产环境中操作系统的稳定性与可靠性至关重要。然而,传统依赖人工分析的方式难以应对日益复杂的故障同时,而现有自动化方法常因可解释性不足而难以获得信任受限。大语言模型(LLM)虽展现出强大语义理解与生成能力,但现有方案往往难以融合领域知识且缺乏有效的工业级交互机制。

为此,本研究提出OScope——一种基于LLM的自动化、可解释操作系统故障诊断框架。OScope通过历史故障案例库实现故障排除指南(Troubleshooting Guide,TSG)的精准检索,并引入标准化操作流程(Standard Operating Procedure,SOP)模板来规范诊断过程利用标准化操作流程(SOP)模板结构化诊断过程从而支持对诊断推理链的逐项验证与修正。此外,其人机协同机制允许运维工程师交互式优化诊断报告并提供反馈,提升结果准确性与可信度。

在阿里巴巴真实生产数据集上的实验表明,OScope在Top-5准确率(AC@5)上达到90%准确率,显著优于基线方法,验证了其在工业场景中的有效性与实用性。


Part.2 背景与挑战


在大型云原生环境中,操作系统故障频发,当前诊断主要依赖工程师手动排查,平均耗时约两小时,过程繁琐且易错。尽管自动化方法不断涌现,其“黑盒”特性仍难以获得工程师信任。利用大语言模型诊断面临以下挑战:一是通用LLM缺乏领域知识,不仅对团队积累的诊断知识难以有效复用,且时常输出模糊、不一致,难以生成准确、可操作的诊断建议;是现有系统多为单向输出,缺乏交互机制,制约诊断效率与工具可信度。


Part.3 核心方法与系统架构


   


OScope包含四个核心模块:

(1)预处理与特征提取模块:当故障警报触发后,系统自动从监控平台收集故障时间点前后数小时内的多模态可观测数据。随后,模块采用定制化的策略对不同数据进行预处理和异常检测,以提取能够有效表征系统异常行为的区分性特征。

(2)知识对齐与检索模块:为解决历史故障描述不一致的问题,该模块利用一个在领域数据上经过监督微调的“知识对齐器”模型。它能够将当前从多模态数据中提取的异常特征,与历史案例库中的症状描述进行语义对齐和标准化,然后生成高精度的查询向量,从知识库中精确检索最相关的历史排查指南

(3)SOP指导的诊断模块:首先,“诊断分析器”依据SOP模板,以思维链(CoT)的方式生成一个初步的、结构化的诊断推理链。接着,“报告验证器”对该推理链的每一步进行迭代式验证,并对照SOP知识库的内容进行修正与补充,从而确保诊断报告准确可靠。

(4)交互式解释与优化模块:该模块实现了“人在环路”(human-in-the-loop,HITL)的协作机制。系统生成的报告不仅为每个推论提供置信度评分,还附带了指向原始证据(如TSGs和SOPs文档)的链接,以增强结果的透明度和可追溯性。此外,工程师可以与系统进行多轮对话,就报告中的疑点进行澄清或细化查询,通过人机协作共同完善诊断结论。

Part.4 实验验证与部署成效


                           


研究团队在阿里巴巴生产环境的真实故障数据集上对OScope进行了全面评估。结果表明,OScope在根因定位的AC@5指标上达到90.1%,较最优基线方法提升20%。


此外,OScope已在阿里巴巴三个团队部署运行超过三个月,成功诊断67个关键故障。相比工程师平均112分钟的人工排查,OScope仅需1.5分钟即可完成诊断,显著提升故障处理效率,有效缓解工程师工作压力。


Part.5 研究意义与展望


本研究展示了大语言模型在故障诊断领域的强大潜力。OScope框架通过引入知识对齐、SOP指导的推理以及HITL在环路的交互机制,不仅显著提升了操作系统故障诊断的效率与准确性,更重要的是增强了诊断过程与结果的可解释性、可靠性和可操作性,为自动化软件工程方法在复杂工业场景的成功落地提供了宝贵范例。


未来,团队计划探索大语言模型与其他诊断技术的更深层次结合以期进一步提升诊断系统的综合性能。