科学研究

科研新闻

当前您的位置: 首页 > 科学研究 > 科研新闻 > 正文

软件学院师生论文被数据挖掘领域顶会SIGKDD 2025录用

发布日期:2025-05-28 浏览量:


近日,南开大学软件学院智能运维实验室的论文《FlowXpert: Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution》被数据挖掘领域的CCF A类国际会议——ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD)2025录用。该会议将于2025年8月3日至8月7日在加拿大多伦多举行。以下是论文简介:


论文标题FlowXpert: Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution

作者:石彬鹏,罗宇,王静雅,赵咏欣,张圣林,郝博文,赵晨宇,孙永谦,张智,孙榕桦,李海华,宋伟,陈小龙,苗敬博,裴丹

作者单位:南开大学、华为、清华大学


Part.1 摘要

在大规模云服务系统中,故障管理因其专业性强、操作复杂而始终面临严峻挑战。尽管工作流可为故障处理提供清晰指引,但其手工编写过程耗时耗力、依赖专家经验,难以适应快速增长的运维需求。现有基于大语言模型large language model, LLM的自动化方法虽具一定能力,却常忽视排障所需的深层专业知识、领域规范,导致生成工作流的质量受限。

为此,文章提出FlowXpert ——一个专为故障排查工作流设计的智能编排框架。FlowXpert 首先构建以故障事件为核心的知识库,精确提取领域知识;然后通过强化学习机制,在AI反馈和偏好数据引导下,优化工作流生成与评估模块。此外,还构建了基准数据集 OpsFlowBench 及指标 STEPScore,综合评估其性能。实验结果显示,FlowXpert 在工作流编排质量和实用性方面均显著优于现有方案,并在华为云数据中心网络的生产环境中展现出了卓越的实际应用价值。


Part.2 背景与挑战

在大规模云服务系统中,高效地进行故障处理并保障服务可用性与稳定性至关重要。目前多数云服务厂商将故障排查过程抽象为结构化工作流,作为指导工程师和AI执行体(Executors)进行故障处理的核心工具。

传统依赖运维工程师手工编排故障处理流程的方式不仅耗时耗力,还难以应对复杂业务和多样的故障事件。尽管近年来LLM展现出卓越的任务理解与生成能力,但将其直接用于自动化的工作流编排仍存在以下挑战:

· 专业知识复杂性高:知识通常以文本形式分散于文档中。API定义受限、向量检索信息关联浅、图谱粒度不当,均难以精确描述复杂的专业知识。

· 领域需求合规性强:工作流需覆盖所有关键步骤,且需兼具可读性和可执行性。

· AI反馈可靠性低:在利用强化学习来提高工作流生成质量时,开源LLM担任反馈器时准确率有限,容易给出误导性的质量评价。


Part.3 核心方法与系统架构

为应对上述挑战,文章提出了一套“混合知识库+多智能体协同进化”的技术框架。


模块一:构建图与向量索引的混合知识库

研究团队设计了“故障事件感知节点”为核心的图结构,将每条故障经验拆解为故障节点及一系列属性字段。通过LLM自动抽取、填充、合并,以合适的粒度精准描述故障事件。与此同时,文档内容被切片后嵌入向量索引中,实现对语义广度的覆盖。通过图和向量混合检索提升了知识获取的深度与广度。


模块二:生成器(Planner)与评分器(Scorer)协同进化

系统引入两个智能体:Planner负责生成工作流;Scorer从多个维度为生成的工作流打分。两者通过数据合成的方式,结合强化学习中的PPO(Proximal Policy Optimization)和DPO(Direct Preference Optimization)相互微调,协同进化,提升工作流生成质量。



Part.4 实验验证与部署成效

为了评估FlowXpert的实际能力,研究团队基于华为云数据中心的交换机操作文档构建了一个覆盖56类常见故障、252个查询实例的数据集,OpsFlowBench,并提出专门指标STEPScore用于衡量工作流质量,即关键步骤的精度和召回率。

与其他方法相比,FlowXpert综合表现最优,尤其在“关键步骤召回率”方面极具优势,体现了其在真实运维任务中的实用价值。此外,FlowXpert为华为云数据中心网络生产环境中10周


Part.5 研究意义与展望

FlowXpert让LLM变成了“领域专家”。其在知识建构、反馈优化、多智能体协同等方面的探索,不仅适用于运维排障,还可进一步推广至其他应用场景。未来,研究团队将在新型故障处理、协同进化等方面进一步探索,持续增强FlowXpert在实战部署中的适用性与可靠性。