科学研究

科研新闻

当前您的位置: 首页 > 科学研究 > 科研新闻 > 正文

bw西汉姆联两篇论文被软件工程领域CCF A类国际会议 FSE 2026录用

发布日期:2026-04-16 浏览量:

bw西汉姆联两篇论文被软件工程领域CCF A类国际会议
FSE 2026录用

近日,bw西汉姆联智能运维实验室的论文被服务计算与软件工程领域CCF A 类国际期刊—IEEE Transactions on Services Computing录用。以下是论文的简介:

论文标题:LLM-Enhanced Failure Localization in Microservices: Integrating Multi-Modal Data and Expert Interpretation

作者:钟震宇符偌玮马明华张圣林*孙永谦,Chetan Bansal,裴丹

作者单位:bw西汉姆联、微软、清华大学

摘要

随着微服务架构在云计算与大型在线系统中的广泛应用,系统故障定位变得愈发复杂关键。传统方法往往依赖单一模态数据,难以全面刻画系统异常,而现有基于大语言模型的方法又面临多模态数据融合能力不足与可解释性欠缺等问题。

为此,研究团队提出了一种融合大语言模型与传统 AIOps 方法的智能故障定位系统——LocaleXpert。该系统通过构建多模态数据到自然语言的统一表示,并引入多专家智能体协同分析机制,实现对日志、指标与调用链数据的联合建模与推理。同时,系统具备较强的可解释性,可生成清晰、可操作的诊断结果。

实验结果表明,LocaleXpert 在准确率与可解释性方面均显著优于现有方法,并已在微软 AIOpsLab 平台中完成验证,展现出良好的实际应用价值。

背景与挑战

在现代微服务系统中,单次故障往往涉及多个服务实例与复杂调用链,其影响可能同时体现在日志、指标与调用链等多种数据中。然而,传统方法通常仅依赖单一数据源,难以全面捕捉故障特征。

另一方面,尽管大语言模型在自然语言理解与推理方面表现出强大能力,但其在处理结构化监控数据(如指标与调用链)时存在天然局限,同时缺乏对诊断过程的系统性解释,难以满足工程实践中对可信性的要求。

此外,复杂系统中“相关性”与“因果性”的区分亦是一大挑战,如何从海量监控数据中准确识别真正的根因,仍是当前研究的核心问题之一。

核心方法与系统架构

   

图 1:LocaleXpert 框架图

LocaleXpert 采用“多模态处理 + 多专家协同”的整体架构,主要包括以下关键模块:

1.多模态数据统一表示:将指标与调用链等结构化数据转化为自然语言描述,使大语言模型能够有效处理;

2.多专家智能体协同分析:构建日志专家、指标专家、调用链专家等多个智能体,分别对不同模态数据进行分析;

3.外部故障定位模块融合:结合传统 AIOps 方法(如基于指标与调用链的定位算法)提供候选根因;

4.解释性推理模块:对诊断过程进行结构化解释,明确“观察—推理—结论”的完整链路,提高结果可信度。

该架构通过将大语言模型的推理能力与传统方法的可靠性相结合,实现了性能与可解释性的统一。

实验验证与部署成效




1故障定位性能表现FL:外部故障定位模块

                           

2Trace专家推理表现

                           

3Metric专家推理表现

                           

4Log专家推理表现

                           

研究团队在多个真实与模拟数据集上对 LocaleXpert 进行了系统评估,包括 GAIACCB Cloud 等典型微服务数据集。实验结果表明:

在故障定位任务中, LocaleXpert Top 3 准确率上显著优于现有 LLM 方法(如ReAct),在复杂场景中优势更加明显;在推理质量方面,其生成的诊断解释在语义一致性与工程可读性上均显著提升;在微软 AIOpsLab 平台的实际部署中,系统能够稳定处理多种类型的微服务故障,并提供清晰的定位结果与分析依据。

此外,实验还验证了系统在不同模型规模下的性能-效率权衡能力,为实际部署提供了参考依据。

研究意义与展望

本研究探索了大语言模型在微服务故障定位场景中的系统化应用路径,提出了一种融合多模态数据处理、专家协同推理与可解释分析的统一框架,为 AIOps 领域提供了新的技术范式。

研究表明,单纯依赖大语言模型或传统方法均存在局限,而二者的深度融合能够在保证准确性的同时显著提升系统可解释性与实用性。

未来,研究团队将进一步探索轻量化模型部署方案,以降低计算资源开销,并研究更高效的人机协同机制,使系统能够在真实生产环境中发挥更大的价值,推动智能运维向自动化与可解释方向持续发展。