中国科学院信息工程研究所王鑫团队论文被ICML2026录用--中国科学院信息工程研究所

首页

新闻动态

中国科学院信息工程研究所王鑫团队论文被ICML2026录用

发布日期：2026-06-17

来源：

字号：大中小

近日，中国科学院信息工程研究所王鑫课题组在本体构建与融合、知识图谱领域取得科研成果。论文《SCOPE and SCION: Benchmark and Auditable Pipeline for Schema Induction and Fusion from Text》被A类会议ICML2026（The Forty-Third International Conference on Machine Learning）录用。ICML（International Conference on Machine Learning）是机器学习领域最具影响力的国际学术会议之一。在学术地位上，它长期位居谷歌学术机器学习子类排名前列，且被中国计算机学会（CCF）列为最高级别的A类会议。

论文：《SCOPE and SCION: Benchmark and Auditable Pipeline for Schema Induction and Fusion from Text》

本体是基于规则约束的信息抽取和知识图谱构建的重要前置基础。现有大量信息抽取系统默认已有可用的实体类型、关系类型、事件类型和事件角色结构，但在真实场景中，本体设计、跨数据源对齐和长期维护通常成本高、速度慢，且不同数据源或领域之间容易存在不一致。针对这一问题，论文提出了本体构建评测基准 SCOPE（Schema Construction and Ontology Induction Pipeline Evaluation），用于评估从原始文本中自动归纳本体、并进一步与已有本体进行融合的能力。该基准覆盖 24 个公开信息抽取数据源，包括 15 个关系抽取数据源和 9 个事件抽取数据源，并采用仅使用训练集文本的设置，避免方法直接依赖测试标签或人工预设本体。

围绕该基准，论文进一步提出了结构挖掘与规则约束的本体归纳融合框架 SCION（Structural mining and contract-constrained Induction for Ontology constructiON and fusion。 SCION 首先从语料中构建实体、关系、事件和角色等候选空间，再将大语言模型的命名、合并与过滤过程严格限制在该候选空间内，并通过 JSON 契约、证据指针、确定性校验与回退机制保证输出的可解析性、可追溯性和可审计性。在已有基础本体可用的情况下，SCION 还可通过保守对齐和来源追踪机制，将自动归纳得到的本体与已有本体进行融合，从而支持跨源本体复用和知识图谱构建流程的长期维护。

该工作为从原始语料自动构建、评估和本体融合提供了系统化基准与可审计流水线，有助于降低知识图谱工程成本，提升知识图谱构建的自动化、可复现性和跨领域迁移能力。

该文章第一作者为博士生胡淼泊，指导老师为王鑫高级工程师。

附件下载：