论文概要
研究领域: ML
作者: Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai
发布时间: 2026-06-11
arXiv: 2606.13669
中文摘要
当前基于 LLM 的研究智能体通过智能体编排取得了进展,但很大程度上忽视了科学知识编排。现有工作通常将论文简化为摘要、表面提及和扁平的引用边,省略了科学推理所需的关键实体、声明、证据、机制和方法谱系。为此,我们引入 Agents-K1,一个端到端的知识编排流程,将原始文档转换为智能体原生的科学知识图谱。Agents-K1 在一个统一的理论基础下整合三个组件:一个多模态解析器,其五模块模式捕获实体、多模态证据、引用和全文而非仅摘要的跨类型实体间关系;一个 4B 信息提取主干,在基于规则的奖励下使用 GRPO 训练;以及一个 graphanything CLI,一个统一网络搜索、多模态图检索和跨文档遍历的三源智能体接口。在此基础上,我们处理 246 万篇跨六个学科的科学论文以生成 Scholar-KG,我们发布其中 100 万篇论文的子集,完整的 Scholar-KG 可通过下面的 SCP 链接访问。同一流程可以扩展到通用领域语料库和模式一致的数据合成。大量实验表明,Agents-K1 在科学信息提取、知识图谱构建和多跳科学推理方面实现了优越性能。
原文摘要
Current LLM-based research agents have advanced through agent orchestration, yet largely overlook scientific knowledge orchestration. Existing works often reduce papers to abstracts, surface mentions, and flat \texttt{cites} edges, omitting key entities, claims, evidence, mechanisms, and method lineages essential for scientific reasoning. To this end, we introduce \textbf{Agents-K1}, an end-to-end knowledge orchestration pipeline that converts raw documents into agent-native scientific knowledge graphs. Agents-K1 integrates three components under a unifying theoretical foundation: a multimodal parser whose five-module schema captures entities, multimodal evidence, citations, and typed inter-entity relations across the full paper rather than abstracts alone; a 4B information-extraction back...
自动采集于 2026-06-15
#论文 #arXiv #ML #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。