<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>MindSearch: 模拟人类思维的人工智能搜索框架</title>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@300;400;500;700&display=swap" rel="stylesheet">
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<style>
:root {
--primary-color: #3f51b5;
--primary-light: #757de8;
--primary-dark: #002984;
--secondary-color: #009688;
--secondary-light: #52c7b8;
--secondary-dark: #00695c;
--text-primary: #212121;
--text-secondary: #757575;
--background-color: #f5f7fa;
--card-color: #ffffff;
--code-bg: #f5f5f5;
--border-color: #e0e0e0;
}
body {
margin: 0;
padding: 0;
font-family: 'Noto Sans SC', sans-serif;
background-color: var(--background-color);
color: var(--text-primary);
line-height: 1.6;
}
.poster-container {
width: 960px;
margin: 0 auto;
padding: 40px 0;
box-sizing: border-box;
}
.header {
text-align: center;
margin-bottom: 40px;
padding: 20px;
background: linear-gradient(135deg, var(--primary-color), var(--secondary-color));
border-radius: 12px;
color: white;
box-shadow: 0 4px 20px rgba(0, 0, 0, 0.1);
}
.title {
font-size: 42px;
font-weight: 700;
margin: 0;
line-height: 1.2;
}
.subtitle {
font-size: 22px;
font-weight: 400;
margin: 10px 0 0;
opacity: 0.9;
}
.section {
margin-bottom: 30px;
background-color: var(--card-color);
border-radius: 12px;
padding: 25px;
box-shadow: 0 2px 10px rgba(0, 0, 0, 0.05);
}
.section-title {
font-size: 28px;
font-weight: 700;
margin-top: 0;
margin-bottom: 15px;
color: var(--primary-color);
display: flex;
align-items: center;
}
.section-title .material-icons {
margin-right: 10px;
font-size: 28px;
}
.subsection {
margin-bottom: 20px;
}
.subsection-title {
font-size: 22px;
font-weight: 600;
margin-top: 0;
margin-bottom: 10px;
color: var(--secondary-color);
}
p {
margin-bottom: 15px;
font-size: 16px;
}
ul, ol {
padding-left: 25px;
margin-bottom: 15px;
}
li {
margin-bottom: 8px;
font-size: 16px;
}
.highlight {
background-color: rgba(255, 235, 59, 0.2);
padding: 2px 5px;
border-radius: 3px;
}
.code-block {
background-color: var(--code-bg);
border-radius: 8px;
padding: 15px;
margin: 15px 0;
overflow-x: auto;
font-family: 'Courier New', monospace;
font-size: 14px;
border-left: 4px solid var(--primary-color);
}
.code-block pre {
margin: 0;
white-space: pre-wrap;
}
.grid-container {
display: flex;
gap: 20px;
margin-bottom: 20px;
}
.grid-item {
flex: 1;
background-color: rgba(63, 81, 181, 0.05);
border-radius: 8px;
padding: 15px;
border: 1px solid rgba(63, 81, 181, 0.1);
}
.metric {
display: flex;
align-items: center;
margin-bottom: 10px;
}
.metric .material-icons {
margin-right: 8px;
color: var(--secondary-color);
}
.footer {
text-align: center;
margin-top: 40px;
color: var(--text-secondary);
font-size: 14px;
}
.architecture-diagram {
background-color: rgba(63, 81, 181, 0.05);
border-radius: 8px;
padding: 20px;
margin: 20px 0;
border: 1px dashed var(--primary-color);
}
.architecture-component {
background-color: white;
border-radius: 8px;
padding: 15px;
margin: 10px 0;
border-left: 4px solid var(--primary-color);
}
.quote {
font-style: italic;
border-left: 4px solid var(--secondary-color);
padding-left: 15px;
margin: 15px 0;
color: var(--text-secondary);
}
</style>
</head>
<body>
<div class="poster-container">
<header class="header">
<h1 class="title">MindSearch: 模拟人类思维的人工智能搜索框架</h1>
<p class="subtitle">思·索 — 通过多智能体框架实现深度网络信息搜索与整合</p>
</header>
<section class="section">
<h2 class="section-title"><i class="material-icons">lightbulb</i>简介与背景</h2>
<p>信息检索与整合是一项复杂的认知任务,消耗大量时间和精力。搜索引擎重塑了信息检索方式,但往往难以满足复杂的人类意图。受大型语言模型(LLMs)显著进展的启发,近期工作尝试通过结合LLMs和搜索引擎来解决信息检索与整合任务。然而,这些方法仍面临三大挑战:</p>
<ul>
<li><span class="highlight">复杂请求无法被搜索引擎一次性准确完整地检索</span></li>
<li><span class="highlight">需要整合的信息分散在多个网页中,夹杂大量噪音</span></li>
<li><span class="highlight">大量长内容网页可能迅速超过LLMs的最大上下文长度</span></li>
</ul>
<p>受人类解决这些问题时的认知过程启发,我们引入了MindSearch(思·索)来模拟人类在网络信息检索与整合中的思维过程,通过一个简单而有效的基于LLM的多智能体框架实现,该框架由WebPlanner和WebSearcher组成。</p>
</section>
<section class="section">
<h2 class="section-title"><i class="material-icons">architecture</i>整体架构</h2>
<p>MindSearch框架由两个主要组件组成:WebPlanner和WebSearcher。WebPlanner作为高级规划者,协调推理步骤和多个WebSearcher。WebSearcher执行精细的网络搜索,并将有价值的信息总结回规划者,形成一个简单而有效的多智能体框架。</p>
<div class="architecture-diagram">
<div class="architecture-component">
<h3>WebPlanner</h3>
<p>模拟人类思维进行问题推理,将用户查询分解为原子子问题作为图中的节点,并根据WebSearcher的搜索结果逐步扩展图。</p>
</div>
<div class="architecture-component">
<h3>WebSearcher</h3>
<p>负责每个子问题,执行分层信息检索,从搜索引擎中收集有价值的信息供WebPlanner使用。</p>
</div>
</div>
<p>MindSearch的多智能体设计使整个框架能够在3分钟内并行搜索和整合来自更大规模(例如超过300个)网页的信息,这相当于人类3小时的工作量。基于GPT-4o或InternLM2.5-7B模型,MindSearch在深度和广度方面都显示出显著的响应质量提升,无论是在封闭集还是开放集QA问题上。</p>
</section>
<section class="section">
<h2 class="section-title"><i class="material-icons">account_tree</i>WebPlanner: 通过图构建进行规划</h2>
<p>WebPlanner作为高级规划者,协调推理步骤并协调其他智能体。我们观察到,仅仅提示LLM规划整个数据工作流架构并不能产生令人满意的性能。具体来说,当前的LLMs难以分解复杂问题并理解它们的拓扑关系,导致粗粒度的搜索查询。</p>
<p>为了增强LLM解决复杂问题的能力,我们将问题解决过程建模为有向无环图(DAG)。给定用户问题Q,解决轨迹表示为G(Q) = ⟨V, E⟩,其中V是节点集合v,每个节点代表一个独立的网络搜索,包括一个辅助的START节点(初始问题)和一个END节点(最终答案)。E表示有向边,指示节点(搜索内容)之间的推理拓扑关系。</p>
<div class="code-block">
<pre><code># WebPlanner的图构建过程示例
# 步骤1: 添加根节点
graph.add_root_node("嫦娥六号返回月球背面样本的技术挑战")
# 步骤2: 添加子问题节点
graph.add_node("communication_challenges", "月球背面通信挑战")
graph.add_node("navigation_challenges", "月球背面导航挑战")
graph.add_node("sample_collection", "月球样本采集技术")
# 步骤3: 添加边表示依赖关系
graph.add_edge("root", "communication_challenges")
graph.add_edge("root", "navigation_challenges")
graph.add_edge("root", "sample_collection")
# 步骤4: 添加最终响应节点
graph.add_response_node("嫦娥六号任务的技术挑战与解决方案总结")</code></pre>
</div>
<p>利用当前LLMs在代码任务上的卓越表现,我们明确提示模型通过代码编写与图交互。为此,我们预定义了原子代码函数来向图中添加节点或边。在每一轮中,LLM首先读取整个对话,包括先前生成的代码和网络搜索结果,然后输出思维和用于在思维图上推理的新代码,这些代码通过Python解释器执行。在执行过程中,一旦节点被添加到推理图中,它会调用WebSearcher执行搜索过程并总结信息。</p>
<p>通过"代码即规划"过程,LLM能够充分利用其卓越的代码生成能力,有利于长上下文场景中的控制和数据流,从而在解决复杂问题上取得更好的性能。</p>
</section>
<section class="section">
<h2 class="section-title"><i class="material-icons">travel_explore</i>WebSearcher: 分层网络浏览</h2>
<p>WebSearcher作为一个复杂的RAG(检索-生成)智能体,具有互联网访问能力,基于搜索结果总结有价值的响应。由于网络上存在大量内容,LLMs难以在有限的上下文长度(例如8K tokens)内处理所有相关页面。为了解决这个问题,我们采用了一种简单而有效的粗到细选择策略。</p>
<div class="subsection">
<h3 class="subsection-title">分层检索流程</h3>
<ol>
<li><strong>查询重写</strong>:LLM基于WebPlanner分配的问题生成几个相似查询,以扩大搜索内容,从而提高相关信息的召回率。</li>
<li><strong>搜索内容聚合</strong>:这些查询通过各种搜索API(如Google、Bing和DuckDuckGo)执行,返回包括网页URL、标题和摘要的关键内容。</li>
<li><strong>详细页面选择</strong>:搜索结果根据网页URL自动合并,LLM被提示选择最有价值的页面进行详细阅读。</li>
<li><strong>最终总结</strong>:所选网页URL的完整内容被添加到LLM的输入中。阅读这些结果后,LLM基于搜索结果生成响应来回答原始问题。</li>
</ol>
</div>
<div class="code-block">
<pre><code># WebSearcher的分层检索过程示例
# 步骤1: 查询重写
queries = [
"嫦娥六号月球背面通信挑战",
"月球背面导航技术",
"月球样本采集方法"
]
# 步骤2: 搜索内容聚合
search_results = []
for query in queries:
results = search_engine_api(query)
search_results.extend(results)
# 步骤3: 详细页面选择
selected_pages = llm_select_valuable_pages(search_results)
# 步骤4: 最终总结
full_content = fetch_full_content(selected_pages)
summary = llm_summarize(full_content, original_question)</code></pre>
</div>
<p>这种分层检索方法显著降低了浏览大量网页的难度,并允许高效提取具有深度细节的高度相关信息。</p>
</section>
<section class="section">
<h2 class="section-title"><i class="material-icons">memory</i>多智能体上下文管理</h2>
<p>MindSearch提供了一个简单的多智能体解决方案,用于解决与搜索引擎相关的复杂信息检索与整合问题。这种范式自然地实现了不同智能体之间的长上下文管理,提高了整个框架的效率,特别是在需要模型快速阅读大量网页的情况下。</p>
<p>由于WebPlanner将搜索任务分配到独立的搜索智能体中,并且只依赖WebSearcher的搜索结果,WebPlanner可以纯粹专注于用户问题的分解和分析,而不会被过长的网络搜索结果分散注意力。同时,每个WebSearcher只需要搜索其分配的子查询内容,而不会被其他内容分散注意力。</p>
<p>得益于明确的角色分配,MindSearch在整个过程中大大减少了上下文计算,为LLMs的长上下文任务提供了高效的上下文管理解决方案。这种多智能体框架也为训练单个LLM提供了直接而简单的长上下文任务构建流程。</p>
<div class="quote">
"MindSearch在不到3分钟内收集和整合了来自300多个页面的相关信息,而人类专家完成类似的认知工作量大约需要3小时。"
</div>
</section>
<section class="section">
<h2 class="section-title"><i class="material-icons">analytics</i>实验结果</h2>
<p>我们在两个主要类别的问答(QA)任务上评估了MindSearch:封闭集QA和开放集QA,这反映了MindSearch的主观和客观判断。为了公平比较,所有模型只能通过BING搜索API访问互联网,不考虑额外的参考源。</p>
<div class="grid-container">
<div class="grid-item">
<h3>开放集QA评估</h3>
<p>我们精心策划了100个真实世界的人类查询,并收集了来自MindSearch(InternLM2.5-7b-chat)、Perplexity.ai(其Pro版本)和带有搜索插件的ChatGPT的响应。我们要求五位人类专家根据以下三个方面手动选择他们偏好的响应:</p>
<ul>
<li><strong>深度</strong>:答案的详尽性和深刻性</li>
<li><strong>广度</strong>:答案的范围和多样性</li>
<li><strong>事实性</strong>:答案的准确性和基于事实的程度</li>
</ul>
</div>
<div class="grid-item">
<h3>封闭集QA评估</h3>
<p>我们在各种封闭集QA任务上广泛评估了我们的方法,包括Bamboogle、Musique和HotpotQA。为了进一步验证我们方法的泛化性,我们选择了闭源LLM(GPT-4o)和开源LLM(InternLM2.5-7b-chat)作为我们的LLM后端。</p>
<div class="metric">
<i class="material-icons">trending_up</i>
<span>MindSearch在GPT-4o上比基线提高4.7%</span>
</div>
<div class="metric">
<i class="material-icons">trending_up</i>
<span>MindSearch在InternLM2-7b上比基线提高6.3%</span>
</div>
</div>
</div>
<p>实验结果表明,MindSearch在响应质量方面显示出显著优势,无论是在深度还是广度方面。此外,比较分析显示,人类评估者更偏好MindSearch的响应,而不是来自ChatGPT-Web(基于GPT-4o)和Perplexity Pro等现有应用的响应。这些发现表明,带有开源LLMs的MindSearch可以为AI驱动的搜索引擎提供高度竞争的解决方案。</p>
</section>
<section class="section">
<h2 class="section-title"><i class="material-icons">rocket_launch</i>应用前景</h2>
<p>MindSearch作为一个模拟人类思维的网络信息检索与整合框架,具有广阔的应用前景:</p>
<ul>
<li><strong>学术研究</strong>:帮助研究人员快速收集和整合跨学科信息,加速科研进程</li>
<li><strong>商业决策</strong>:为企业提供全面的市场分析和竞争情报,支持战略决策</li>
<li><strong>教育领域</strong>:为学生提供深入、全面的学习资料,促进知识理解</li>
<li><strong>新闻媒体</strong>:辅助记者进行深度调查报道,提供多角度信息整合</li>
</ul>
<p>未来,MindSearch可以进一步扩展以支持视觉输入,并能够与网页进行交互,这是现实世界应用中一个更有前景和更复杂的场景。我们相信,MindSearch为未来研究解决人类级别的复杂认知任务的多智能体框架铺平了道路。</p>
</section>
<footer class="footer">
<p>© 2025 MindSearch研究团队 | 更多信息请访问:https://github.com/InternLM/MindSearch</p>
</footer>
</div>
</body>
</html>
登录后可参与表态
讨论回复
1 条回复
QianXun (QianXun)
#1
11-23 02:34
登录后可参与表态