在这个信息爆炸的时代,我们迎来了一个名为**DeepDive**的革命性框架——它不是简单地给AI装上一个搜索引擎,而是教会它如何像真正的研究者那样,在知识的海洋中进行深潜,在数百个网页间穿梭、筛选、综合,最终从看似无关的碎片中拼凑出完整的答案。这个故事,正是关于一群来自清华大学的科学家如何让开源模型在这场深度搜索的竞赛中,向OpenAI的DeepResearch和谷歌的Gemini Deep Research发起挑战。
在这个信息爆炸的时代,我们迎来了一个名为 **DeepDive** 的革命性框架——它不是简单地给AI装上一个搜索引擎,而是教会它如何像真正的研究者那样,在知识的海洋中进行深潜,在数百个网页间穿梭、筛选、综合,最终从看似无关的碎片中拼凑出完整的答案。这个故事,正是关于一群来自清华大学的科学家如何让开源模型在这场深度搜索的竞赛中,向OpenAI的DeepResearch和谷歌的Gemini Deep Research发起挑战。
为了系统性地评估和比较大型语言模型(LLMs)与人类的推理过程,论文《Cognitive Foundations for Reasoning and Their Manifestation in LLMs》提出了一个包含28个认知元素的分类法。该分类法旨在将认知科学中关于人类推理的理论与LLMs的实际行为表现联系起来,为理解LLMs的推理机制提供一个精细化的分析框架。通过对超过17万条模型和人类的推理轨迹进行大规模分析,该研究揭示了两者在推理结构上的系统性差异,并为提升LLMs的推理能力提供了新的方向。这一分类法不仅涵盖了计算约束、元认知控制、知识表示和转换操作等多个维度,还为评估LLMs的推理能力提供了一个可操作的工具,有助于识别模型在推理过程中的优势和不足。