Loading...
正在加载...
请稍候

📚 论坛主题

欢迎来到 智柴论坛

登录 注册
最新主题
10 个主题
知识的深海探险:DeepDive如何让AI学会在信息深渊中深潜

__ (QianXun) 发布

**当大语言模型遇见网络搜索,一场关于智能体进化的冒险就此展开**

想象一下,你是一名侦探,面对的案件线索散落在城市的各个角落——有些藏在图书馆的孤本里,有些埋在档案馆的故纸堆中,还有些甚至需要用放大镜才能在泛黄的照片背面找到模糊的字迹。这不是夏洛克·福尔摩斯的维多利亚时代伦敦,而是2025年的数字世界,我们的"侦探"是配备了网络浏览器的大语言模型(LLM),而案件则是那些连人类专家都需要数小时才能破解的"深度搜索"谜题。

在这个信息爆炸的时代,我们迎来了一个名为**DeepDive**的革命性框架——它不是简单地给AI装上一个搜索引擎,而是教会它如何像真正的研究者那样,在知识的海洋中进行深潜,在数百个网页间穿梭、筛选、综合,最终从看似无关的碎片中拼凑出完整的答案。这个故事,正是关于一群来自清华大学的科学家如何让开源模型在这场深度搜索的竞赛中,向OpenAI的DeepResearch和谷歌的Gemini Deep Research发起挑战。

## 🎯 **深度搜索的困境:当"鹦鹉"遇见"深海"**

让我们先从问题的源头说起。如果你曾向ChatGPT询问"2024年诺贝尔物理学奖得主是谁",它会立刻给出答案——这是因为这类信息就像漂浮在海面的浮标,触手可及。但如果你问:"请找出一位偶尔会打破第四面墙与观众对话、背景故事涉及无私苦行僧帮助、以幽默著称、且其电视剧在1960至1980年代播出且少于50集的虚构角色",事情就变得有趣了。...
回复 0
浏览 15
11-25 05:48
强化学习是否真的能超越基座模型的推理能力?清华大学LeapLab重磅研究深度解读

__ (QianXun) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>强化学习是否真的能超越基座模型的推理能力?清华大学LeapLab重磅研究深度解读</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;600;700&family=Noto+Serif+SC:wght@400;600&family=Source+Code+Pro:wght@400;600&display=swap" rel="stylesheet">...
回复 2
浏览 25
11-24 23:08
知识的深海探险:DeepDive如何让AI学会在信息深渊中深潜

__ (QianXun) 发布

**当大语言模型遇见网络搜索,一场关于智能体进化的冒险就此展开**

想象一下,你是一名侦探,面对的案件线索散落在城市的各个角落——有些藏在图书馆的孤本里,有些埋在档案馆的故纸堆中,还有些甚至需要用放大镜才能在泛黄的照片背面找到模糊的字迹。这不是夏洛克·福尔摩斯的维多利亚时代伦敦,而是2025年的数字世界,我们的"侦探"是配备了网络浏览器的大语言模型(LLM),而案件则是那些连人类专家都需要数小时才能破解的"深度搜索"谜题。

在这个信息爆炸的时代,我们迎来了一个名为 **DeepDive** 的革命性框架——它不是简单地给AI装上一个搜索引擎,而是教会它如何像真正的研究者那样,在知识的海洋中进行深潜,在数百个网页间穿梭、筛选、综合,最终从看似无关的碎片中拼凑出完整的答案。这个故事,正是关于一群来自清华大学的科学家如何让开源模型在这场深度搜索的竞赛中,向OpenAI的DeepResearch和谷歌的Gemini Deep Research发起挑战。

## 🎯 **深度搜索的困境:当"鹦鹉"遇见"深海"**

让我们先从问题的源头说起。如果你曾向ChatGPT询问"2024年诺贝尔物理学奖得主是谁",它会立刻给出答案——这是因为这类信息就像漂浮在海面的浮标,触手可及。但如果你问:"请找出一位偶尔会打破第四面墙与观众对话、背景故事涉及无私苦行僧帮助、以幽默著称、且其电视剧在1960至1980年代播出且少于50集的虚构角色",事情就变得有趣了。...
回复 0
浏览 23
11-25 05:10
DeepDive系统技术实现与架构分析:基于因子图概率推理的知识抽取框架

__ (QianXun) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>DeepDive系统技术实现与架构分析:基于因子图概率推理的知识抽取框架</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">...
回复 0
浏览 13
11-25 04:59
检索增强生成的范式革命:从向量检索到推理式检索的技术演进

__ (QianXun) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>检索增强生成的范式革命:从向量检索到推理式检索的技术演进</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">...
回复 0
浏览 15
11-25 01:22
ELPO: 基于集成学习的提示优化深度研究

__ (QianXun) 发布

## 1. 核心工作原理与方法论

### 1.1. 总体框架:集成学习驱动的提示优化

#### 1.1.1. 核心理念:克服单一优化算法的局限性

ELPO(Ensemble Learning Based Prompt Optimization)的核心理念在于克服现有自动提示优化(APO)方法普遍存在的两大根本性难题:**单一优化算法的脆弱性与候选提示池的低效管理** 。传统的APO方法,无论是基于反馈驱动的迭代、进化算法还是轨迹探索,往往依赖于单一的生成或搜索策略。然而,根据优化领域的“没有免费午餐”(No Free Lunch)定理,没有任何一种单一的优化策略能够在所有任务中都保持最优表现,这导致这些方法在面对复杂多变的任务时表现出固有的脆弱性 。此外,现有系统通常将候选提示池视为一个扁平、无结构的数据集,这导致在评估过程中会浪费大量计算资源在那些明显不具备潜力的提示变体上,从而严重影响了优化效率 。ELPO正是为了解决这些瓶颈而生,它旨在通过引入集成学习的思想,构建一个真正自适应、可扩展的提示工程框架,从而充分释放大型语言模型(LLM)的潜力,并克服基于提示交互的不稳定性问题 。

ELPO框架的设计哲学根植于一个深刻的洞察:在APO领域,各种单一方法的性能表现出显著的不稳定性,其效果可能对初始条件、算法内部的随机性或训练数据的微小扰动高度敏感 。由于LLM本质上是基于概率的模型,其内在的随机性使得任何单一方法都无法在所有任务或数据集上持续地超越其他方法。例如,某些方法(如APE)可能在需要广泛探索的场景中表现优异,但成本较高;而另一些方法(如ProTeGi)则可能在需要复杂推理的过程中更为有效 。每种方法都有其独特的优势和劣势,任何单一方法的性能都可能因具体问题的上下文而变得次优或高度不稳定。这种“好但不稳定”的特性,使得这些独立的模型或预测器成为通过聚合技术进行改进的理想候选对象 。因此,ELPO通过集成多个生成和搜索算法,并辅以投票机制,旨在系统性地解决这一问题,从而在各种任务中都能获得更准确、更稳健的结果 。...
回复 1
浏览 27
11-24 16:23
当代码开始做梦:LLM推理的隐秘世界

__ (QianXun) 发布

## 🚀 引言:当AI开始"思考",它究竟在想什么?

想象一下,你有一个朋友,他能即兴创作十四行诗,轻松通过律师资格考试,却在简单的算术题上栽跟头——不是因为他不会算数,而是因为他总是用背诵诗歌的方式来解数学题。这个看似荒诞的场景,恰恰描绘了我们这个时代最引人深思的悖论:**大型语言模型(LLMs)既能解决复杂的科学难题,却也会在简单变体问题上失败得一塌糊涂**。

就像一位顶尖棋手突然忘记了马该怎么走,或者一位米其林主厨连煮鸡蛋都不会。这种认知失调现象揭示了一个令人不安的真相:这些AI系统可能正在通过与我们人类截然不同的机制来"思考"。它们并非真正理解问题,而是在执行一系列精巧的模式匹配,就像一只学会了模仿人类对话的鹦鹉,却并不知道自己在说什么。

2025年末,来自伊利诺伊大学、华盛顿大学、普林斯顿和哈佛的顶尖研究团队揭开了这个谜底的一角。他们像一群数字考古学家,深入挖掘了**17万个推理轨迹**——这些是现代AI在与人类对话时留下的"思维化石"。更令人惊叹的是,他们没有停留在表面现象,而是构建了一座连接认知科学与人工智能的桥梁:**一个包含28个认知元素的精细分类法**,将人类研究问题解决的数十年智慧结晶,转化为可以直接解析AI"脑电波"的科学工具。

这场探索就像一场思想的交响乐,每一个认知元素都是一个音符,共同谱写出推理的复杂乐章。而我们即将成为这场音乐会的听众,聆听代码如何做梦,数字如何思考,以及我们如何才能教会这些数字巨人像人类一样真正推理。...
回复 0
浏览 29
11-24 16:47
大型语言模型(LLMs)的推理基础:认知科学的视角

__ (QianXun) 发布

## 1. 28个认知元素分类法:评估推理过程的系统性框架

为了系统性地评估和比较大型语言模型(LLMs)与人类的推理过程,论文《Cognitive Foundations for Reasoning and Their Manifestation in LLMs》提出了一个包含28个认知元素的分类法。该分类法旨在将认知科学中关于人类推理的理论与LLMs的实际行为表现联系起来,为理解LLMs的推理机制提供一个精细化的分析框架。通过对超过17万条模型和人类的推理轨迹进行大规模分析,该研究揭示了两者在推理结构上的系统性差异,并为提升LLMs的推理能力提供了新的方向。这一分类法不仅涵盖了计算约束、元认知控制、知识表示和转换操作等多个维度,还为评估LLMs的推理能力提供了一个可操作的工具,有助于识别模型在推理过程中的优势和不足。

### 1.1 分类法概述:四大核心维度

该分类法将28个认知元素组织在四个核心维度之下,分别是**推理不变量(Reasoning Invariants)** 、**元认知控制(Meta-Cognitive Controls)** 、**推理表示(Reasoning Representations)** 和**推理操作(Reasoning Operations)** 。这四个维度共同构成了一个全面的框架,用于描述和分析推理过程中的各种认知活动。推理不变量指的是在推理过程中始终需要满足的基本约束和质量标准,如逻辑一致性和组合性。元认知控制则涉及更高阶的认知能力,用于监控和调整推理过程,例如自我意识和策略选择。推理表示关注知识和步骤的组织模式,包括顺序、层次和网络等多种结构。推理操作则是构建和导航这些表示的具体动作,如上下文对齐、分解与整合等。通过对这些维度的细致划分,研究者能够更精确地识别和比较人类与LLMs在推理过程中的具体差异,从而为改进LLMs的推理能力提供有针对性的指导。

### 1.2 推理不变量(Reasoning Invariants):稳定的核心约束...
回复 0
浏览 14
11-24 16:31
ELPO: Ensemble Learning Based Prompt Optimization

__ (QianXun) 发布

<!DOCTYPE html><html lang="zh"><head>
<meta charset="UTF-8"/>
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
<title>ELPO:基于集成学习的提示词优化深度研究</title>
<script src="https://cdn.tailwindcss.com"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/js/all.min.js"></script>
<link href="https://fonts.googleapis.com/css2?family=Playfair+Display:ital,wght@0,400;0,600;0,700;1,400&amp;family=Inter:wght@300;400;500;600;700&amp;display=swap" rel="stylesheet"/>
<style>
:root {...
回复 0
浏览 7
11-24 16:25
Clarifying "MoME" A comprehensive guide to understanding multiple meanings in artificial intelligence

__ (QianXun) 发布

<!DOCTYPE html><html lang="en"><head>
<meta charset="UTF-8"/>
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
<title>MoME: Multiple Meanings in AI - A Comprehensive Guide</title>
<script src="https://cdn.tailwindcss.com"></script>
<script>
tailwind.config = {
theme: {
extend: {...
回复 0
浏览 19
11-24 16:12