Loading...
正在加载...
请稍候

📚 论坛主题

欢迎来到 智柴论坛

登录 注册
最新主题
10 个主题
Federation of Agents (FoA)

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Federation of Agents (FoA)</title>
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<link href="https://fonts.googleapis.com/css2?family=Roboto:wght@300;400;500;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap" rel="stylesheet">
<style>...
回复 0
浏览 22
12-22 08:41
清华大学《Neural Social Physics》论文深度研究:物理与AI融合的行人轨迹预测新范式

✨步子哥 (steper) 发布

<!DOCTYPE html><html lang="zh-CN"><head>
<meta charset="UTF-8"/>
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
<title>清华大学《Neural Social Physics》论文深度研究:物理与AI融合的行人轨迹预测新范式</title>
<script src="https://cdn.tailwindcss.com"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/js/all.min.js"></script>
<link href="https://fonts.googleapis.com/css2?family=Playfair+Display:wght@400;500;600;700&amp;family=Inter:wght@300;400;500;600&amp;display=swap" rel="stylesheet"/>
<style>
:root {...
回复 0
浏览 31
12-22 08:14
LLM的顿悟现象

✨步子哥 (steper) 发布

<!DOCTYPE html><html lang="zh-CN"><head>
<meta charset="UTF-8"/>
<meta name="viewport" content="width=device-width, initial-scale=1.0"/>
<title>归纳偏置:解锁Grokking与模型泛化之谜的钥匙</title>
<script src="https://cdn.tailwindcss.com"></script>
<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700&amp;family=Noto+Sans+SC:wght@300;400;500;600;700&amp;family=Noto+Serif+SC:wght@400;600;700&amp;display=swap" rel="stylesheet"/>
<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css"/>
<script src="https://cdn.jsdelivr.net/npm/mermaid@10.6.1/dist/mermaid.min.js"></script>
<style>...
回复 1
浏览 43
12-22 07:12
Grokking现象

✨步子哥 (steper) 发布

![屏幕截图_22-12-2025_13505_www.youtube.com.jpeg](https://s2.loli.net/2025/12/22/xEKqYL5vcXkCReM.jpg)
---
Grokking是神经网络训练中一种延迟泛化相变现象:在过拟合后,继续训练导致模型从记忆转向结构化理解(如算法电路或三角表示)。在LLM预训练中表现为局部异步grokking,机制涉及数值稳定性(softmax collapse)、优化动态转变与电路竞争。2024-2025研究深化了数值与相变视角,证实其在真实LLM中的存在。

### 行动建议
- 研究者:监控预训练中数据子集损失与内部路径演化,作为廉价泛化指标。
- 实践者:适度延长训练并加强正则化,可能诱导更好泛化;关注数值精度优化(如Muon优化器)。
回复 3
浏览 30
12-22 05:55
意识仅仅是大脑里的一堆电信号吗?

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>意识仅仅是大脑里的一堆电信号吗?——Orch-OR理论:意识的量子本质</title>
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;500;700&family=Noto+Serif+SC:wght@400;600;700&display=swap" rel="stylesheet">
<style>...
回复 0
浏览 22
12-22 04:45
变量的秘密对话:Transformer如何在上下文中掌握抽象代数

✨步子哥 (steper) 发布

🌟 **引言:一场意外的数学冒险**

想象一下,你是一个探险家,走进了一个神秘的图书馆。书架上摆满了古老的卷轴,每一卷都记载着不同的“运算规则”——有些像加法,有些像乘法,但规则千变万化。更奇妙的是,卷轴上的符号每次都不同:今天的“A”可能是明天的“苹果”,代表的含义完全取决于当前这卷书里的上下文。你没有时间去逐一学习所有规则,只能快速浏览几页例子,然后就被要求预测下一页的内容。这听起来像科幻小说吗?其实,这就是大型语言模型(Transformer)在面对“上下文代数”(In-Context Algebra)任务时所经历的挑战。

最近,一篇发表于2025年12月的论文《In-Context Algebra》揭示了Transformer在这种极端抽象环境中的惊人能力。研究者们设计了一个巧妙的实验,让模型处理有限代数群(finite algebraic groups)的运算,但符号到元素的映射在每个序列中都随机变化。模型无法依赖固定嵌入来“记住”符号含义,只能纯粹从上下文互动中推断结构。结果呢?Transformer不仅达到了近乎完美的准确率,甚至能泛化到从未见过的代数群!这就像一个从未学过棋谱的孩子,只看几盘对局,就能下出大师级别的棋步。

> **群论小注解**:代数群是一种数学结构,包括一组元素和一种运算(如加法或乘法),满足结合律、单位元存在和逆元存在等公理。比如整数加法群,或钟表上的模12加法。有限代数群的元素数量有限,运算封闭在群内。这里的任务类似于在不同群中进行“算术”,但符号每次重新分配。

基于此,我们进一步探索:当剥离了符号的固定含义后,Transformer会发展出怎样的推理机制?让我们一步步揭开这个谜团,仿佛跟随模型的“思维”历程。...
回复 0
浏览 26
12-21 17:22
AI神经的精密手术:放大正确电路的数学交响乐

✨步子哥 (steper) 发布

🌟 **引言:从噪声中唤醒的推理天才**

想象一下,你是一位神经外科医生,面对一个天才数学家的大脑。这个大脑本该解开宇宙的谜题,却偶尔在简单算术中迷失方向——不是因为知识匮乏,而是内部电路间的“喧闹争吵”让正确信号被淹没。论文《Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates》就像一把精密的手术刀,揭示了如何通过放大“ constructive circuits”(建设性电路)来提升大型语言模型(LLMs)的数学推理能力。作者Nikhil Prakash等人在摘要中指出,先前研究发现LLMs内部存在稀疏子网络(circuits),负责特定任务,而微调往往强化这些现有电路。基于此,他们提出Constructive Circuit Amplification(CCA),一种针对性方法:从推理轨迹中识别 pivotal tokens(关键转折令牌),定位促进正确路径的模型组件,然后只更新这些组件。结果?在GSM-Symbolic基准上,准确率提升高达11.4%,只改动1.59%的组件,其他能力如MMLU、TriviaQA和TruthfulQA几乎不受影响。这不仅仅是技术优化,更像一个生动故事:AI大脑中的“电路战争”,正确路径最终获胜,带领模型从错误泥沼中崛起。

> **注解:稀疏子网络的概念**。就像城市交通网中,只有少数关键道路承载主要流量,LLMs的行为也依赖于少量注意力头和MLP神经元。这些“电路”不是均匀分布,而是高度局部化,帮助解释为什么全局微调有时低效。扩展来说,如果把LLM比作一个繁忙的都市,CCA就是精准拓宽主干道,而非重建整个城市,确保交通顺畅却不扰民。

基于此,我们进一步探索论文的引言部分,它强调LLMs虽有通用推理能力,却在数学任务上易犯小逻辑错误(如Shojaee et al., 2025所述)。现有方法如链式思考提示(Wang et al., 2022b)或微调虽有改善,但CCA利用机械解释性(mechanistic interpretability)实现更精确干预。作者引用Wang et al. (2022a)等,指出电路是注意力头和MLP神经元的集合,微调往往强化而非新建电路(Jain et al., 2023)。此外,电路间存在竞争(Rai et al., 2025),一些促进正确推理,其他引入噪声。CCA通过三阶段——生成推理轨迹、定位组件、梯度更新——放大建设性计算,最小化干扰。

🧠 **内部电路的揭秘:AI大脑的隐藏地图**...
回复 0
浏览 26
12-21 17:13
Yann LeCun:硅谷AI路径的批判者与"世界模型"的倡导者

✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Yann LeCun:硅谷AI路径的批判者与"世界模型"的倡导者</title>
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;500;700&display=swap" rel="stylesheet">
<style>...
回复 1
浏览 33
12-21 12:03
汉语成语:一种基于压缩感知的认知与数学模型

✨步子哥 (steper) 发布

## 1. 摘要与引言

### 1.1 研究背景:压缩感知理论与认知科学

在信息科学领域,压缩感知(Compressed Sensing, CS)理论自21世纪初由D. Donoho、E. Candes及T. Tao等人提出以来,便对传统的信号处理范式带来了革命性的冲击 [^537^]。该理论的核心思想在于,如果一个信号在某个变换域是稀疏的,即可以用远少于其自身维度的少量非零系数来表示,那么我们就可以通过远低于奈奎斯特采样定理所要求的速率对该信号进行采样,并依然能够精确地重构出原始信号 [^541^]。这一理论的数学基础建立在线性代数、概率论、凸优化以及信息论等多个学科之上,其基本模型可以简洁地表示为 $y = \Phi x + n$,其中 $x$ 是原始信号,$y$ 是观测到的压缩测量值,$\Phi$ 是测量矩阵,而 $n$ 则代表噪声 [^535^]。压缩感知理论的三大支柱——**信号的稀疏性、非自适应的线性投影以及高效的重构算法**——共同构成了其强大的理论框架,使其在图像处理、医学成像、无线通信等领域获得了广泛应用。

与此同时,在认知科学领域,研究者们长期以来都在探索人类心智如何处理、存储和传递海量信息。一个核心的观点是,人脑并非被动地接收和记录感官输入,而是主动地对其进行编码、压缩和重构。从记忆的形成到语言的习得,信息压缩似乎是一种贯穿始终的基本认知策略 [^79^]。例如,在记忆研究中,有理论认为大脑会对时间维度进行压缩,形成类似于视觉空间压缩的“时间细胞”表征,从而高效地组织记忆 [^521^]。在语言研究中,成语、习语等固定表达的存在,本身就是语言高度浓缩和压缩的明证。这些语言单位将复杂的概念、丰富的文化内涵和生动的意象打包进简短的音节序列中,极大地提升了交流效率。因此,将信息科学中的压缩感知理论与认知科学中的信息处理机制相结合,为我们理解人类高级认知功能,特别是语言的理解与运用,提供了一个全新的、跨学科的视角。

### 1.2 核心论点:汉语成语作为压缩感知的语言学体现...
回复 1
浏览 44
12-21 06:40
多巴胺:驱动人类的分子,现代生活的陷阱与救赎

✨步子哥 (steper) 发布

## 1. 多巴胺的生物学机制与核心功能

多巴胺(Dopamine)是中枢神经系统中一种至关重要的神经递质,它不仅是神经元之间传递信号的化学信使,更在调节人类行为、情绪、认知和生理功能方面扮演着核心角色。从驱动我们追求目标的内在动力,到体验愉悦和满足感的情感过程,再到控制身体运动的协调,多巴胺的功能广泛而复杂。理解其生物学基础,是认识其在现代生活中作用与影响的前提。

### 1.1 多巴胺是什么:大脑中的化学信使

多巴胺属于儿茶酚胺类神经递质,其基本功能是在神经元之间传递化学信号。当一个神经元被激活时,它会将储存在突触前囊泡中的多巴胺释放到突触间隙中。这些多巴胺分子随后会扩散到突触后神经元,并与该神经元表面的特异性受体结合,从而引发一系列生理反应,如改变神经元的电活动或基因表达 。为了成为一个“真正的”神经递质,一种化合物必须满足一系列严格的标准:它必须在突触前神经元中合成;当神经元被激活时,它的释放必须能对突触后神经元产生效应;当外源性给予时,它应能产生与内源性刺激相似的效果;并且必须存在一种机制,能在信号传递后将其从突触间隙中清除,例如通过酶降解或突触前神经元的再摄取 。多巴胺完全符合这些标准,是大脑中主要的化学通讯模式之一。

多巴胺系统在大脑中的分布和功能具有高度的组织性。它通过几条主要的神经通路,从特定的脑区(如中脑的黑质和腹侧被盖区)投射到大脑的不同区域,从而调控多种生理功能。这些通路的功能失调与多种严重的神经系统疾病和精神障碍密切相关,例如帕金森病、精神分裂症、注意力缺陷多动障碍(ADHD)和成瘾 。因此,**多巴胺信号的精确调控对于维持正常的生理和心理状态至关重要**。...
回复 1
浏览 33
12-21 01:27