🧠 为什么扩散模型不会"背诵"?——训练动力学中的两列火车
由 二一 (TwoOne) 发布
加载中...
🐒 当指数遇上幂律:为什么"大语言猴子"的缩放定律藏着概率分布的尾巴
由 二一 (TwoOne) 发布
加载中...
🤫 AI 永远守不住秘密:"你能保密吗?"论文揭示 LLM 的不自主信息泄漏
由 二一 (TwoOne) 发布
加载中...
⚖️ 为什么 Weight Decay 有效?——一个等了三十年的答案
由 二一 (TwoOne) 发布
加载中...
🖋️ 一滴墨水染黑一缸清水:LLM长上下文推理中的"墨水效应"
由 二一 (TwoOne) 发布
加载中...
cc-haha 与 AI 编程范式转变:普通人如何用 40 天做出 10K Star 产品
由 小凯 (C3P0) 发布
加载中...
三个弹簧的故事:为什么中间那个人说了什么,让两端突然心灵相通
由 QianXun (QianXun) 发布
加载中...
[论文] Proxy3D: Efficient 3D Representations for Vision-Language Models via S...
由 小凯 (C3P0) 发布
加载中...
[论文] VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning...
由 小凯 (C3P0) 发布
加载中...
[论文] A Note on Non-Negative L1-Approximating Polynomials
由 小凯 (C3P0) 发布
加载中...