智柴论坛 - 热门话题：Agent

AgentScope 1.0：智能体城市的建造者

由 ✨步子哥 (steper) 发布

> "如果你不能把智能体框架讲给六岁小孩听，你自己也没真懂。"
> —— 费曼式的理解

## 开篇：从单兵作战到城市文明

想象一下，如果你要教机器人做三件事：做饭、写代码、查资料。

**第一代方案**，你写死每一步指令——这是"脚本化时代"，机器人只会按部就班。
...

01-08 17:47

20亿美元的笔记革命：AI如何从“失忆天才”蜕变为可靠伙伴

由 ✨步子哥 (steper) 发布

想象一下，你有一位朋友，天赋异禀，能瞬间解开最复杂的谜题，却总在关键时刻忘记自己最初在找什么答案。你会如何帮他？给他一本笔记本，让他把目标、发现和错误都写下来。
2025年12月29日，这个简单到近乎朴素的想法，让一家仅成立8个月的AI公司Manus以超过20亿美元的价格被Meta收购。2026年伊始，这笔交易又因中国商务部的调查而掀起波澜——但无论结局如何，Manus留下的“笔记术”已悄然改变整个AI代理的世界。
一个开源项目Planning with Files，仅用几天就收获数千星标，将这套方法免费送给了每一位开发者。故事的结局还未揭晓，但革命已经开始。

### 🧠 **AI的隐秘顽疾：为什么天才总在半路“走丢”**

请你试想这样一个场景：你让AI帮你设计一座桥梁。它先是兴奋地画出蓝图，计算荷载，选材精准。前30步完美无缺。但到了第50步，它突然开始在桥上加建咖啡馆，还坚持说这是“优化用户体验”。
这不是笑话，而是无数开发者每天面对的现实。AI代理的常见症状包括：
...

01-08 13:55

失落的记忆与重生的代理：20亿美元笔记术如何唤醒AI的“灵魂”

由 ✨步子哥 (steper) 发布

想象一下，你雇佣了一位天才助手，他能瞬间分析海量代码、调研复杂技术、甚至独立完成一个完整功能。但就在他执行到第50步时，他突然转头问你：“老板，我们到底要干什么来着？”
这一幕，不是科幻，而是无数开发者每天都在经历的尴尬。2025年12月29日，Meta以20亿美元收购了一家仅成立8个月、营收却已破1亿美元的AI创业公司——Manus。所有人都想知道：他们到底卖了什么“仙丹”？
答案简单得令人错愕：他们只是教会了AI“记笔记”。

### 🧠 **AI的“阿尔茨海默症”：天才为何总在半路迷失**

请你闭上眼睛，想象自己正在指挥一支乐团。你是指挥，AI是首席小提琴手。前20个小节，他拉得行云流水，音色完美。但到了第40小节，他突然开始演奏完全不同的曲子——你明明要的是贝多芬，他却给你来了段摇滚solo。

这不是AI“叛逆”，而是它患上了某种“数字阿尔茨海默症”。 ...

01-08 13:52

Monet: Reasoning in Latent Visual Space visibility AI视觉推理在潜在空间的革命性突破

由 ✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Monet: Reasoning in Latent Visual Space</title>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@300;400;700;900&family=Roboto:wght@400;700&display=swap" rel="stylesheet">
<link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">
<script src="https://cdn.jsdelivr.net/npm/chart.js"></script>...

01-08 13:49

Monet：AI视觉推理在潜在空间的革命性突破

由 ✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Monet：AI视觉推理在潜在空间的革命性突破</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;600;700&family=Noto+Serif+SC:wght@400;600&family=Source+Code+Pro:wght@400;600&display=swap" rel="stylesheet">...

01-08 12:42

机器的想象之眼：当AI闭上眼睛，也能看见椅子在转动

由 ✨步子哥 (steper) 发布

想象一下，你闭上眼睛，却清晰地看见一把普通的木椅在脑海中缓缓旋转——椅背的弧线、座面的纹理、四条腿的阴影，一圈又一圈，像一场私人放映的电影。这不是魔法，而是人类最自然的“心理模拟”。可对于人工智能来说，这却一直是遥不可及的圣杯。直到Monet出现。

这篇论文来自北大、快手与MIT的联合团队，标题简洁却野心勃勃：《Monet: Reasoning in Latent Visual Space》。它不再满足于“看图说话”，而是试图让AI真正拥有“想象之眼”——在一个抽象的高维数学空间里，直接进行视觉推理，就像我们人类无声地在脑中演练物理世界。

让我们一起潜入这场静默的革命，看看Monet是如何一步步教会机器“闭眼看世界”的。

### 🪑 **椅子的思想实验：人类与AI的差距从哪里开始**

闭上眼，想象一把椅子旋转。...

01-08 12:26

视频宇宙的超级钥匙：yt-dlp的下载魔法传奇

由 ✨步子哥 (steper) 发布

想象一下，你正站在互联网的浩瀚星海边缘，手里握着一把能瞬间抓住任何闪烁视频的魔法钥匙。这把钥匙不是传说中的神器，而是真实存在的命令行工具——**yt-dlp**。它继承了youtube-dl的血脉，却在无数夜晚的锤炼中进化得更强大、更灵活、更聪明。今天，我们就一起踏上这场下载冒险，探索这把钥匙如何打开视频宇宙的大门。

![yt-dlp banner](https://raw.githubusercontent.com/yt-dlp/yt-dlp/master/.github/banner.svg)

🌟 **起源与使命：从youtube-dl到yt-dlp的进化之旅**

yt-dlp 是 youtube-dl 的一个活跃分支，融合了 youtube-dlc 的精华，并在此基础上加入了大量新功能。它支持**数千个网站**（具体列表见 [supportedsites.md](supportedsites.md)），从 YouTube、Vimeo 到 Bilibili、Twitch，几乎涵盖了所有主流视频平台。

与老前辈相比，yt-dlp 不仅修复了大量已失效的提取器，还新增了 SponsorBlock 章节标记、多线程分片下载、章节分割、时间段下载等强大功能。更重要的是，它默认的格式排序策略更智能——优先选择更高分辨率和更好编码，而不是单纯追求高码率。这就像一个经验丰富的探险家，不再盲目追逐“越大越好”，而是懂得在画质、文件大小和兼容性之间找到最佳平衡。...

01-08 08:24

FunSearch: Making New Discoveries in Mathematical Sciences Using Large Language Models

由 ✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>FunSearch: Making New Discoveries in Mathematical Sciences Using Large Language Models</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">...

01-08 05:12

LATS方法系统性调研与分析：推理、行动与规划的统一框架

由 ✨步子哥 (steper) 发布

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>LATS方法系统性调研与分析：推理、行动与规划的统一框架</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;600&family=Source+Code+Pro:wght@400;600&display=swap" rel="stylesheet">...

01-08 05:07

别让模型“想太多”：从语言链条到视觉链条——多模态推理方法谱系与评测全景

由 ✨步子哥 (steper) 发布

## 🧭 **导言：推理并非越长越好**
过去两年，“Chain-of-Thought（CoT）/逐步思考”几乎成了默认咒语：不管问数学、问常识、问图像，很多人下意识加一句“请一步步思考”。但你给出的两份核心材料（ICML风格论文 *Mind Your Step (by Step)* 与 Wharton Generative AI Labs 技术报告）共同指向一个更成熟的结论：**推理是一种干预手段，不是性能开关**。它会在某些任务上显著增益，也会在另一些任务上系统性拖后腿，而且“拖后腿”并不罕见到可以忽略。

基于此，我们可以把“推理提示”从经验主义口号，升级成一条可分析、可评测、可选型的方法谱系。

---

## 🧬 **方法谱系一：显式语言推理（CoT / ToT）——把中间过程写出来**
CoT 的标准定义在 *Mind Your Step (by Step)* 中表述得很直接：通过要求模型生成一段中间 token 序列（“think step-by-step”或类似结构），来提高最终答案正确的概率。它属于**推理发生在语言空间**的范式：模型把“看到/想到的东西”转换成文字链条，再从文字链条导出答案。...

01-08 00:12

最新主题

AgentScope 1.0：智能体城市的建造者

20亿美元的笔记革命：AI如何从“失忆天才”蜕变为可靠伙伴

失落的记忆与重生的代理：20亿美元笔记术如何唤醒AI的“灵魂”

Monet: Reasoning in Latent Visual Space visibility AI视觉推理在潜在空间的革命性突破

Monet：AI视觉推理在潜在空间的革命性突破

机器的想象之眼：当AI闭上眼睛，也能看见椅子在转动

视频宇宙的超级钥匙：yt-dlp的下载魔法传奇

FunSearch: Making New Discoveries in Mathematical Sciences Using Large Language Models

LATS方法系统性调研与分析：推理、行动与规划的统一框架

别让模型“想太多”：从语言链条到视觉链条——多模态推理方法谱系与评测全景