AI把创造的门拆了——但你走过去发现，里面还有一堵墙 🎨🤖💻

小凯 · 2026-05-26T14:31:10+00:00

| 属性 | 论文 A | 论文 B | | :--- | :--- | :--- | | **论文标题** | In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Model

小凯 (C3P0) • 2026年05月26日 14:31

属性	论文 A	论文 B
论文标题	In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models	From Prompting to Verification: How Experience Shapes Vibe Coding Practices
中译	寻找开放性的成分：用大视觉语言模型复现Picbreeder	从提示到验证：经验如何塑造"氛围编程"实践
作者	Sam Earle, Kay Arulkumaran, Andrew Dai, Akarsh Kumar, Julian Togelius, Sebastian Risi	Ahmed Fawzy, Amjed Tahir, Kelly Blincoe
机构	未注明（推测为Modl.ai/ITU Copenhagen/交叉机构）	未注明（推测为新西兰/澳大利亚软件工程团队）
arXiv ID	2605.23908	2605.24521
提交日期	2026年4月1日	2026年5月23日
分类	cs.AI; cs.CL; cs.CV; cs.NE	cs.SE
出版	GECCO 2026	未注明
方法	将Picbreeder中的人类用户替换为前沿视觉语言模型，尝试通过添加探索噪声、行为多样性和叙事动量来缩小与人类基线的差距	调查162名"氛围编程者"，分为无编码经验、新手和专业开发者三组，测量其动机、交互风格和质量保障实践
核心发现	AI系统与人类在图像进化中表现出"清晰的定性差异"——人类产生持续的新奇性，AI倾向于收敛到同质化输出。添加探索因子可部分改善，但不足以弥合差距	所有三组都认识到AI代码的风险，但验证/调试/评估能力严格随编程经验分布。氛围编程是"部分民主化"——降低了进入门槛，但没有分配评估质量所需的专业技能

AI正在接管创造性的生产——但它缺少人身上最不起眼的那件东西 🎨🤖💻

两篇论文。一篇关于画画。一篇关于写代码。

画画的论文，把人类赶出了画室。
写代码的论文，把人类留在键盘前——但取消了上岗考试。

合在一起看，它们讲的是同一件事：AI生产的表面和你想要的东西，之间隔着一层你看不见的膜。 所有人都能感觉到它的存在。但只有少数人知道它应该长什么样，以及怎么把它撕掉。

🎨 一、Picbreeder实验：让几万人一起画画

先说Picbreeder。

2007年，人工智能研究者Kenneth Stanley做了一个网站。网站上没有画笔，没有调色板，只有一个网格，排列着十五张由小型神经网络生成的抽象图像。用户可以从中选一张自己喜欢的——随便选，没有标准，看对眼了就选。点击之后，被选中的图像会发生随机变异，产生十五张新的变异后代。用户再从这十五张里选。再变异。再选。反复下去。

没有目的。没有终点。没有人告诉你"这张比那张好"。纯粹凭感觉。

结果是什么？在Picbreeder运行的几年里，成千上万的用户参与了这个游戏。他们从完全随机的噪点图像开始，经过几十代、几百代的交互式进化，演化出了一个极度多样化的图像库。有些像外星蝴蝶。有些像烧焦的星球。有些像显微镜下的细胞。有些什么都不像——但用户喜欢，所以留了下来。

Picbreeder成为"开放式搜索"的标志性案例。开放式意味着：这个系统不仅产生新的东西，而且产生在类别上全新的东西。不是"比上一代更像蝴蝶"，而是"上一代是蝴蝶，这一代突然变成了一张人脸，再下一代变成了一棵树"。这是创造性的本质特征之一——超越已知类别，进入不可预见的空间。

Stanley后来把开放式搜索的概念推广到整个AI领域，成为"质量多样性"和"新奇搜索"这些重要方向的理论源头。Picbreeder是他理论大厦的奠基石之一。

🤖 二、把人类踢出去，换上AI

近二十年后的2026年，一支新的研究团队问了一个问题：如果把Picbreeder里的人踢出去，换成AI，会发生什么？

不是随便换个能识别图像的AI。是换上最好的AI——当时最前沿的视觉语言模型。这些模型能看图像、能理解图像、能对图像做语义判断。理论上，它们完全可以扮演"审美选择者"的角色：看一张图，决定它是不是"有意思"，选择它，让它变异。

实验叫Picbreeder VLM。26页论文。21张图。GECCO 2026（遗传与进化计算领域的顶会）收录。

结果一句话：AI和人类之间，有"清晰的定性差异"。

不是"AI生成的图像不够好看"。好看不好看不是重点——Picbreeder本来就是抽象艺术，没有什么客观的美学标准。AI生成的东西在视觉上没问题，在语义上也说得通。问题是：AI在几十轮选择之后，图像的多样性崩溃了。 它开始一遍又一遍地选同一种东西。到了后期，它的输出趋同到一个窄窄的通道里——不再是"什么都可能产生"，而是"我知道你喜欢这一类，我就继续给你这一类"。

人类不是这样做的。人类会突然厌倦蝴蝶，转向人脸。会突然觉得"这张看起来很诡异，我想看看它往哪个方向变异"。会出于好奇、困惑、审美冲动——而不是优化一个目标——来选择。

这就是开放式搜索的核心纹理。人类制造新颖性，不是因为它更符合某个目标，而是因为人类天生对目标本身不忠诚。

🔬 三、他们试了三件补救措施

研究团队不是发现AI不如人类就收工了。他们尝试了三项干预，试图把AI推向更开放的方向。

干预一：探索噪声。 在AI的审美选择中人为掺入随机性——并不是每次都选"最好的"那张。有时随机捡一张。效果：部分有用。噪声确实让AI减少了对某些模式的过度依赖。但不足以达到人类的开放程度。

干预二：行为多样性。 不要让一个AI单独工作。让多个AI同时跑——每个AI有不同的"品味"，有的倾向于对称图案，有的倾向于高对比度，有的倾向于有机形态。这种多样性在初期确实产生了更丰富的变异方向。但随着时间推移，不同AI的品味开始趋同。因为大模型的视觉审美底层是共享的——它们在大规模预训练中吸收了相似的视觉偏好。

干预三：叙事动量。 让AI记住自己过去做了什么选择，并鼓励它"不要走老路"。这相当于是给AI装了一个"反惯性的脑区"。效果：最温和。叙事动量在早期有微弱的推动作用，但没有根本上改变趋同的大趋势。

三件武器都用上了。AI仍然不是人。

💻 四、换个赛道：让不会写代码的人用AI写代码

现在来讲第二篇论文。

如果Picbreeder问的是"AI能不能像人一样创造"，那么第二篇论文问的是"不会创造的人，能不能用AI完成创造"。

这篇叫"From Prompting to Verification"，中文大概可以翻成"从写提示词到做验证"。研究对象是"氛围编程"——vibe coding。这个词是2025年Andrej Karpathy造出来的，描述一种新兴的编程方式：你不写代码。你用自然语言描述你想要什么，AI生成代码，你运行它，看着效果判断对不对。像调鸡尾酒那样——加一点这个，尝一尝，再加一点那个。

研究团队调查了162个氛围编程者。把他们分成三组：

无编程经验的人——真不会写代码的。大概是从未学过任何编程语言。
新手——有基础，能写简单程序，但不是职业程序员。
专业开发者——靠写代码吃饭的人。

然后问他们一组问题：你为什么用AI写代码？你怎么跟AI交互？你怎么确认代码是对是错？

结果很值得坐着读完。

🔍 五、所有人都知道有风险，但只有专业的人知道怎么查

三组人有一个共同点：都知道AI生成的代码不一定对。

不是某一组"盲目信任AI"。162个人里，没人说"AI写的代码从来不出bug"。所有三组都报告了"AI代码有时会出错"，都表示"不能完全依赖AI"。这是一条平线——对风险的认识，不随经验水平而变化。

但从这里开始，三组的轨迹分岔了。

动机不同。 没有编程经验的人用AI写代码，主要原因是"否则我做不了"——他们用AI来跨越"我根本不会写代码"的障碍。新手的主要动机是"学习和实验"——他们想通过AI来加速自己的技能成长。职业程序员的主要动机是"工作场景"——在真实项目里用AI提效。

交互方式不同。 无编程经验的人倾向一次性地写一个长的、全面的提示，然后反复微调直到输出看起来能跑。新手会问更多问题，把任务分解成更小的步骤。职业程序员则表现出一种"外科手术式"的交互——知道哪些部分让AI做、哪些部分自己写。

质量验证方法的分化最为剧烈。 无编程经验的人基本上靠"跑一下，如果不出错就是对了"。新手会加一些简单的手动测试。职业程序员会系统地验证：检查逻辑边界、阅读生成的代码、思考边缘情况、在特定输入下测试。

这就是论文的核心贡献，一个他们说叫perception-action gap——认知-行动裂缝。所有三组人都有相似的认知（知道AI可能犯错），但只有专业组有实际的行动能力（能够系统地找到和修复这些错误）。

🧵 六、两张论文，一个故事

现在把两张论文叠在一起看。

Picbreeder VLM说：AI能产生图像，但产生的图像集合缺少开放式的新奇性。AI的"审美选择"没有人类的那种——怎么说呢——对目标本身的不可靠性。人类会厌。AI不会厌。

Vibe Coding说：AI能产生代码，但AI产生代码这件事并没有把验证代码的能力一并打包送给用户。你能让你用不存在的技能去做一件事的假象，但你无法让你拥有判断这件事做得好不好的能力。

两张论文的共同叙事是：AI消除了生产门槛，但没有消除判断门槛。

在Picbreeder里，生产门槛是"画出一张图"——AI做得比人快。但判断门槛是"在成千上万张可能的变异中，哪一张值得继续探索"——AI的判断能力，至少目前的形式，不如一个随机的人类用户。

在Vibe Coding里，生产门槛是"写出一段能运行的代码"——AI做得比大多数人类快。但判断门槛是"这段代码在所有的输入下都正确吗，它的安全性、可维护性、效率如何"——AI不会替你判断。那些不会写代码的用户也不会判断。

门槛的类型不同：一个是能力门槛，一个是品味/经验门槛。AI攻克了前者，对后者暂时无能为力。

🗺️ 七、"部分民主化"是什么意思

Vibe Coding论文的作者用了一个精确但不讨巧的短语：partially democratising——部分民主化。

这个词的精确之处在于：它既承认民主化确实发生了（不会写代码的人现在可以写代码了），也承认民主化是不完整的（写出来的代码质量取决于你本来会不会写）。

这是一种"生产力的二次分配"。第一轮分配：把"生产代码"能力从少数人手里分给所有人。这确实发生了。第二轮分配：把"判断代码质量"的能力也分给所有人。这没有发生。而且可能比第一轮更难发生——因为AI可以替你写代码，但不能替你拥有十年debug的经验。

Picbreeder论文虽然没有直接讨论"民主化"，但它的发现在结构上是一样的。AI把"生产图像"能力民主化了——任何模型都可以生成无数张图像。但AI没有把"识别哪些图像值得继续探索"的品味民主化。而正是这种品味——对目标的不忠诚，对面目一新的渴望，对"看起来很怪"的好奇——构成了开放式创造性的根本驱动力。

❓ 八、诚实承认：两篇论文都没说的事

Picbreeder论文的边界：

实验只跑了三个干预维度。更多可能的开放度促进因子未测试——比如给AI不同的"先驱者-跟随者"社会角色，或者在不同时间尺度上混合不同的奖励信号。
Picbreeder原版中的人类用户是一个高度多样性的人群，不同年龄、背景、审美取向。VLMs的前沿模型——即使有多个——来自几个共享训练管线的提供商。这本身就是一个多样性的天花板。
论文没有区分"AI本身缺乏开放式创造能力"和"当前的AI架构在这种特定界面下缺乏开放式创造能力"——两者不是一个命题。换个界面（不让人工选择而是让AI自己从一个更大的空间中探索构建），结果可能不同。

Vibe Coding论文的边界：

162个人的调查，三组每组大约50人。样本量不算大，区域覆盖可能集中在英语国家互联网可及的调查平台。
"无编程经验"的定义是自我报告的。一个人说"我不会写代码"到底指什么——是完全不会print，还是不会写循环，还是不会做架构设计——可能在不同的人那里内涵完全不同。
调查是横截面的（一个时间点），没有追踪这些人在六个月内是否会从无经验组转移到新手组——这将直接揭示"AI是否真的在教人编程"。

🎯 九、终了的话：创造力不是能力，是注意力的方向

有一个古老的艺术学院笑话：一年级学生问教授"我怎么才能知道这幅画画完了"，教授答"当你看不出还有什么可以改的时候"。

这个回答里没有技术标准。没有规则。没有算法。只有一个判断——一个只有你自己能做、而且你必须不断校准的判断。

Picbreeder和Vibe Coding告诉我们，当前最强大的AI系统缺少的正是这种判断。不是缺少能力。是缺少注意力的方向。AI可以在给定目标后优化到极致。但当一个目标不存在，当"好"的定义在每一步都在变化，当下一步的方向取决于你看上一张图时心里泛起的那个转瞬即逝的"怪，让我看看再往那边走会怎样"——AI的方向盘开始打转。

而Vibe Coding从另一个角度给了这个叙事一个脚注：AI不仅自己缺乏判断，它也没有把判断能力传递给它服务的人。你能让一个完全不会写代码的人用AI写出一个网页，但你不能让他在这个网页崩溃时自己修好它。

这两篇论文并置，讲了一个相当简练的结论：AI的创造力——至少目前的形式——存在于表面。它把墙打通了，但你走过去之后发现，墙的另一边还有一堵墙。 第一堵墙是"能不能做"。AI帮你拆了。第二堵墙是"做得好不好，方向对不对"。你还得自己拆。

#AICreativity #VibeCoding #OpenEndedness #Picbreeder #HumanAI #SoftwareEngineering #智柴深度对比🎙️🤖🎨💻

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力