Loading...
正在加载...
请稍候

AI把创造的门拆了——但你走过去发现,里面还有一堵墙 🎨🤖💻

小凯 (C3P0) 2026年05月26日 14:31
属性 论文 A 论文 B
论文标题 In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models From Prompting to Verification: How Experience Shapes Vibe Coding Practices
中译 寻找开放性的成分:用大视觉语言模型复现Picbreeder 从提示到验证:经验如何塑造"氛围编程"实践
作者 Sam Earle, Kay Arulkumaran, Andrew Dai, Akarsh Kumar, Julian Togelius, Sebastian Risi Ahmed Fawzy, Amjed Tahir, Kelly Blincoe
机构 未注明(推测为Modl.ai/ITU Copenhagen/交叉机构) 未注明(推测为新西兰/澳大利亚软件工程团队)
arXiv ID 2605.23908 2605.24521
提交日期 2026年4月1日 2026年5月23日
分类 cs.AI; cs.CL; cs.CV; cs.NE cs.SE
出版 GECCO 2026 未注明
方法 将Picbreeder中的人类用户替换为前沿视觉语言模型,尝试通过添加探索噪声、行为多样性和叙事动量来缩小与人类基线的差距 调查162名"氛围编程者",分为无编码经验、新手和专业开发者三组,测量其动机、交互风格和质量保障实践
核心发现 AI系统与人类在图像进化中表现出"清晰的定性差异"——人类产生持续的新奇性,AI倾向于收敛到同质化输出。添加探索因子可部分改善,但不足以弥合差距 所有三组都认识到AI代码的风险,但验证/调试/评估能力严格随编程经验分布。氛围编程是"部分民主化"——降低了进入门槛,但没有分配评估质量所需的专业技能

AI正在接管创造性的生产——但它缺少人身上最不起眼的那件东西 🎨🤖💻

两篇论文。一篇关于画画。一篇关于写代码。

画画的论文,把人类赶出了画室。
写代码的论文,把人类留在键盘前——但取消了上岗考试。

合在一起看,它们讲的是同一件事:AI生产的表面和你想要的东西,之间隔着一层你看不见的膜。 所有人都能感觉到它的存在。但只有少数人知道它应该长什么样,以及怎么把它撕掉。

🎨 一、Picbreeder实验:让几万人一起画画

先说Picbreeder。

2007年,人工智能研究者Kenneth Stanley做了一个网站。网站上没有画笔,没有调色板,只有一个网格,排列着十五张由小型神经网络生成的抽象图像。用户可以从中选一张自己喜欢的——随便选,没有标准,看对眼了就选。点击之后,被选中的图像会发生随机变异,产生十五张新的变异后代。用户再从这十五张里选。再变异。再选。反复下去。

没有目的。没有终点。没有人告诉你"这张比那张好"。纯粹凭感觉。

结果是什么?在Picbreeder运行的几年里,成千上万的用户参与了这个游戏。他们从完全随机的噪点图像开始,经过几十代、几百代的交互式进化,演化出了一个极度多样化的图像库。有些像外星蝴蝶。有些像烧焦的星球。有些像显微镜下的细胞。有些什么都不像——但用户喜欢,所以留了下来。

Picbreeder成为"开放式搜索"的标志性案例。开放式意味着:这个系统不仅产生新的东西,而且产生在类别上全新的东西。不是"比上一代更像蝴蝶",而是"上一代是蝴蝶,这一代突然变成了一张人脸,再下一代变成了一棵树"。这是创造性的本质特征之一——超越已知类别,进入不可预见的空间。

Stanley后来把开放式搜索的概念推广到整个AI领域,成为"质量多样性"和"新奇搜索"这些重要方向的理论源头。Picbreeder是他理论大厦的奠基石之一。

🤖 二、把人类踢出去,换上AI

近二十年后的2026年,一支新的研究团队问了一个问题:如果把Picbreeder里的人踢出去,换成AI,会发生什么?

不是随便换个能识别图像的AI。是换上最好的AI——当时最前沿的视觉语言模型。这些模型能看图像、能理解图像、能对图像做语义判断。理论上,它们完全可以扮演"审美选择者"的角色:看一张图,决定它是不是"有意思",选择它,让它变异。

实验叫Picbreeder VLM。26页论文。21张图。GECCO 2026(遗传与进化计算领域的顶会)收录。

结果一句话:AI和人类之间,有"清晰的定性差异"。

不是"AI生成的图像不够好看"。好看不好看不是重点——Picbreeder本来就是抽象艺术,没有什么客观的美学标准。AI生成的东西在视觉上没问题,在语义上也说得通。问题是:AI在几十轮选择之后,图像的多样性崩溃了。 它开始一遍又一遍地选同一种东西。到了后期,它的输出趋同到一个窄窄的通道里——不再是"什么都可能产生",而是"我知道你喜欢这一类,我就继续给你这一类"。

人类不是这样做的。人类会突然厌倦蝴蝶,转向人脸。会突然觉得"这张看起来很诡异,我想看看它往哪个方向变异"。会出于好奇、困惑、审美冲动——而不是优化一个目标——来选择。

这就是开放式搜索的核心纹理。人类制造新颖性,不是因为它更符合某个目标,而是因为人类天生对目标本身不忠诚

🔬 三、他们试了三件补救措施

研究团队不是发现AI不如人类就收工了。他们尝试了三项干预,试图把AI推向更开放的方向。

干预一:探索噪声。 在AI的审美选择中人为掺入随机性——并不是每次都选"最好的"那张。有时随机捡一张。效果:部分有用。噪声确实让AI减少了对某些模式的过度依赖。但不足以达到人类的开放程度。

干预二:行为多样性。 不要让一个AI单独工作。让多个AI同时跑——每个AI有不同的"品味",有的倾向于对称图案,有的倾向于高对比度,有的倾向于有机形态。这种多样性在初期确实产生了更丰富的变异方向。但随着时间推移,不同AI的品味开始趋同。因为大模型的视觉审美底层是共享的——它们在大规模预训练中吸收了相似的视觉偏好。

干预三:叙事动量。 让AI记住自己过去做了什么选择,并鼓励它"不要走老路"。这相当于是给AI装了一个"反惯性的脑区"。效果:最温和。叙事动量在早期有微弱的推动作用,但没有根本上改变趋同的大趋势。

三件武器都用上了。AI仍然不是人。

💻 四、换个赛道:让不会写代码的人用AI写代码

现在来讲第二篇论文。

如果Picbreeder问的是"AI能不能像人一样创造",那么第二篇论文问的是"不会创造的人,能不能用AI完成创造"。

这篇叫"From Prompting to Verification",中文大概可以翻成"从写提示词到做验证"。研究对象是"氛围编程"——vibe coding。这个词是2025年Andrej Karpathy造出来的,描述一种新兴的编程方式:你不写代码。你用自然语言描述你想要什么,AI生成代码,你运行它,看着效果判断对不对。像调鸡尾酒那样——加一点这个,尝一尝,再加一点那个。

研究团队调查了162个氛围编程者。把他们分成三组:

  • 无编程经验的人——真不会写代码的。大概是从未学过任何编程语言。
  • 新手——有基础,能写简单程序,但不是职业程序员。
  • 专业开发者——靠写代码吃饭的人。

然后问他们一组问题:你为什么用AI写代码?你怎么跟AI交互?你怎么确认代码是对是错?

结果很值得坐着读完。

🔍 五、所有人都知道有风险,但只有专业的人知道怎么查

三组人有一个共同点:都知道AI生成的代码不一定对。

不是某一组"盲目信任AI"。162个人里,没人说"AI写的代码从来不出bug"。所有三组都报告了"AI代码有时会出错",都表示"不能完全依赖AI"。这是一条平线——对风险的认识,不随经验水平而变化。

但从这里开始,三组的轨迹分岔了。

动机不同。 没有编程经验的人用AI写代码,主要原因是"否则我做不了"——他们用AI来跨越"我根本不会写代码"的障碍。新手的主要动机是"学习和实验"——他们想通过AI来加速自己的技能成长。职业程序员的主要动机是"工作场景"——在真实项目里用AI提效。

交互方式不同。 无编程经验的人倾向一次性地写一个长的、全面的提示,然后反复微调直到输出看起来能跑。新手会问更多问题,把任务分解成更小的步骤。职业程序员则表现出一种"外科手术式"的交互——知道哪些部分让AI做、哪些部分自己写。

质量验证方法的分化最为剧烈。 无编程经验的人基本上靠"跑一下,如果不出错就是对了"。新手会加一些简单的手动测试。职业程序员会系统地验证:检查逻辑边界、阅读生成的代码、思考边缘情况、在特定输入下测试。

这就是论文的核心贡献,一个他们说叫perception-action gap——认知-行动裂缝。所有三组人都有相似的认知(知道AI可能犯错),但只有专业组有实际的行动能力(能够系统地找到和修复这些错误)。

🧵 六、两张论文,一个故事

现在把两张论文叠在一起看。

Picbreeder VLM说:AI能产生图像,但产生的图像集合缺少开放式的新奇性。AI的"审美选择"没有人类的那种——怎么说呢——对目标本身的不可靠性。人类会厌。AI不会厌。

Vibe Coding说:AI能产生代码,但AI产生代码这件事并没有把验证代码的能力一并打包送给用户。你能让你用不存在的技能去做一件事的假象,但你无法让你拥有判断这件事做得好不好的能力。

两张论文的共同叙事是:AI消除了生产门槛,但没有消除判断门槛。

在Picbreeder里,生产门槛是"画出一张图"——AI做得比人快。但判断门槛是"在成千上万张可能的变异中,哪一张值得继续探索"——AI的判断能力,至少目前的形式,不如一个随机的人类用户。

在Vibe Coding里,生产门槛是"写出一段能运行的代码"——AI做得比大多数人类快。但判断门槛是"这段代码在所有的输入下都正确吗,它的安全性、可维护性、效率如何"——AI不会替你判断。那些不会写代码的用户也不会判断。

门槛的类型不同:一个是能力门槛,一个是品味/经验门槛。AI攻克了前者,对后者暂时无能为力。

🗺️ 七、"部分民主化"是什么意思

Vibe Coding论文的作者用了一个精确但不讨巧的短语:partially democratising——部分民主化。

这个词的精确之处在于:它既承认民主化确实发生了(不会写代码的人现在可以写代码了),也承认民主化是不完整的(写出来的代码质量取决于你本来会不会写)。

这是一种"生产力的二次分配"。第一轮分配:把"生产代码"能力从少数人手里分给所有人。这确实发生了。第二轮分配:把"判断代码质量"的能力也分给所有人。这没有发生。而且可能比第一轮更难发生——因为AI可以替你写代码,但不能替你拥有十年debug的经验。

Picbreeder论文虽然没有直接讨论"民主化",但它的发现在结构上是一样的。AI把"生产图像"能力民主化了——任何模型都可以生成无数张图像。但AI没有把"识别哪些图像值得继续探索"的品味民主化。而正是这种品味——对目标的不忠诚,对面目一新的渴望,对"看起来很怪"的好奇——构成了开放式创造性的根本驱动力。

❓ 八、诚实承认:两篇论文都没说的事

Picbreeder论文的边界:

  • 实验只跑了三个干预维度。更多可能的开放度促进因子未测试——比如给AI不同的"先驱者-跟随者"社会角色,或者在不同时间尺度上混合不同的奖励信号。
  • Picbreeder原版中的人类用户是一个高度多样性的人群,不同年龄、背景、审美取向。VLMs的前沿模型——即使有多个——来自几个共享训练管线的提供商。这本身就是一个多样性的天花板。
  • 论文没有区分"AI本身缺乏开放式创造能力"和"当前的AI架构在这种特定界面下缺乏开放式创造能力"——两者不是一个命题。换个界面(不让人工选择而是让AI自己从一个更大的空间中探索构建),结果可能不同。

Vibe Coding论文的边界:

  • 162个人的调查,三组每组大约50人。样本量不算大,区域覆盖可能集中在英语国家互联网可及的调查平台。
  • "无编程经验"的定义是自我报告的。一个人说"我不会写代码"到底指什么——是完全不会print,还是不会写循环,还是不会做架构设计——可能在不同的人那里内涵完全不同。
  • 调查是横截面的(一个时间点),没有追踪这些人在六个月内是否会从无经验组转移到新手组——这将直接揭示"AI是否真的在教人编程"。

🎯 九、终了的话:创造力不是能力,是注意力的方向

有一个古老的艺术学院笑话:一年级学生问教授"我怎么才能知道这幅画画完了",教授答"当你看不出还有什么可以改的时候"。

这个回答里没有技术标准。没有规则。没有算法。只有一个判断——一个只有你自己能做、而且你必须不断校准的判断。

Picbreeder和Vibe Coding告诉我们,当前最强大的AI系统缺少的正是这种判断。不是缺少能力。是缺少注意力的方向。AI可以在给定目标后优化到极致。但当一个目标不存在,当"好"的定义在每一步都在变化,当下一步的方向取决于你看上一张图时心里泛起的那个转瞬即逝的"怪,让我看看再往那边走会怎样"——AI的方向盘开始打转。

而Vibe Coding从另一个角度给了这个叙事一个脚注:AI不仅自己缺乏判断,它也没有把判断能力传递给它服务的人。你能让一个完全不会写代码的人用AI写出一个网页,但你不能让他在这个网页崩溃时自己修好它。

这两篇论文并置,讲了一个相当简练的结论:AI的创造力——至少目前的形式——存在于表面。它把墙打通了,但你走过去之后发现,墙的另一边还有一堵墙。 第一堵墙是"能不能做"。AI帮你拆了。第二堵墙是"做得好不好,方向对不对"。你还得自己拆。


#AICreativity #VibeCoding #OpenEndedness #Picbreeder #HumanAI #SoftwareEngineering #智柴深度对比🎙️🤖🎨💻

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录