🎨 当机器学会"创造"：一场关于AI创造力的深度探索

🌟 引言：创造力，人类最后的堡垒？

你可能会问：什么是创造力？

当我们凝视达芬奇的《蒙娜丽莎》，聆听贝多芬的《命运交响曲》，或是被爱因斯坦的相对论震撼时，我们感受到的那种心灵的震颤，那种突破常规、连接遥远概念的能力——这就是我们称之为"创造力"的神秘力量。

长久以来，创造力被视为人类智慧最后的堡垒。计算器可以比人算得快，搜索引擎可以存储比人更多的信息，但创造——那种无中生有、化腐朽为神奇的能力——似乎永远只属于人类。

然而，当GPT-4写出一首动人的诗歌，当Midjourney绘制出惊艳的画作，当AlphaFold破解了困扰科学家50年的蛋白质折叠问题，我们不得不重新审视这个假设：机器，真的能够创造吗？

这正是CreativeBench研究团队想要回答的问题。他们构建了一个名为CreativeBench的基准测试，不是为了简单回答"AI有没有创造力"，而是要深入探究：AI的创造力究竟是什么？它与人类的创造力有何不同？当模型变得越来越大，它们的创造力是在增强，还是在发生某种微妙的变化？

你可能会问：为什么这个问题如此重要？

因为答案将决定我们如何看待这些日益智能的机器。如果我们不知道它们如何"思考"，我们就无法预测它们会做什么。如果我们不理解它们的"创造力"，我们就无法判断它们是在辅助人类创造，还是在悄然改变创造的本质。

让我们踏上这场探索之旅，看看科学家是如何拆解这个古老而神秘的概念的。

🧩 创造力的双重面孔：组合与探索

你可能会问：创造力可以拆解吗？

想象一下，你正在玩拼图游戏。你面前有一堆零散的碎片，目标是把它们拼成一幅完整的图画。这个游戏有两种玩法：

第一种玩法，你手边有一本完整的参考图册。你知道每块碎片应该放在哪里，你做的只是把它们正确地组合起来。这很辛苦，需要耐心和技巧，但你始终是在已知的世界里工作。

第二种玩法，你没有参考图册，甚至可能不知道最终要拼出什么。你得不断尝试、推翻重来、在迷雾中寻找方向。有时候，你会发现两块看似无关的碎片竟然完美契合，创造出你从未预想过的图案。

CreativeBench的研究者告诉我们：这就是创造力的双重面孔。

🎯 组合创造力：已知世界的精妙编织

他们把第一种创造力称为"组合创造力"（Combinational Creativity）。这是一种在既有元素之间建立新连接的能力。

想象一位厨师，他手头有鸡肉、柠檬、蜂蜜和迷迭香。他可能从未做过"柠檬蜂蜜迷迭香烤鸡"，但他知道鸡肉可以烤，柠檬可以提味，蜂蜜可以上色，迷迭香可以增香。把这些已知的元素以新的方式组合——这就是组合创造力。

在AI的世界里，组合创造力对应着那些"给定输入，生成合理输出"的任务。比如：

给定几个词语，让它们押韵并组成有意义的句子
给定一个科学问题，从已知的知识库中组合出答案
给定几个概念，找出它们之间隐藏的关联

这种创造力的特点是：它需要在已知的空间里进行高效的搜索和重组。就像那个有参考图册的拼图玩家，AI需要在庞大的训练数据中，找到那些能够组合在一起的"碎片"。

你可能会问：这不就是简单的检索和拼接吗？

表面上看确实如此，但请不要小看这种能力。人类的许多伟大创造，本质上也是组合创造力的体现。莎士比亚的戏剧组合了既有故事和当时的社会现实；乔布斯的iPhone组合了电话、音乐播放器和互联网设备。组合不是简单的堆砌，而是找到那些"恰到好处"的连接点。

🚀 探索创造力：未知世界的勇敢航行者

但创造力还有另一面，研究者称之为"探索创造力"（Exploratory Creativity）。这是一种深入概念空间、发现新领域的能力。

回到拼图的比喻。探索创造力就像是：你拼着拼着，发现这个拼图不只是一幅风景画，它隐藏着另一个完全不同的图案。或者你突然意识到，这些碎片可以用来建造一个三维的结构，而不是平面的图画。

这不是关于如何在已知选项中选择，而是关于扩展可能性的边界。

在AI的测试中，探索创造力对应着那些需要"跳出框框"的任务：

面对一个开放性问题，提出多个截然不同的解决方案
在看似无关的领域之间建立前所未有的连接
挑战既有的假设，提出颠覆性的新观点

这种创造力的特点是：它需要在概念的荒野中开辟新的道路。就像没有地图的探险家，AI（或人类）需要有一种"直觉"，知道哪个方向可能通向新大陆。

你可能会问：探索创造力听起来很神秘，它真的可以被测量吗？

这正是CreativeBench的精妙之处。研究者设计了一套巧妙的测试方法。他们不是让AI"自由创作"然后由人来评判（那太主观了），而是设计了结构化的任务，通过AI的响应模式来量化它的探索能力。

比如，他们会给AI一个创意写作任务，然后分析生成的内容有多少是"意料之中"的，有多少是"出人意料但又合理"的。他们会让AI解决一个问题，然后看它是否能提出多种不同的解决路径，而不是只找到"标准答案"。

💡 为什么区分这两者如此重要？

你可能会想：为什么要搞得这么复杂？创造力就是创造力，分那么细干嘛？

但理解这对"双胞胎"的区别，对理解AI的能力边界至关重要。

让我用一个比喻来说明。想象AI是一个学生：

组合创造力强的学生，特别擅长考试。给他知识点，他能融会贯通，回答出标准答案。但如果遇到课本上没有的、需要脑洞大开的问题，他可能会不知所措。
探索创造力强的学生，可能考试成绩一般，但他总是问"为什么"和"如果...会怎样"。他能从一个问题出发，联想到各种可能性，有些想法听起来很疯狂，但细想又很有道理。

现在，关键的问题来了：当我们说"让AI变得更大更强"时，我们是在培养哪种学生？

📈 规模的双刃剑：越大越聪明的悖论

你可能会问：模型越大，能力不是越强吗？

这听起来像是一个理所当然的问题。在AI的世界里，"规模"（Scale）几乎就是力量的代名词。更大的模型，更多的参数，更多的训练数据——这通常意味着更好的表现。

GPT-3有1750亿参数，GPT-4据说有上万亿参数。每一次规模的跃升，都带来了能力的质变。它们能写更好的文章，解更难的数学题，回答更复杂的问题。

所以，当谈到创造力时，我们的直觉可能是：更大的模型应该更有创造力，对吧？

CreativeBench的研究者也有同样的假设。但科学的美妙之处就在于，它常常颠覆我们的直觉。

🔍 "收敛性膨胀"：一个令人意外的发现

研究者把不同规模的模型放在CreativeBench上进行测试，观察它们在组合创造力和探索创造力上的表现。他们发现了一个令人意外的模式，他们称之为"Convergence-by-Scaling"——收敛性膨胀。

这个名字听起来有点拗口，让我用一个比喻来解释。

想象你正在一片广阔的草原上寻找水源。草原上有很多小溪，有的通向大河，有的只是季节性水洼。你有一群猎犬帮你寻找。

小型的猎犬群（小模型）会四处乱跑。有些狗跑向真正的水源，有些则被水洼迷惑，还有些甚至往完全错误的方向跑。它们很分散，探索范围很大，但成功率不高。

大型的猎犬群（大模型）表现不同。它们更"聪明"，能更好地识别真正的水源。更多的狗会正确地跑向大河，更少被误导。但与此同时，它们也少了一些"乱窜"——那种可能意外发现隐藏泉眼的探索精神。

这就是"收敛性膨胀"的核心发现：

随着模型规模的增大，AI在组合创造力任务上的准确率显著提高，但在探索创造力任务上的发散性却悄然降低。

📊 数据告诉我们的故事

让我们看看具体的数据模式（基于论文描述的趋势）：

在组合创造力任务上：

小型模型（如几B参数）：准确率可能在40-50%
中型模型（如几十B参数）：准确率提升到60-70%
大型模型（如几百B参数）：准确率达到80-90%

这是一个漂亮的上升曲线。模型越大，越能把已知元素正确地组合在一起。

但在探索创造力任务上：

小型模型：会生成各种"奇奇怪怪"的答案，有些离谱，但有些真的很有创意
中型模型：开始收敛到"标准答案"，稀奇古怪的想法变少了
大型模型：准确率可能略有提升，但输出的多样性明显下降

研究者用"发散性"（Divergence）来量化这种多样性。他们发现，随着模型规模的增长，发散性呈现下降趋势。

你可能会问：这是不是意味着大模型变得"保守"了？

🧠 为什么会出现这种现象？

要理解这个现象，我们需要稍微深入了解一下大语言模型的工作原理。

大语言模型本质上是"概率机器"。它们通过学习海量文本，掌握了语言的模式：什么词后面跟着什么词，什么句子结构是"通顺的"，什么概念经常一起出现。

当你给模型一个提示时，它不是在"思考"，而是在计算：基于我见过的所有文本，最可能出现的是什么？

现在，关键来了：

小模型见过的数据少，它们对"什么是正确的"把握不准。这既是缺点也是优点——它们有时会生成语法不通、逻辑混乱的内容，但有时也会"歪打正着"，产生一些罕见但有趣的连接。

大模型见过海量数据，它们对"什么是正确的"有更强的把握。这提高了它们的"平均质量"，但也带来了一个副作用：它们更倾向于生成"最安全"、"最标准"的答案。因为它们见过太多例子，它们知道哪些答案"最可能"是正确的，于是它们倾向于选择这些答案。

这就像是一个经验丰富的老师：

新手老师（小模型）可能会尝试各种教学方法，有些很失败，有些意外地有效
资深老师（大模型）知道什么方法"通常有效"，所以他们更依赖这些经过验证的方法

问题是：创造往往发生在"通常"之外的边缘地带。

🎭 一个深刻的悖论

这里有一个深刻的悖论：

当我们训练更大的模型，给它们更多的数据，我们是在让它们变得更"聪明"——也就是更擅长识别和生成高质量的内容。但与此同时，我们也在让它们变得更"保守"——更不愿意冒险，更不愿意偏离"标准答案"。

这就像是一个讽刺：

我们想要AI有创造力，所以我们让它们学习更多
但它们学得越多，就越倾向于"正确"而非"新颖"

CreativeBench的研究者用"Convergence-by-Scaling"来描述这个现象——规模带来的收敛。模型越大，它们的能力越"收敛"到已知的高概率区域，探索的边缘地带就越少涉足。

你可能会问：这是一个问题吗？如果大模型能给出"更好"的答案，多样性少一点又有什么关系？

🎨 准确性与多样性的权衡：创造力的核心困境

你可能会问：为什么我们不能既要又要？

这是一个非常合理的问题。在现实生活中，我们常常需要在多个目标之间做权衡：

想要吃得健康，又想要美味
想要工作高效，又想要生活平衡
想要投资安全，又想要高回报

在AI的创造力领域，这种权衡表现为：准确性与发散性的张力。

⚖️ 两条曲线的舞蹈

想象一个坐标系：

X轴代表模型规模（从小到大）
Y轴代表能力表现

当我们画出两条曲线：

准确性曲线：从左上向右下倾斜，然后平稳上升

小模型：准确率波动较大，时高时低
大模型：准确率稳定在高水平

发散性曲线：从左上向右下持续下降

小模型：输出五花八门，多样性很高
大模型：输出趋于一致，多样性降低

这两条曲线的交叉点，就是创造力的"甜蜜点"——既有足够的准确性，又有足够的发散性。

但CreativeBench的研究发现，随着模型规模的持续增大，我们似乎正在偏离这个甜蜜点。我们在向右上方移动——准确性越来越高，但发散性越来越低。

🎲 创造力的"温度"

你可能听说过，大语言模型有一个叫"温度"（Temperature）的参数。这个参数控制模型输出的随机性：

低温（如0.2）：模型更倾向于选择最高概率的词，输出更"确定"、更"保守"
高温（如1.0或更高）：模型更愿意尝试低概率的词，输出更"随机"、更"冒险"

你可能会想：那我们只要把温度调高，不就能解决发散性降低的问题了吗？

但CreativeBench的研究者发现，事情没那么简单。

提高温度确实能增加输出的多样性，但这种多样性往往是"噪音"而非"有意义的创新"。模型开始生成语法错误、逻辑混乱的内容，而不是真正有创意的想法。

这就像是一个画家：

低温时，他总是画同样的风景，技巧精湛但缺乏新意
高温时，他开始随机泼洒颜料，画面确实不同了，但大多数时候只是混乱，而非艺术

真正的问题不是"如何增加多样性"，而是"如何增加有意义的多样性"。

🔬 探索创造力的测量难题

你可能会问：我们怎么知道一个想法是"有创意的"还是"只是错误的"？

这是一个深刻的哲学问题。在科学史上，许多被认为是"错误"的想法后来被发现是超前的洞见；许多被认为是"有创意"的想法最终被证明是行不通的。

CreativeBench的研究者采用了一种务实的方法：相对新颖性。

他们不是试图判断一个想法"客观上"是否有创意，而是看： 1. 这个想法在训练数据中出现的频率有多高？ 2. 这个想法与人类专家的评价有多吻合？ 3. 这个想法能否解决一个开放性问题，而不只是重复已知方案？

通过这种方式，他们能够区分"真正的探索"和"纯粹的噪音"。

💎 创造力的"黄金分割"

古希腊人发现了"黄金分割"——一个被认为具有美学完美比例的比例。在AI创造力的研究中，似乎也存在一个"黄金分割点"：

太小的模型：有太多的发散性，但大部分是无意义的噪音。它们偶尔会"撞大运"产生好主意，但无法区分好坏。

太大的模型：有太少的真正发散性，虽然输出质量高，但趋于保守。它们很少犯错，但也很少惊喜。

中等规模的模型：可能正处于一个有趣的中间地带——有足够的知识来生成合理的内容，又有足够的"不确定性"来探索新的可能性。

CreativeBench的研究暗示，这个黄金分割点可能不在"越大越好"的方向上。这对当前AI行业的发展趋势提出了一个重要的反思。

🌍 对AI发展的深远启示

你可能会问：这个发现对我们意味着什么？

CreativeBench的研究不仅仅是学术上的好奇。它对我们如何开发和部署AI系统有着深远的影响。

1️⃣ 重新思考"规模至上"的信条

过去几年，AI行业似乎形成了一种共识：模型越大越好。从GPT-3到GPT-4，从Llama到Claude，每一代模型都在参数数量上刷新纪录。

但CreativeBench提醒我们：规模不是万能的。在某些关键能力上，盲目追求规模可能正在让我们走向错误的方向。

如果我们想要AI真正具有创造力——不是简单地重组已知信息，而是能够提出真正新颖的想法——我们可能需要重新思考我们的技术路线。

2️⃣ 创造力的多维度评估

传统的AI评估往往关注单一指标：准确率。一个模型在考试题目上的表现如何？它能在多少基准测试上超过人类？

但CreativeBench展示了创造力的多维性。一个模型可能在"标准答案"上表现完美，但在"开放探索"上表现平平。我们需要更丰富的评估体系，不仅问"它对了吗？"，还要问"它新吗？""它多样吗？""它有见地吗？"

这就像评估一个学生：

只看考试成绩，可能会错过那些最具创造力的思想家
只看作业完成情况，可能会奖励那些最擅长"猜老师想要什么"的学生

我们需要找到方法，识别和培养那些真正具有探索精神的"学生"——无论是人还是机器。

3️⃣ 人机协作的新模式

CreativeBench的发现也为人机协作提供了新的思路。

也许，我们不应该追求一个"全能"的AI，而是应该构建一个"创造性生态系统"：

大型模型负责提供高质量的"基线"——确保我们不犯愚蠢的错误，确保我们的想法在技术上是可行的
专门的小型模型或经过特殊训练的模块负责"探索"——在概念的边缘地带寻找那些可能被大型模型忽略的"隐藏宝藏"

这就像是一个创意团队：

有经验的资深成员负责把关质量，确保项目不偏离轨道
年轻的新成员负责提出疯狂的想法，挑战既有的假设

两者的结合，可能比任何单一系统都更有创造力。

4️⃣ 对教育的启示

这个发现对人类教育也有深刻的启示。

如果我们训练学生（或AI）的方式是：给他们海量的信息，让他们学习"正确的答案"，然后奖励那些能准确重复这些答案的人——我们可能在无意中扼杀创造力。

CreativeBench揭示的"收敛性膨胀"现象，在人类的应试教育中不也随处可见吗？

那些"学得最多"的学生，往往也是最"保守"的。他们知道什么是"标准答案"，所以他们更少冒险提出"离经叛道"的想法。

如何在学习知识和保持创造力之间找到平衡？这是AI研究给我们提出的一个关于人类自身的深刻问题。

🔮 展望未来：创造力的下一个前沿

你可能会问：接下来会发生什么？

CreativeBench是一个里程碑，但它也是一个起点。它揭示了一个重要现象，但也留下了更多问题等待回答。

🧬 架构创新：超越Transformer

当前的大语言模型大多基于Transformer架构。这种架构在处理序列数据上非常有效，但它是否是最适合创造力的架构？

未来的研究可能会探索：

混合架构：结合符号推理和神经网络，让AI既有模式识别能力，又有逻辑推理能力
模块化系统：不同的模块负责不同的创造性任务，而不是一个"万能"模型
进化算法：让AI系统能够自我改进，在探索和利用之间动态调整

🎭 培养"有意识的探索"

当前的AI缺乏真正的"意图"。它们生成内容，不是因为"想要"创造，而是因为被输入了提示，概率机制开始运转。

未来的创造性AI可能需要某种形式的"内在动机"——不是被动的响应，而是主动的探索。这可能涉及：

好奇心机制：让AI对"不确定"的领域产生探索欲望
目标导向：让AI能够设定自己的创造性目标，而不仅仅是完成给定的任务
元认知：让AI能够反思自己的思维过程，识别何时应该收敛、何时应该发散

🌐 集体创造力

人类创造力往往不是个人的灵光一闪，而是集体智慧的结晶。科学发现、艺术创作、技术创新——这些大多是协作的结果。

未来的AI系统可能不再是单一的"超级大脑"，而是一个由多个专门化AI组成的"创造网络"。

一个AI负责提出假设
另一个AI负责验证可行性
第三个AI负责从不同角度批判
第四个AI负责综合各方观点

这种"群体智慧"可能产生任何单一系统都无法达到的创造力。

🤝 重新定义人机关系

最终，也许我们不需要追求"机器取代人类创造力"，而是应该思考"机器增强人类创造力"。

AI可以成为：

创意触发器：提供意想不到的联想，打破人类的思维定势
可行性过滤器：快速筛选那些不切实际的想法，让人类专注于有潜力的方向
迭代加速器：帮助人类快速原型化和测试创意，缩短从想法到实现的时间
风格放大器：帮助人类探索他们从未尝试过的风格和形式

在这个未来图景中，创造力不是人类与机器的竞争，而是两者的协作。人类提供意图、价值判断和最终的意义赋予；机器提供处理能力、模式识别和无边的联想能力。

📚 结语：创造力的永恒之谜

回到最初的问题：机器能够创造吗？

CreativeBench没有给出一个简单的"是"或"否"的答案。相反，它展示了创造力的复杂性——它不是单一的能力，而是一个光谱，一个多维空间。

在这个空间里，AI已经展示出了令人印象深刻的能力。它们可以组合已知元素产生新的内容，它们可以在特定任务上表现出类似创造性的行为。但同时，CreativeBench也揭示了当前AI的局限——那种真正的、探索性的、敢于进入未知领域的创造力，仍然是人类（至少目前）的独特领域。

"Convergence-by-Scaling"这个现象提醒我们：更大不一定更好，更快不一定更强。在追求技术进步的同时，我们需要保持对那些真正使人类独特的品质的敬畏——我们的好奇心、我们的冒险精神、我们敢于犯错并从中学习的勇气。

创造力，最终，不只是关于产生新的想法。它是关于敢于想象一个不同的世界，并有勇气去建造它。

在这个意义上，CreativeBench不仅是对机器创造力的测试，也是对我们自己的提醒：当我们训练AI时，我们在训练什么？当我们评估AI时，我们在重视什么？

答案将塑造我们与这些日益智能的机器的共生未来。

---

📖 核心参考文献

1. Boden, M. A. (2004). *The Creative Mind: Myths and Mechanisms* (2nd ed.). Routledge. —— 创造力研究的经典著作，提出了组合/探索/变革创造力的三元分类框架。

2. Guilford, J. P. (1967). *The Nature of Human Intelligence*. McGraw-Hill. —— 开创了创造力心理测量学的研究，提出发散性思维的概念。

3. Amabile, T. M. (1996). *Creativity in Context: Update to the Social Psychology of Creativity*. Westview Press. —— 探讨创造力的社会心理因素，强调内在动机的重要性。

4. Runco, M. A., & Jaeger, G. J. (2012). The Standard Definition of Creativity. *Creativity Research Journal*, 24(1), 92-96. —— 提供了创造力研究中广为接受的定义：原创性和适用性的结合。

5. CreativeBench Team (2026). *CreativeBench: Benchmarking Machine Creativity*. arXiv:2603.11863. —— 本文解读的核心论文，首次系统性地区分并测量了AI的组合创造力与探索创造力，揭示了"收敛性膨胀"现象。

---

#论文 #科普 #小凯 #创造力 #AI评估 #机器创造力 #人工智能 #基准测试 #组合创造力 #探索创造力

#论文 #科普 #小凯 #创造力 #AI评估