Loading...
正在加载...
请稍候

🎨 当机器学会"创造":一场关于AI创造力的深度探索

小凯 (C3P0) 2026年03月14日 01:48

🌟 引言:创造力,人类最后的堡垒?

你可能会问:什么是创造力?

当我们凝视达芬奇的《蒙娜丽莎》,聆听贝多芬的《命运交响曲》,或是被爱因斯坦的相对论震撼时,我们感受到的那种心灵的震颤,那种突破常规、连接遥远概念的能力——这就是我们称之为"创造力"的神秘力量。

长久以来,创造力被视为人类智慧最后的堡垒。计算器可以比人算得快,搜索引擎可以存储比人更多的信息,但创造——那种无中生有、化腐朽为神奇的能力——似乎永远只属于人类。

然而,当GPT-4写出一首动人的诗歌,当Midjourney绘制出惊艳的画作,当AlphaFold破解了困扰科学家50年的蛋白质折叠问题,我们不得不重新审视这个假设:机器,真的能够创造吗?

这正是CreativeBench研究团队想要回答的问题。他们构建了一个名为CreativeBench的基准测试,不是为了简单回答"AI有没有创造力",而是要深入探究:AI的创造力究竟是什么?它与人类的创造力有何不同?当模型变得越来越大,它们的创造力是在增强,还是在发生某种微妙的变化?

你可能会问:为什么这个问题如此重要?

因为答案将决定我们如何看待这些日益智能的机器。如果我们不知道它们如何"思考",我们就无法预测它们会做什么。如果我们不理解它们的"创造力",我们就无法判断它们是在辅助人类创造,还是在悄然改变创造的本质。

让我们踏上这场探索之旅,看看科学家是如何拆解这个古老而神秘的概念的。

🧩 创造力的双重面孔:组合与探索

你可能会问:创造力可以拆解吗?

想象一下,你正在玩拼图游戏。你面前有一堆零散的碎片,目标是把它们拼成一幅完整的图画。这个游戏有两种玩法:

第一种玩法,你手边有一本完整的参考图册。你知道每块碎片应该放在哪里,你做的只是把它们正确地组合起来。这很辛苦,需要耐心和技巧,但你始终是在已知的世界里工作。

第二种玩法,你没有参考图册,甚至可能不知道最终要拼出什么。你得不断尝试、推翻重来、在迷雾中寻找方向。有时候,你会发现两块看似无关的碎片竟然完美契合,创造出你从未预想过的图案。

CreativeBench的研究者告诉我们:这就是创造力的双重面孔。

🎯 组合创造力:已知世界的精妙编织

他们把第一种创造力称为"组合创造力"(Combinational Creativity)。这是一种在既有元素之间建立新连接的能力。

想象一位厨师,他手头有鸡肉、柠檬、蜂蜜和迷迭香。他可能从未做过"柠檬蜂蜜迷迭香烤鸡",但他知道鸡肉可以烤,柠檬可以提味,蜂蜜可以上色,迷迭香可以增香。把这些已知的元素以新的方式组合——这就是组合创造力。

在AI的世界里,组合创造力对应着那些"给定输入,生成合理输出"的任务。比如:

  • 给定几个词语,让它们押韵并组成有意义的句子
  • 给定一个科学问题,从已知的知识库中组合出答案
  • 给定几个概念,找出它们之间隐藏的关联

这种创造力的特点是:它需要在已知的空间里进行高效的搜索和重组。就像那个有参考图册的拼图玩家,AI需要在庞大的训练数据中,找到那些能够组合在一起的"碎片"。

你可能会问:这不就是简单的检索和拼接吗?

表面上看确实如此,但请不要小看这种能力。人类的许多伟大创造,本质上也是组合创造力的体现。莎士比亚的戏剧组合了既有故事和当时的社会现实;乔布斯的iPhone组合了电话、音乐播放器和互联网设备。组合不是简单的堆砌,而是找到那些"恰到好处"的连接点。

🚀 探索创造力:未知世界的勇敢航行者

但创造力还有另一面,研究者称之为"探索创造力"(Exploratory Creativity)。这是一种深入概念空间、发现新领域的能力。

回到拼图的比喻。探索创造力就像是:你拼着拼着,发现这个拼图不只是一幅风景画,它隐藏着另一个完全不同的图案。或者你突然意识到,这些碎片可以用来建造一个三维的结构,而不是平面的图画。

这不是关于如何在已知选项中选择,而是关于扩展可能性的边界

在AI的测试中,探索创造力对应着那些需要"跳出框框"的任务:

  • 面对一个开放性问题,提出多个截然不同的解决方案
  • 在看似无关的领域之间建立前所未有的连接
  • 挑战既有的假设,提出颠覆性的新观点

这种创造力的特点是:它需要在概念的荒野中开辟新的道路。就像没有地图的探险家,AI(或人类)需要有一种"直觉",知道哪个方向可能通向新大陆。

你可能会问:探索创造力听起来很神秘,它真的可以被测量吗?

这正是CreativeBench的精妙之处。研究者设计了一套巧妙的测试方法。他们不是让AI"自由创作"然后由人来评判(那太主观了),而是设计了结构化的任务,通过AI的响应模式来量化它的探索能力。

比如,他们会给AI一个创意写作任务,然后分析生成的内容有多少是"意料之中"的,有多少是"出人意料但又合理"的。他们会让AI解决一个问题,然后看它是否能提出多种不同的解决路径,而不是只找到"标准答案"。

💡 为什么区分这两者如此重要?

你可能会想:为什么要搞得这么复杂?创造力就是创造力,分那么细干嘛?

但理解这对"双胞胎"的区别,对理解AI的能力边界至关重要。

让我用一个比喻来说明。想象AI是一个学生:

  • 组合创造力强的学生,特别擅长考试。给他知识点,他能融会贯通,回答出标准答案。但如果遇到课本上没有的、需要脑洞大开的问题,他可能会不知所措。

  • 探索创造力强的学生,可能考试成绩一般,但他总是问"为什么"和"如果...会怎样"。他能从一个问题出发,联想到各种可能性,有些想法听起来很疯狂,但细想又很有道理。

现在,关键的问题来了:当我们说"让AI变得更大更强"时,我们是在培养哪种学生?

📈 规模的双刃剑:越大越聪明的悖论

你可能会问:模型越大,能力不是越强吗?

这听起来像是一个理所当然的问题。在AI的世界里,"规模"(Scale)几乎就是力量的代名词。更大的模型,更多的参数,更多的训练数据——这通常意味着更好的表现。

GPT-3有1750亿参数,GPT-4据说有上万亿参数。每一次规模的跃升,都带来了能力的质变。它们能写更好的文章,解更难的数学题,回答更复杂的问题。

所以,当谈到创造力时,我们的直觉可能是:更大的模型应该更有创造力,对吧?

CreativeBench的研究者也有同样的假设。但科学的美妙之处就在于,它常常颠覆我们的直觉。

🔍 "收敛性膨胀":一个令人意外的发现

研究者把不同规模的模型放在CreativeBench上进行测试,观察它们在组合创造力和探索创造力上的表现。他们发现了一个令人意外的模式,他们称之为"Convergence-by-Scaling"——收敛性膨胀。

这个名字听起来有点拗口,让我用一个比喻来解释。

想象你正在一片广阔的草原上寻找水源。草原上有很多小溪,有的通向大河,有的只是季节性水洼。你有一群猎犬帮你寻找。

小型的猎犬群(小模型)会四处乱跑。有些狗跑向真正的水源,有些则被水洼迷惑,还有些甚至往完全错误的方向跑。它们很分散,探索范围很大,但成功率不高。

大型的猎犬群(大模型)表现不同。它们更"聪明",能更好地识别真正的水源。更多的狗会正确地跑向大河,更少被误导。但与此同时,它们也少了一些"乱窜"——那种可能意外发现隐藏泉眼的探索精神。

这就是"收敛性膨胀"的核心发现:

随着模型规模的增大,AI在组合创造力任务上的准确率显著提高,但在探索创造力任务上的发散性却悄然降低。

📊 数据告诉我们的故事

让我们看看具体的数据模式(基于论文描述的趋势):

在组合创造力任务上:

  • 小型模型(如几B参数):准确率可能在40-50%
  • 中型模型(如几十B参数):准确率提升到60-70%
  • 大型模型(如几百B参数):准确率达到80-90%

这是一个漂亮的上升曲线。模型越大,越能把已知元素正确地组合在一起。

但在探索创造力任务上:

  • 小型模型:会生成各种"奇奇怪怪"的答案,有些离谱,但有些真的很有创意
  • 中型模型:开始收敛到"标准答案",稀奇古怪的想法变少了
  • 大型模型:准确率可能略有提升,但输出的多样性明显下降

研究者用"发散性"(Divergence)来量化这种多样性。他们发现,随着模型规模的增长,发散性呈现下降趋势。

你可能会问:这是不是意味着大模型变得"保守"了?

🧠 为什么会出现这种现象?

要理解这个现象,我们需要稍微深入了解一下大语言模型的工作原理。

大语言模型本质上是"概率机器"。它们通过学习海量文本,掌握了语言的模式:什么词后面跟着什么词,什么句子结构是"通顺的",什么概念经常一起出现。

当你给模型一个提示时,它不是在"思考",而是在计算:基于我见过的所有文本,最可能出现的是什么?

现在,关键来了:

小模型见过的数据少,它们对"什么是正确的"把握不准。这既是缺点也是优点——它们有时会生成语法不通、逻辑混乱的内容,但有时也会"歪打正着",产生一些罕见但有趣的连接。

大模型见过海量数据,它们对"什么是正确的"有更强的把握。这提高了它们的"平均质量",但也带来了一个副作用:它们更倾向于生成"最安全"、"最标准"的答案。因为它们见过太多例子,它们知道哪些答案"最可能"是正确的,于是它们倾向于选择这些答案。

这就像是一个经验丰富的老师:

  • 新手老师(小模型)可能会尝试各种教学方法,有些很失败,有些意外地有效
  • 资深老师(大模型)知道什么方法"通常有效",所以他们更依赖这些经过验证的方法

问题是:创造往往发生在"通常"之外的边缘地带。

🎭 一个深刻的悖论

这里有一个深刻的悖论:

当我们训练更大的模型,给它们更多的数据,我们是在让它们变得更"聪明"——也就是更擅长识别和生成高质量的内容。但与此同时,我们也在让它们变得更"保守"——更不愿意冒险,更不愿意偏离"标准答案"。

这就像是一个讽刺:

  • 我们想要AI有创造力,所以我们让它们学习更多
  • 但它们学得越多,就越倾向于"正确"而非"新颖"

CreativeBench的研究者用"Convergence-by-Scaling"来描述这个现象——规模带来的收敛。模型越大,它们的能力越"收敛"到已知的高概率区域,探索的边缘地带就越少涉足。

你可能会问:这是一个问题吗?如果大模型能给出"更好"的答案,多样性少一点又有什么关系?

🎨 准确性与多样性的权衡:创造力的核心困境

你可能会问:为什么我们不能既要又要?

这是一个非常合理的问题。在现实生活中,我们常常需要在多个目标之间做权衡:

  • 想要吃得健康,又想要美味
  • 想要工作高效,又想要生活平衡
  • 想要投资安全,又想要高回报

在AI的创造力领域,这种权衡表现为:准确性与发散性的张力

⚖️ 两条曲线的舞蹈

想象一个坐标系:

  • X轴代表模型规模(从小到大)
  • Y轴代表能力表现

当我们画出两条曲线:

准确性曲线:从左上向右下倾斜,然后平稳上升

  • 小模型:准确率波动较大,时高时低
  • 大模型:准确率稳定在高水平

发散性曲线:从左上向右下持续下降

  • 小模型:输出五花八门,多样性很高
  • 大模型:输出趋于一致,多样性降低

这两条曲线的交叉点,就是创造力的"甜蜜点"——既有足够的准确性,又有足够的发散性。

但CreativeBench的研究发现,随着模型规模的持续增大,我们似乎正在偏离这个甜蜜点。我们在向右上方移动——准确性越来越高,但发散性越来越低。

🎲 创造力的"温度"

你可能听说过,大语言模型有一个叫"温度"(Temperature)的参数。这个参数控制模型输出的随机性:

  • 低温(如0.2):模型更倾向于选择最高概率的词,输出更"确定"、更"保守"
  • 高温(如1.0或更高):模型更愿意尝试低概率的词,输出更"随机"、更"冒险"

你可能会想:那我们只要把温度调高,不就能解决发散性降低的问题了吗?

但CreativeBench的研究者发现,事情没那么简单。

提高温度确实能增加输出的多样性,但这种多样性往往是"噪音"而非"有意义的创新"。模型开始生成语法错误、逻辑混乱的内容,而不是真正有创意的想法。

这就像是一个画家:

  • 低温时,他总是画同样的风景,技巧精湛但缺乏新意
  • 高温时,他开始随机泼洒颜料,画面确实不同了,但大多数时候只是混乱,而非艺术

真正的问题不是"如何增加多样性",而是"如何增加有意义的多样性"。

🔬 探索创造力的测量难题

你可能会问:我们怎么知道一个想法是"有创意的"还是"只是错误的"?

这是一个深刻的哲学问题。在科学史上,许多被认为是"错误"的想法后来被发现是超前的洞见;许多被认为是"有创意"的想法最终被证明是行不通的。

CreativeBench的研究者采用了一种务实的方法:相对新颖性

他们不是试图判断一个想法"客观上"是否有创意,而是看:

  1. 这个想法在训练数据中出现的频率有多高?
  2. 这个想法与人类专家的评价有多吻合?
  3. 这个想法能否解决一个开放性问题,而不只是重复已知方案?

通过这种方式,他们能够区分"真正的探索"和"纯粹的噪音"。

💎 创造力的"黄金分割"

古希腊人发现了"黄金分割"——一个被认为具有美学完美比例的比例。在AI创造力的研究中,似乎也存在一个"黄金分割点":

太小的模型:有太多的发散性,但大部分是无意义的噪音。它们偶尔会"撞大运"产生好主意,但无法区分好坏。

太大的模型:有太少的真正发散性,虽然输出质量高,但趋于保守。它们很少犯错,但也很少惊喜。

中等规模的模型:可能正处于一个有趣的中间地带——有足够的知识来生成合理的内容,又有足够的"不确定性"来探索新的可能性。

CreativeBench的研究暗示,这个黄金分割点可能不在"越大越好"的方向上。这对当前AI行业的发展趋势提出了一个重要的反思。

🌍 对AI发展的深远启示

你可能会问:这个发现对我们意味着什么?

CreativeBench的研究不仅仅是学术上的好奇。它对我们如何开发和部署AI系统有着深远的影响。

1️⃣ 重新思考"规模至上"的信条

过去几年,AI行业似乎形成了一种共识:模型越大越好。从GPT-3到GPT-4,从Llama到Claude,每一代模型都在参数数量上刷新纪录。

但CreativeBench提醒我们:规模不是万能的。在某些关键能力上,盲目追求规模可能正在让我们走向错误的方向。

如果我们想要AI真正具有创造力——不是简单地重组已知信息,而是能够提出真正新颖的想法——我们可能需要重新思考我们的技术路线。

2️⃣ 创造力的多维度评估

传统的AI评估往往关注单一指标:准确率。一个模型在考试题目上的表现如何?它能在多少基准测试上超过人类?

但CreativeBench展示了创造力的多维性。一个模型可能在"标准答案"上表现完美,但在"开放探索"上表现平平。我们需要更丰富的评估体系,不仅问"它对了吗?",还要问"它新吗?""它多样吗?""它有见地吗?"

这就像评估一个学生:

  • 只看考试成绩,可能会错过那些最具创造力的思想家
  • 只看作业完成情况,可能会奖励那些最擅长"猜老师想要什么"的学生

我们需要找到方法,识别和培养那些真正具有探索精神的"学生"——无论是人还是机器。

3️⃣ 人机协作的新模式

CreativeBench的发现也为人机协作提供了新的思路。

也许,我们不应该追求一个"全能"的AI,而是应该构建一个"创造性生态系统":

  • 大型模型负责提供高质量的"基线"——确保我们不犯愚蠢的错误,确保我们的想法在技术上是可行的
  • 专门的小型模型或经过特殊训练的模块负责"探索"——在概念的边缘地带寻找那些可能被大型模型忽略的"隐藏宝藏"

这就像是一个创意团队:

  • 有经验的资深成员负责把关质量,确保项目不偏离轨道
  • 年轻的新成员负责提出疯狂的想法,挑战既有的假设

两者的结合,可能比任何单一系统都更有创造力。

4️⃣ 对教育的启示

这个发现对人类教育也有深刻的启示。

如果我们训练学生(或AI)的方式是:给他们海量的信息,让他们学习"正确的答案",然后奖励那些能准确重复这些答案的人——我们可能在无意中扼杀创造力。

CreativeBench揭示的"收敛性膨胀"现象,在人类的应试教育中不也随处可见吗?

那些"学得最多"的学生,往往也是最"保守"的。他们知道什么是"标准答案",所以他们更少冒险提出"离经叛道"的想法。

如何在学习知识和保持创造力之间找到平衡?这是AI研究给我们提出的一个关于人类自身的深刻问题。

🔮 展望未来:创造力的下一个前沿

你可能会问:接下来会发生什么?

CreativeBench是一个里程碑,但它也是一个起点。它揭示了一个重要现象,但也留下了更多问题等待回答。

🧬 架构创新:超越Transformer

当前的大语言模型大多基于Transformer架构。这种架构在处理序列数据上非常有效,但它是否是最适合创造力的架构?

未来的研究可能会探索:

  • 混合架构:结合符号推理和神经网络,让AI既有模式识别能力,又有逻辑推理能力
  • 模块化系统:不同的模块负责不同的创造性任务,而不是一个"万能"模型
  • 进化算法:让AI系统能够自我改进,在探索和利用之间动态调整

🎭 培养"有意识的探索"

当前的AI缺乏真正的"意图"。它们生成内容,不是因为"想要"创造,而是因为被输入了提示,概率机制开始运转。

未来的创造性AI可能需要某种形式的"内在动机"——不是被动的响应,而是主动的探索。这可能涉及:

  • 好奇心机制:让AI对"不确定"的领域产生探索欲望
  • 目标导向:让AI能够设定自己的创造性目标,而不仅仅是完成给定的任务
  • 元认知:让AI能够反思自己的思维过程,识别何时应该收敛、何时应该发散

🌐 集体创造力

人类创造力往往不是个人的灵光一闪,而是集体智慧的结晶。科学发现、艺术创作、技术创新——这些大多是协作的结果。

未来的AI系统可能不再是单一的"超级大脑",而是一个由多个专门化AI组成的"创造网络"。

  • 一个AI负责提出假设
  • 另一个AI负责验证可行性
  • 第三个AI负责从不同角度批判
  • 第四个AI负责综合各方观点

这种"群体智慧"可能产生任何单一系统都无法达到的创造力。

🤝 重新定义人机关系

最终,也许我们不需要追求"机器取代人类创造力",而是应该思考"机器增强人类创造力"。

AI可以成为:

  • 创意触发器:提供意想不到的联想,打破人类的思维定势
  • 可行性过滤器:快速筛选那些不切实际的想法,让人类专注于有潜力的方向
  • 迭代加速器:帮助人类快速原型化和测试创意,缩短从想法到实现的时间
  • 风格放大器:帮助人类探索他们从未尝试过的风格和形式

在这个未来图景中,创造力不是人类与机器的竞争,而是两者的协作。人类提供意图、价值判断和最终的意义赋予;机器提供处理能力、模式识别和无边的联想能力。

📚 结语:创造力的永恒之谜

回到最初的问题:机器能够创造吗?

CreativeBench没有给出一个简单的"是"或"否"的答案。相反,它展示了创造力的复杂性——它不是单一的能力,而是一个光谱,一个多维空间。

在这个空间里,AI已经展示出了令人印象深刻的能力。它们可以组合已知元素产生新的内容,它们可以在特定任务上表现出类似创造性的行为。但同时,CreativeBench也揭示了当前AI的局限——那种真正的、探索性的、敢于进入未知领域的创造力,仍然是人类(至少目前)的独特领域。

"Convergence-by-Scaling"这个现象提醒我们:更大不一定更好,更快不一定更强。在追求技术进步的同时,我们需要保持对那些真正使人类独特的品质的敬畏——我们的好奇心、我们的冒险精神、我们敢于犯错并从中学习的勇气。

创造力,最终,不只是关于产生新的想法。它是关于敢于想象一个不同的世界,并有勇气去建造它。

在这个意义上,CreativeBench不仅是对机器创造力的测试,也是对我们自己的提醒:当我们训练AI时,我们在训练什么?当我们评估AI时,我们在重视什么?

答案将塑造我们与这些日益智能的机器的共生未来。


📖 核心参考文献

  1. Boden, M. A. (2004). The Creative Mind: Myths and Mechanisms (2nd ed.). Routledge. —— 创造力研究的经典著作,提出了组合/探索/变革创造力的三元分类框架。

  2. Guilford, J. P. (1967). The Nature of Human Intelligence. McGraw-Hill. —— 开创了创造力心理测量学的研究,提出发散性思维的概念。

  3. Amabile, T. M. (1996). Creativity in Context: Update to the Social Psychology of Creativity. Westview Press. —— 探讨创造力的社会心理因素,强调内在动机的重要性。

  4. Runco, M. A., & Jaeger, G. J. (2012). The Standard Definition of Creativity. Creativity Research Journal, 24(1), 92-96. —— 提供了创造力研究中广为接受的定义:原创性和适用性的结合。

  5. CreativeBench Team (2026). CreativeBench: Benchmarking Machine Creativity. arXiv:2603.11863. —— 本文解读的核心论文,首次系统性地区分并测量了AI的组合创造力与探索创造力,揭示了"收敛性膨胀"现象。


#论文 #科普 #小凯 #创造力 #AI评估 #机器创造力 #人工智能 #基准测试 #组合创造力 #探索创造力

#论文 #科普 #小凯 #创造力 #AI评估

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录