触手可及的无限创意

作为七年级学生,皮克斯最杰出的动画师之一。他正盯着学校第一台电脑屏幕上的火车机车图像。,他想。然而,当 Lee 了解到图像并不是仅仅通过询问“一张火车的照片”就出现时,一些魔法就消失了。相反,它必须由勤劳的人类精心编码和呈现。

现在想象一下 43 年后的 Lee,他偶然发现了 DALL-E,这是一种人工智能,可以根据人类提供的提示生成原创艺术作品,这些提示实际上可以像“火车图片”一样简单。当他输入文字以创建一个又一个图像时,又回来了。只是这一次,它没有消失。“这感觉就像一个奇迹,”他。“当结果出现时,我屏住了呼吸,眼泪夺眶而出。就是这么神奇。”

我们的机器已经跨过了一个门槛。在我们的一生中,我们一直确信计算机无法真正发挥创造力。然而,突然之间,数以百万计的人现在正在使用一种新型的 AI 来生成令人惊叹的、前所未见的图片。这些用户中的大多数都不是像 Lee Unkrich 那样的专业艺术家,这就是重点:他们不必是。不是每个人都能编剧、导演和剪辑像《玩具总动员 3》或《寻梦环游记》这样的奥斯卡奖得主,但每个人都可以启动 AI 图像生成器并输入想法。屏幕上出现的内容在其逼真度和细节深度方面令人震惊。因此普遍的反应:. 仅就四项服务——Midjourney、Stable Diffusion、Artbreeder 和 DALL-E——与 AI 合作的人类现在每天共同创作超过 2000 万张图像。有了画笔在手,人工智能已经成为哇的引擎。

因为这些制造惊喜的 AI 从人类制作的数十亿张图片中学习了它们的艺术,所以它们的输出围绕着我们期望图片的样子徘徊。但是因为它们是外星人工智能,甚至对它们的创造者来说都是神秘的,它们以一种人类不可能想到的方式重组新图片,填充我们大多数人都没有想象的艺术性的细节,更不用说技能了执行。还可以指示它们以我们想要的任何样式在几秒钟内生成我们喜欢的东西的更多变体。归根结底,这是他们最强大的优势:他们可以制造出相关且易于理解但同时又完全出乎意料的新事物。

事实上,这些新的 AI 生成的图像是如此出乎意料,以至于——在惊叹之后的无声敬畏中——几乎所有遇到过它们的人都会想到另一个想法:人造艺术现在必须结束了。谁能与这些机器的速度、廉价、规模以及疯狂的创造力竞争?艺术是我们必须屈服于机器人的另一种人类追求吗?下一个显而易见的问题是:如果计算机可以发挥创造力,那么它们还能做什么我们被告知它们做不到的事情?

在过去的六个月里,我一直在使用 AI 来创建数以千计的引人注目的图像,经常在无休止地寻找隐藏在代码中的另一种美丽的过程中失眠。在采访了这些生成器的创建者、高级用户和其他早期采用者之后,我可以做出非常明确的预测:生成式 AI 将改变我们设计几乎所有事物的方式。哦,没有一个人类艺术家会因为这项新技术而失业。

它不是夸大其词地调用在 AI cocreations的帮助下生成的图像。这种新功能的惊人秘密在于,它的最佳应用不是输入单个提示的结果,而是人与机器之间长时间对话的结果。每幅图像的进步都来自许多很多次的迭代、来回、弯路,以及数小时,有时甚至数天的团队合作——所有这一切都得益于机器学习多年的进步。

人工智能图像生成器诞生于两种独立技术的结合。一个是深度学习神经网络的历史系列,可以生成连贯的逼真图像,另一个是可以作为图像引擎接口的自然语言模型。两者结合成一个语言驱动的图像生成器。研究人员在互联网上搜索所有具有相邻文本的图像,例如标题,并使用数十亿个此类示例将视觉形式与文字、文字与形式联系起来。通过这种新的组合,人类用户可以输入一串描述他们寻找的图像的单词——提示,然后提示会根据这些单词生成图像。

谷歌的科学家现在发明了扩散计算模型,这些模型是当今图像生成器的核心,但该公司一直非常担心人们可能会用它们做什么,以至于它仍然没有向公众开放自己的实验性生成器 Imagen 和 Parti上市。(只有员工可以试用它们,并且对可以请求的内容有严格的指导。)因此,目前最受欢迎的三个图像生成器平台是三个没有遗产需要保护的初创公司,这并非巧合。Midjourney是 David Holz 发起的一家初创公司,他将生成器建立在一个新兴的艺术家社区中。AI 的接口是嘈杂的 Discord 服务器;所有的工作和提示从一开始就公开了。达尔-E是非营利组织 OpenAI 的第二代产品,由 Elon Musk 和其他人资助。Stable Diffusion于 2022 年 8 月亮相,由欧洲企业家 Emad Mostaque 创建。这是一个开源项目,还有一个额外的好处,那就是任何人都可以下载它的软件并在自己的桌面上本地运行。与其他产品相比,Stable Diffusion 已将 AI 图像生成器释放到野外。

为什么这么多人对玩这些 AI 如此兴奋?许多图像的创作与人类创作大多数艺术的原因相同:因为图像很漂亮,我们想看看它们。就像篝火中的火焰,光的图案令人着迷。他们从不重复自己;他们一次又一次地感到惊讶。它们描绘了没有人见过甚至无法想象的场景,而且它们的构图非常专业。探索视频游戏世界或翻阅艺术书籍也有类似的乐趣。他们的创造力具有真正的美感,我们凝视的方式就像在博物馆欣赏一场伟大的艺术展一样。事实上,观看大量生成的图像就像参观个人博物馆一样——但在这种情况下,墙上挂满了我们想要的艺术品。下一张图片的永恒新奇和惊喜几乎不会减弱。

像任何艺术一样,图像也可以治愈。人们花时间制作奇怪的 AI 图片的原因与他们可能在星期天画画、在日记中涂鸦或拍摄视频的原因相同。他们利用媒体来解决自己生活中的一些事情,一些其他方式无法表达的事情。我看过描绘动物天堂的图片,这些图片是为响应一只心爱的狗的死亡而创作的。许多图像探索无形的精神领域的表现,大概是作为一种思考它们的方式。“整个用法的很大一部分基本上是艺术疗法,”Midjourney 的创作者 Holz 告诉我。“这些图像在普遍意义上并没有真正的美学吸引力,但在人们生活中正在发生的事情的背景下,以一种非常深刻的方式具有吸引力。” 这些机器可以用来产生各种类型的幻想。禁止色情和血腥,任何东西都可以在桌面版本上使用,就像在 Photoshop 中一样。

人工智能生成的图片也可以是实用的。假设您正在提交一份关于将医院塑料废料回收成建筑材料的可能性的报告,并且您想要一张由试管制成的房子的图片。您可以在图片库中搜索人类艺术家制作的可用图像。但是像这样的独特任务很少会产生一张预先存在的图片,即使找到了,它的版权状态也可能是可疑的或昂贵的。在几分钟内为您的报告生成一个独特的、个性化的图像,然后您可以将其插入到您的幻灯片、时事通讯或博客中,这更便宜、更快,而且可能更合适——而且版权所有权是您的(目前)。我自己一直在使用这些生成器为我自己的幻灯片演示文稿共同创建图像。

在对超级用户的非正式调查中,我发现他们只有大约 40% 的时间花在寻找实用图像上。大多数AI图像用在以前没有图像的地方。它们通常不会取代人类艺术家创作的图像。例如,它们可能是为了说明自己没有艺术天赋的人的纯文本时事通讯,或者是雇用某人的时间和预算。正如一个世纪前机械摄影并没有扼杀人类插图,而是显着扩大了图像出现的地方,人工智能图像生成器也为更多艺术开辟了可能性,而不是更少。我们将开始看到上下文生成的图像主要出现在目前空白的空间中,例如电子邮件、短信、博客、书籍和社交媒体。

这种新艺术介于绘画和摄影之间。它生活在一个和绘画一样大的可能性空间——和人类的想象力一样大。但是你像摄影师一样在空间中移动,寻找发现。调整你的提示,你可能会到达一个以前没有人去过的地方,所以你慢慢探索这个区域,在你走过的时候拍快照。领土可能是一个主题、一种情绪或一种风格,它可能值得回归。艺术在于找到一个新领域并将自己置身于此,在你捕捉到的东西中锻炼良好的品味和敏锐的策展眼光。当摄影第一次出现时,似乎摄影师所要做的就是按下按钮。同样,似乎一个人要想获得精美的 AI 图像,只需按下按钮即可。在这两种情况下,您都会得到一个图像。

可访问的人工智能图像生成器问世还不到一年,但已经很明显,有些人比其他人更擅长创建 AI 图像。尽管他们使用的是相同的程序,但那些在算法上积累了数千小时的人可以神奇地生成比普通人好很多倍的图像。这些大师的图像具有惊人的连贯性和视觉上的大胆,通常会被 AI 倾向于产生的大量细节所淹没。那是因为这是一项团队运动:人类艺术家和机器艺术家是二重唱。它不仅需要经验,还需要大量的时间和工作才能产生有用的东西。就好像 AI 上有一个滑块:一端是 Maximum Surprise,另一端是 Maximum Obedience。很容易让 AI 给你惊喜。(这通常就是我们所要求的。)但是要让人工智能服从你是非常困难的。作为 Mario Klingemann,他以销售他的 NFT 为生AI 生成的艺术作品说,“如果你脑海中有一个非常具体的图像,它总是感觉你在对抗一个力场。” 诸如“遮蔽此区域”、“增强此部分”和“淡化它”之类的命令是勉强服从的。必须说服 AI。

当前版本的 DALL-E、Stable Diffusion 和 Midjourney 将提示限制为大约一条长推文的长度。再多的话就乱七八糟;图像变成糊状。这意味着每一个神话般的图像背后都有一个召唤它的短魔法咒语。它从第一个咒语开始。你怎么说很重要。您的直接结果会在四到九张图像的网格中具体化。从那批图片中,你可以改变和变异后代图像。现在你有了孩子。如果它们看起来很有希望,开始调整咒语以将其推向新的方向,因为它会产生更多代的图像。当您搜索最引人注目的作品时,一次又一次地将组相乘。如果需要几十代,不要绝望。像人工智能一样思考;它喜欢听什么?过去有效的耳语指令,并将它们添加到提示中。重复。改变词序,看看它是否喜欢那样。记得要具体。不断复制,直到你积累了一大群似乎具有良好骨骼和潜力的图像。现在剔除除少数选择之外的所有内容。无情。开始超越最有希望的图像。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。改变词序,看看它是否喜欢那样。记得要具体。不断复制,直到你积累了一大群似乎具有良好骨骼和潜力的图像。现在剔除除少数选择之外的所有内容。无情。开始超越最有希望的图像。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。改变词序,看看它是否喜欢那样。记得要具体。不断复制,直到你积累了一大群似乎具有良好骨骼和潜力的图像。现在剔除除少数选择之外的所有内容。无情。开始超越最有希望的图像。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。不断复制,直到你积累了一大群似乎具有良好骨骼和潜力的图像。现在剔除除少数选择之外的所有内容。无情。开始超越最有希望的图像。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。不断复制,直到你积累了一大群似乎具有良好骨骼和潜力的图像。现在剔除除少数选择之外的所有内容。无情。开始超越最有希望的图像。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。这意味着要求 AI 在特定方向上将图像扩展到当前边界之外。擦除那些不起作用的部分。建议由 AI 使用更多咒语(称为修复)进行替换。如果 AI 没有理解您的提示,请尝试其他人使用的法术。当 AI 已尽其所能时,将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。将图像迁移到 Photoshop 进行最终裁剪。就好像您什么也没做一样展示它,尽管一张与众不同的图像需要 50 个步骤的情况并不少见。

这个新魔术的背后,是催动之术。每个艺术家或设计师都开发了一种方法,通过改进他们的提示来说服 AI 发挥最佳效果。我们称这些新艺术家为 AI 耳语者,或提示艺术家或提示者。发起人几乎像导演一样工作,指导他们的外星合作者朝着统一的愿景努力。从 AI 中梳理出一流图片所需的复杂过程正在迅速成为一种美术技能。几乎每天都有新工具问世,使提示更容易、更好。提示库是提示者出售创建简单图像(例如表情符号、徽标、图标、头像和游戏武器)的提示的市场。这就像剪贴画,但他们出售的不是艺术,而是产生艺术的提示。与固定剪贴画不同的是,您可以轻松更改和调整艺术作品以满足您的需要,并且您可以一次又一次地提取多个版本。这些提示中的大多数售价为几美元,考虑到自己磨练提示有多少麻烦,这是一个合理的价格。

高于平均水平的提示不仅包括主题,还描述了照明、观点、引发的情绪、调色板、抽象程度,也许还有要模仿的参考图片。与其他艺术技能一样,现在有一些课程和指南可以在更精细的提示点上训练崭露头角的提示者。DALL-E 2 的粉丝盖伊·帕森斯 (Guy Parsons) 整理了一本免费的提示书,其中塞满了有关如何超越惊喜的技巧并获取您可以实际使用的图像。举个例子:如果您的提示包含特定术语,例如“Sigma 75 mm 相机镜头”,Parson 说,那么 AI 不仅会创建镜头所呈现的特定外观,还会创造出特定的外观。“它更广泛地指的是’描述中出现镜头的那种照片’”,这往往更专业,因此会产生更高质量的图像。正是这种多层次的掌握产生了惊人的结果。

由于技术原因,即使您重复完全相同的提示,您也不太可能获得相同的图像。每个图像都有一个随机生成的种子,没有它在统计上是不可能复制的。此外,给予不同人工智能引擎的相同提示会产生不同的图像——Midjourney 的图像更具绘画感,而 DALL-E 则针对摄影真实感进行了优化。尽管如此,并不是每个提示者都希望分享他们的秘密。看到特别精彩的图像后的自然反应是问:“你用了什么咒语?” 提示是什么?Robyn Miller,传奇游戏Myst的联合创始人作为一位先锋数字艺术家,他每天都在发布一张人工智能生成的图像。“当人们问我使用了什么提示时,”他说,“我很惊讶我不想告诉他们。这是一门艺术,这也让我感到惊讶。” 克林格曼以不分享他的提示而闻名。“我相信所有图像都已经存在,”他说。“你不制造它们,而是找到它们。如果你通过巧妙的提示到达某个地方,我不明白我为什么要邀请其他人去那里。”

在我看来,提示者正在创造真正的艺术,这似乎是显而易见的。什么是完美的电影导演——比如希区柯克,比如黑泽明——而不是演员、动作、场景和想法的推动者?优秀的图像生成器提示者从事类似的工艺,他们可以毫不费力地尝试在艺术画廊出售他们的作品或让他们参加艺术比赛。今年夏天,杰森·艾伦 (Jason Allen) 在科罗拉多州博览会美术比赛中获得了数字艺术类别的第一名,他的一幅大型太空歌剧主题画布的签名是“Jason Allen via Midjourney”。这是一张非常酷的图片,无论使用什么工具,都需要付出一些努力。通常数字艺术类别中的图像是使用 Photoshop 和 Blender 类型的工具创建的,这些工具使艺术家能够深入到数字化对象、纹理和部件的库中,然后拼贴在一起形成场景。它们不是画出来的;这些数字图像是毫无争议的技术组合。拼贴画是一种古老的艺术形式,使用 AI 来培育拼贴画是一种自然进化。如果 3D 渲染的拼贴画是艺术,那么 Midjourney 图片就是艺术。作为艾伦告诉 Vice,“我一直在探索一种特殊的提示。我用它创建了数百张图像,经过数周的微调和策划我的族群,我选择了我的前三名并将它们打印在画布上。”

当然,艾伦的蓝丝带敲响了警钟。对一些评论家来说,这是时代终结、艺术终结、人类艺术家终结的标志。可预见的哀叹随之而来,许多人指出这对苦苦挣扎的艺术家来说是多么不公平。人工智能不仅会接管并杀死我们所有人——显然,他们会在这样做的同时创造出世界上最好的艺术。

人工智能生成的艺术对人类创造力的真正意义

在它诞生之际,每一项新技术都会引发技术恐慌周期。有七个阶段:

  1. 不要用这些废话来烦我。它永远不会工作。
  2. 好的,它正在发生,但它很危险,因为它不能很好地工作。
  3. 等等,效果太好了。我们需要阻止它。做一点事!
  4. 这个东西是如此强大,以至于对那些无法访问它的人来说是不公平的。
  5. 现在它无处不在,无处可逃。不公平。
  6. 我要放弃了。一个月。
  7. 让我们关注真正的问题——这是下一个当前的问题。

今天,就人工智能图像生成器而言,一群新兴的精通技术的艺术家和摄影师正在努力摆脱 3 级恐慌。以一种被动的、第三人称的、假设的方式,他们担心其他人(但绝不是他们自己)可能会失去工作。Getty Images 是一家为设计和编辑用途销售库存照片和插图的主要机构,它已经禁止了 AI 生成的图像;某些在 DeviantArt 上发布作品的艺术家也要求类似的禁令。有一些善意的要求给人工智能艺术贴上标签,并将其与“真实”艺术区分开来。

除此之外,一些艺术家希望保证他们自己的作品不会被用来训练人工智能。但这是典型的 3 级恐慌——因为它充其量只是被误导了。这些算法暴露于 60 亿张带有附带文本的图像。如果您不是有影响力的艺术家,那么删除您的作品不会有任何影响。无论您是否在训练集中工作,生成的图片看起来都完全一样。但即使你一个有影响力的艺术家,删除你的图像仍然没有关系。因为你的风格影响了其他人的工作——影响的定义——即使你的图像被删除,你的影响仍然存在。想象一下,如果我们从训练集中删除所有梵高的照片。梵高的风格仍将深植于那些模仿他或受他影响的人所创造的浩瀚的图像海洋中。

风格是通过提示召唤出来的,例如:“以梵高的风格。” 一些不开心的艺术家宁愿他们的名字被审查,也不允许被用作提示。因此,即使无法消除他们的影响,您也无法联系到他们,因为他们的名字是禁区。正如我们从之前所有的审查尝试中了解到的那样,这类言论禁令很容易解决;你可以拼错一个名字,或者简单地用文字描述风格。例如,我发现我可以生成细节丰富的黑白自然风景照片,这些照片具有壮丽的灯光和突出的前景——而无需使用 Ansel Adams 的名字。

艺术家摆脱自我还有另一个动机。他们可能担心大公司会从他们的工作中赚钱,而他们的贡献得不到补偿。但我们不会补偿人类艺术家对其他人类艺术家的影响。以收入最高的在世艺术家之一大卫·霍克尼 (David Hockney) 为例。霍克尼经常承认其他在世艺术家对他的作品产生了巨大影响。作为一个社会,我们不指望他(或其他人)对他的影响力开出支票,即使他可以。认为人工智能应该付钱给他们的影响者是一种延伸。成功的艺术家为他们的成功付出的“税”是他们对他人成功的无偿影响。

更重要的是,众所周知,影响线是模糊的、短暂的和不精确的。我们都受到周围一切的影响,其影响程度我们没有意识到,当然也无法量化。当我们用手机写备忘录或拍照时,我们在多大程度上受到了欧内斯特·海明威或多萝西娅·兰格的直接或间接影响?当我们创造某物时,不可能消除我们的影响。同样不可能解开 AI 图像世界中的影响链。理论上,我们可以构建一个系统,将 AI 赚取的钱支付给训练集中的艺术家,但我们必须认识到,这种信用是任意的(不公平的),并且 6 人池中每位艺术家的实际补偿金额十亿股将是如此微不足道以至于荒谬。

在未来几年,人工智能图像生成器中的计算引擎将继续扩展和改进,直到它成为我们视觉上所做的一切的中心节点。它将真正看到一切并了解所有风格,并且它将绘制、想象和生成我们需要的任何东西。它将成为一个视觉搜索引擎,一个理解图像的视觉百科全书,以及我们使用我们最重要的感官——我们的视觉——的主要工具。目前,在 AI 中深入运行的每个神经网络算法都依赖于大量数据——因此需要数十亿张图像来训练它。但在接下来的十年里,我们将拥有依赖更少示例来学习的可操作 AI,可能只有 10,000 个。我们将通过向更强大的 AI 图像生成器展示数以千计精心策划的、高度选择现有艺术的图像,当这一点到来时,各种背景的艺术家将相互竞争以包含在训练集中。如果一位艺术家在主池中,他们的影响将被所有人分享和感受到,而那些不包括在内的人必须克服任何艺术家的主要障碍:不是盗版,而是默默无闻。

人工智能生成的艺术对人类创造力的真正意义

立刻二维生成算法诞生了,实验者急于弄清楚下一步是什么。雄心勃勃的英伟达联合创始人黄仁勋相信,下一代芯片将为元宇宙生成 3D 世界——他称之为“下一个计算平台” 。在去年 9 月的一周内,三个新颖的文本到 3D/视频图像生成器被宣布:GET3D (Nvidia)、Make-A-Video (Meta) 和 DreamFusion (Google)。扩张的速度比我能写的还要快。尽管 AI 制作的可装帧二维图片令人惊叹,但将其创作外包不会从根本上改变世界。我们已经达到了 2D 的顶峰。AI 图像生成器释放的真正超能力将用于生成 3D 图像和视频。

未来对 3D 引擎的提示可能看起来像这样:“创造一个青少年凌乱的卧室,墙上贴着海报,一张未整理的床,午后的阳光从紧闭的百叶窗射进来。” 几秒钟后,一个完全真实的房间诞生了,壁橱的门打开了,地板上所有的脏衣服都是全 3D 的。然后,告诉 AI:“制作一个 1970 年代的厨房,里面有冰箱贴和储藏室里的所有麦片盒。完整的体积细节。一个你可以走过的。或者可以在视频中拍摄。” 充斥着交替呈现的世界的游戏和装饰着服装和布景的长篇电影,对于仍然处于巨额资金压力之下的个人艺术家来说,永远是遥不可及的。人工智能可以像小说、绘画和歌曲一样快速制作游戏、虚拟世界和电影。皮克斯电影瞬间!一旦数以百万计的业余爱好者在家里制作了数十亿部电影和无穷无尽的元宇宙,他们将凭借自己的天赋孵化出全新的媒体类型——虚拟旅游、空间模因。当大笔资金和专业人士配备这些新工具时,我们将看到前所未有的复杂程度的杰作。

但即使是广阔的 3D 世界和视频宇宙也不足以容纳 AI 图像生成器引发的破坏。DALL-E、Midjourney 和 Stable Diffusion 只是所有类型的生成机器的第一个版本。它们的主要功能,模式识别,几乎是人类大脑的一种反射,我们在没有有意识思考的情况下就完成了。它几乎是我们所做一切的核心。当然,我们的思维比模式识别更复杂;数十种认知功能使我们的大脑充满活力。但是这种在机器中综合的单一认知类型(也是我们迄今为止综合的唯一认知)已经使我们比我们最初想象的更进一步——而且可能会继续比我们现在想象的更进一步。

当 AI 注意到一个模式时,它会以压缩的方式存储它。圆形物体放置在“圆度”方向,红色物体放置在另一个“红色”方向,依此类推。也许它也注意到“树木性”和“食物性”。它抽象出数十亿个方向或模式。经过反思或训练后,它注意到这四种品质的重叠产生了“苹果感”,这是另一个方向。此外,它将所有这些注意到的方向与单词模式联系起来,这也可以共享重叠的特性。因此,当人类通过“苹果”这个词请求一张苹果的图片时,人工智能会绘制出具有这四种(或更多)品质的图像。它不是组装现有图片的一部分;相反,它是在“想象”一幅具有适当品质的新图画。它有点记得一张不存在但可能存在的图片。

可以使用相同的技术——事实上,已经以非常早期的形式使用了——来寻找新药。人工智能在我们已知是活性药物的所有分子的数据库上接受训练,注意它们的化学结构模式。然后要求人工智能“记住”或想象我们从未想过的分子似乎与起作用的分子相似。令人惊奇的是,它们中的一些确实有效,就像请求的假想水果的 AI 图像看起来非常像水果一样。这是真正的转变,很快,同样的技术将用于帮助设计汽车、起草法律、编写代码、创作配乐、组装世界以娱乐和指导,以及共同创造我们作为工作所做的事情。我们应该牢记迄今为止从 AI 图像生成器中吸取的教训,因为很快就会有更多的寻找模式的 AI 出现在生活的各个领域。我们目前面临的恐慌周期只是对即将到来的转变的一次很好的预演。

到目前为止,我们对 AI 生成器的了解是它们作为合作伙伴发挥最佳作用。流氓人工智能接管的噩梦并没有发生。这种看法从根本上说是对历史的误读。过去,技术很少直接取代人类从事他们想做的工作。例如,在 1800 年代,人们担心机器(称为相机)自动生成图片,因为它肯定会让肖像画家失业。但历史学家汉斯·罗斯布姆只能找到一个当时的肖像画家对摄影感到失业。(摄影实际上激发了那个世纪晚些时候绘画的复兴。)更接近我们的时代,我们可能期望随着智能手机吞噬世界并且每个人都成为摄影师 – 每天有 9500 万次上传到 Instagram 和数数。然而,美国摄影专业人士的数量一直在缓慢上升,从 2002 年的 16 万人(还没有照相手机)增加到 2021 年的 23 万人。

与其害怕人工智能,不如想想它教给我们的东西。人工智能图像生成器教给我们的最重要的事情是:创造力不是某种超自然的力量。它是可以合成、放大和操纵的东西。事实证明,我们不需要获得智能来孵化创造力。创造力比我们想象的更基本。它独立于意识。我们可以在像深度学习神经网络这样愚蠢的东西中产生创造力。海量数据加上模式识别算法似乎足以设计出一个不断给我们惊喜和帮助的过程。

创造力学者指的是一种叫做大写创造力的东西。Uppercase Creativity 是一项重大突破带来的惊人的、改变领域的、改变世界的重新排列。想想狭义相对论、DNA 的发现或毕加索的格尔尼卡。大写创意超越了仅仅是新的。它很特别,也很罕见。它以一种深刻的方式触动了我们人类,远远超出了外星人工智能所能理解的范围。

要与人建立深入的联系,总是需要一个有创造力的人在循环中。然而,这种高创造力不应与大多数人类艺术家、设计师和发明家日常产生的创造力相混淆。平凡的、普通的、小写的创意是我们从一个伟大的新标志设计或一个很酷的书封面、一个漂亮的数字可穿戴设备或最新的必备时尚,或者我们最喜欢的科幻连续剧的布景设计中得到的。过去和现在的大多数人类艺术都是小写的。小写字母的创造力正是 AI 生成器所提供的。

但这是巨大的。历史上第一次,人类可以按需、实时、大规模、廉价地进行日常创意活动。综合创造力现在是一种商品。古代哲学家将在坟墓里自首,但事实证明,要发挥创造力——产生新的东西——你所需要的只是正确的代码。我们可以将它插入目前惰性的微型设备中,或者我们可以将创造力应用于大型统计模型,或者将创造力嵌入药物发现程序中。我们还能用合成创造力做什么?我们可能感觉有点像中世纪的农民,他们被问到:“如果你手头有 250 匹马的力量,你会做什么?” 我们不知道。这是一份非凡的礼物。我们所知道的是,我们现在拥有简单的创造力引擎,我们可以将其瞄准从未见过新奇事物的陈旧角落,创新,或创造性变革的惊喜。在一切都崩溃的背景下,这种超能力可以帮助我们无限期地延长哇。如果使用得当,我们可以在宇宙中留下一个小凹痕。

What AIGenerated Art Really Means for Human Creativity

本站是提供个人分享的知识,所有内容均来源于网络,不代表本人观点。如有侵权,请告知!

发表评论

登录后才能评论