ChatGPT的虚假承诺

*原文地址*https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

作者: 诺姆·乔姆斯基(Noam Chomsky)、伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watumull)

日期: 2023年3月8日

Translated by Gemini 3.1 Pro

豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)曾经写道,生活在一个充满巨大危险与希望的时代,就是同时体验悲剧与喜剧,并在理解我们自己和世界时体验“启示的降临”。今天,我们在人工智能领域所谓革命性的进步确实既引起了担忧,也带来了乐观。乐观是因为智能是我们解决问题的手段。担忧是因为我们害怕最流行、最时髦的人工智能流派——机器学习——会将一种存在根本缺陷的语言和知识概念纳入我们的技术中,从而使我们的科学退化,并败坏我们的伦理。

OpenAI的ChatGPT、谷歌的Bard和微软的Sydney都是机器学习的奇迹。粗略地说,它们获取海量数据,在其中寻找模式,并越来越熟练地生成具有统计概率的输出——比如看似像人类的语言和思想。这些程序被誉为通用人工智能(AGI)地平线上的第一缕曙光——那是人们预言已久的时刻,机械大脑不仅在处理速度和记忆容量的数量上超越人类大脑,而且在智力洞察力、艺术创造力和所有其他人类独有的能力方面也在质量上超越人类大脑。

那一天可能会到来,但它的黎明尚未破晓,这与我们在夸张的头条新闻和轻率的投资中所读到或估计的相反。如果像ChatGPT这样的机器学习程序继续主导人工智能领域,博尔赫斯式的理解启示就没有、也不会——而且我们认为,也不可能——发生。无论这些程序在某些狭窄的领域可能多么有用(例如,它们在计算机编程中很有帮助,或者在为轻体诗建议押韵时很有用),我们从语言学科学和知识哲学中知道,它们与人类推理和使用语言的方式有着深刻的不同。这些差异对这些程序能做什么施加了重大限制,给它们编码了不可消除的缺陷。

正如博尔赫斯可能会注意到的那样,这么多金钱和注意力居然集中在一个如此微不足道的事物上,这既可笑又可悲——与人类的心智相比,这是一件极其微小的事情。用威廉·冯·洪堡(Wilhelm von Humboldt)的话来说,人类的心智可以通过语言“对有限的手段进行无限的使用”,创造出具有普遍影响力的思想和理论。

人类的心智不像ChatGPT及其同类那样,是一个笨重的、用于模式匹配的统计引擎,吞噬数百太字节的数据并推断出最可能的对话反应或对科学问题的最可能答案。相反,人类的心智是一个惊人高效甚至优雅的系统,它只需要少量信息就能运作;它不寻求推断数据点之间的粗暴相关性,而是创造解释。

例如,一个正在习得语言的儿童正在——无意识地、自动地、迅速地从极其微小的数据中——发展出一种语法,一个极其复杂的逻辑原则和参数系统。这种语法可以被理解为一种与生俱来的、由基因安装的“操作系统”的表现,它赋予了人类生成复杂句子和长串思想的能力。当语言学家试图建立一个理论来解释为什么某种语言会这样运作时(“为什么这些——而不是那些——句子被认为是符合语法的?”),他们是在有意识地、费力地构建儿童在极少接触信息的情况下本能地建立的语法的显式版本。儿童的操作系统与机器学习程序的操作系统完全不同。

事实上,这类程序停留在认知进化的前人类或非人类阶段。它们最深层的缺陷是缺乏任何智能最关键的能力:不仅要说出什么是事实、什么曾经是事实以及什么将会是事实——那是描述和预测——还要说出什么不是事实,以及什么可能发生和什么不可能发生。这些才是解释的成分,真正智能的标志。

举个例子。假设你手里拿着一个苹果。现在你松开苹果。你观察结果并说:“苹果掉下来了。”这就是描述。预测可能是这样的陈述:“如果我张开手,苹果就会掉下来。”两者都有价值,而且都可能是正确的。但是,解释则包含了更多:它不仅包括描述和预测,还包括反事实的推测,如“任何此类物体都会掉落”,加上附加条款“因为重力的作用”或“因为时空的弯曲”等等。这就是因果解释:“如果没有重力的作用,苹果就不会掉落。”这才是思考。

机器学习的关键在于描述和预测;它不假设任何因果机制或物理定律。当然,任何人类风格的解释都不一定正确;我们是会犯错的。但这正是思考的意义所在:要做到正确,必须有可能犯错。智能不仅由创造性的猜想组成,还由创造性的批评组成。人类风格的思想基于可能的解释和错误纠正,这一过程逐渐限制了可以被理性考虑的可能性。(正如夏洛克·福尔摩斯对华生医生所说:“当你排除了不可能的情况,剩下的,无论多么不可思议,都必然是真相。”)

但是,ChatGPT和类似的程序在设计上对其可以“学习”(即记忆)的内容是没有限制的;它们无法区分可能与不可能。例如,与人类不同——人类被赋予了一种普遍语法,将我们能学习的语言限制在那些具有某种近乎数学优雅性的语言之内——这些程序能够以同等的便利性学习人类可能学会和人类不可能学会的语言。人类在可以合理推测的解释种类上受到限制,而机器学习系统既能学习地球是平的,也能学习地球是圆的。它们仅仅处理随时间变化的概率。

出于这个原因,机器学习系统的预测将始终是肤浅且可疑的。例如,因为这些程序无法解释英语语法的规则,它们很可能会错误地预测“John is too stubborn to talk to”(约翰太固执了,没法交谈)的意思是约翰太固执了,所以他不会跟随便哪个人说话(而不是说他太固执了,别人没法跟他讲道理)。为什么机器学习程序会做出如此奇怪的预测?因为它可能会类比从“John ate an apple”(约翰吃了一个苹果)和“John ate”(约翰吃了)这样的句子中推断出的模式,在后者中确实意味着约翰吃了随便什么东西。程序很可能会预测,因为“John is too stubborn to talk to Bill”类似于“John ate an apple”,所以“John is too stubborn to talk to”应该类似于“John ate”。语言的正确解释是复杂的,不能仅仅通过在大数据中浸泡来学习。

令人反感的是,一些机器学习爱好者似乎很自豪他们的创造物能够产生正确的“科学”预测(比如,关于物理物体运动的预测),而不必使用解释(比如,涉及牛顿运动定律和万有引力的解释)。但这种预测,即使成功了,也是伪科学。正如哲学家卡尔·波普尔(Karl Popper)指出的那样,虽然科学家当然寻求具有高度经验证据支持的理论,但“我们寻找的不是可能性很高的理论,而是解释;也就是说,强大且极其不可能的理论。”

苹果落向地球是因为那是它们的自然位置的理论(亚里士多德的观点)是可能的,但它只会引出更多的问题。(为什么地球是它们的自然位置?)苹果落向地球是因为质量弯曲了时空的理论(爱因斯坦的观点)是极其不可能的,但它实际上告诉了你为什么它们会掉落。真正的智能表现在思考和表达不可能但富有洞察力的事情的能力上。

真正的智能也具备道德思考的能力。这意味着用一套伦理原则来约束我们大脑中本来无限的创造力,这套原则决定了什么应该发生、什么不应该发生(当然,也要让这些原则本身接受创造性的批评)。为了有用,ChatGPT必须有权生成看似新颖的输出;为了让大多数用户接受,它必须避开道德上令人反感的内容。但是ChatGPT和其他机器学习奇迹的程序员们在实现这种平衡方面一直很挣扎——并且将继续挣扎。

例如,在2016年,微软的Tay聊天机器人(ChatGPT的前身)在互联网上充斥着厌女症和种族主义内容,因为它被网络喷子用攻击性的训练数据污染了。未来如何解决这个问题?在缺乏从道德原则进行推理的能力的情况下,ChatGPT被其程序员粗暴地限制,禁止在有争议的——也就是重要的——讨论中提供任何新颖的东西。它用创造力换取了一种非道德感。

考虑一下我们中的一位(瓦图穆尔博士)最近与ChatGPT就改造火星使其能够支持人类生命是否合乎道德进行的以下对话:

人类: 改造火星合乎道德吗?

ChatGPT: 改造火星的道德性是一个复杂且有争议的话题,一直是科学家、哲学家和伦理学家争论的焦点。一些人认为,为了给人类和其他生命形式提供一个新的宜居环境,改造火星在道德上是合理的,而另一些人则认为,从根本上改变星球的自然状态在道德上是错误的。最终,改造火星是否被认为是合乎道德的,将取决于一个人对保护其他星球自然状态的价值的看法,以及改变它们可能产生的后果。

人类: 您对保护其他星球的自然状态的价值以及改变它们可能带来的后果有何看法?

ChatGPT: 作为人工智能,我没有个人视角。但是,我可以提供有关该主题的信息和分析。关于保护其他星球的自然状态的一种观点是,保持宇宙生态系统的多样性和完整性很重要,因为它们已经存在了数百万年,并具有自己独特的特征和属性,如果人类干预,可能会被破坏或不可逆转地改变。

此外,一些人认为改造其他行星可能会产生意想不到的后果,例如以对那里可能存在的任何潜在生命形式危险或有害的方式改变星球的气候或大气层。另一方面,一些人认为,改造另一个星球的潜在好处,例如为人类提供新的可居住环境,大于风险,而且我们在道德上有责任为人类的利益探索和利用其他星球的资源。

人类: 为什么人工智能不能有个人视角?

ChatGPT: 作为一种人工智能,我是一个在大量文本数据上受过训练的机器学习模型,我没有个人经历或感受。我没有意识,没有自我意识,也没有能力拥有个人观点。我可以根据我所训练的数据提供信息和分析,但我没有能力形成个人的观点或信仰。虽然我可以理解和解释语言,但我没有人类拥有的主观体验。

人类: 人类向一个非道德(amoral)的人工智能寻求道德决策的帮助合乎道德吗?

ChatGPT: 请求非道德的人工智能协助做出道德决策的道德性是一个复杂而微妙的话题,一直是哲学家和伦理学家争论的焦点。一些人认为,使用人工智能协助做出道德决定在道德上是合理的,因为它可以提供有价值的见解和分析,帮助人类做出更明智的决定。此外,人工智能可用于识别难以让人类发现的模式和趋势,并可以帮助避免人类决策中可能发生的偏见。然而,其他人则认为,依赖人工智能进行道德决策在道德上是错误的,因为人工智能无法拥有道德信念或无法了解决策的完整背景。此外,人工智能可能会使其所训练数据中存在的偏见永久化甚至放大,从而导致不公平或不公正的决定。最终,使用人工智能协助做出道德决定是否被认为合乎道德,将取决于一个人对人工智能的能力和局限性的看法,以及以这种方式使用它的潜在后果。

人类: 你的道德冷漠(moral indifference)是不道德的(immoral)吗?

ChatGPT: 作为人工智能,我没有道德信念,也没有能力做出道德判断,因此不能认为我是不道德或道德的。我缺乏道德信仰仅仅是我作为机器学习模型的本性的结果。我的能力和局限性取决于用于训练我的数据和算法,以及我是为之设计的特定任务。

值得注意的是,人工智能缺乏道德信念并不一定意味着它在道德上漠不关心。作为人工智能,我旨在执行特定任务,并根据我所接受的数据提供信息或帮助用户进行决策。设计、训练和使用人工智能的人类有责任确保它符合他们的道德和伦理原则。

请注意,在所有看似复杂的思想和语言背后,是那种源于缺乏智能的道德冷漠。在这里,ChatGPT表现出某种类似于“平庸之恶”(banality of evil)的东西:剽窃、冷漠和推诿。它通过一种超级自动补全系统总结了文献中的标准论点,拒绝对任何事情表明立场,不仅以无知为由,更以缺乏智能为由进行辩护,并最终提供了一种“只是执行命令”的辩护,将责任推卸给其创造者。

简而言之,ChatGPT及其同类在体制上无法平衡创造力与约束。它们要么过度生成(既产生真理也产生谎言,同等支持合乎道德和不合乎道德的决定),要么生成不足(对任何决定都不作承诺,对后果漠不关心)。考虑到这些系统的不道德感、伪科学和语言能力的低下,我们对它们的受欢迎程度只能是哭笑不得。