1956 年的夏天,一小群杰出人物聚集在新罕布什尔州的达特茅斯学院;其中包括信息论之父克劳德·香农和赫伯·西蒙,他是唯一一位同时获得诺贝尔经济学奖和图灵奖的学者。
他们是由一位年轻的研究员约翰·麦卡锡召集在一起的,麦卡锡想讨论如何让机器使用语言、形成抽象和概念以及解决目前只有人类才能解决的问题。
这是第一次专门讨论麦卡锡称之为人工智能的学术聚会,它为该领域未来 60 多年的发展设定了一个基调,那就是:人工智能的进展远远没有达到人们的预期。
达特茅斯会议并不是科学家们对能够像人一样思考的机器进行科学探究的起点。
图灵奖的命名者艾伦·图灵就思考过这个问题,对麦卡锡有启发作用的约翰·冯·诺依曼也是如此。
到 1956 年,已经有许多研究者在探索如何解决这个问题;历史学家认为麦卡锡为他的项目创造人工智能一词的原因之一是,它足够宽泛,可以涵盖所有这些方法,并对哪种方法可能是最好的持开放态度。
一些研究人员倾向于基于将关于世界的事实与几何和符号逻辑的公理相结合,以便推断出适当的反应;另一些研究人员则倾向于构建一个系统,在这个系统中,一件事发生的概率取决于许多其他事不断更新的概率。
接下来的几十年里,人们对这个话题进行了大量的研究和争论,但到了 20 世纪 80 年代,人们对前进的道路达成了广泛共识:专家系统,它使用符号逻辑来捕捉和应用人类知识的精华。
特别是日本政府,全力支持这种系统及其可能需要的硬件的想法。
但在大多数情况下,事实证明,这类系统过于僵化,无法应对现实世界的复杂性。
到 20 世纪 80 年代后期,人工智能已经声名狼藉,成为过度承诺和交付不足的代名词。
那些仍然在该领域的研究人员开始回避这个词。
正是从这些坚持不懈的研究中,诞生了今天的人工智能热潮。
随着 20 世纪 40 年代脑细胞(一种神经元)工作原理的基本原理被拼凑起来,计算机科学家开始思考机器是否可以以同样的方式连接起来。
在生物大脑中,神经元之间存在连接,这使得一个神经元的活动能够触发或抑制另一个神经元的活动;一个神经元的功能取决于与它相连的其他神经元正在做什么。
在实验室中模拟这一点的第一次尝试(由达特福德会议的参与者马文·明斯基进行)使用硬件来模拟神经元网络。
从那时起,相互连接的神经元层已经在软件中被模拟。
这些人造神经网络不是使用显式规则编程的;相反,它们通过接触大量的例子来学习。
在这个训练过程中,神经元之间连接的强度(称为权重)被反复调整,以便最终给定的输入能够产生适当的输出。
明斯基自己放弃了这个想法,但其他人把它发扬光大。
到 20 世纪 90 年代初,神经网络已经被训练去做一些事情,比如通过识别手写数字来帮助分类邮件。
研究人员认为,添加更多层的神经元可能会实现更复杂的功能,但这也使得系统运行速度慢得多。
一种新型计算机硬件提供了一种解决这个问题的方法。
2009 年,斯坦福大学的研究人员使用他们宿舍里的一台游戏 PC 将神经网络的运行速度提高了 70 倍,这戏剧性地证明了这种硬件的潜力。
这是可能的,因为除了所有 PC 中都有的中央处理器(CPU)之外,这台 PC 还有一个图形处理器(GPU)来在屏幕上创建游戏世界。
而 GPU 的设计方式恰好适合运行神经网络代码。
将这种硬件加速与更高效的训练算法相结合,意味着具有数百万个连接的网络可以在合理的时间内得到训练;神经网络可以处理更大的输入,并且至关重要的是,可以赋予更多的层。
这些更深的网络被证明功能强大得多。
这种被称为深度学习的新方法的强大之处,在 2012 年的 ImageNet 挑战赛中变得显而易见。
参加挑战赛的图像识别系统获得了包含超过 100 万个标记图像文件的数据库。
对于任何给定的词,例如狗或猫,数据库都包含数百张照片。
图像识别系统将使用这些例子进行训练,将图像形式的输入映射到单字描述形式的输出。
然后,当系统被输入以前从未见过的测试图像时,它们将面临生成此类描述的挑战。
2012 年,由当时在多伦多大学的杰夫·辛顿领导的团队使用深度学习实现了 85% 的准确率。
它立即被认为是一项突破。
到 2015 年,图像识别领域几乎所有人都开始使用深度学习,ImageNet 挑战赛的获胜准确率已经达到 96%,比人类平均得分还要好。
#p#分页标题#e#深度学习也被应用于许多其他只有人类才能解决的问题,这些问题可以简化为将一种事物映射到另一种事物:语音识别(将声音映射到文本)、人脸识别(将人脸映射到姓名)和翻译。
在所有这些应用中,通过互联网可以访问的海量数据对成功至关重要;更重要的是,使用互联网的人数表明了大型市场的可能性。
网络越大(即越深),给它们提供的训练数据越多,它们的性能就越好。
深度学习很快就被部署到各种新的产品和服务中。
亚马逊的 Alexa 等语音驱动设备出现了。
在线转录服务变得实用。
网页浏览器提供自动翻译。
说这些东西是由人工智能实现的开始听起来很酷,而不是尴尬,尽管这也显得有些多余;现在和将来几乎所有被称为人工智能的技术实际上都依赖于底层的深度学习。
ChatGPT 及其竞争对手似乎真的使用语言并形成抽象概念2017 年,在计算能力和更多数据带来的量化效益之外,又增加了一种质的变化:一种称为 Transformer 的神经元之间连接的新方式。
Transformer 使神经网络能够跟踪其输入中的模式,即使模式的元素相距很远,也能以一种允许它们对数据中的特定特征关注的方式进行跟踪。
Transformer 使网络对上下文有了更好的理解,这使得它们适合一种称为自监督学习的技术。
从本质上讲,在训练过程中,一些词被随机地遮盖起来,模型自学填充最有可能的候选词。
由于训练数据不必预先标记,因此可以使用从互联网上获取的数十亿字的原始文本来训练此类模型。
注意你的语言模型2019 年,当一家初创公司 OpenAI 发布名为 GPT-2 的模型时,基于 Transformer 的大型语言模型 LLM 开始引起更广泛的关注 GPT 代表生成式预训练 Transformer。
事实证明,此类 LLM 能够进行它们没有经过专门训练的涌现行为。
吸收大量的语言不仅使它们在总结或翻译等语言任务上表现得异常出色,而且在训练数据中隐含的一些事情上也表现出色,比如简单的算术和软件编写。
不太令人高兴的是,这也意味着它们复制了输入数据中的偏差,这意味着人类社会中许多普遍存在的偏见出现在它们的输出中。
2022 年 11 月,OpenAI 的一个更大的模型 GPT-3.5 以聊天机器人的形式向公众发布。
任何拥有网页浏览器的人都可以输入一个提示并得到一个回复。
从来没有哪种消费产品比它发展得更快。
在几周内,ChatGPT 就生成了从大学论文到计算机代码的各种东西。
人工智能又向前迈进了一大步。
第一批人工智能产品基于识别,而第二批产品则基于生成。
Stable Diffusion 和 DALL-E 等深度学习模型也大约在那个时候首次亮相,它们使用一种称为扩散的技术将文本提示转换为图像。
其他模型可以生成令人惊讶的逼真视频、语音或音乐。
这种飞跃不仅仅是技术上的,创造事物也会带来改变。
ChatGPT 及其竞争对手,如 Gemini(来自谷歌)和 Claude(来自 Anthropic,由 OpenAI 的前研究人员创立),通过计算产生输出,就像其他深度学习系统一样。
但它们能够以新颖的方式响应请求这一事实,使它们感觉与识别面部、记录口述或翻译菜单的软件非常不同。
它们似乎真的使用语言和形成抽象概念,正如麦卡锡所希望的那样。