陶哲轩自曝用了「满血」GPT-4：人类对信息技术的期待全部需要校准

2023-09-13 20:05:21

大家好，小乐来为大家解答以下的问题，陶哲轩自曝用了「满血」GPT-4：人类对信息技术的期待全部需要校准很多人还不知道，现在让我们一起来看看吧！

触摸虚拟世界（视觉中国/图）

2023年，最具热度的科技新闻非GPT莫属。自从2022年11月OpenAI推出基于GPT-3.5架构的chatGPT以来，ChatGPT就以其与真人极其相似的对话和写作能力，以及在许多知识领域给出详细和清晰的回答而迅速获得关注。而2023年3月14日，OpenAI发布了号称“比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令”的GPT-4，更是引发了相关话题的新一轮热潮。

一时之间，这一本来最新科技的进展，变成了一项全民话题。人工智能从业者见之技术创新，人文学者见之社会影响，风投资本见之风口，自媒体们见之流量。

现在，当这股热潮稍稍降温之后，也许正是时候，让我们可以稍微冷静地来看待，引发这股全球热潮的GPT到底是什么。它在现在以及将来，又会对我们的生活产生怎样的变革。

在正式开始这次的探寻之旅之前，我们不得不先提出这么一个略显尴尬的问题。这是因为，近几年的科技新闻中，有着太多“狼来了”的故事。区块链、元宇宙、脑机接口、火星之旅……几乎每隔一段时间，这些科技公司就会抛出一个这样或者那样的，看似惊人的新突破，在全球范围内引发一次或大或小的讨论。但是结果呢，这些所谓的“突破”，或者像区块链一样，至今仍然没有任何真正大范围的实际应用；或者像脑机接口、火星之旅一样，到现在还只停留在PPT的阶段；又或者像元宇宙一样，只是一些已经有的概念和元素的整合，本身并没有什么真正的技术创新和突破，所以在一阵热潮过后就会快速地偃旗息鼓。

造成这种情况的原因，一方面是因为，能够最终转化成为真正大众化产品的科技新品，始终是极少数。过去十几年我们所习以为常的，像智能手机和移动互联网这样，能够真正改变我们生活方式的科技产品，反而是极为罕见的情况。

另外一方面，科技公司的模式就决定了，它需要不停制造新的话题，来吸引投资者和消费者的注意力。而且，现在的互联网本身就是和科技公司深度绑定的，这也就使得这些话题更容易在互联网上有着更高的讨论度。

这次GPT的热潮，同样有互联网放大的因素在里边。那么，GPT是不是另外一个科技公司吹起来的泡沫呢？想要回答这个问题，我们先要搞清楚，所谓的GPT，到底是什么。

GPT是什么？

其实，GPT的名字，就已经说明了它是什么。所谓GPT，是Generative Pre-trained Transformer的首字母缩写，即：基于转换器的生成式预训练模型。Transformer模型，是2017年由谷歌大脑的一个团队推出的一个主要用于自然语言处理（NLP）与计算机视觉（CV）领域的深度学习模型。包括GPT，以及Google的BERT等模型，都是基于Transformer模型开发而成的，这也就是它们名字中最后一个字母T的来源。

从理论上说，包括GPT在内的所有人工智能类的产品，都是一个数学模型；或者更为直接的说法，它们都是一个“函数”。

举个最简单的例子，如果要设计一个用来挑选西瓜好坏的模型，那么我们首先要确定哪些西瓜的变量决定了西瓜的好坏。根据常识，我们知道，根据一个西瓜瓜皮的颜色，瓜蒂是否新鲜，敲起来声音是否清脆，就可以大概率判断一个西瓜是不是好瓜。因此，可以把这几个因素定量数据化。只要找到了一个合适的“函数”，输入这些数据，就能知道面前的西瓜是不是好瓜。

现在人工智能领域的绝大多数工作，都遵循这样一个“简单”的做法。只不过在具体操作上，和挑西瓜这件事比起来，难度就像是用纸折一张小船，和建造一艘航空母舰的差别一样。

在挑西瓜的例子里，我们只需要三个参数就足够了，而要找到这样的一个“函数”，也只需要至多几十次的尝试就够了。这是因为挑西瓜这件事，是一个很明确的单一任务，它所面对的情况也非常的简单。

但是，对于GPT来说，情况就完全不是这样的。OpenAI在2018年6月推出的第一代GPT-1，参数数量为1.17亿，2019年2月推出的GPT-2，参数数量就来到了15亿。而到了2022年6月GPT-3，其参数数量达到了1750亿。随后的GPT-3.5和GPT-4，OpenAI没有再继续公布具体信息。但是据猜测，GPT-4的参数数量可能高达1.76万亿。巨量的参数，正是包括GPT系列在内的，这一批自2018年开始逐渐成为主流的语言模型的主要特点。因此，它们也被称为大型语言模型（LLM，Large language model）。

与如此巨大的参数数量相匹配的，是GPT系列巨大的训练集。据称，为了训练GPT，OpenAI使用了整个互联网上的信息。以至于在微软研究院2023年3月22日发布的GPT-4的性能测试报告当中多次写道：为了测试GPT-4的能力，特地由相关专家拟定了一些在互联网上没有的新题目。

如此巨大的参数数量，和庞大的训练集，使得训练GPT需要花费巨量的硬件和能源。仅OpenAI在2023年1月一个月的用电量，就相当于17余万个家庭一年的用电量。

如此巨大的付出，也带来了高额的回报。ChatGPT能够“听懂”人类的语言，并且对于提出的各种问题，给出流畅、通顺，且符合逻辑的回答。而根据微软研究院的报告，相较于ChatGPT，GPT-4在数学、编程、医学、法律、心理学等专业知识领域有了大幅提升。更加让人印象深刻的是，在以往被认为只有人类才有的，我们称之为“智力”的方面，例如推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习等方面，GPT-4也做出了优秀的表现。

ChatGPT和GPT-4的优异表现，引起了人工智能领域广泛的关注与讨论。这其中最让人困惑的问题之一就是，相较于参数的成倍增加，GPT系列给出的表现，却呈现出跨越性的惊人提升。这就好像一个小孩，第一年上一年级，第二年上二年级，然后第三年就突然上了初中，第四年就考上了大学一样。

这种情况并非是GPT独有的。其他的大型语言模型，在参数数量超过一个界限之后，也都或多或少地出现了能力飞跃式提升的情况。以至于在相关领域，专门为这种现象起了一个名字，叫做大型语言模型的“涌现”现象。

涌现是一个来自于复杂系统理论的概念。它指的是，当许多小实体相互作用合成为一个大实体之后，这个大实体展现了组成它的小实体所不具有的特性。在物理学、生物学和经济学等领域，都有用涌现来描述的现象。甚至有些学者还用涌现来解释人类意识的出现。用涌现来解释大型语言模型能力涌现这一现象，似乎是非常合理的。但是，涌现本身只是一个描述性的概念。用它来解释各种现象背后的原因，就好像是用玄学来解释玄学一样。

而想要真正弄清楚大型语言模型能力涌现的原因，却并不是一件容易的事情。正如前文所说，包括GPT在内的大型语言模型的参数数量，已经来到了一个非常夸张的程度。更大的问题在于，这些参数并不是人为设置的，而且大型语言模型是在不断地训练当中，自行调整完善的。这就使得现在的大型语言模型看上去，就是一个黑箱，我们对它内部具体是怎样运作的，其实并不知道。

因此，对于这一惊人的现象，相关领域的专家们，目前也只能提出一些猜测。例如有人提出，造成大型语言模型能力涌现的原因，是因为任务的评价指标不够平滑。对于很多任务，只有当完全回答正确的时候，才会通过模型给出正确的答案。因此，很可能随着模型参数的增加，给出的回答是在不断接近正确答案的，只是因为模型的表达方式，导致了最终我们看到的结果是，当模型的参数超过一个界限之后，突然能够回答正确很多问题。

另外一个主流的猜测则认为，模型在解决很多复杂任务的时候，会把任务拆分成很多小任务来完成，只有当这些小任务都顺利完成，我们才会看到模型顺利完成了任务。而这些小任务，则依赖于模型体量的大小。因此，当模型的参数超过一个界限之后，它能够顺利完成所有的小任务，从而能够突破性地完成很多之前完成不了的复杂任务。

这些猜测到底哪一个是正确的，还有待相关专家的进一步研究。但是，现在GPT-4所表现出的能力，就使得我们不得不去思考，现阶段的GPT-4，到底是一台机器，还是一个已经开始觉醒智慧的人工智能？照这样发展下去，人类是否真的会被AI所超越？

GPT有智能么？

与AlphaGo这一类专门用来解决特定任务的人工智能产品不同。包括GPT在内的大型语言模型，从一开始就是为了解决各种任务所研发的通用人工智能。

在人工智能领域，通用人工智能还有另外一个名字，叫做“强人工智能”。它的终极目标，就是具备与人类同等智能、能表现正常人类所具有的所有智能行为，或者超越人类的人工智能。

那么现阶段的GPT-4，在多大程度上具备了人类的智能？沿着这个方向继续发展下去，是否真的能够创造出和人类具备同等智能，甚至超越人类的人工智能呢？

根据微软研究院的报告，GPT-4在很多领域，已经接近了人类的水平。在诸如编程等专业领域，GPT-4的表现甚至超过了人类中相关从业者的平均水平。另外一则报道则显示，GPT-4为了通过人机测试，甚至会说谎欺骗人类。

这一切似乎都在表明，GPT-4具备“相当的”智能水平。

实际上，对于强人工智能应该满足什么标准，相关领域的科学家们提出了很多的测试项目，用以测试人工智能在不同方面的能力水平。

这其中最为著名的，应该就是由“人工智能之父”阿兰·图灵提出的图灵测试。图灵测试是说，如果一个人（代号C）使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。对象为：一个是正常思维的人（代号B）、一个是人工智能（代号A）。如果经过若干询问以后，C不能得出实质的区别来分辨A与B的不同，则此人工智能A通过图灵测试。

在很多科幻作品当中，图灵测试被描述为一项玄而又玄的测试。似乎只要通过了这项测试，人工智能就会变得与人类别无二致，甚至会由此开始取代人类。但是实际上，对于图灵测试能否真正地测试出人工智能的能力水平，一直以来都有着很多的争论。而且，相较于更多侧重于文字或者语言表达方面的图灵测试，其他的人工智能测试，选择了从不同的角度来测试人工智能的各项能力。

例如沃兹尼亚克提出的咖啡测试，要求人工智能在陌生的环境中，完成一些诸如冲泡一杯咖啡这样的日常工作，用以测试人工智能认知陌生空间，并完成具体操作的能力。再如格策尔提出的学生测试，要求人工智能去..一所大学，参加和人类学生同样的考试，然后通过并获得学位。用以测试人工智能学习、分析和回答问题的能力。还有尼尔森提出的，用以测试人工智能统筹、推断、规划解决复杂问题的能力的雇员测试等。

根据微软研究院的报告，以及其他一些研究显示，GPT-4在不少测试当中都取得了很不错的成绩。例如预印本网站上的一篇文章就宣称，GPT-4在MIT的数学和EECS（电气工程和计算机科学系）本科学位考试中，表现出的能力完全满足毕业要求。

但是需要指出的是，所有的这些测试，都只是一些必要性测试，即使通过了所有这些测试，也并不意味着人工智能就达到了人类的智能水平。

而且，对于现在这些大型语言模型在将来能否发展出真的强人工智能，也是一直有争议的。例如图灵奖得主杨立昆（Yann LeCun），就一直对GPT的发展持否定态度。他认为这类大型语言模型存在局限性，有很多问题无法解决，因为它们并不了解这个世界底层的事实（underlying reality）。

GPT会让“我”失业么？

将来是否会出现真正的强人工智能？这个问题或许离我们现在还过于遥远。但是ChatGPT和GPT-4的推出，的确给我们提出了一个现实的问题。那就是，现阶段的GPT，以及在可以预见的时间内出现的更为强大的大型语言模型，将会怎样改变我们的生活？或者说的更直接一些，“我”是否会因为这些东西而失业？

首先，对于现在的大多数写字楼内的文案工作，以及基础的代码编写之类的工作等，以现在GPT的能力，是足以胜任的。这很大程度上并不是因为GPT真的有多么的强大，而是因为，绝大多数的日常工作，并没有那么高的要求，而且有着相对较高的容错度。甚至可以说，很多这样的日常工作，更多地是花费时间的体力劳动。

从历史上看，对于这些工作来说，人工被机器取代这件事，并不会因为工作者的意志而有所改变。机器的效率是必然远高于人工的。因此，这其中起决定性因素的就是，机器的成本，是否会高于人工的价格，以及将人工替换成机器的花费。从第一次工业革命中的纺织机取代纺织工人，到上世纪的自动流水线取代装配工人，这样的事情已经发生过很多次了。

对于那些像是科研、艺术和文学创作之类，被认为是凝结着人类智慧精华的工作来说，情况则要复杂得多。

对于包括数学、理论物理等学科在内的理论性学科来说，GPT还难以进入真正的研究领域当中。虽然菲尔兹奖得主、华裔数学家陶哲轩最近宣称，他已经开始使用GPT-4来协助自己的工作，但是他也只是使用GPT-4进行一些诸如整理文档、生成和润色文本、检索信息之类GPT本身就很擅长的工作，而并没有让GPT-4去代替他思考怎么解决数学问题。

根据微软研究院的报告，数学能力，在GPT-4的各项能力当中，本身就是一个相对的弱项。这很大程度上因为，GPT的训练和养成，主要是靠互联网上的信息。而对于数学这样依靠严格的逻辑推理，环环相扣的学科来说，想要通过互联网上零散、碎片化的信息，来获得完整的数学知识，以及严谨的数学推理方式，是十分困难的。而数学这样的学科，偏偏就是对严谨性有着极高要求的学科。

更大的问题在于，能够用文字写出来的数学内容，和进行数学研究所需要的能力，并不是完全对应的。相信很多人在学生时代都有过这样的体验，数学课上所学的内容，和数学考试中所考的题目之间，似乎有着一些距离。死抠书本的学习，很多时候并不能在数学考试中获得高分。

这种情况在数学研究中更为常见。数学家们写出来的论文，只是他们思考的结果。至于他们是怎么想到那些的，则很大程度上来源于多年从事数学研究工作的积累和养成的经验。这些东西，是很难用一套规范的语言写下来的。这也就是为什么直到现在，数学方面的学术会议上，仍然会有很多数学家坚持使用黑板+粉笔的方式来作报告。因为通过板书的书写，可以传达出他的思考过程。

因此，在这些科研领域，GPT之类的大型语言模型，可以成为很好用的辅助工具。但是想要让它们真正取代科研工作者的作用，去独立进行有价值的科研工作，目前看来还为时尚早。

GPT与艺术创作

对于同样体现着人类智慧与创造力的艺术和文学等领域，情况则要复杂得多。

一方面，在诸如小说、诗歌的创作，文学作品的翻译之类的领域，GPT仍然无法替代小说家、诗人、翻译家的作用。但是另外一方面，以现在GPT的水平，在可以预见的未来，几乎必然会引起这些行业发生巨大的变化。

这看上去似乎有些矛盾。实际上，导致这种矛盾结论的，正是艺术领域的特殊性。虽然同为人类创造性的工作，但是和科研领域有着明确的目的和边界不同，艺术领域是模糊和不确定的。这就给了GPT这样的新兴技术进入的空间。

在历史上，这种因为技术发展，导致艺术的范围和形态发生根本性改变的例子并不在少数。例如，在照相术发明普及之前，欧洲画家们的收入来源的很大一部分，是定制肖像画，以及为教堂等地方绘制壁画。我们熟悉的那些古典绘画大师，都从事过这样的工作。在这一时期，对绘画作品的需求，是很多欧洲普通市民的日常刚需。这也就使得在当时的欧洲，有着很多以此为业的画家和作坊。这个庞大的底层从业者的基数，和完善的学习途径，就为欧洲数百年间持续产生绘画大师提供了土壤。

但是在摄影术发明普及之后，情况就发生了彻底的改变。作为收入的重要来源之一，肖像画的需求量大量减少，这就使得绘画这一行业能够养活的从业者大量减少。与此同时，摄影术逼真的效果，也迫使欧洲绘画艺术从古典主义绘画“画得像”的要求开始转变，进而诞生了那些我们现在耳熟能详的现代艺术流派。

从结果上看，摄影术的发明，并没有阻碍那些真正有天赋的艺术家们走上这条路。达·芬奇、伦勃朗等大师，放在今天的环境下，大概率也能成为伟大的画家。但是，摄影术的发明，彻底改变了绘画的生态，把这一本来与普通大众极为接近的行业，变成了一门小众的高端行业。更不用提在这个转变的过程中，大量的没有那么高的艺术天赋，但是本来可以依靠画肖像画来维持生活的画家，将会面临怎样的窘境。

同样的情况，极有可能随着将来GPT之类工具的普及再次上演。

以翻译工作为例，GPT也许在很长时间里，都很难达到翻译名家们那种信达雅的功力。但是翻译工作并不仅仅是文学翻译而已。除此之外还有大量的技术性文件的翻译，工作上的文书翻译等工作。这些工作加在一起，才支撑起了现在文字翻译群体的输入来源。甚至有很多从事文学翻译的工作者，也会接这种翻译工作来作为收入的一部分。

而GPT的普及，必然会挤占掉这部分的工作机会，导致整个翻译群体的萎缩，以及从头开始的训练机会的减少。这就很有可能改变翻译这一行业的整个生存状态。

同样的情况，在小说、绘画、音乐等艺术领域，都有可能出现。

对于我们每个人来说，潘多拉魔盒已经打开了，将来会发生什么，也许在不远的未来就能知晓。

左力

本文到此结束，希望对大家有所帮助。

上一篇：力压特斯拉，中国品牌包揽 6 月泰国纯电动汽车登记量前三
下一篇：医德实践的具体内容

陶哲轩自曝用了「满血」GPT-4：人类对信息技术的期待全部需要校准

GPT是什么？

GPT有智能么？

GPT会让“我”失业么？

GPT与艺术创作

热门文章

小编推荐