AI是如何进化的

文章正文
发布时间:2025-02-17 05:02

AI是如何进化的

45.1MB

00:0049:13

(插图:老牛)从语言开始:辛顿与乔姆斯基的论战

2024年12月5日,瑞典皇家工程科学院举办了一场研讨会,主角是刚刚领了诺贝尔物理学奖的杰弗里·辛顿(Geoffrey Hinton)教授——一位温文尔雅、满头华发的老先生。辛顿出生于1947年的英国伦敦,在剑桥大学和爱丁堡大学相继获得实验心理学学士学位和人工智能博士学位后,开启了自己的学术生涯。在后来漫长的岁月里,他始终致力于创造出更聪明的计算机,甚至让它变得跟人一样聪明。如今,他比任何时候都更接近这个梦想了。人们把他称作“深度学习之父”或者“AI教父”,他的一言一行惹人注目。

过去两三年,AI如旋风般席卷全球各行各业,给人们带来震撼和惊艳的同时,也制造了焦虑和恐慌。AI到底已经发展到了哪一步?它所表现出来的“智能”对我们普通人到底意味着什么?关于这些问题,人们更加渴望听到辛顿的声音。

辛顿在领完诺奖后顺道拜访了瑞典皇家工程科学院。为他的到来,这家有着上百年历史、世界上最古老的工程学院特地邀请了一众来自不同领域的学者。在欢迎致辞中,辛顿一上来就开始谈论人工智能带来的风险,这也是2023年他从工作了十年之久的谷歌副总裁的位置上辞职后最热衷于谈论的话题。他认为人工智能在未来将会比人类更加智能,它们有可能接管我们的位置,这对人类生存是一个长期的威胁,但我们还没做好准备。

2024年12月10日,诺贝尔物理学奖得主杰弗里·辛顿(左)在瑞典斯德哥尔摩音乐厅接受这一荣誉(视觉中国 供图)

不过,有人“不把这个问题当回事”。辛顿很快就调转话锋,开始批判以诺姆·乔姆斯基(Noam Chomsky)为代表的一派语言学家,因为他们认为现在的人工智能并不真的“理解”人类。“他们称人工智能为‘随机鹦鹉’(Stochastic Parrot),只不过是通过统计技巧把大量的文本拼凑在一起,看起来像是理解了,但实际上并不像人类的理解方式。”辛顿直言不讳地指出,持这种观点的人往往都深受乔姆斯基的影响。“乔姆斯基成功地说服了几代语言学家,认为语言不是通过学习获得的。乍一看,认为语言不是通过学习获得的,这显然是荒谬的。但如果能让人们相信显而易见的荒谬观点,那就相当于搞了一个教派,而乔姆斯基就有一个教派。”

这已经不是辛顿第一次这样不留情面地批判乔姆斯基了。在获得诺奖的几个月前,2024年4月,辛顿在都柏林大学接受尤利西斯奖章的获奖感言里,对乔姆斯基提出了同样尖锐的批评,说他的理论很疯狂,误导了好几代人。“语言显然是学会的。现在的大型人工神经网络学习语言,不需要任何先天结构,它们只是从随机权重和大量数据开始学习。但乔姆斯基却仍然在说,‘这并非真正的语言,这不算数,这是不对的’。”辛顿认为现在的大模型对语言的理解与人类没什么本质的区别,他经常讲一个关于“粉红色的小象”的故事(这个故事并不容易被人接受),以证明AI存在某种“主观体验”;还经常提到,ChatGPT等大模型已经能很好地分析出一个笑话的笑点在哪儿——而按照传统的观念,机器就算能跟人对话了,也几乎不可能理解人类语言中的隐喻、讽刺等高级表达。

著名语言学家诺姆·乔姆斯基(视觉中国 供图)

在公开可见的报道中,乔姆斯基从未直接回应辛顿的批评。作为“现代语言学之父”,乔姆斯基对言辞的力量应该深有体会。他1928年12月7日出生于美国宾夕法尼亚州的费城,父母都是犹太移民,本科毕业于宾夕法尼亚大学,后来长期在麻省理工学院任教。上世纪50年代,乔姆斯基因其对语言学的创造性研究,特别是提出了普遍语法理论而一举成名,其后他对语言、智能和心灵等领域展开了广泛的研究,被认为是认知科学的主要开创者,他的影响力还扩张到了教育、心理、哲学等领域。但如今,他最著名的观点正是辛顿竭力批判的——语言是跟遗传有关的,所有语言都共享一套基本的语言结构,而这套语言结构被预设在了大脑之中,这就是所谓的语言“先天论”。这个理论曾被认为很好地解释了为何只有人类发展出了复杂的语言功能。

但如果语言能力是先天的,那么人工智能在根本上就不可能成立,因为它无法掌握语言这种人类智能最核心的能力。毕竟一个不会说话的智能,再怎么聪明,都不会得到人们的承认。

然而,自从美国的人工智能公司OpenAI在2022年向公众发布了ChatGPT后,其惊人的自然语言处理和生成能力引起了全世界的惊奇。和早期的AI不同,ChatGPT不仅知识渊博,而且能够很好地理解上下文,准确回答人类的提问(虽然有时也会犯错),还会开玩笑,逗人开心,俨然已经是个熟练的语言使用者。

作为语言学大师的乔姆斯基则及时站了出来,表达了对AI的不屑。2023年3月,乔姆斯基与合作者在《纽约时报》共同发表了一篇题为《ChatGPT的虚假承诺》的文章。文章认为,ChatGPT这样的人工智能只是基于大量数据的模式匹配,缺乏对语言的真正理解。乔姆斯基写道:“人脑不像ChatGPT及其同类产品那样,是一个笨重的模式匹配统计引擎,狼吞虎咽地处理数百兆兆字节(terabytes)的数据,并推断出最为可能的对话回应,或为科学问题提供最可能的答案。相反,人类的大脑是一个极为高效甚至优雅的系统,只需要少量的信息即可运作;它寻求的不是推断数据点之间的粗暴关联,而是创造解释。”他还警醒道:“机器学习将把一种有着根本缺陷的语言和知识概念纳入我们的技术,从而降低我们的科学水平,贬低我们的道德标准。”

在后来的一次采访中,有人问乔姆斯基如何看待ChatGPT在教育领域的进展,他表示:“我认为这对教育毫无裨益,只是破坏了它。ChatGPT基本上是一种高科技的剽窃行为,它是一个系统,可以访问海量信息数据,找到其中的规律,然后把字符串起来,看起来或多或少像某人可能就这个主题写的东西。基本上它就是一种剽窃,只是碰巧使用了高科技。”

ChatGPT的出现一开始确实引来了学术界很多人的抵制,不少大学和学术机构禁止学生使用ChatGPT,很多期刊被它生成的论文弄得苦不堪言,老师们则担忧学生过分依赖AI,诱发一系列的学术腐败行为。不过,这显然抵挡不住ChatGPT的脚步,它的能力在接下来几年里继续高速进化,触角渗透进几乎所有可以渗透的行业,很快就改变了一大批人的态度,大家不得不开始正视这种全新的人工智能。

2024年5月,北京市一所中学,机器人社团的学生在辅导老师的指导下调试一台会唱京剧的机器人(中国青年报/ 视觉中国 供图)机器如何学习:预测下一个token

辛顿与乔姆斯基关于“机器是否理解语言”的隔空辩论当然不只是两个大师的个人学术恩怨。某种程度上,乔姆斯基试图捍卫的是人之为人的尊严。语言,则是他为人类构筑的防线——这道防线现在前所未有地遭受到一个非人物种的挑战。而另一头的辛顿也并非所谓的机器优先主义者,他甚至一度公开表示后悔推动了机器学习的发展,因为人类还没有为强大的AI的出现做好准备。在预见到AI势不可挡的趋势后,他对人类文明的未来更感到忧心忡忡。

那么,处于争议焦点的机器本身是如何“看待”这个问题的?一天下午,我打开ChatGPT的聊天界面,用中文输入了问题:“你真的理解了人类语言吗?”几秒钟后,得到如下回答:

从技术上讲,我对人类语言的理解是基于模式识别和统计分析,而不是人类那种深层的语义理解或意识感知。换句话说,我可以生成与人类语言结构相符的内容,模仿思考过程,并以连贯的方式回应你的问题,但这种“理解”并非基于真正的意识或意图。

我的语言能力主要依赖以下几方面:

大规模数据训练:通过海量的语言数据学习语言模式和上下文关联。

语义关联与预测:基于输入内容预测最有可能的回应。

逻辑与推理:通过算法模拟基本逻辑和推理过程,从而生成更复杂的回答。

但在本质上,我并不能像人类一样具有主观体验,也没有内在的意义理解。我的“理解”更多是对于语言形式和内容的统计掌握,而非对其真实意义或背景的直觉领悟。

ChatGPT似乎更倾向于它的反对者乔姆斯基的观点,而不是辛顿。但仔细想想,这里存在某种悖论:如果我们相信了机器的回答,对其输出信以为真,不也等同于相信机器掌握了人类语言?既然这场辩论很难分出胜负,我们不妨先去搞清楚一个基本的问题:机器到底是如何学习语言的?

带着这个问题,我先去拜访了国内几个从事大模型开发与研究的企业和机构。过去两年多,中国的AI团队迅速壮大,在不断加强的先进芯片管制背景下,仍在努力缩小与美国AI公司的差距。尤其是在DeepSeek崛起后,中美在全球AI竞争格局中“双雄并立”的态势更加明显,两国民间的技术、人员和信息交流非常活跃。发生在辛顿与乔姆斯基之间的争论,同样是中国AI圈子里的一个母题。

1984年出生的刘知远是清华大学计算机科学与技术系长聘副教授,长期从事计算机自然语言处理的研究。他同时也是创立于2022年的大模型公司面壁智能的联合创始人兼首席科学家。2024年6月,面壁智能发布的一个模型疑似被斯坦福大学一AI团队抄袭,从而“出圈”。

清华大学计算机科学与技术系长聘副教授刘知远(受访者 供图)

AI是一个外行看热闹,内行看门道的行业。刘知远告诉我,大模型的基本工作原理其实并不复杂,“你可以把它看作是一个单字接龙的过程:让它阅读前面的几个字,然后去产生下一个字,下一个字又拿来作为输入,继续去产生下一个字,如此不断循环,我们把它叫作自回归生成”。2024年12月中旬,在面壁智能位于北京海淀区清华科技园的办公室里,刘知远打开电脑上的一页PPT,上面出现一段关于清华大学的文字介绍,然后向我解释道:“你看互联网上有这么多的数据,我们就可以拿来做标准答案。比如看到前面几个字是‘清华大学的’,要让大模型去预测下一个字是什么,这个文本数据里就有标准答案——下一个字就是‘前’,但是如果这个模型预测错了,和文本不一致,那就会反馈一个信号,让模型更新参数;如果预测对了,就不改。这个数据就是我们语言的样例,而语言是知识的载体,所以数据背后包含了大量知识。比如我们说‘清华大学的前身是清华学堂’,这句话显然包含了关于这个世界的一部分知识,大模型能够预测对后面的这些字,也就意味着它掌握了这些知识,不然它就做不对。”

刘知远已经让大模型完成了从语言到知识的跨越,他接着说道:“我们在逼着它做对的过程,其实就是在逼着它来学习这个世界的知识的过程。你看我们人类语言的特点是什么?比如我们上课的时候很多学生喜欢接下茬,接下茬其实就是我们语言的一个非常重要的能力。因为语言是一个序列,它是有上下文的,上文可以用来去预测下文。我们说‘我爱吃北京……’下一个词是什么?烤鸭。要是说‘我爱吃南京……’那么下一个词肯定就是盐水鸭。所以,你能预测下一个词的能力,本身就是由你所具备的知识来驱动的,否则你就不能很好地预测对下文。相应地,你在学习预测下文的能力本身也就是在学习相关知识的过程。”

在与清华科技园一路之隔的智源大厦,我见到了54岁的黄铁军,他是北京大学计算机学院教授、北京智源人工智能研究院理事长。北京智源人工智能研究院创立于2018年,是国内著名的AI研究机构,其发布的一系列开源大模型在业内有不俗的口碑,每年主办的北京智源大会在业内颇受关注,辛顿、杨立昆(Yann Lecun)等AI大佬都在会上做过演讲。黄铁军自己是做计算机视觉出身的,从上世纪90年代读研究生时开始研究手写汉字识别。他说,自从大语言模型(LLM,ChatGPT就是典型的大语言模型)取得成功后,从2023年开始,AI业内沿着同一个方法论,把数据从语言换成图像、视频等,迅速提高了多模态大模型的能力。这个方法论的基本原理被称为“预测下一个token(常译作词元或标识)”。黄铁军解释道,这个方法用到图像生成的领域,就是用一个图像来预测它周边的图像块。“计算机会把一张图片分成很多块,每一块相当于一个token,进行一下编码,只要你的图片不是打乱的,肯定就存在某种规律性,这一块跟它上下左右的图块就有一定的关联。当然它不一定存在必然性,比如我这个杯子放在桌子这儿,它也是一个合理的图像,但是杯子会不会放在天空中呢?在我们的幻想中也有那样的图像。不管怎么样,AI只要掌握了上下左右图块之间的关系,自己就可以生成新的图像了。”视频生成的原理也一样,就是预测下一帧应该是什么样子,同时确保和前一帧连贯,只要它每一帧都能预测对,视频里的人的动作、表情变化看上去就是自然合理的。

在黄铁军看来,机器学习的这种方式和人脑的学习某种程度上是一致的。“你想一想,我们人生来就看这个世界,你看到人脸,看到动物,你看到树、水或者山,大脑中对这些事物的关系就会形成一个模式。如果现在给你一个自然真实的图像,你会觉得没问题,但是如果给你一幅像达利(萨尔瓦多·达利,西班牙加泰罗尼亚画家,因其超现实主义作品而闻名)那样的画,你会觉得不太对,因为钟表不能是软的。但是你想想这种可能也是存在的,如果它是一个融化了的东西,但是再超出这个范围,你会觉得不太对了。大模型其实学的也是这些,当你看了这么多东西、接受了这么多刺激之后,会发现背后的一些规律性的东西,这些规律没法变成某种符号和规则,但大致来说,万事万物背后都存在一些约束和规律。”换句话说,如果机器能识别出这些模式和规律,也就等同于掌握了关于这个世界的知识。

刘知远告诉我,大模型现在掌握了一套标准化的机器学习方法,人类工程师只需要在不同的阶段用不同类型的数据来教它学习。“一般是分三个阶段:第一阶段就是海量阅读,把互联网上的海量数据拿过来给它学;第二阶段,你要给它一些指定的题目和答案,反复刷题,让它学会去答题,这叫作有监督微调,也会被称作对齐(alignment);第三个阶段是一个从反馈中学习的过程,你要让模型去参加一些模拟考试,先不告诉它标准答案,只告诉它你做对了还是做错了,它就可以从做错的反馈中进一步地学习。”

ChatGPT的成功证明了这套方法论有效,随后全球迅速涌现出一大批大模型,掀起了所谓的“百模大战”“千模大战”。其中绝大多数大模型都是按照这个路径去训练的,只是喂给机器的数据有差异,以及各个团队对数据的处理和算法的优化能力不一样,所以训练出来的大模型有差别。当人们把这些数据集中到某一个领域,比如自动驾驶、基因检测、新药研发,甚至文学研究,大模型就具备了推动这些领域范式转变的潜力。这正是AI的威力所在。

一款配备了不同面孔的人工智能设备,与用户交流的时候可以模仿人的面部动作(视觉中国 供图)智能的标准:图灵测试过时了吗?

2014年6月7日,英国皇家学会举行了一场“2014图灵测试”大会。大会邀请了30位人类测试者分别与一个真实的人和一个机器进行5分钟的文字对话,话题和内容都是随机的,如果超过30%的测试者将机器当成人类,就可以判定这个机器通过图灵测试。这次测试中,一个名为“尤金·古斯特曼”(Eugene Goostman)的聊天机器人伪装成一个13岁的乌克兰小男孩,成功迷惑了三分之一的测试者,成为历史上首个通过图灵测试的机器。不过,这场测试在事后引发了争议,一些人认为尤金·古斯特曼的创造者使用了一些技巧骗过了人类评委,对测试的有效性和科学性提出了质疑。

长期以来,图灵测试是判定机器是否存在智能的最有名的标准。1950年,英国数学家艾伦·图灵提出的这项测试,是让人类与机器进行一系列的随机对话,如果测试者在多数情况下都无法正确分辨人类和机器,就可以判定这台机器表现出了与人类同等水平的智能。这个测试不仅给智能的判定提供了一个可操作的方案,也给人工智能的发展提供了方向。

“尤金·古斯特曼”虽然在计算机界引起了小小的轰动,但大多数人不会以此认定人工智能的时代已经开启,直到ChatGPT等大模型的出现,图灵测试遭到了更大范围的质疑。很多人认为图灵测试关注的只是语言能力,而人类智能还有很多是语言无法触及的。此外,图灵测试的操作方式决定了它只关注机器的外在行为和表现,而不是智能的内在机制,换句话说,只要机器的行为表现得和人类相似,就能通过测试,用这套标准来衡量现在的大模型显然已经过时了。

辛顿对这样的看法很不以为然。2023年,他在加拿大的多伦多大学与斯坦福大学计算机系教授李飞飞有过一次公开对谈,在回答主持人提问时,他说他同意图灵测试对智能的定义,认为人们只是在我们通过了图灵测试后才开始质疑它。

从技术发展的历史来看,这样的争论也不是第一次了。刘知远向我提到了计算器的例子。“我觉得你肯定不会认为现在的计算器是一种智能,但如果把计算器放到200年前,那时候人们会不会认为计算器很厉害很智能呢?人类的智能其实也是慢慢往上跃迁的。我们现在的computer(计算机)一词,历史上曾经是一个专门的职业。有些国家会专门雇一批擅长算术的人,帮军队、政府去计算各种任务,直到后来的电子计算器。人工智能一个很有意思的悖论就是,任何一个东西,只要你能理解了它背后的工作原理,你好像就不觉得它是智能的。”

2023年9月,在蒙特利尔的加拿大国家电影局举办的一场虚拟现实实验,体验者与AI聊天以更好地了解其工作方式(视觉中国 供图)

2016年,谷歌旗下DeepMind公司开发的人工智能AlphaGo(阿尔法狗)对战世界围棋冠军李世石的时候,刘知远印象很深,有一次媒体邀请了很多名人专家做预测,结果只有一个人说AI能取胜,其他人都觉得围棋象征着人类智能的巅峰,只有最聪明的人才能下围棋,所以AI不可能取胜。“但等阿尔法狗战胜了李世石,大家又不这么想了,人类觉得下围棋这件事情也没那么神秘了,好像也就是一个计算问题。所以我觉得假如哪天我们人类的很多能力都被机器所实现了,而且我们也知道机器到底是如何工作的,人们大概率也不会觉得那些能力是真正代表人类智能的能力了。”

如果图灵测试不被接受了,我们还有哪些办法来界定机器的智能?黄铁军告诉我,现在AI领域经常从两个维度来看人工智能。“一种是看输入—输出,比如你给它一个问题,它知道正确答案,或者给它看张人脸,它知道这是谁。另一种,我们说得更多的是预测,即它能根据现在的状态推想未来一段时间会发生什么。预测是智能的核心,这也是很多人的认可的一个看法。有的时候我们完全没有意识到,但实际上你脑子里随时在做预测。”黄铁军说道,“举个例子,你开车的时候,眼睛肯定是到处在看。脑子里想我这么走的话可能会跟那个人撞上,我那么走的话可能跟那边的车剐蹭。你脑子里已经设想了多种可能,最后选了一个你认为最合理的。这种预测能力是我们人的一个典型特征。当然,一个小动物也会根据环境的变化做出合理的选择,没有绝对正确,只能是相对合理的选择,能做出合理选择的生物会生存,不会合理选择的就被淘汰了。”

到底什么是智能,如何认识现在的大模型表现出来的能力,即使在AI圈内,对这些问题的看法也可能截然相反。2018年图灵奖得主,与辛顿、约书亚·本吉奥(Yoshua Bengio)并称为“深度学习三巨头”的法国计算机科学家杨立昆,就不同意自己的导师辛顿的看法。他这两年在多个场合表示,现在的大语言模型无法获得关于真实世界的知识,尽管语言生成的内容质量一直提升,但是这些模型在本质上是不可控的,而且人类有许多知识是目前无法被语言系统所触达的,沿着这条路走下去,人工智能无法通向AGI(通用人工智能),所以AI目前还远未达到对人类构成威胁的程度。他看好的方向是世界模型〔World Model,就像搭建一个“大脑中的模拟器”,专注于理解和预测环境变化(比如物理规律和行动后果)〕,这也是斯坦福大学的李飞飞团队以及AI巨头英伟达等公司正在发力的领域。

中国社会科学院哲学研究所研究员赵汀阳是在国内外享有盛誉的哲学家,近些年,他对人工智能也产生了浓厚的兴趣。在2024年发表的《人工智能还给人类的思维难题》一文中,赵汀阳从语言哲学的角度分析了人工智能的本质。他认为人工智能学会的是标识系统,不是语言,但它用一种看似粗暴的方式达到了意想不到的效果。“人工智能的标识相当于它自己不明其意的密码,而人类语言是解码底本,相当于人工智能掌握了如何发送密码,而尚未掌握解密能力……”赵汀阳这样写道,“人工智能仅仅通过寻找数据的关联性,为什么能够形成相当于知识和思想的效果?知识和思想如此复杂,人类自己也需要苦苦学习,还经常学不会,人工智能是如何‘搞定’知识和思想的复杂性的?谜底既惊人又令人失望,对于人工智能,所有信息无论多么复杂都是同质的标识,于是,任何复杂的意义都可以简化为标识的链接,这极其有趣地意味着,所有问题,无论多么复杂,都被转换为一个简单的问题:如何预测下一个标识(next token prediction),即对标识之间关联度的预测。如此化繁为简,堪称天才。”

赵汀阳的分析可以让我们跳脱出来,换个角度来看待人工智能。虽然它看似用了一种最土、最笨的办法来学习,但这何尝不是给“智能”提供了一种新的可能性。

2025年1月13日,英国首相凯尔·斯塔默 (右) 到访伦敦大学学院制造业未来实验室(视觉中国 供图)人工神经网络:对人脑的粗糙模拟

“预测下一个标识”当然只是对机器学习的最简单的一种描述,以大模型为代表的生成式AI底层的架构远比这种描述要复杂得多,背后涉及一系列晦涩难懂的学习算法、数学模型。但它们采用的主流技术路线都是人工神经网络,从命名来看,就知道这是受到了人类生物神经网络的启发。这种方式能收获今天的成效,是很多研究者都觉得意料之外的事情。

人工神经网络的历史可以追溯到上世纪40年代,那时候就有科学家在了解人脑神经元的工作模式后提出了相关的数学模型,但囿于当时的发展水平,这种模型后来被搁置下来。此后几十年,人工智能的发展进入符号主义主导的时期。这一学派认为智能的本质是推理,试图用一套严格的数学逻辑和符号系统来表示人类的语言、知识与思维,从而达到人工智能。这种架构在专家系统方面表现出色,但很快也遇到了发展瓶颈,人工智能也陷入低潮期。显然,用符号和逻辑解释不了一切。

到上世纪80年代,辛顿等一批有心理学、认知科学或者神经科学背景的学者又将人工神经网络的理论往前推了一大步。黄铁军说,辛顿他们那时候认识到了一件最基本的事情,就是学习是学到哪里去了,或者说我们是怎么表示我们所学到的知识的,说得再直白一点,就是它学成了什么样。

“传统符号主义的观点认为你要学成知识条目,比如你的知识库里边有一条:北京是中国的首都,就像字典一样,用的是一种符号化的表示方法。但是辛顿他们当时就认识到,学习不应该是这样的,我们学到的知识应该是一串分布式的数字。这个理念不是他们首创的,而是来自于更早的理论,因为人的神经系统其实就是学成了这样。”黄铁军手里拿着一本《三联生活周刊》杂志解释道,“你只看‘生活’这两个汉字,就是符号化的,但那是表面,它的含义是什么?‘生活’的含义难道仅仅是‘生活’这两个字吗?对于我们每个人来说,‘生活’背后有极其丰富的含义,那这些含义在我们大脑里的什么地方?大脑里肯定存在‘生活’这两个字,但是它要比生活复杂得多。”

“大脑中有几百亿个神经元(注:一般估计有800多亿个神经元)。神经元是一个信号加工与转换装置,接收上游的信号,然后输出给下游。它本身不具备存储和记忆能力。不记忆,它就不是智能的载体,只是加工,结束后就歇着。但我们人有记忆能力,有推理能力,这些功能在哪里?其实就在神经元连接的地方,叫作神经突触。一个神经元可以跟几千个其他的神经元连接,一个连接点就是一个神经突触,我们大脑中有至少100万亿个神经突触。突触会根据你接收的外界刺激不同而不断变化。一个突触的粗细——转换成人工神经网络就是连接的强度——一般来说就是0~1之间的一个数值,强度如果是0,那相当于断开了,如果是1,就是信号直通过去了。但大脑的神经突触通常是0~1之间的一种状态,它对信号有个调制机制。我们人类学习,就是学到神经突触那里去了。不管是语言这种抽象的符号,还是视觉的形象化内容,都会引起神经突触的变化。”近年来,计算机科学与神经科学之间的交流越来越活跃,跨学科研究已成为大势所趋。在计算机视觉领域深耕数十载后的黄铁军,如今的研究兴趣也转向了类脑研究和类脑智能,后者是他认为AI实现更大突破的方向。

黄铁军告诉我,辛顿等人从神经元的工作方式中受到了启示,在上世纪80年代提出,真正的智能应该是分布式表示,任何一个概念在大脑里边不仅仅是一个符号,而是一组数字。比如汉语“生活”这两个字,4个字节,计算机可以这么存,但大脑不是这么存的,在我们人的脑子里面,可能有几十万个神经突触都是跟“生活”相关联的,都可以调动出来。“所以我们看到这个词的时候会激活很多关联的神经元,这些神经元相互作用的时候就会被那些突触所调制,我们感到悲伤或者兴奋,关于生活的所有感觉其实都是这样一个生物神经网络工作的结果。”这种观点成就了后来主导人工智能的连接主义。而连接主义和符号主义的论争,成为过去几十年人工智能领域的主旋律。

2025年1月,AI科学家杨立昆在瑞士达沃斯举行的世界经济论坛小组会议上发言(视觉中国 供图)

辛顿等人虽然认识到了分布式表征的价值,但还需要建立一套学习算法来帮助机器表现得更加智能。1986年,辛顿与大卫·鲁梅尔哈特和罗纳德·威廉姆斯在《自然》杂志上合作发表了一篇名为《通过反向传播误差学习表示》的论文,从而解决了长期以来困扰神经网络训练的难题,使得反向传播算法成为神经网络训练的核心方法。人工神经网络大致的结构可以分为输入层、输出层,中间还有隐藏层,而且整个层数随着技术的发展在不断增加,现在的大模型能达到数百层甚至上千层。在反向传播算法中,计算机会根据网络的输出误差,从输出层反向传播到输入层,依次计算每个神经元的连接权重对误差的贡献,并根据这些贡献来调整连接权重,使得网络的输出误差逐渐减小。其最终目标就是要让“输入”和“输出”建立最正确的映射关系,直白来说,就是要让机器在“单字接龙”中一直能对下去,能认出图片里的猫或者狗,能知晓现在,预测未来。

然而,因为在算力、数据集等方面的各种限制,这种方法当年并未真正展现出威力。不过,沿着这条路径,人工神经网络的训练者们又开发出了更多更巧妙的算法,包括在ChatGPT中用到的Transformer算法(源于2017年谷歌团队一篇不太引人注意的论文,通过引入自注意力机制,很好地解决了长文本中的计算问题)。而辛顿在业内如此备受尊敬的一个原因还在于,尽管深度学习在20世纪80年代后进入了漫长的沉寂期,但他始终没有放弃这条道路,仍在不断地完善这一理论和技术架构。他还培养了一大批学生,不少人后来在深度学习的发展过程中扮演了举足轻重的角色,其中就包括OpenAI的联合创始人,被认为是ChatGPT灵魂人物的伊利亚·苏茨克维(Ilya Sutskever)。

“最近几年以大模型为代表的AI出现后,我们才认为机器真正有智能了,真的会学习了。”黄铁军说,这个现象其实也超出了包括辛顿在内的很多人工神经网络专家的预想,“生物是自然进化出来的,人为造一个神经网络,你训练它就一定能产生智能吗?你得多接近生物神经网络(就是大脑)才能产生智能?是50%就行了,还是要99.99%?这件事情没有人说得清楚。幸运的是,今天的人工神经网络连50%都不到,只是对人脑的一个很粗糙的模拟,就做到了。就像人最开始造飞机一样,大家都不知道是不是一定要造成鸟那么精细它才能飞,也不懂什么空气动力学,只知道大概这么做是有可能飞起来的,所以去试一试。”过去几十年,人工神经网络领域也是按照这种信念,那么多人前仆后继地去尝试,最后实现了这个梦想。

约书亚·本吉奥,他与辛顿、杨立昆并称“深度学习三巨头”两个“黑盒”的较量:数字智能与模拟智能

在源源不断的资金、算力、数据、能源和人类智力的投入下,AI仍在以惊人的速度进化和迭代,有关“智能”的争议会越来越小,更终极的意识问题也已进入人们的讨论范围——仅仅几年之前,这似乎还是只存在于科幻作品中的想象。这也预示着,机器已经站在了人类的起跑线上。

而人类智能的秘密都藏在大脑中。现代神经科学的研究已经证明,大脑具有巨大的可塑性,我们每天接收外部的信息和各种刺激,正像黄铁军解释的那样,会引起我们神经突触的不断变化和调整——这使得我们人类的学习成为可能。从婴儿时期开始,一直到成年期,人在语言、动作、推理等方面表现出了超高的学习效率。乔姆斯基主张人类天生具备一种内在的语言能力,这种能力由基因决定,并非通过学习得来,即著名的“刺激贫乏论”。其证据就是儿童在语言习得过程中受到的外部刺激非常有限,但却能生成他们从未听过的复杂句子,说明人脑中存在先天的语言结构。

脑科学现在被科学界认为是和宇宙文明探索一样艰深而重要的领域。我们如今对人脑还知之甚少,别说人脑,我们现在甚至连一只果蝇的大脑都还没完全搞清楚。从这个意义上来说,人脑和AI一样,都是一个黑盒,对于它们展现出来的很多能力,人类往往无法解释。当黑盒中的机器以如此快的速度进化时,在这场人脑与机器的较量之中,我们必须知道,人类到底处于什么位置。

为了搞清楚脑科学的进展,我在2025年初前往上海采访了中国科学院院士、神经科学研究所学术所长、脑科学与智能技术卓越创新中心学术主任蒲慕明。他1948年出生,毕业于台湾清华大学,是中国科学院神经所的首任所长,作为专家组组长推动了启动于2021年的中国“脑计划”项目。这是一个雄心勃勃的科学计划,终极目标是揭开大脑的秘密。蒲慕明告诉我,神经科学现在对大脑的了解确实还很粗浅。“在宏观层面,我们现在知道大脑结构中有哪些脑区,它们大概有什么功能;在微观层面,我们知道神经元的连接大致是什么样,它是如何产生、传递和加工神经信号的。但是在宏观和微观层面存在一条鸿沟,我们对于这些连接的细节并不清楚,甚至大脑里有多少种类的细胞我们也不知道。所以,我们对大脑到底有多大能力、我们使用了其中多少突触,这些都不知道,只是知道它可使用的容量非常大,远大于我们现在需要的容量。”

蒲慕明这两年也在密切关注人工智能的进展。他认为,人工智能虽然从脑科学领域借用了神经网络的一些概念,但其实它的网络和人脑的网络大不相同,人脑不像AI的架构那样是全连接、多层面的,大脑部分脑区虽然有分层,但不可能像AI那样用几百层来处理信息,而是一种浅层网络的联合。此外,人类有着远比其他生物更长的成长期,在这个过程中,这个网络会快速地自我修饰,去除冗余连接,所以人脑的耗能更低。在蒲慕明看来,AI要实现一种能力更强、更加绿色的智能,就要更多地借鉴人脑的机制,开发类脑算法。

在2025年初的一次访谈中,辛顿也谈到,人脑的一个优势就是功耗低得多。“我们人脑中大约有100万亿个连接,而最大的模型只有大约1万亿个。所以我们的容量仍然比最大的模型大近100倍,而且我们以大约30瓦的功率在运行着。”据美国《纽约客》杂志2024年3月的报道,ChatGPT每天要处理超过2亿次的请求,需消耗50万千瓦时的电力,这相当于17万多个美国家庭一年的用电量。能源问题,已经是AI发展的一大阻碍。

其实直到两三年前,辛顿对人工神经网络和反向传播算法的看法还有所保留,因为在大脑里边的确没有完全看到一个这样的过程。2017年在接受美国媒体Axios采访时,辛顿表示:“我不认为这(反向传播)是大脑运作的方式,我们的大脑显然不需要对所有数据进行标注。”几十年来,他一直希望发现大脑中存在更多更巧妙的学习方式,但一直没找到,他2023年还在犹豫,可是从2024年开始,辛顿的观念有了一个根本性变化,他认为即便大脑中有更复杂的机制,也不意味着它就是更好的机制,这是他思想的一个巨大的转向。黄铁军告诉我,辛顿已经不再迷信大脑,他认为反向传播就是一个高效的学习方法。方法之争,有时也成了信念之争。

辛顿经常使用数字智能与模拟智能来分析机器与人脑的工作机制。在2023年年中北京智源人工智能研究院主办的智源大会上,辛顿做了一次题为《通往智能的两种路径》的演讲,他认为人工神经网络的智能水平最终会超过生物神经网络(大脑),最终发展出超级智能(super intelligence)。也是基于这种看法,辛顿不断强调他对人类文明的未来的担忧。

在2024年年末瑞典皇家工程科学院的研讨会上,辛顿回答观众提问时曾解释道:“我们能够更节能,是因为我们的大脑是模拟的系统,没有硬件和软件的分离。我们大脑中的神经网络权重是专门为这些特定的神经元、特定的连接方式以及所有神经元之间的相互作用而设计的,这些权重对这些神经元来说是非常有效的……与此不同的是数字技术,它依赖于晶体管,而消耗大量能量……但数字智能可能是更高效的。虽然能量消耗可能过于极端,但数字智能的效率可能更高。”

从对信号的处理机制上来看,人脑处理信息的方式更接近模拟信号,而不是数字信号。“我们也可以说神经突触的连接强度也对应一个数字,但它毕竟是由有机物蛋白质组成的,不是一个绝对值,比如二进制的0或1,而是一个差不多的模糊值。我们大脑做一次计算,比如1+1=2,会调用很多神经元、很多连接,但是在计算机上可不需要那么多神经元,基本上一组晶体管就做到了。”黄铁军告诉我,机器学习最大的好处就是,它是精确地在计算这些数字,所以一旦它学会了“生活”这个词在大脑中的分布,就不会像我们人一样老是会变化。“变当然有变的好处,但是不变也有不变的巨大的好处,这就是辛顿说的,数字智能可以拷贝、共享,可以精确复制,而你一个老师脑子里的东西怎么能精确地复制到学生脑子里面去呢?”

然而,学习算法的能力无论变得多么强大,机器还有个最大的缺陷就是它没有人这样的身体,无法靠自己的身体去获得生命体验,而这种体验是人类知识、情感、价值与自我意识的重要来源之一。这几乎是人类对抗机器的最后一道防线。

黄铁军则说,如今的AI其实在往两个方向延伸。“我们古人把人的学习总结为‘读万卷书,行万里路’。‘读万卷书’,就是从书本,也就是从数据中去学,你读得越多,掌握的知识就越多,在这方面,目前以大模型为代表的AI取得了最重要的进步。‘行万里路’,意思就是人要去看,去听,去感受这个世界,机器实际上也开始了,这就是我们所说的具身智能。机器人要有身体,身体上有各种传感器,就像我们人有眼睛、耳朵一样,但机器的传感器可能比人类还要丰富多样,性能还更高。所以在这个意义上,人类已经没有什么独有的东西了,机器未来一定会超过人类,可能都不需要太长的时间。在文本学习方面,未来两三年就会超越人类,具身智能可能还有个发展过程,可能是10年或者20年,不管怎么样,机器对人的超越是必然的。”黄铁军的预测,在AI圈内属于乐观的一派,但还不是最乐观的。

黄铁军所在的北京智源人工智能研究院前不久用计算机模拟的方式做出了线虫的数字模型,这之后,他们的团队又做出了人类的心脏模型。“我现在预期是到2035年,差不多把一个数字版本的大脑给做出来,这是我们的终极目标。”在神经科学领域,蒲慕明院士团队的终极目标是建立人的全脑连接图谱,从而彻底揭开大脑的秘密。到那一天,人工智能又进化到了何种地步呢?难以想象。

首页
评论
分享
Top