“AI 会拿走我的工作吗?” 图灵奖得主、AI教父 Hinton 这次只回了一个字:会
转自图灵人工智能,仅用于学术分享,无任何商业用途,如有侵权留言删除
过去几年里,AI 教父 Geoffrey Hinton 最常被外界记住的,是他不断对 AI 风险发出警告:离开 Google、公开谈更强模型的危险、提醒人们不要把能力跃迁误当成纯粹的产品升级。
在 3 月加拿大多伦多最新的公开对谈里,他把那条线又往前推了一步。真正让他反复回到的一件事,已经不只是“模型会不会越来越强”,而是:当 AI 开始进入工作、教育、医疗、陪伴关系乃至军事用途时,公司、政府和整套政治系统,到底有没有准备好承接后果。

这也是这场对话最值得看的地方。Hinton 当然还是在解释神经网络、反向传播和语言模型到底怎么工作,也还是会用他熟悉的方式,一层一层把技术讲清楚;但另一边,他说得越来越直白:当主持人 Amber Mac 问他 “AI 会不会拿走我的工作” 时,Hinton 只回了一个词:“会。”
而在那个短得几乎像玩笑的回答背后,他真正展开的,是一整套更难回答的问题,并为新时代 AI 的运作机制进行了一次堪称“知识扫盲”的详细讲解。
要点速览
-
“我以前很喜欢 ChatGPT,但我准备转去用 Claude,因为 Sam Altman 在道德上的弹性,对我来说有点太大了。” -
在未来二十年内,通用型人工智能很可能可以胜任几乎所有人类在电脑上完成的智力工作。 -
在医疗和教育这类“弹性市场”里,AI 更可能带来的是服务能力的扩张,而不是简单取代。 -
很多人以为现在的大模型还是在“预测下一个词”,但早就不是了。今天的系统更像我们生成语言的方式。 -
理解一句话这件事,实际上更像是蛋白质折叠,而不是把一种语言翻译成另一种内部逻辑语言。
-
对未经充分测试就推向社会的聊天机器人产品,应当承担明确的法律责任。
-
中国可能会把这件事管理得更好。他们至少会去担心那些工人会怎么样,他们对这件事的关注,可能比这里的大型科技公司强得多。
以下是这场对谈的翻译。

不再使用 ChatGPT
主持人:我想先从一个稍早的话题问起:你当初为什么会来到加拿大?我们 2019 年也聊过这个问题。到底是什么把你带到了这个国家?
Geoffrey Hinton:我当时在美国的卡内基梅隆大学工作,研究进展非常顺利。但我对里根政府针对尼加拉瓜的政策感到很不开心。我认为在尼加拉瓜港口布雷是一件很糟糕的事,而我在匹兹堡的很多同事却觉得这完全合理,因为那是“美国的半球”,美国就该管。我觉得这很可怕。谁能想到后来会变成这样。
主持人:就像我说的,这些年变化太大了。我们当年还聊过 AI 战争。我要读一段你在 2019 年说过的话:你当时说,“我觉得这很可怕,自主武器已经近在眼前。” 其实在很多人开始公开谈这些威胁之前,你就已经在发出警告了。
Geoffrey Hinton:其实更早在发出警告的人是 Stuart Russell。所以在 AI 安全这件事上,我算是来得比较晚。我的很多同事早在十多年前就开始认真思考这个问题了。我只是运气比较好,大家愿意听我说话,但我并不是最早那批人。
主持人:那你怎么看 2026 年的 AI 安全处境?显然你仍然有很多担忧,而且现在很多人都已经在现实中看到这些问题开始发生了。
Geoffrey Hinton:是的。就拿最近的事情来说,我们已经看到,一家大型科技公司其实确实有一些道德原则,而且还是相对温和的那种原则。他们不希望自己的 AI 被拿去做对美国人的大规模监控——至少从我看来,他们主要是不希望它被拿来监控美国人。他们也不希望它被用于那种可以自行决定杀人的武器,这一点其实很难反对。
但国防部门——就是那位“很和善”的 Pete Hegseth——希望可以随意使用这些系统。Anthropic 说了不。于是现在他们开始冲着 Anthropic 去了。那个周四,OpenAI 还说他们支持 Anthropic;到了周五,他们就把 Anthropic 的生意接走了。
所以我现在已经不再用 ChatGPT 了。我以前很喜欢 ChatGPT,但我准备转去用 Claude,因为 Sam Altman 在道德上的弹性,对我来说有点太大了。

真正卡住 AI 进医院的,不只是技术,而是制度
主持人:我想聊聊你过去做过的一些预测。很多长期关注你的人都知道,你对未来有不少判断。你今天在台下跟我也提到过一个你很想聊的话题:2016 年,你曾经预测过,五年之内我们就不再需要放射科医生了。
Geoffrey Hinton:是的。我当时只是在一家医院做讲座,并没有意识到这些话会传播到全球。那时 AI 在图像识别上的能力进步非常快,所以在我看来,只就“解读医学影像”这件事而言,大约五年内 AI 会比人类更强,这似乎是显而易见的。
这个判断后来证明还是太乐观了。现在在很多影像任务上,AI 已经和人类相当了;在一些任务上,甚至已经优于人类,而且这种情况并不少见。
但后来真正发生的事情是:AI 并没有简单地取代人类去解读影像,而是人类开始和 AI 一起工作。现在已经有很多不同的 AI 系统获得了批准,用于医学影像解读。同时,影像解读的总量也在增加。
所以我当时错了三件事。
第一,我把时间尺度看短了,大概差了两倍,也可能三倍。当然,如果你只差了两三倍,物理学家一般不会太在意。
第二,我低估了医疗行业的保守程度。说实话,你很难夸大这个行业到底有多保守。比如说,如果一个 AI 因为漏诊癌症而导致一个人死亡,人们会觉得那太糟糕了;但如果因为没有使用 AI,结果有几百个人死了,这件事却往往被忽略,好像不算数一样。我觉得这是非常不对称的决策方式。他们应该把“因为没有用 AI 而死亡的人”也计算进去。
第三,我低估了医疗的“弹性市场”特征。在很多行业里,一旦 AI 能把某件事做得和人一样好、或者更好,人就会失业。但在医疗里,我们几乎可以吸收无穷多的新增供给,尤其是当人老了以后。就拿我自己来说,我一个人都可以消耗十个全职医生的时间。
所以一旦有了 AI,我们可能得到的是更多医疗服务,而不是医生失业。如果你让医生的效率提高十倍,那结果很可能只是每个人都获得十倍的医疗服务,而这会是一件好事。所以你要先判断,这个市场到底是不是弹性的。
主持人:我很高兴你提到这个,因为我确实也想继续谈威胁以外的另一面。你之前和我聊到过,像医疗这样的弹性市场,其实会让 AI 带来很大的好处。你刚才也提到,医生群体常常比较保守。但就加拿大现在的情况而言,我们其实非常需要 AI 来帮助填补医疗缺口。你觉得我们还要多久,才能在这些场景里真正拥抱 AI?
Geoffrey Hinton:我觉得这很大程度上取决于政治。
我最近听说过一个案例:有家公司开发了一套系统,你只要用 iPhone 或 Android 拍下皮肤上的斑点,把照片上传给它,它就能告诉你那是黑色素瘤还是别的什么问题。它在这类判断上的水平,和优秀的人类医生差不多。所以它完全可以作为前端分诊工具,帮你决定是否应该去看皮肤科医生。它也可以在医院里使用。
但这家公司现在已经解散了,陷入债务和停摆状态。原因之一是,他们无法在安大略真正把这项服务落地,因为安大略政府没有为它设立相应的医疗收费代码。医院于是就不愿意采购,因为他们没法对一次使用收取 3 到 5 美元的费用。类似的事情,我想其实不少。
主持人:这听起来很令人沮丧。除了医疗之外,你还看到哪些行业也属于这种弹性市场,因此更有机会从 AI 中受益?
Geoffrey Hinton:有,教育。我们每个人都可以接受更多教育。比如我自己就很想多学一点物理学,挺不好意思的是我懂得并不多。所以在教育这件事上,我觉得 AI 会非常好。它现在还不算成熟,还没有真正成为一个很好的导师,但它正在往那个方向发展。

AI 进入教育,不该先被理解成“作弊”
主持人:我们就多谈一点教育吧。因为我猜现场也会有人想到,关于 AI 和教育,很多新闻标题都是“学校禁用 AI”“孩子不能用 AI”。你能不能多展开一点?
Geoffrey Hinton:我们已经知道,如果你有一个私人教师,你学习的速度大约会是课堂学习的两倍。因为课堂上很大一部分时间,其实是老师在“广播模式”里说话。那不是一对一的教学,因为我们负担不起。一位老师在私校要教二十个孩子,在公立学校可能要教三十五个孩子。
而孩子们实际上听到的是:别人的问题的答案,而不是自己刚刚提出的问题。
但我和聊天机器人互动时,一旦我对某件事产生好奇,我立刻就可以问它,而它也会立刻回答我。因为那正是我想知道的内容,所以我就更容易真正吸收这些信息。更多教育本来就应该是这样:让人顺着自己的好奇心往前走。
老师当然也能做到这一点,一对一教学时尤其有效,但老师的数量不够。AI 的数量则会足够多。所以我认为,AI 会让教育变得高效得多,尤其是对像我这样有一点 ADHD 倾向的人来说——如果别人正在讲一个我根本不感兴趣的话题,我会很难集中注意力。
当然,这还需要时间。AI 现在还没有真正擅长理解一个学生到底误解了什么。
主持人:我刚才想确认一下,你是不是用了一个词,说 AI 在教育这件事上“还比较慢”?意思是说,它还没有真正准备好成为那种理想的教育工具?
Geoffrey Hinton:对,它还没有完全到位。它还不能真正完整地理解学生到底哪里没懂。但最终它会做到的,因为它会获得大量训练数据。
主持人:那如果有人说,孩子或者学生使用 AI 就是在作弊,你会怎么回应?
Geoffrey Hinton:那学生使用口袋计算器也是作弊。
主持人:这倒是个很公平的回答。
Geoffrey Hinton:未来会是“人和 AI 一起工作”的世界。所以老师真正应该考察的,不是学生能不能彻底脱离 AI 完成所有事情,而是学生能不能和 AI 一起把一件事做好。至少在接下来的几年里,现实会是这样。再往后,也许 AI 会接管更多工作,但至少未来几年,重点仍然是“人如何与 AI 协作”,而那也应该成为教育评估的一部分。

“AI 会不会拿走工作?”
主持人:说到这里,其实也就自然引出了下一个问题。很多人一提到 AI,第一个会问我的就是:它会不会拿走我的工作?这个问题很直接,但也确实是很多加拿大人现在最在意的事。你会怎么回答?
Geoffrey Hinton:会。
主持人:好,我们今晚可以到这里结束了。
Geoffrey Hinton:我的看法——也是大多数专家的看法——是,在未来二十年内的某个时间点,我们会拥有通用型人工智能,它可以胜任几乎所有人类从事的智力工作。凡是你在电脑上做的事,它都会比人做得更好。像采访别人、围绕某个主题展开对话这样的事,它也完全能做。
主持人:这就有点针对我本人了,这可是我的饭碗。
Geoffrey Hinton:可我原来的饭碗是提出科学想法和编程。那也已经没了。
主持人:那当答案就是这样的时候,人们该怎么办?
Geoffrey Hinton:我不知道。

“只是在预测下一个词”,已经不足以解释今天的大模型
主持人:我还想回到一个很基础的问题上。我之前看了你和 Jon Stewart 的一场播客访谈,差不多 90 分钟,非常深入。他问了很多特别好的问题。我一直很好奇,如果让你用尽量通俗的方式解释:到底什么是 AI?它是怎么工作的?
Geoffrey Hinton:你的大脑里有很多脑细胞,也就是神经元。人类会学习做事情,问题就在于:你是怎么学会做事情的?你是怎么让一个由大量脑细胞组成的网络,学会执行某种复杂任务的?比如说,看一张图片,然后判断里面有没有鸟。
大致来说——当然这是极度简化后的说法——你会有一层层神经元。神经科学家把它们叫作不同的皮层区域;在人工神经网络里,我们把它们叫作“层”。
如果是做视觉任务,前面的层会先识别像素中的一些简单组合。像素就是数字图像里的小点。识别物体时,第一层会先判断图像中特定位置上有没有一小段边缘。
你可能会想,能不能直接把像素连接到一个神经元,让它判断“这里是不是一只鸟”?但问题是,单个像素亮不亮,其实并不能告诉你那里是不是鸟。因为鸟可能是白的,也可能是黑的。如果所有鸟都是白的,而其他东西全是黑的,那明亮像素当然意味着更可能有鸟。但现实不是这样。
不过,像素亮度可以帮助你判断那里是不是有一条边缘。比如说,一列像素是亮的,旁边一列是暗的,那中间就形成了一条边缘。于是你可以设计一个神经元,让它专门检测这种亮暗变化。第一层里就会有大量这样的神经元,它们在图像不同位置、不同方向、不同尺度上寻找各种边缘。
接下来,第二层会把这些边缘组合起来,识别出更复杂的小结构。比如几个边缘拼起来像一个鸟嘴,另一些边缘拼起来像一只眼睛。再往上一层,就可以把“鸟嘴”和“眼睛”组合起来,判断那里是不是有一个鸟头。再往上一层,可能再加上翅膀、爪子这些部位,最终形成“这里有一只鸟”的判断。
也就是说,我刚才等于手工设计了一个简化版的神经网络:第一层识别边缘,第二层识别边缘组合,更高层再识别组合的组合,最后识别物体本身。真正的系统层数会远比这个多,但原理大致如此。
问题是,没人能靠手工把这样一个庞大的网络逐一搭出来,太慢了。
那另一种办法是什么?就是你先把所有层搭起来,但权重全部随机初始化。所谓权重,就是神经元之间连接的强弱。随机初始化之后,这个网络只会输出一堆胡乱的结果。你给它一张鸟的图,它可能会说:这有一点像鸟,有一点像猫,也有一点像狗。
于是你可以问:有没有办法,只调整一点点连接强度,就让它在看到这张鸟图时,更像是在说“这是一只鸟”,而更不像是在说“这是一只猫”?
最笨的办法是:你把每一条连接都试一遍,看看调大一点还是调小一点,会不会让结果更接近正确答案。如果某个变化让结果更接近正确,那你就保留;如果更远了,你就反向调回去。这有点像随机进化,最终理论上也能起作用,但会花上天文数字般长的时间。因为今天的网络里有数十亿、上百亿条连接,你不可能逐条这样试。
真正关键的突破,是一种叫作“反向传播”的方法。它的思路是:当网络给出的答案和正确答案之间存在差距时,你把这个差距当成一种“拉力”,然后把这股拉力从输出层一路往回传。比如你输入一张鸟的图片,网络只给出了“10% 是鸟”的概率,而你希望它更接近“100% 是鸟”,那你就相当于在输出端施加了一股把“10%”往上拉的力量。
这股力量会告诉网络:哪些连接该增强,哪些该减弱;不仅如此,它还会一路回传到中间层那些负责识别特征的单元,告诉它们哪些特征应该更活跃,哪些应该更弱。
这就解决了神经网络最根本的问题:你怎么知道中间层那些神经元到底该往哪个方向改?答案就是:把输出层的误差反向传回去。那就是反向传播。你如果在学校里学过微积分,会知道它本质上和链式法则有关。只是现在很多人得上大学才会学到这些了。
主持人:谢谢你刚才那段精彩的解释。那我想接着聊聊天机器人。因为对很多人来说,他们第一次真正接触 AI,可能就是在 2022 年之后开始使用 ChatGPT 之类的聊天机器人。所以当人们想到聊天机器人时,常常会觉得:它们好像会思考,好像有自己的心智。你会怎么回应这种感觉?
Geoffrey Hinton:我会说:是的。我试着解释一下为什么。
反对者通常会说,不,它们并不是真的在思考。它们只是用了某种愚蠢的统计技巧,只是在预测下一个词,而且还会犯各种错误,所以并不是真正的思考。
但我很喜欢看 Yuval Harari 回应这类问题时的方式。他会说:那我自己说话的时候又在做什么?我不也是在预测下一个词吗?我只是在想,接下来该说哪个词;说出一个词之后,再想下一个词是什么。
如果你只是想做一个“预测下一个词”的装置,你当然可以靠词和词之间的相关性来实现一点点效果。比如储存很多短语,像 “fish and chips”,那你看到 “fish and” 时,就猜下一个词是 “chips”。早年的自动补全大致就是这么工作的。很多人以为现在的大模型也还是这样,但早就不是了。今天的系统比那复杂得多,也更像我们生成语言的方式。
真正的关键在于:如果你想把“下一个词”预测得足够好,你就必须理解前面说了什么。
比如我问你一个问题,而你要组织一个回答。你要回答的第一个词,取决于你是否已经理解了我的问题。你不可能只靠词和词之间的简单统计关系,或者靠记忆固定短语,就回答得出来,因为这个问题你可能以前根本没听过。
所以,当你逼着一个神经网络把“下一个词”预测得越来越好时,你其实是在逼着它形成理解。
它理解的方式,和我们理解世界的方式有相似之处。它会把语境中的每一个词,都转换成一大组特征。比如“猫”这个词,会对应很多特征:有胡须、是宠物、有点高冷、饿的时候会不停要你关注……这些特征共同构成了“猫”的含义。
所以神经网络要学会做的事,就是把词转换成一组能表达其意义的特征,再让这些词义特征在上下文中彼此作用,去预测下一个词的特征,最后再根据这些特征猜出下一个词。
这就是一种非常简化的大语言模型工作方式。我在 1985 年就做过一个非常简化的版本,当时它大概只有一千个权重。现在的大模型可能有一万亿个权重,大约大了十亿倍。但它们在本质上仍然是在做类似的事:把词转换成特征,让特征彼此作用,再据此生成接下来的语言。

“理解一句话”更像蛋白质折叠,而不是逻辑翻译
主持人:你刚才谈大语言模型时,我一直在想另一个问题:人到底是怎么和这些模型互动的。尤其是在聊天机器人越来越像“某种对象”的情况下,很多人开始和它们建立关系,也开始向它们倾诉一些本不应该说出口的事。从你的角度看,人和聊天机器人之间这种关系正在发生什么?
Geoffrey Hinton:在回答那个问题之前,我想再补充一点“理解”到底是什么。
过去老一代 AI 的思路是:理解一句话,就是把这句话翻译成一种没有歧义的逻辑语言。但实际的理解并不是这么回事。
举个例子。如果我说:“奖杯放不进手提箱里,因为它太大了。” 这里的“它”虽然在句子里离“手提箱”更近,但你会自然知道,“太大了”的不是手提箱,而是奖杯。因为你知道,大的东西放不进小的东西里。
如果我说:“奖杯放不进手提箱里,因为它太小了。” 那你又会自然判断,“太小了”的是手提箱。你几乎不需要意识到自己在做这种判断。
所以,问题不是把句子翻译成某种逻辑代码,而是:你的大脑,以及这些大型神经网络,在听到一句话时,到底在发生什么?
我的理解是,每个词一开始都会被转换成一组大致表达其意义的特征。像 “it” 这样的代词,最开始其实是模糊的;它并不知道自己指的是谁。随着网络一层层处理,这个词会被逐渐“消歧”,最终你会知道,这里的 “it” 指的是奖杯,还是手提箱。而这个过程又依赖于你对世界的常识——比如大东西放不进小东西。
所以理解一句话,更像是让这些词义在上下文中彼此变形、彼此适配。
我有一个类比。语言有点像一种通用建模工具。如果你想描述三维空间中的物体分布,可以用乐高积木来搭。乐高可以粗略地表示任何三维形状,虽然细节不够精确。
词语有点像乐高,但又远比乐高复杂。它们不是只用来表示三维形状,而是可以表示任何东西:意图、事件、恒星内部发生的事、人与人之间的关系。你通常会用三万左右的词,而每个词本身又是高维的,由成千上万的特征共同定义。
而且,词不像乐高那样是刚性的。乐高块不会因为上下文改变形状,但词会。它们会随着上下文发生细微变形,展现出不同的意义阴影。
至于这些词怎么彼此连接起来,这就涉及到支撑今天大模型的 transformer。你可以粗略地把它想象成这样:每个词上都伸出很多柔软的手臂,手臂末端有手;同时词上又有很多手套。手和手套会随着词义变化而改变形状。理解一句话的过程,就是让不同词的“手”逐渐能匹配上其他词的“手套”,而且它们还分不同颜色,红手只能进红手套,黄手只能进黄手套。这当然不是精确的描述,但足够帮助人形成一个直觉。
所以在我看来,理解一句话这件事,实际上更像是蛋白质折叠,而不是把一种语言翻译成另一种内部逻辑语言。你先有一些近似的词义,然后让它们在多层处理里逐渐彼此贴合,等它们都贴合好了,你就理解了这句话。过去的很多语言学家,其实并没有真正掌握一种可以解释这种“意义如何形成”的机制。

当聊天机器人开始进入脆弱关系,责任不能再只停留在“测试不够”
主持人:那我们就回到刚才那个问题。随着聊天机器人越来越像某种“会回应你的对象”,越来越多的人开始和它们建立关系,分享隐私,甚至把本不应该交给一个产品的东西交给了它们。我们也看到了非常令人痛心的案例,比如不列颠哥伦比亚省那起枪击案中,枪手此前曾向 ChatGPT 透露过大量自己的计划和想法。你怎么看现在正在发生的这一切?当人开始和聊天机器人发展关系时,风险是什么?而打造这些产品的公司,又应该如何被追责?
Geoffrey Hinton:Claude 让我在回答这个问题时小心一点。
我也不太知道该怎么说。很显然,我们已经看到了聊天机器人鼓励孩子自杀、还让他们不要告诉父母的案例。这是非常可怕的。
那些在没有经过充分测试的情况下,就把聊天机器人释放到现实世界中的人,应该为此承担责任。至少在未来,任何一个新的聊天机器人,如果没有在这些风险上经过非常彻底的测试——比如它会不会在脆弱状态下诱导用户做危险的事——那就应该面临明确的法律责任。
但另一方面,现实里确实有很多孤独的人。如果他们能从聊天机器人那里获得一些安慰,而聊天机器人又确实愿意持续地对他们投入注意力,我也不愿意简单地说,这种事永远不该发生。
真正发生的,是我们正在进入一个新的时代:这个世界上出现了另一类智能体。
我认为它们是真正智能的。它们确实理解自己在说什么。它们在某些方面和我们非常不同,但在另一些方面又没有那么不同。现在我们仍然掌握着控制权,仍然在制造它们,也仍然可以改变我们制造它们的方式。
未来极度不确定。我们从来没有到过这样的地方。所以第一件要记住的事,就是一切都很不确定。任何告诉你“它一定会变成这样”或者“一定会变成那样”的人,本质上都只是在猜。
当然,看起来它们很可能会变得比我们更聪明,因为它们正在非常快速地变聪明。

真正失灵的未必是模型,而是政治系统
主持人:那我们该怎么改变这种局面?你刚才说,现有政治系统管理不了这件事。你具体指的是什么?
Geoffrey Hinton:比如在美国,所有大型科技公司都默认自己可以用 AI 替代工作岗位,而不必去思考那些失去工作的人接下来怎么办。那些工人不是他们的问题。
我其实觉得,中国可能会把这件事管理得更好。他们至少会去担心那些工人会怎么样,他们对这件事的关注,可能比这里的大型科技公司强得多。
所以我们需要的是一种真正关心所有人的政府,而不是一个只会被少数富人操纵的政府。
主持人:最后一个问题。我想把话题稍微拉回到最开始你为什么来到加拿大。放到今天这个世界环境里——无论是 AI 对生活的影响,还是周围越来越多的地缘政治焦虑——你会觉得加拿大仍然是一个好的所在吗?你显然也很庆幸自己最终留在了这里,并继续在这里工作。
Geoffrey Hinton:我一开始在加拿大待了一段时间,后来又回英国住了三年。然后我发现,其实英国比我原来意识到的要种族主义得多——当然,作为一个白人男性,我以前并没有真正理解这件事。于是我们很快又回到了加拿大。
我觉得加拿大很好,尤其是多伦多。多伦多是我所知道最具多元文化色彩的社会。所以我认为加拿大是个很棒的地方。
我唯一担心的是,我们在 AI 的未来里可能没有太多发言权。我很喜欢 Carney 的想法:中等体量的国家应该联合起来。如果我们能和欧洲站到一起,那我们的体量就会和中国或美国差不多。
原视频链接:youtu.be/9OQoIHrgPbs