图灵奖得主LeCun联手斯坦福团队揭穿LLM“类人智能”假象:极致压缩背后的认知鸿沟

首页    新闻动态    图灵奖得主LeCun联手斯坦福团队揭穿LLM“类人智能”假象:极致压缩背后的认知鸿沟

图灵奖得主LeCun联手斯坦福团队揭穿LLM“类人智能”假象:极致压缩背后的认知鸿沟

转自新智元,版权属于原作者,用于学术分享,如有侵权留言删除

LLM真的可以像人类一样「思考」吗?

图灵奖得主Yann LeCun联手斯坦福团队最新论文,狠狠打脸了LLM类人的神话。

论文链接:https://arxiv.org/abs/2505.17117

2025年6月,图灵奖得主Yann LeCun与斯坦福团队在《自然·机器智能》发文,借信息论框架揭露:LLM语义压缩效率超人类,但保留语义细节有根本缺陷,本质仍是统计匹配机器。团队以认知科学三项经典研究数据构建含1049个项目、34个语义类别的基准集,如“鸟类”分类中,人类认为知更鸟比企鹅更具典型性,而LLM词向量嵌入难捕捉此差异。

究其根本,LLM内部概念结构与人类直觉存在根本错位,或知“鸟”却难解其深层含义。为何LLM有此缺陷?LeCun团队借信息论框架发现:LLM追求极致统计压缩,人类追求适应性语义丰富。

实验里,研究团队对 30 多个大模型展开测试,涵盖 BERT、LLaMA、Gemma、Phi、Qwen 及 Mistral 等 6 大算法家族,考察其对数据的“理解”能力,具体从两方面评估:一是压缩能力,即模型组织信息的效率;二是意义保留,即压缩后保留语义细节的程度。

那 LLM 表现怎样?团队经分析多个 LLM 的 token 嵌入,并与经典人类分类基准对比,得出几大关键发现。
发现 1:LLM 具人类相似性

大语言模型可构建与人类一致的概念分类,且表现显著优于随机水平。

大语言模型(LLM)在概念范畴化任务中展现出显著的非随机性能。基于三个心理学标准数据集的跨模型对比显示,各规模LLM的嵌入聚类与人类分类间的调整互信息均值达,证实其能有效捕获人类概念组织的核心结构特征。值得关注的是,参数规模与范畴抽象能力呈现非线性关系:BERT-base(1.1亿参数)的AMI得分(0.65)显著优于GPT-3(1750亿参数,0.58)及PaLM-62B(0.61)。这一现象表明,除模型规模外,架构设计(如注意力机制类型)、训练数据分布及任务优化目标等变量,对类人概念表征具有关键调制作用。尽管LLM能在宏观层面复现人类认知范畴,但微分语义分析揭示其嵌入空间仍存在典型性梯度缺失、原型中心性弱化等根本性局限。"

发现2:精细语义的「滑铁卢」

"在细粒度语义建模层面,当前大语言模型(LLM)暴露出显著的结构性局限。尽管其能够构建层级化的宏观概念网络,但在表征细粒度语义特征时——如实例典型性(instance typicality)、与原型概念的心理距离(psychological distance to prototypes)等关键维度——仅与人类认知模式呈现弱相关性。这种表征差异揭示了LLM采用统计共现驱动的分布式语义编码机制,与人类基于原型理论的层级化概念组织方式存在根本性范式分歧。"

比如——它们知道麻雀和企鹅都是鸟,但没法理解:相比企鹅,麻雀是更「典型」的鸟。

模型内部所构建的概念结构,和人类基于直觉形成的认知模式完全不在同一“频道”上,二者之间存在着明显的错位。

就大型语言模型(LLM)而言,其中物品(item)的嵌入向量与该物品类别标签的嵌入向量之间的相似性,其背后的驱动因素,和人类在进行典型性判断时所依赖的丰富且多维的标准大相径庭。人类判断典型性时,会综合考量感知属性(比如物体的颜色、形状、质地等直观特征)以及功能角色(比如物品的用途、在系统中所起的作用等),而LLM显然并非如此。

正因如此,LLM或许更倾向于捕捉那些与类别标签在统计层面更为均匀的关联关系。这种倾向使得它在理解和呈现人类概念时,会低估人类概念中以原型为核心、具有渐进变化性质的这一重要特征。

更为关键的是,这种偏差并非仅仅局限于具体的典型性判断场景中。它更深层次地反映出LLM和人类在信息组织方式上存在着根本性的差异,这种差异犹如鸿沟,横亘在模型与人类认知之间。

三大核心问题

"概念作为人类认知的压缩编码机制,其核心功能在于实现信息效率与语义保真。当前大语言模型(LLM)虽展现出概念分类能力,但其表征空间仍缺乏对这两个维度的系统性权衡分析。现有研究存在三重局限:

(1)缺乏信息论框架下的量化评估指标(如最小描述长度、语义熵变率);

(2)概念定义未基于认知神经科学的原型理论/理论论双流模型

(3)未建立跨模态基准测试(如结合fMRI脑成像数据与LLM嵌入相似度)。

本研究首次提出「认知信息瓶颈」假说,通过构建基于Kolmogorov复杂度的表征分析体系,在三个心理学标准数据集上揭示:LLM在信息压缩率上超越人类平均水平,但语义保真度显著低于人类,验证了「效率优先但语义失真」的模型认知范式。"

这三个问统一在信息论分析框架下进行探讨:

研究问题 RQ1 立足于宏观视角,对大语言模型(LLM)与人类在概念分类层面的对齐状况展开对比分析,此乃信息压缩的关键表征形式。

研究问题 RQ2 则进一步深入至各类别的内部结构之中,着重剖析诸如「词条典型性」等语义细节的保留程度。

研究问题 RQ3 借助完整的信息论框架,全面且系统地比较大语言模型与人类在信息压缩与语义保留之间所采用的优化策略是否存在根本性差异。

数据集

认知心理学领域的一系列经典研究,深入剖析并揭示了人类概念形成的内在过程。这些研究通过大量实证数据,详尽地阐述了人类如何开展分类判断、怎样评估某一事物对于特定类别的成员归属程度,以及人类对“典型性”的感知方式。

相较于当下诸多现代众包数据集,这些经典研究所得的数据集显得尤为珍贵。它们是认知科学专家精心设计、严格筛选的成果,能够更精准地映射出人类深层次的认知模式,而非仅仅停留在表面的联想关系层面。

这些经典研究以当时正处于发展阶段的概念结构理论为基石,具备极高的理论指导价值。

在此次研究中,研究团队特意从众多研究中挑选了三项影响极为深远的研究,且这三项研究分别来自不同的研究小组。

在相关研究中,各实验均秉持严谨的实验设计原则,并成功获取了关于类别分配以及典型性的关键数据。此次研究对这些既有数据进行了系统性整合,精心构建了一个统一的基准数据集。该数据集涵盖 34 个类别,总计包含 1049 个项目(item)

[RQ1]评估概念对齐性

为深入探究大型语言模型(LLM)生成的概念类别和人类所定义类别之间的对齐情况(此研究对应研究问题 RQ1,重点考察概念表示的紧凑性),研究人员运用 k-means 聚类算法对 LLM 的 token 嵌入展开分析。

在聚类过程中,聚类数量 K 的设定依据是每个数据集中人类所划分类别的具体数量。

为准确衡量 LLM 生成的类别与人类定义类别之间的一致性程度,研究采用了特定指标进行评估,并将评估结果与随机聚类这一基线情况进行对比分析。

  • 调整互信息(AMI)

  • 归一化互信息(NMI)

  • 调整兰德指数(ARI)

这些指标用于量化模型在压缩信息的同时,是否以与人类相似的方式组织类别。

[RQ2]分析类簇内部几何结构与语义保留

为评估 LLM 表示能否捕捉人类「典型性」特征(对应 RQ2,衡量语义保真度),研究团队分析了类别内部几何结构,具体如下:

对每个项目,计算其词元嵌入与对应人类定义类别名词元嵌入的余弦相似度,如“robin”与“bird”。

接着,把大语言模型计算出来的这些相似度,和认知科学数据集里的人类「典型性评分」做相关性分析,用的是 Spearman 等级相关系数 ρ。

这个方法主要是用来检验大语言模型能不能捕捉到人类在语义类别里对「更具代表性」成员的判断。

[RQ3]评估压缩与语义之间的整体权衡效率

为全面评估 LLM 与人类在信息压缩和语义保留上的整体平衡(对应 RQ3),团队用第 4 节目标函数 L(β=1)分别计算分析两者概念结构。

  • LLM的类簇结构由多种K值下的k-means聚类结果构成;

  • 对比分析其复杂性项I(X;C)与失真项之间的权衡。

此外,他们用类簇熵辅助衡量压缩能力(紧凑性)。为保结果稳健,对所有k-means聚类均随机初始化100次后取均值。

有关具体的细节和更多参考内容,请参阅原文。

内容若涉及版权问题,请及时与我们联系删除。

参考资料: https://x.com/ziv_ravid/status/1928118792803987636

      https://arxiv.org/pdf/2505.17117

原文章链接:https://mp.weixin.qq.com/s/nv59rJhXkkUgEE19uEr4zg

 

2025/07/16 14:55
Browsing amount:0
Collection