大语言模型语义压缩暗藏玄机?LeCun团队:极致统计压缩牺牲细节!
转自量子位
当我们看到“西瓜”“草莓”“樱桃”这类词汇时,即便它们在颜色、形态以及口感上各具差异,我们仍会不假思索地将它们归类为“水果”。
即便“圣女果”这个词是我们初次接触,也能依据相关的语义线索,大致推断出它同样属于水果这一类别。
这种能力便是语义压缩,它赋予我们高效整合知识、快速对世间万物进行分类的能力。
那么,新的问题随之浮现:大型语言模型(LLM)尽管展现出了令人惊叹的语言能力,然而在语义压缩这件事上,它们能否像人类一样做出恰当的权衡呢?
为了深入探究这个问题,图灵奖得主LeCun的团队提出了一种全新的信息论框架。
这一框架通过对比人类和大型语言模型在语义压缩过程中所采用的策略,揭示出二者在压缩效率以及语义保真度之间存在的根本性差异。
LLM偏向极致的统计压缩,而人类更重细节与语境。
语义压缩对比框架
若要借助实证研究范式,系统剖析大语言模型(LLM)的表征模式与人类概念结构之间的内在映射关系,需锚定两个关键性要素:
稳健的人类概念分类基准
研究团队基于认知科学中的三项经典研究(Rosch 1973、1975和McCloskey & Glucksberg 1978),构建了一个涵盖1049个项目、34个语义类别的统一基准。
这些数据的作用不容小觑,它们不仅给出了各个项目所属的类别信息,还涵盖了人类针对每个项目“典型性”所给出的评分,而这些评分能够映射出人类认知里概念形成所蕴含的深层结构。
与现代通过众包方式收集的数据相比,这些由专家精心、严格设计出来的数据集,在可信度和解释力方面更具优势,能够为大型语言模型(LLM)的类人性评估搭建起一个高保真的对比参照框架。
多样化的LLM模型选择
为全面评估不同大型语言模型在概念表征上的差异,研究团队选取了30+LLMs(BERT、LlamA、Gemma、Qwen等),参数规模从3亿到720亿不等。
所有模型均通过输入嵌入层获取静态词元表示,这种处理方式模拟了人类分类实验中“剥离上下文”的刺激呈现形式,能够保证模型与人类在认知基准上的一致性,从而为两者之间的公平对比创造条件。
为了深入探究大型语言模型(LLM)和人类在表达与组织语义信息方面的差异,该研究引入了一个信息论框架作为分析工具。
该框架借鉴了两大经典信息论原理:
- 速率失真理论:描述压缩效率与信息失真之间的最优权衡;
- 信息瓶颈原理:关注在压缩表示的同时,最大程度保留与目标相关的信息。
LLM与人类在表征策略上的关键差异
研究结果表明,大型语言模型(LLM)在概念分类上所呈现的结果,与人类语义分类的契合度明显高于随机状态下的水平。
这一发现不仅证实了LLM具备在语义组织层面的基础能力,还为后续开展更细致、精准的语义结构对比研究筑牢了根基。
但是大型语言模型真的理解细节吗?
答案是:LLM难以处理细粒度的语义差异。它们的内部概念结构与人类对类别归属的直觉不相符。
研究结果显示,人类在做出典型性判断时,其结果与LLM所计算出的余弦相似度之间的斯皮尔曼相关系数不仅数值偏低,而且大多数情况下并不显著,这一现象揭示了两者在概念表征结构方面存在明显差异。
那么,LLM与人类在信息压缩和语义保真这两个关键环节上,究竟存在哪些核心差异呢?具体而言,LLM主要聚焦于统计层面的压缩,致力于将冗余信息降至最低;反观人类,则更强调适应性与内容的丰富性,在信息处理过程中注重维持灵活性,并确保上下文信息的完整无缺。
研究团队
这项研究由斯坦福大学与纽约大学联合开展,团队成员均来自这两所高校。
其中,第一作者为斯坦福大学博士后研究员Chen Shani。
更让网友震惊的的是,Yann LeCun也为此研究的作者之一。
Yann LeCun是人工智能领域极具影响力的科学家,现任 Meta(原 Facebook)首席人工智能科学家兼纽约大学教授。他自 1980 年代起研究神经网络,提出卷积神经网络核心架构 LeNet-5,是现代深度学习模型雏形,奠定图像识别等基础。他与 Geoffrey Hinton、Yoshua Bengio 并称“深度学习三巨头”,2018 年获图灵奖。除技术突破,他还推动深度学习在工业界应用,在 Meta 领导团队将 AI 用于大规模系统,且积极倡导自监督学习,认为其是实现 AGI 的关键路径之一,其研究对人工智能演进影响重大。
论文地址:https://arxiv.org/abs/2505.17117