1948年,香农发表的《通信的数学理论》为现代数字通信奠定了基础,推动了信息时代的到来。该研究的核心目标是通过数学方法解决数字通信系统中噪声环境下的可靠传输问题,并由此构建了信息论的完整框架。这一理论体系不仅解决了通信技术中的关键问题,也为后续研究提供了重要方向。
通信问题被划分为三个层级:技术层级关注符号传输的准确性,语义层级聚焦符号含义的精确传达,效用层级则强调接收信息对行为的影响。香农明确表示其理论仅涉及技术层级,即符号的可靠传输,而不涉及符号的语义或内容。这一观点为信息论的发展划定了初始边界。
受到香农方法论的启发,研究人员尝试将信息论框架应用于大型语言模型(LLM)的解释。通过将理论核心从比特转向标记,研究者提出语义信息论,试图从信息论角度揭示大模型的工作原理。这一转换不仅扩展了信息论的应用范围,也为理解大模型提供了新的视角。
在传统通信系统中,信源编码器通过将符号映射为二进制码字实现信息压缩,以节省信道资源。香农证明了信源熵是信息无损压缩的理论下限,这一结论被称为信源编码定理。同时,他通过转移概率模型描述信道噪声的影响,并提出了实现可靠通信的数学路径。这些工作共同构成了信息论的基础。
香农的另一重要贡献是信源-信道分离定理,该定理将通信系统分解为独立的信源编码和信道编码两部分。这种分离设计简化了工程实现,并催生了两个独立的研究领域。研究者指出,这种模块化设计不仅降低了技术复杂度,也为不同领域的协同发展提供了可能。
香农在解决可靠通信问题时采用了自顶向下的方法论,即通过定义理想系统的功能特性来推导数学条件。他回答了三个关键问题:可靠通信的数学定义是渐进无差错传输,其模型通过转移概率描述信道不确定性,性能指标则由互信息和信道容量衡量。这些概念为通信系统设计提供了理论依据。
研究者将信息论视角应用于大模型分析,提出类似问题:大模型的语义如何定义?其数学模型是什么?性能如何衡量?其中,语义的定义已在前期研究中涉及,而数学模型和性能指标成为当前研究重点。这一思路延续了香农从功能定义出发的方法论。
为分析大模型,研究者引入了速率-失真函数、定向信息和定向信息密度等概念。定向信息由信息论专家提出,旨在突破互信息在描述反馈系统时的局限性。尽管这一概念在学术界未获广泛关注,但其为分析时序数据中的统计依赖关系提供了新工具。
定向信息的计算面临挑战。研究者通过改进经典算法和神经网络模型,提出了基于动态规划和Transformer架构的估计方法。这些方法将传递熵估计转化为序列预测问题,利用Transformer的上下文学习能力提高计算精度。这一进展为定向信息的应用奠定了基础。
大模型的推理能力与因果推断密切相关。研究者指出,大模型通过预测下一个标记实现类Granger因果推断,但这种推断仅基于数据关联,而非真正的因果关系。与之相对,Pearl的因果理论强调模型假设和干预实验的必要性。当前大模型在结合强化学习后,虽能模拟干预和反事实问题,但仍未突破数据驱动的预测框架。
信息论的发展与计算理论存在深层联系。研究者认为,信息论不应仅基于概率论,而应与图灵的计算理论一样,建立在逻辑基础之上。这一观点得到了Kolmogorov复杂度的支持,该理论将香农熵解释为复杂度的数学期望。同时,直觉主义逻辑为计算机科学中的命题-类型对应关系提供了理论基础。
随着AI技术的发展,标记被视为连接经验与理性的核心概念。研究者提出,比特定义了信息时代,而标记将定义AI时代。这一观点暗示,大模型虽未实现真正的思考,但其自动化处理信息的能力已带来革命性变化。正如图灵所言,不同思考方式的存在不应否定其思考的本质。




