玻尔兹曼机
玻尔兹曼机:从统计物理到深度学习的跨学科桥梁
玻尔兹曼机(Boltzmann Machine, BM)是由杰弗里・欣顿(Geoffrey Hinton)和特里・谢泽诺斯基(Terry Sejnowski)于 1985 年提出的随机神经网络模型,其核心思想源于统计物理学中的玻尔兹曼分布和伊辛模型。该模型通过能量函数定义系统状态的概率分布,能量越低的状态出现概率越高,从而实现对复杂数据分布的无监督学习。尽管原始玻尔兹曼机因训练效率问题未能广泛应用,但其衍生的受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)和深度玻尔兹曼机(Deep Boltzmann Machine, DBM)成为现代深度学习的重要基础。
历史背景与跨学科起源
玻尔兹曼机的思想可追溯至 19 世纪物理学家路德维希・玻尔兹曼的统计力学研究,以及 20 世纪 20 年代恩斯特・伊辛提出的磁性模型。1982 年,约翰・霍普菲尔德提出的霍普菲尔德网络(Hopfield Network)为玻尔兹曼机提供了直接灵感,霍普菲尔德网络通过能量函数实现联想记忆,但缺乏随机性和生成能力。欣顿和谢泽诺斯基在霍普菲尔德网络基础上引入随机神经元和玻尔兹曼分布,于 1985 年正式提出玻尔兹曼机,使其能够通过 “做梦”(生成样本)学习数据分布。
早期玻尔兹曼机因全连接结构导致训练困难,1986 年欣顿提出受限玻尔兹曼机,通过限制同层节点连接大幅提升训练效率。2002 年,欣顿进一步提出对比散度(Contrastive Divergence, CD)算法,解决了 RBM 训练中的采样效率问题,推动其在协同过滤、特征学习等领域的应用。2008 年后,深度玻尔兹曼机(DBM)通过堆叠 RBM 实现更深层次的特征学习,成为深度信念网络(DBN)的基础。
玻尔兹曼机的定义与数学基础
基本结构与能量函数
玻尔兹曼机是一种对称耦合的随机二元单位网络,包含可见单元(visible units)
其中
玻尔兹曼分布与配分函数
玻尔兹曼机的联合概率分布遵循玻尔兹曼分布,即系统处于状态
其中
配分函数的计算涉及对所有可能状态的求和,当单元数量较大时(如
条件概率分布
玻尔兹曼机中,给定可见单元状态
其中
其中
受限玻尔兹曼机(RBM):简化与高效训练
结构限制与能量函数
受限玻尔兹曼机通过限制同层单元间的连接(即
其中
对比散度(CD)算法
RBM 的训练目标是最大化训练数据的对数似然函数:
其中
第一项为数据分布下的期望(正相),第二项为模型分布下的期望(负相)。由于直接计算负相需采样至热平衡,计算成本极高,欣顿提出对比散度算法,通过
- 正相:给定训练样本
,采样隐藏单元 ,计算正相统计量 。 - 负相:进行
步吉布斯采样(交替采样 和 )得到 和 ,计算负相统计量 。 - 参数更新:
,其中 为学习率。
实际应用中,
深度玻尔兹曼机(DBM):多层特征学习
深度玻尔兹曼机通过堆叠多个 RBM 实现深层结构,包含一个可见层和多个隐藏层,层间全连接,同层无连接。其能量函数为:
其中
DBM 的训练通常分为预训练和微调两个阶段:
- 预训练:逐层训练 RBM,将上一层 RBM 的隐藏层输出作为下一层 RBM 的输入,初始化各层权重。
- 微调:通过随机梯度上升(Stochastic Gradient Ascent, SGA)优化整个 DBM 的对数似然,需使用马尔可夫链蒙特卡洛(MCMC)方法采样模型分布。
玻尔兹曼机的应用与扩展
传统应用领域
协同过滤:RBM 在 Netflix Prize 中被用于电影推荐,通过学习用户 - 电影评分的联合分布实现个性化推荐。例如,将用户对电影的评分作为可见单元,隐藏单元学习潜在特征(如电影类型),通过重构评分预测用户偏好。
特征学习:RBM 可作为无监督特征提取器,应用于图像识别(如 MNIST 数据集)和语音识别。例如,第一层 RBM 学习边缘特征,第二层学习复杂形状特征,堆叠形成深度信念网络(DBN)。
降维与聚类:RBM 通过隐藏层将高维数据映射到低维空间,保留数据的关键结构,可用于数据压缩和聚类分析。
量子计算中的新应用
随着量子计算的发展,量子玻尔兹曼机(Quantum Boltzmann Machine, QBM)成为研究热点。例如,量子计算机通过 QBM 与 AI 的融合,解决了经典计算在小分子药物设计、病毒突变预测中的加速痛点。其核心思想是利用量子隧穿效应加速采样过程,大幅提升玻尔兹曼机的训练效率。