Zeta Archive: 马尔可夫过程：从历史起源到数学推导与应用

马尔可夫过程

马尔可夫过程的核心是 “无后效性”，系统未来状态的概率分布仅依赖于当前状态，与过去的状态无关。这一性质由俄罗斯数学家安德烈・马尔可夫于 1906 年在研究大数定律时首次提出，他通过分析普希金长诗《叶甫盖尼・奥涅金》中的俄语字母序列，验证了离散随机序列的条件独立性。此后，这一理论被推广至连续时间场景，形成了离散时间马尔可夫链（DTMC）和连续时间马尔可夫链（CTMC）两大分支。马尔可夫过程的简洁性使其成为复杂系统建模的基础工具，广泛应用于金融市场预测、自然语言处理和强化学习等领域。

定义与基本性质

马尔可夫性的形式化描述

马尔可夫过程的核心是马尔可夫性（Markov Property），即未来状态与过去状态在给定当前状态下条件独立。对于离散时间随机过程，其数学定义为：

其中是状态空间，称为一步转移概率，记为或。若转移概率不随时间变化（即），则该过程为时齐马尔可夫链（Time-Homogeneous Markov Chain）。

转移概率矩阵与初始分布

一步转移概率可构成转移概率矩阵，其中每行元素之和为 1（），因为系统从状态出发必然转移到某一状态。若初始时刻（）系统处于状态的概率为，则初始分布可表示为行向量。

系统在时刻的状态分布满足递推关系：

展开后可得：

这表明任意时刻的状态分布完全由初始分布和转移矩阵决定。

关键数学推导

切普曼 - 科尔莫戈罗夫方程（C - K 方程）

切普曼 - 科尔莫戈罗夫方程（Chapman-Kolmogorov Equation）描述了多步转移概率的分解规则。对于时齐马尔可夫链，步转移概率满足：

推导过程：
从状态出发，经过步到达，等价于先经步到中间状态，再经步到。根据全概率公式：

由马尔可夫性，，因此：

矩阵形式为，即步转移矩阵是一步转移矩阵的次方。

平稳分布的存在性与唯一性

平稳分布（Stationary Distribution）是指满足的概率分布，即系统达到稳态后状态分布不再变化。对于有限状态空间的不可约马尔可夫链，平稳分布的存在性可通过佩龙 - 弗罗贝尼乌斯定理（Perron-Frobenius Theorem）证明：

佩龙 - 弗罗贝尼乌斯定理：若是不可约随机矩阵（所有状态互通），则存在唯一的正特征向量对应特征值 1，且。
概率解释：对于不可约正常返链（返回时间期望有限），平稳分布可表示为，其中是从出发首次返回的时间。

证明：
构造测度，表示从出发返回前经过的期望次数。由于链正常返，，故有限。验证平稳性：

将求和拆分为和两种情况：

由于，第二项为，而第一项等于（减去时的项）。因此：

标准化后，即得平稳分布。

连续时间马尔可夫链与科尔莫戈罗夫方程

连续时间马尔可夫链（CTMC）的状态转移由转移速率矩阵描述，其中（为克罗内克函数），且。其状态概率密度满足科尔莫戈罗夫正向方程：

推导：
根据全概率公式，。当时，，代入得：

两边除以并取极限，即得正向方程。

应用方法与实例

离散时间马尔可夫链的建模步骤

定义状态空间：明确系统可能的状态（如天气模型中的 “晴”“雨”“阴”）。构建转移矩阵：通过数据统计或领域知识确定一步转移概率（如 $晴雨$ ）。计算多步转移概率：利用 C - K 方程预测未来状态分布（如预测 3 天后的天气）。求解平稳分布：解线性方程组，分析系统长期行为（如天气的稳态分布）。

连续时间马尔可夫链的应用

CTMC 常用于建模排队系统或化学反应动力学。例如，某服务台的状态为等待人数，顾客到达速率为人 / 分钟，服务速率为人 / 分钟，则转移速率矩阵为：

求解科尔莫戈罗夫方程可得到稳态分布，即长期来看系统为空的概率约为 24%。

马尔可夫决策过程（MDP）

MDP 是马尔可夫过程的扩展，引入了动作和奖励机制，核心为贝尔曼方程：

其中是状态的最优价值函数，是动作的即时奖励，是折扣因子。MDP 是强化学习的理论基础，例如 AlphaGo 通过 MDP 建模围棋决策过程。

总结与展望

马尔可夫过程通过 “无后效性” 简化了复杂系统的动态建模，其数学框架涵盖离散与连续时间场景，核心工具包括转移矩阵、C - K 方程和平稳分布。从普希金的诗句到现代 AI 系统，马尔可夫过程的应用已渗透到科学与工程的各个领域。未来，随着量子计算和复杂网络理论的发展，马尔可夫过程可能在量子随机过程、多智能体系统等前沿领域展现新的潜力。