现实生活中,许多任务涉及多个因素(变量),并且因素之间存在依赖关系。概率图模型(Probabilistic Graphical Model,PGM)为表示、学习这种依赖关系提供了一个强大的框架,概率图模型在形式上由图结构组成,一个节点(node)表示一个或一组随机变量,节点之间的边(edge)表示变量之间的关系。根据图是有向还是无向,概率图模型可以分为两类:第一类使用有向无环图表示变量之间的因果关系,称为有向图模型或贝叶斯网络(Bayesian network);另一类使用无向图表示变量之间的相关关系,称为无向图模型或马尔可夫网(Markov network),马尔可夫随机场(Markov Random Field)。概率图模型具有以下几个有用的性质:
它提供了一种简单的方式将概率模型的结构可视化,可以用于设计新的模型。
通过观察图形,我们可以更加深刻地认识模型的性质,包括条件独立性质。
高级模型的推断和学习过程中的复杂计算可以根据图计算表达,图隐式的承载了背后的数学表达式。
目前,概率图模型是人工智能领域最流行的研究方向之一,这篇博客主要介绍马尔可夫随机场。
模型定义
势函数
下图是一个简单的马尔可夫随机场:

图中的边表示节点之间具有相互关系,这种关系是双向的、对称的。如:x2和x3之间有边相连,则x2
和x3有相关关系,这种相关关系采用势函数进行度量。例如,可以定义如下势函数:

则说明该模型偏好变量x2与x3拥有相同的取值,换言之,在该模型中,x2与x3 的取值正相关。势函数刻画了局部变量之间的相关关系,它应该是非负的函数。为了满足非负性,指数函数常被用于定义势函数:
ψ(x)=e−H(x)
H(x)是一个定义在变量xxx上的实值函数,常见形式为:
其中αuv和βvv 是需要学习的参数,称为参数估计。
MRF的马尔可夫性
马尔可夫随机场是生成式模型,生成式模型最关心的是变量的联合概率分布。假设我们有n个取值为二值随机变量(x1,x2,⋯,xn),其取值分布将包含2^n种可能,因此确定联合概率分布p(x1,x2,⋯,xn)需要2^n - 1个参数,这个复杂度通常是我们不能接受的;而另一种极端情况是,当所有变量都相互独立时,p(x1,x2,⋯,xn)=p(x1)p(x2)⋯p(xn)只需要n个参数。因此,我们可能会思考,能不能将联合概率分布分解为一组子集概率分布的乘积呢?那么应该怎么划分子图呢?应该遵循怎样的原则?首先定义马尔可夫随机场中随机变量之间的全局马尔可夫性、局部马尔可夫性和成对马尔可夫性。
全局马尔可夫性(global Markov property):设节点集合A,B是在无向图G中被节点集C分开的任意节点集合,如下图所示。全局马尔可夫性是指在给定xC的条件下,xA和xB条件独立,记为xA⊥xB∣xC。
p(xA,xB∣xC)=p(xA∣xC)p(xB∣xC)
局部马尔可夫性(local Markov property):给定变量v的所有邻接变量w,则该变量v条件独立于其他变量o。即在给定某个变量的邻接变量的取值条件下,该变量的取值将于其他变量无关。
p(xv,xo∣xw)=p(xv∣xw)p(xo∣xw*)

成对马尔可夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立。这是因为两个节点没有直接路径,并且所有其他路径上都有确定的观测节点,因此这些路径也将被阻隔。
p(xi,xj∣x∖{i,j})=p(xi∣x∖{i,j})p(xj∣x∖{i,j})
其中x∖{i,j}表示所有变量x去除xi和xj的集合。于是,联合概率分布的分解一定要让xi和xj不出现在同一个划分中,从而让属于这个图的所有可能概率分布都满足条件独立性质。(QA:这句话我也不太懂,欢迎大神指点)。让非邻接变量不出现在同一个划分中,即每一个划分中节点都是全连接的。这将我们引向了图的一个概念,团(clique)。它被定义为图中节点的一个子集,并且这个子集中任意两节点间都有边相连。若在一个团中加入其他任何节点都不再形成团,则称该团为极大团。下图给出了团和极大团的一个示意:

图中,绿色圆圈是一个团,蓝色圆圈是一个极大团。显然,最简单的团就是两个节点以及一条边,而我们最开始就针对两节点之间的相关关系(每条边)定义了势函数。因此,马尔可夫随机场中,多个变量的联合概率分布能基于团分解为多个势函数的乘积,每一个团对应一个势函数。

总结
马尔可夫随机场作为概率图模型的典型一类,用于对具有相关关系(无向)的变量分布进行建模,具有广泛的用用途,如图像去噪等。本篇博客主要介绍了马尔可夫随机场的定义,马尔可夫随机场中的条件独立,以及其联合概率分解方式,参数估计、推理等问题将单独介绍。