Probabilistic Graphical Model (1) : Representation
Overview:
PGM(i.e. Probabilistic Graphical Model)简单来说,可以看成由图和局部条件概率分布组合而成。图中的每个节点 \(V_i\) 表示一个随机变量,相邻的节点在图中用边 \(E_i\) 连接。
对于有向图来说,每一条边表示一个随机变量(节点)对另一个随机变量的直接影响(因果关系),也就是父节点到子结点的条件概率。对于这样的非循环有向图 ( DAG, i.e. Directed Acyclic Graph) 我们称之为 贝叶斯网络 (Bayesian network
)
对于无向图,每一条边表示的是随机变量之间的相关性,称之为 马尔可夫网络 或 马尔可夫随机场 (Markov Network or Markov random field
)。
本节主要介绍 Bayesian network
。下面是一个简单的贝叶斯网络例子,图中所有变量的可能取值都是离散的,这个例子将贯穿整个系列:
图中节点 D (Difficulty) 表示课程的难度,I (Intelligence) 表示学生的智力,G (Grade) 表示课程的成绩 S (SAT) ,L (Letter) 表示推荐信的好坏。这些节点表示的是贝叶斯网络中的随机变量,网络中的另外组成部分就是节点间的条件概率分布 (CPD:Conditional Probability Distribution)。比如 D,I,G 是图中的一个局部结构,不同的 D,I 取值会导致 G 的概率分布不同。
Probablity Distribution & Factorization:
根据贝叶斯法则,随机变量的联合概率分布可以表示成:
\[ P(D,I,G,S,L) = P(I)P(D|I)P(G|D,I)P(L|G,D,I)P(S|L,G,D,I) \]
而在贝叶斯网络中,相当于对联合概率根据图的结构进行了分解(Factorization
),联合概率可以表示为:
\[ P(D,I,G,S,L) = P(D)P(I)P(S|I)P(G|I,D)P(L|G) \]
更通用的形式为:
\[ P(X_1,X_2,X_3,\cdots,X_n) = \prod_i P(X_i|Parents(X_i)) \]
如果在随机变量构成的图 G 上,联合概率分可以表示为上式的形式,则称 P 是关于图 G 在同一空间上的分解。
根据概率分解的定义,一个贝叶斯网络由图 G,和分解在 G 上的局部条件概率 P 组成。
Independency:
网络结构中的独立性:
简单来说就是用图的结构来解释随机变量的之间的独立性,概率图模型中图和概率条件分布融合在一起,可以相互解释。
1.局部马尔可夫独立性:
观察上面的网络,当 I 已知时,S 分别与 D,G,L 独立。这种独立性包含在图本身的结构中,是图结构固有的,与 P 无关。
贝叶斯网络结构 (Beyesian network structure
) 中包含的独立性假设通用表示方法:
对于每一个变量 \(X_i\): \((X_i \perp NonDescendants_{X_i}|Parents(X_i))\)
2.全局马尔可夫独立性:
几种基本结构:
- 因果迹 (Causal Trail): \(X \rightarrow Z \rightarrow Y\) ,当且仅当 Z 没有被观察时有效(active)
- 证据迹 (Evidential Trail): \(X \leftarrow Z \leftarrow Y\) ,当且仅当 Z 没被观察时有效
- 共同的原因 (Common Cause): \(X \leftarrow Z \rightarrow Y\) , 当且仅当 Z 没有被观察时有效
- 共同的作用 (Common Effect): \(X \rightarrow Z \leftarrow Y\) (
v-structure
) , 当且仅当 Z 被观察时有效
假设 G 是一个贝叶斯网络的结构,且 \(X_i \rightleftharpoons \cdots \rightleftharpoons X_n\) 是 G 中的一条迹。 令 Z 是观测变量的一个子集,在给定 Z 的条件下,满足
- 迹中包含的 v-结构 ,\(X_{i-1} \rightarrow X_i \leftarrow X_{i+1}\),则 \(X_i\) 或其一个后代在 Z 中.
- 迹上其他节点都不在 Z 中(包括两个端节点)。
则称迹 \(X_i \rightleftharpoons \cdots \rightleftharpoons X_n\) 是有效迹
在 \(Z\) 已知的条件下,如果 \(X\),\(Y\)之间没有有效迹相连,则称 \(X\) 与 \(Y\) 是 d-分离(d-separation
)的
注意,这里的 \(X\),\(Y\),\(Z\),都是节点集。
两种独立性的关系将在马尔可夫网络中阐述。
I-map:
上节中描述了马尔可夫局部独立性的概念,贝叶斯网络结构 G 中局部独立性的集合记为 \(I_l(G)\) :
对于每一个变量 \(X_i\): \((X_i \perp NonDescendants_{X_i}|Parents(X_i))\)
而包含在随机变量联合概率分布 P 中的独立性集合记为 \(I(P)\)
如果 \(I_l(G) \subseteq I(P)\) ,则称 G 是 P 的一个 I-map
更通用的定义形式:
令 \(K\) 是与独立性集合 \(I(K)\) 相关联的任意一个图对象。如果对独立性集合 \(I\) ,\(I(K) \subseteq I\) 则称 \(K\) 是一个 I-map。
几个定理:
- 概率分布 P 满足与图 G 相关的局部独立性的充要条件是 P 可以在 G 上进行分解
- P 满足 G 中的局部独立性的充要条件是 P 满足 d-分离准则的全局独立性