Bayesian Network

Probabilistic Graphical Model (1) : Representation

Overview：

PGM（i.e. Probabilistic Graphical Model）简单来说，可以看成由图和局部条件概率分布组合而成。图中的每个节点 \(V_i\) 表示一个随机变量，相邻的节点在图中用边 \(E_i\) 连接。

对于有向图来说，每一条边表示一个随机变量（节点）对另一个随机变量的直接影响（因果关系），也就是父节点到子结点的条件概率。对于这样的非循环有向图 ( DAG, i.e. Directed Acyclic Graph) 我们称之为 贝叶斯网络 (Bayesian network)

对于无向图，每一条边表示的是随机变量之间的相关性，称之为 马尔可夫网络 或 马尔可夫随机场 (Markov Network or Markov random field)。

本节主要介绍 Bayesian network。下面是一个简单的贝叶斯网络例子，图中所有变量的可能取值都是离散的，这个例子将贯穿整个系列：

Figure 1:Student Bayesian Network with CPDs

图中节点 D (Difficulty) 表示课程的难度，I (Intelligence) 表示学生的智力，G (Grade) 表示课程的成绩 S (SAT) ，L (Letter) 表示推荐信的好坏。这些节点表示的是贝叶斯网络中的随机变量，网络中的另外组成部分就是节点间的条件概率分布 (CPD:Conditional Probability Distribution)。比如 D,I,G 是图中的一个局部结构，不同的 D,I 取值会导致 G 的概率分布不同。

Probablity Distribution & Factorization：

根据贝叶斯法则，随机变量的联合概率分布可以表示成：

\[ P(D,I,G,S,L) = P(I)P(D|I)P(G|D,I)P(L|G,D,I)P(S|L,G,D,I) \]

而在贝叶斯网络中，相当于对联合概率根据图的结构进行了分解(Factorization)，联合概率可以表示为：

\[ P(D,I,G,S,L) = P(D)P(I)P(S|I)P(G|I,D)P(L|G) \]

更通用的形式为：

\[ P(X_1,X_2,X_3,\cdots,X_n) = \prod_i P(X_i|Parents(X_i)) \]

如果在随机变量构成的图 G 上，联合概率分可以表示为上式的形式，则称 P 是关于图 G 在同一空间上的分解。

根据概率分解的定义，一个贝叶斯网络由图 G，和分解在 G 上的局部条件概率 P 组成。

Independency：

网络结构中的独立性：

简单来说就是用图的结构来解释随机变量的之间的独立性，概率图模型中图和概率条件分布融合在一起，可以相互解释。

1.局部马尔可夫独立性：

观察上面的网络，当 I 已知时，S 分别与 D,G,L 独立。这种独立性包含在图本身的结构中，是图结构固有的，与 P 无关。

贝叶斯网络结构 (Beyesian network structure) 中包含的独立性假设通用表示方法：

对于每一个变量 \(X_i\): \((X_i \perp NonDescendants_{X_i}|Parents(X_i))\)

2.全局马尔可夫独立性：

几种基本结构：

因果迹 (Causal Trail): \(X \rightarrow Z \rightarrow Y\) ，当且仅当 Z 没有被观察时有效(active)
证据迹 (Evidential Trail): \(X \leftarrow Z \leftarrow Y\) ，当且仅当 Z 没被观察时有效
共同的原因 (Common Cause): \(X \leftarrow Z \rightarrow Y\) ，当且仅当 Z 没有被观察时有效
共同的作用 (Common Effect): \(X \rightarrow Z \leftarrow Y\) (v-structure) ，当且仅当 Z 被观察时有效

假设 G 是一个贝叶斯网络的结构，且 \(X_i \rightleftharpoons \cdots \rightleftharpoons X_n\) 是 G 中的一条迹。令 Z 是观测变量的一个子集，在给定 Z 的条件下，满足

迹中包含的 v-结构，\(X_{i-1} \rightarrow X_i \leftarrow X_{i+1}\)，则 \(X_i\) 或其一个后代在 Z 中.
迹上其他节点都不在 Z 中（包括两个端节点）。

则称迹 \(X_i \rightleftharpoons \cdots \rightleftharpoons X_n\) 是有效迹

在 \(Z\) 已知的条件下，如果 \(X\)，\(Y\)之间没有有效迹相连，则称 \(X\) 与 \(Y\) 是 d-分离(d-separation)的

注意，这里的 \(X\),\(Y\),\(Z\)，都是节点集。

两种独立性的关系将在马尔可夫网络中阐述。

I-map：

上节中描述了马尔可夫局部独立性的概念，贝叶斯网络结构 G 中局部独立性的集合记为 \(I_l(G)\) ：

对于每一个变量 \(X_i\): \((X_i \perp NonDescendants_{X_i}|Parents(X_i))\)

而包含在随机变量联合概率分布 P 中的独立性集合记为 \(I(P)\)

如果 \(I_l(G) \subseteq I(P)\) ，则称 G 是 P 的一个 I-map

更通用的定义形式：

令 \(K\) 是与独立性集合 \(I(K)\) 相关联的任意一个图对象。如果对独立性集合 \(I\) ，\(I(K) \subseteq I\) 则称 \(K\) 是一个 I-map。

几个定理：

概率分布 P 满足与图 G 相关的局部独立性的充要条件是 P 可以在 G 上进行分解
P 满足 G 中的局部独立性的充要条件是 P 满足 d-分离准则的全局独立性

Reprenstation of Directed Graph — Bayesian Network