Bayesian Network

Reprenstation of Directed Graph — Bayesian Network

Posted by Chaway on 2017-03-21

Probabilistic Graphical Model (1) : Representation

Overview:

PGM(i.e. Probabilistic Graphical Model)简单来说,可以看成由图和局部条件概率分布组合而成。图中的每个节点 \(V_i\) 表示一个随机变量,相邻的节点在图中用边 \(E_i\) 连接。

对于有向图来说,每一条边表示一个随机变量(节点)对另一个随机变量的直接影响(因果关系),也就是父节点到子结点的条件概率。对于这样的非循环有向图 ( DAG, i.e. Directed Acyclic Graph) 我们称之为 贝叶斯网络 (Bayesian network)

对于无向图,每一条边表示的是随机变量之间的相关性,称之为 马尔可夫网络马尔可夫随机场 (Markov Network or Markov random field)。

本节主要介绍 Bayesian network。下面是一个简单的贝叶斯网络例子,图中所有变量的可能取值都是离散的,这个例子将贯穿整个系列:

Figure 1:Student Bayesian Network with CPDs

图中节点 D (Difficulty) 表示课程的难度,I (Intelligence) 表示学生的智力,G (Grade) 表示课程的成绩 S (SAT) ,L (Letter) 表示推荐信的好坏。这些节点表示的是贝叶斯网络中的随机变量,网络中的另外组成部分就是节点间的条件概率分布 (CPD:Conditional Probability Distribution)。比如 D,I,G 是图中的一个局部结构,不同的 D,I 取值会导致 G 的概率分布不同。

Probablity Distribution & Factorization:

根据贝叶斯法则,随机变量的联合概率分布可以表示成:

\[ P(D,I,G,S,L) = P(I)P(D|I)P(G|D,I)P(L|G,D,I)P(S|L,G,D,I) \]

而在贝叶斯网络中,相当于对联合概率根据图的结构进行了分解(Factorization),联合概率可以表示为:

\[ P(D,I,G,S,L) = P(D)P(I)P(S|I)P(G|I,D)P(L|G) \]

更通用的形式为:

\[ P(X_1,X_2,X_3,\cdots,X_n) = \prod_i P(X_i|Parents(X_i)) \]

如果在随机变量构成的图 G 上,联合概率分可以表示为上式的形式,则称 P 是关于图 G 在同一空间上的分解。

根据概率分解的定义,一个贝叶斯网络由图 G,和分解在 G 上的局部条件概率 P 组成。

Independency:

网络结构中的独立性:

简单来说就是用图的结构来解释随机变量的之间的独立性,概率图模型中图和概率条件分布融合在一起,可以相互解释。

1.局部马尔可夫独立性:

观察上面的网络,当 I 已知时,S 分别与 D,G,L 独立。这种独立性包含在图本身的结构中,是图结构固有的,与 P 无关。

贝叶斯网络结构 (Beyesian network structure) 中包含的独立性假设通用表示方法:

对于每一个变量 \(X_i\): \((X_i \perp NonDescendants_{X_i}|Parents(X_i))\)

2.全局马尔可夫独立性:

几种基本结构:

  • 因果迹 (Causal Trail): \(X \rightarrow Z \rightarrow Y\) ,当且仅当 Z 没有被观察时有效(active)
  • 证据迹 (Evidential Trail): \(X \leftarrow Z \leftarrow Y\) ,当且仅当 Z 没被观察时有效
  • 共同的原因 (Common Cause): \(X \leftarrow Z \rightarrow Y\) , 当且仅当 Z 没有被观察时有效
  • 共同的作用 (Common Effect): \(X \rightarrow Z \leftarrow Y\) (v-structure) , 当且仅当 Z 被观察时有效

假设 G 是一个贝叶斯网络的结构,且 \(X_i \rightleftharpoons \cdots \rightleftharpoons X_n\) 是 G 中的一条迹。 令 Z 是观测变量的一个子集,在给定 Z 的条件下,满足

  • 迹中包含的 v-结构 ,\(X_{i-1} \rightarrow X_i \leftarrow X_{i+1}\),则 \(X_i\) 或其一个后代在 Z 中.
  • 迹上其他节点都不在 Z 中(包括两个端节点)。

则称迹 \(X_i \rightleftharpoons \cdots \rightleftharpoons X_n\) 是有效迹

\(Z\) 已知的条件下,如果 \(X\)\(Y\)之间没有有效迹相连,则称 \(X\)\(Y\) 是 d-分离(d-separation)的

注意,这里的 \(X\),\(Y\),\(Z\),都是节点集。

两种独立性的关系将在马尔可夫网络中阐述。

I-map:

上节中描述了马尔可夫局部独立性的概念,贝叶斯网络结构 G 中局部独立性的集合记为 \(I_l(G)\)

对于每一个变量 \(X_i\): \((X_i \perp NonDescendants_{X_i}|Parents(X_i))\)

而包含在随机变量联合概率分布 P 中的独立性集合记为 \(I(P)\)

如果 \(I_l(G) \subseteq I(P)\) ,则称 G 是 P 的一个 I-map

更通用的定义形式:

\(K\) 是与独立性集合 \(I(K)\) 相关联的任意一个图对象。如果对独立性集合 \(I\)\(I(K) \subseteq I\) 则称 \(K\) 是一个 I-map。

几个定理:

  • 概率分布 P 满足与图 G 相关的局部独立性的充要条件是 P 可以在 G 上进行分解
  • P 满足 G 中的局部独立性的充要条件是 P 满足 d-分离准则的全局独立性