概率基础概念
联合概率
联合概率表示两个事件共同发生的概率。设 \(A\) 与 \(B\) 为样本空间 \(\Omega\) 中的两个事件,则 \(A\) 与 \(B\) 的联合概率表示为 \(P(A \cap B)\) 或者 \(P(A,B)\) 或者 \(P(AB)\)。
条件概率
若 \(P(B)>0\),那么在事件 \(B\) 发生的条件下,事件 \(A\) 发生的条件概率为:
其中 \(P(A|B)\) 读做 “在B条件下A的概率”。
对条件概率做进一步扩展:
即:
乘法公式
依据条件概率定义:有 \(P(AB)=P(A)P(A|B)\),则:
乘法公式是求“几个事件同时发生”的概率
贝叶斯公式
由条件概率定义可得:
由此得到贝叶斯公式的常规形式:
从理解上,贝叶斯公式相当于:
Posterior:后验概率
Prior:先验概率
Evidence:证据率
Likelihood:似然
全概率公式
若事件 \(B_1, B_2, \dots, B_n\) 是样本空间 \(\Omega\) 的一个划分,则:
又因为条件概率公式,可进一步得:
全概率公式的意义在于,当某一事件的概率难以求得时,可转化为在一系列条件下发生概率的和。
全概率公式和贝叶斯公式的进一步结合:
BN & BBN
BN: Bayesian Network贝叶斯网络,其概率分布通过计算获得
BBN: Bayesian Belief Network 贝叶斯信念网络,增加了专家经验的BN,部分节点的概率分布由专家指定
马尔可夫边界
马尔可夫边界是因果发现的基础概念,因果发现可以使用前者来实现且具有高效率的特性。
一个变量 \(T \in U\) 的马尔可夫毯记为 \(MB(T)\) ,它是满足以下条件的变量集合:
其中 \(I_p(X,Y \mid MB(T))\) 表示的是在给定 \(MB(T)\) 时变量 \(X\) 和 \(Y\) 在概率分布上条件独立。
经证明,当数据集中的概率分布满足忠实性假设的时候,马尔可夫边界是唯一的,且由变量 \(T\) 的父亲、孩子和配偶节点组成。
马尔可夫边界的魅力在于,当我们给定它时目标变量与任意其它变量都是独立的,也就是说马尔可夫边界蕴含了所有关于变量 的信息,如果我们尝试添加其它变量,都无法给变量 的预测带来更多的信息。