石家庄做网站优化,西安软件开发公司排行,房门户网站如何做优化,网站建设怎么翻译点击 “AladdinEdu#xff0c;你的AI学习实践工作坊”#xff0c;注册即送-H卡级别算力#xff0c;沉浸式云原生集成开发环境#xff0c;80G大显存多卡并行#xff0c;按量弹性计费#xff0c;教育用户更享超低价。 第一章#xff1a;引言——不确定世界中的结构化思维 …点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。第一章引言——不确定世界中的结构化思维我们生活在一个充满不确定性的世界里。从自然语言的理解、基因调控网络的解析到金融市场的预测、推荐系统的构建我们面对的系统通常涉及大量相互关联、且关系不确定的变量。如何简洁、清晰且可计算地表示这些复杂的依赖关系并基于此进行有效的推理与预测是现代人工智能与数据科学的核心挑战之一。概率论为我们提供了量化不确定性的数学语言。然而直接将所有变量的联合概率分布如P(X1, X2, ..., Xn)显式地表示出来面临着“维度灾难”——对于n个二值变量联合分布需要指定2^n - 1个参数这在计算和统计上都是不可行的。幸运的是现实世界中的复杂关系往往具有局部性和稀疏性。一个变量通常只与少数几个其他变量直接相关。概率图模型正是利用了这一洞见它将图论中直观的图形表示与概率论严谨的数学框架相结合成为处理高维、结构化不确定性问题的强大工具。概率图模型使用一个图G (V, E)来表示变量间的依赖结构节点 (Vertices, V)代表随机变量。边 (Edges, E)代表变量间的概率依赖关系。根据边的类型PGM主要分为两大类贝叶斯网络 (Bayesian Network, BN)使用有向无环图表示变量间的因果关系或依赖关系。马尔可夫网络 (Markov Network, MN) / 马尔可夫随机场 (Markov Random Field, MRF)使用无向图表示变量间的相关关系或软约束关系。本文将深入探讨这两类核心模型的表示如何用图编码概率分布、推断如何基于已知变量查询未知变量的概率和学习如何从数据中自动获得图结构和参数。它们是理解更复杂模型如条件随机场、深度信念网络的基石。第二章贝叶斯网络——有向的概率依赖模型2.1 表示图结构与参数化一个贝叶斯网络B (G, θ)由两部分构成有向无环图 (DAG)G 结构。参数θ 条件概率分布。图结构编码条件独立性。BN的核心语义是给定其父节点每个节点条件独立于其非后代节点。形式化地BN定义的联合概率分布可因子化为P(X1, X2, ..., Xn) Π_i P(X_i | Parents(X_i))这就是著名的链式法则有向图版本。它极大地简化了联合分布的表示。例如一个简单的“草地潮湿”网络包含变量下雨 ®、洒水器开 (S)、草地湿 (W)。其DAG可能为 R - W - S共同效应R - S因果关系。联合分布为P(R, S, W) P(R) * P(S|R) * P(W|R, S)只需指定P(R)(1个参数)P(S|R)(2个参数给定R下S的分布)P(W|R,S)(4个参数给定R,S下W的分布)共7个参数而非完整的2^3 -1 7个此例巧合相等变量越多节省越显著。参数化对于离散变量P(X_i | Parents(X_i))通常表示为条件概率表。对于连续变量则可以表示为线性高斯模型等。图1一个经典的贝叶斯网络示例警报网络。节点表示事件有向边表示直接影响CPT定义了局部条件概率。联合分布 P(B, E, A, J, M) P(B)P(E)P(A|B,E)P(J|A)P(M|A)。2.2 条件独立性d-分离准则如何从图结构判断任意两组变量 X 和 Y 在给定 Z 时是否条件独立BN提供了系统的d-分离准则。考虑图中 X 到 Y 的一条路径如果该路径上的所有三元组节点都满足以下条件之一则称该路径被节点集 Z阻塞顺序连接(X - Z - Y) 或分叉连接(X - Z - Y)若 Z 被观测到则路径阻塞。汇合连接(X - W - Y)若W 或其任一后代未被观测到则路径阻塞若 W 或其后代被观测到则路径“激活”信息可以流通。如果所有连接 X 和 Y 的路径都被 Z 阻塞则称 X 和 Y 被 Zd-分离即在给定 Z 时X 与 Y 条件独立。图2d-分离的三种基本结构示意图。从左至右顺序连接、分叉连接、汇合连接V-结构。图中展示了观测变量阴影节点如何阻塞或激活信息流。2.3 典型模型与应用朴素贝叶斯分类器假设特征在给定类别下相互独立。其图结构为类别节点指向所有特征节点。隐马尔可夫模型动态贝叶斯网络的简单形式用于时序数据建模如语音识别、序列标注。医疗诊断系统将症状、疾病、风险因素用DAG连接进行诊断推理。因果推理在严格假设下BN可以用于估计干预效应do-calculus。第三章马尔可夫网络——无向的关联模型3.1 表示图结构与参数化马尔可夫网络M (G, Φ)同样由两部分构成无向图G 结构。势函数Φ 参数。图结构编码马尔可夫性。MN的核心语义包括全局马尔可夫性 若节点集 A 和 B 在图中被节点集 S 分离即所有A到B的路径都经过S则给定 S 时A 与 B 条件独立。局部马尔可夫性 一个节点在给定其所有邻居节点时条件独立于其余所有非邻居节点。MN的联合概率分布不直接因子化为条件概率而是表示为吉布斯分布的形式P(X1, X2, ..., Xn) (1/Z) * Π_c ψ_c(X_c)其中X_c 图中的一个团完全子图即团内所有节点两两相连或极大团上的变量集合。ψ_c(X_c) 0 该团对应的势函数衡量该团配置的“亲和度”或“能量”值越大表示该配置越可能。Z配分函数一个归一化常数Z Σ_{所有可能X} Π_c ψ_c(X_c)确保所有概率之和为1。计算 Z 通常是推断中最困难的部分。参数化对于离散变量势函数常表示为表格形式。更常用的是对数线性模型其中势函数定义为指数函数ψ_c(X_c) exp(θ_c * f_c(X_c))f_c是特征函数。此时联合分布为P(X) (1/Z) * exp( Σ_c θ_c * f_c(X_c) ) (1/Z) * exp( θ^T f(X) )这种形式与统计物理学和机器学习中的许多模型如最大熵模型紧密相连。图3一个简单的马尔可夫网络示例图像去噪或网格模型。节点表示像素边表示相邻像素间的关联。势函数鼓励相邻节点取值相同同质先验。3.2 与贝叶斯网络的比较特性贝叶斯网络 (BN)马尔可夫网络 (MN)图类型有向无环图 (DAG)无向图 (UG)核心语义条件独立性d-分离马尔可夫性图分离参数化局部条件概率分布 (CPD)团势函数 (Potential Function)因子化P(X)Π_i P(X_i|Pa_i)P(X)∝Π_c ψ_c(X_c)归一化局部CPD已归一化联合分布自动归一化需要全局配分函数 Z 进行归一化表示能力可以方便表示因果、诱导依赖V-结构更擅长表示循环依赖、软约束学习难度结构学习相对容易得分搜索结构学习较难需估计Z典型应用诊断、因果建模、序列模型图像处理、空间统计、自然语言处理词性标注转换并非所有依赖结构都能同时用有向图和无向图完美表示。将有向图转换为无向图的过程称为道德化主要步骤是1) 将有向边变为无向边2) 对于所有具有共同子节点的父节点对在它们之间添加一条无向边使其“结婚”消除V-结构。3.3 典型模型与应用伊辛模型统计物理学的基础模型用于研究磁性物质是二值变量的网格状MN。条件随机场给定输入序列条件下输出标签序列的马尔可夫网络是序列标注如命名实体识别的首选模型。图像分割与去噪像素作为节点相邻关系作为边势函数编码颜色相似性和平滑性约束。社交网络分析用节点表示个体边表示社会关系势函数建模同质性等社会规律。第四章核心挑战之一概率推断定义了模型之后核心任务之一是进行概率推断在给定部分变量证据变量 E的观测值e后计算其他变量查询变量 Q的后验概率分布P(Q | E e)。常见的查询类型包括后验概率查询计算P(Q_i | Ee)。最大后验概率查询找到最可能的变量赋值argmax_q P(Qq | Ee)。4.1 精确推断算法精确推断是NP难的但对于结构简单的图是可行的。变量消元法基本思想是通过按特定顺序求和消元掉非查询变量逐步计算边际概率。例如计算P(X_n)P(X_n) Σ_{x1} Σ_{x2} ... Σ_{xn-1} P(X1, X2, ..., Xn)利用因子分解将求和操作尽量向内推只对涉及该变量的因子进行运算避免枚举所有联合状态。信念传播 / 和积算法对于树状结构的图无向树或多叉树存在高效且精确的消息传递算法。思想每个节点根据其邻居传来的消息计算自身的边缘信念后验并将新的消息传递给其他邻居。消息公式对于无向树m_{i-j}(x_j) Σ_{x_i} ( ψ(x_i, x_j) * Π_{k∈N(i)\j} m_{k-i}(x_i) )其中m_{i-j}是从节点 i 发送给节点 j 的消息N(i)是 i 的邻居集合。收敛与结果经过两轮叶子到根根到叶子传播后每个节点的边缘信念为b(x_i) ∝ Π_{k∈N(i)} m_{k-i}(x_i)对于有向树和Polytree算法需稍作修改但核心思想一致。连接树算法将任意图转化为一个连接树或团树使得树中节点是原图的团并满足运行相交性质。然后在连接树上运行类似信念传播的算法这是目前最通用和高效的精确推断框架。图4信念传播算法示意图。消息在树状网络上传递每个节点整合来自其子树或邻居的消息更新自身信念并将新消息向上或向其他方向传递。4.2 近似推断算法对于大规模、稠密的图精确推断不可行必须使用近似方法。蒙特卡洛方法通过生成服从概率分布P(X | Ee)的样本来近似统计量。重要性采样从一个容易采样的建议分布中采样并通过权重校正偏差。马尔可夫链蒙特卡洛构建一个马尔可夫链使其平稳分布就是目标后验分布P(X | Ee)。然后运行该链用产生的样本做估计。最著名的是吉布斯采样依次对每个变量X_i从其条件分布P(X_i | MB(X_i), Ee)中采样其中MB(X_i)是X_i的马尔可夫毯在BN中是父节点、子节点及子节点的父节点在MN中是邻居节点。经过“燃烧期”后采样值近似来自联合后验分布。变分推断一种确定性近似方法。其核心思想是用一个简单的、参数化的分布Q(X; θ)来近似复杂难解的后验分布P(X | E)。通过优化参数θ最小化Q与P之间的散度通常是KL散度KL(Q||P)。这通常转化为一个优化问题。平均场近似是最常见的一种假设Q可以完全因子化Q(X) Π_i Q_i(X_i)然后通过坐标上升法迭代优化每个Q_i。比较MCMC在理论上能给出精确解无限时间但收敛慢且诊断难变分推断计算快提供了一个下界但可能因假设太强而有偏。第五章核心挑战之二模型学习学习任务是从数据D一组独立同分布的样本中估计概率图模型的参数甚至结构。分为三类5.1 参数学习已知结构已知图结构G学习参数θ。贝叶斯网络参数学习最大似然估计对于离散变量和完整数据MLE有封闭解。例如CPT中P(X_i k | Parents(X_i)j)的MLE就是数据中对应配置出现的频率θ_{ijk} N_{ijk} / N_{ij}。贝叶斯估计引入狄利克雷先验共轭先验后验估计是计数加上先验伪计数可以平滑MLE、避免过拟合和零概率问题。马尔可夫网络参数学习由于配分函数Z(θ)的存在似然函数P(D; θ)是θ的复杂函数MLE没有封闭解。常用方法是最大似然估计的梯度方法。对数似然L(θ) Σ_d θ^T f(x_d) - N log Z(θ)。梯度为∇L(θ) Σ_d f(x_d) - N * E_{P(X;θ)}[f(X)]梯度下降需要计算模型期望E_{P(X;θ)}[f(X)]这本身就需要推断如用MCMC采样使得学习过程内层推断外层优化计算量很大。伪似然是一个流行的替代方案它最大化每个变量在其邻居条件下的条件概率乘积规避了Z(θ)的计算。5.2 结构学习未知结构从数据中同时学习图结构G和参数θ。这是更具挑战性的任务。基于约束的方法通过统计检验如卡方检验、互信息判断变量间的条件独立性然后试图找到一个图结构使其蕴含的条件独立关系与数据中检验出的关系一致。例如PC算法。这类方法对独立性检验非常敏感。基于评分搜索的方法定义一个评分函数score(G: D)衡量图结构G对数据D的拟合好坏平衡似然与模型复杂度然后在图结构空间进行搜索寻找得分最高的图。评分函数贝叶斯信息准则BIC(G, D) log P(D | θ_MLE, G) - (d/2) log N其中d是参数个数N是样本数。惩罚复杂模型。贝叶斯狄利克雷评分基于参数的后验概率有坚实的贝叶斯理论基础。搜索策略图结构空间是超大的离散空间。常用爬山法、贪婪搜索从一个空图或随机图出发通过增、删、反转单条边来寻找邻居中得分更高的图。更高级的用模拟退火、遗传算法。马尔可夫网络的结构学习比贝叶斯网络更困难因为评估一个无向结构的得分通常需要执行推断来计算似然计算代价极高。近年来基于L1正则化的稀疏学习方法如Graphical Lasso 用于高斯图模型取得了很大成功它通过最大化带有L1惩罚的对数似然可以同时得到稀疏的精度矩阵即图结构。第六章总结与展望概率图模型以其优雅的框架统一了概率论与图论为我们提供了表示、推断和学习复杂概率关系的系统性工具。贝叶斯网络与马尔可夫网络作为该领域的两大支柱各有侧重互为补充。贝叶斯网络擅长表示非对称的因果关系和诱导依赖其参数学习和结构学习相对成熟在诊断、决策和因果分析中应用广泛。马尔可夫网络擅长表示对称的关联和软约束特别适合处理具有循环依赖和空间结构的问题如图像分析和自然语言处理但其推断和学习的计算挑战更大。核心挑战与前沿方向可扩展的推断与学习对于大规模、高维数据开发更高效、更鲁棒的近似算法始终是核心。深度学习与PGM的结合深度神经网络具有强大的函数逼近和特征学习能力但缺乏结构化概率语义。深度概率模型如变分自编码器、生成对抗网络、深度信念网络、图神经网络正试图融合二者的优势。因果推断贝叶斯网络是因果图模型的基础。将统计关联与因果干预区分开是下一代人工智能系统需要具备的能力。非参数化和灵活建模传统的PGM假设参数形式固定未来趋势是结合非参数贝叶斯方法让数据本身决定模型的复杂度。掌握概率图模型的基本原理就如同获得了一套强大的“结构化思维”工具箱。它不仅能帮助你理解和构建复杂的机器学习系统更能提升你在面对不确定性时进行严谨分析和推理的能力。从基础的朴素贝叶斯到前沿的深度生成模型PGM的思想无处不在是现代人工智能和数据科学工作者不可或缺的理论基石。点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。