【生物信息学】隐马尔科夫模型 | 学习课
课程整理链接:
https://mubu.com/doc/qgNn0CbbV0
视频链接:
https://www.bilibili.com/video/av10042290/?p=17
为什么要引入隐马尔科夫模型
因为现有的状态模型只是区分了空位状态X,Y以及Match状态M,而没有考虑具体的残基。
定义:指在状态的基础上,增加了符号(Token)的概念。每个状态都可以以不同的概率产生(Emit)一组可以观察到的符号。除了状态转移概率之外,隐马尔科夫模型进一步引入了“生成概率”(Emission Probability)的概念,每个状态都有自己的生成概率分布,可以按照不同的概率产生一组可以被观测到的符号。
与马尔科夫模型的不同之处
在隐马尔科夫模型里,状态路径是无法直接看到的。这也是Hidden Markov Model中Hidden的含义。相反,我们需要根据观测到的符号,来推测对应的状态。
不同的状态产生字符串的概率不同,进而不同的状态路径产生最终被观测到的字符串的概率也不同。但可以把所有可能的路径穷尽出来,然后每个路径都可以算出概率,最后取概率最大的路径,即为最可能的路径。
除了上节定义的转移概率之外,再定义生成概率,表示在状态S k 时,产生符号(token)b的概率。
考虑具体残基的序列比对
方法:用生成概率来处理残基,M状态生成的符号是所有可能的残基替代,其生成概率写作Pab。而X和Y状态生成的符号则是所有可能插入的残基,其生成概率写作qa
优点
可以很方便的同时考虑状态和具体的残基,并进而将序列比对问题重新描述为一个针对特定隐马尔科夫模型与符号串寻找最可能状态路径的问题。
具体定义
PM(i,j)表示在Xi比对到Yj,也就是两个残基对在了一起的时候,第一条序列X从第1位到第i位、第二条序列Y从第1位到第j位最大的概率;
PX(i,j)和PY(i,j)则分别表示在Xi或Yj残基比对到空位时,序列X从第1位到第i位、序列Y从第1位到第j位最大的概率。
引入隐马尔可夫模型的优点
有效地给出了序列比对的概率解释(Probabilistic interpretation)。例如,这里的delta就可以理解为在生物演化过程中,出现DNA片段插入/删除的概率,或者说,产生一个空位的概率。
M状态的生成概率,就可以直观地对应于演化过程中相应替代发生的频率。
可以帮助我们利用概率论的知识做更多分析。例如,我们可以在不引入具体比对的情况下,计算两条序列之间最大可能的相似性。
隐马尔科夫模型通过符号观测序列来反推隐状态这个特点,它的应用领域并不局限于序列比对。事实上,在现代生物信息学的研究中,隐马尔科夫模型更多的被作为预测器(predictor)来使用。
相关阅读
【生物信息学】考虑仿射空位罚分的序列比对以及如何计算N-W算法的时间复杂度 | 学习课