条件随机场(CRF)简介

CRF旨在执行特定于任务的预测,即我们具有输入X(向量)并预测预定义的标签y。

CRF是一种概率判别模型,在自然语言处理,计算机视觉和生物信息学中具有广泛的应用。

条件随机字段用于预测使用上下文信息添加信息的序列,模型将使用这些信息进行正确的预测。

目录 : 

  • 介绍
  • 生成模型与判别模型
  • 序列模型的CRF
  • CRF的数学背景
  • CRF的应用

1.简介:

假设我们要构建一个应用程序,在该应用程序中,给定特征向量X时,我们将预测随机变量的输出向量y = {y0,y1,………,yn}。其中每个变量yi是单词i的POS标签,输入变量X i分为特征{X1,X2,………..,Xn}。

在这种类型的问题中,目标不仅是正确地预测输出矢量,而且预测的顺序也很重要,如果不是更多的话。由于条件随机字段使用单词序列,因此可以挽救它。

AI Time Journal资源
您正在学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家成长。

2.生成模型与判别模型:

生成模型是描述标签向量y如何概率性地生成特征向量X的模型。作为一个简单示例,作为非常流行的概率分类器的朴素贝叶斯就是一种生成算法。

另一方面,判别模型描述了如何获取特征向量X并为其分配输出向量y。简单来说,判别模型对不同类别之间的决策边界进行建模。判别模型的常见示例是逻辑回归,该回归使似然估计最大化。

3.序列模型的CRF:

当模型预测许多相互依存的变量时,CRF模型的功能将发挥作用。为了理解这一点,我们讨论了来自NLP的名称实体识别(NER)问题。 NER是从文本中识别实体并将实体分类为人员,位置,组织等的问题。

NER问题背后的主要挑战是,由于模型只能基于上下文进行识别,因此太少而无法出现在训练集中的实体。解决此问题的幼稚方法是对每个单词进行独立分类。这种方法的主要问题是,它假定命名实体标签是独立的,事实并非如此。

例如,马哈拉施特拉邦是一个地点,而《马哈拉施特拉时报》是一个组织。

为了解决这个问题,我们使用CRF,其中输入数据是序列,输出也是序列,并且在对数据点进行预测时必须考虑先前的上下文。为此,我们将使用具有多个输入值的功能部件。

功能功能定义如下:

4. CRF的数学背景:

在条件随机场中,我们计算条件概率,即

p(y | X)

给定输入序列X的输出矢量y的概率。
为了预测适当的序列,我们需要使概率最大化,然后采用具有最大概率的序列。

如上一节所述,我们将使用特征函数f。输出序列被建模为特征函数的归一化乘积。

其中Z(X)是归一化。

λ(lambda)是特征函数权重,由算法学习。
对于参数λ的估计,我们将使用最大似然估计。因此,该模型在特征函数上是对数线性的。

接下来,我们应用偏导数w.r.t. λ以便在负对数函数上找到argmin。

对于参数优化,我们使用迭代方法,即基于梯度下降的方法。 CRF模型的梯度更新步骤为:

5.通用报告格式的应用:

CRF具有对可在自然语言处理,计算机视觉和许多领域中使用的顺序数据进行建模的能力。 CRF在NLP中的著名应用之一是命名实体识别,我们在其中预测它们相互依赖的顺序。还有其他各种类型的CRF,例如用于手势识别的隐藏CRF,用于标记序列数据的动态CRF,用于活动识别的Skip Gram CRF等。另一个应用是基因预测。


贡献者

皮莱工程学院|机器学习爱好者

贡献者表达的观点是他们自己的观点。

关于阿克沙伊查文

皮莱工程学院|机器学习爱好者

查看Akshay Chavan发表的所有帖子→