TruePIE: Discovering Reliable Patterns in Pattern-Based Information Extraction 在基于模式的信息抽取中发现可信的模式本文是韩家炜组发表在KDD2018上的一篇文章。作者使用无监督的，基于模式的方法进行信息抽取。本文主要提出了一种评价模式及其抽取出的元组的质量的方法。

背景

现有的模式抽取方法评价质量的指标，例如出现频率。在这种评价下的高质量模式，依然会抽取不正确的信息。例如：

1	president $PERSON's visit $COUNTRY

这个模式在现有的基于模式的信息抽取方法里会被认为是用于挖掘国家的总统的高质量的模式，因为这这一模式在语料里面出现最为频繁。事实上，这种模式总是提取不正确的信息：例如某国总统访问另一个国家。
因此本文提出了另一个评价模式的维度：模式可靠性。即如果一个模式更可能提供正确的信息，我们称之为模式是可靠的。

这种想法肯定是好的，但是问题在于怎么去识别这种可靠性。实际任务中，常常是无监督抽取，也不能指望人去标注模式的可靠性或者语料。

本文提出了一种新的方法TruePIE。TruePIE试图为特定的信息提取任务找到可靠的信息和模式。它采用了一种自训练框架，能够自动生成正负两种训练模式，并对大量的候选模式进行分类。

两个主要挑战：

什么样的信息被用来表示模式？本文使用的是模式的嵌入，利用模式的构造词和模式提取的信息来考虑。如果两个模式有共同的单词或者共同的抽取信息。
如何自动生成训练集。基于常识和对数据的观察，我们发现一个特定实体的正确属性值的数量通常是有限的，并且与特属性值相关联的实体的数量也是有限的。举例来说，一个国家历史上可能只有有限的总统，一个总统只能在一个国家任职。这种约束称之为“arity-constraints”

问题定义

任务定义：属性抽取，目标属性提取任务是针对特定属性（如总统、首都）的信息提取任务。该任务的目标是准确地找到所有具有目标属性的实体及其相应的属性值。为了减少属性的模糊性，我们假设实体类型和值类型也在任务中指定。

EAV-Tuple：实体属性属性值三元组，，e是实体，a是属性，v是属性值。

模式：同MetaPAD。是指实体类型（例如，\$ Person，\$ Politician，\$ Country）或数据类型（例如，\$Digit，\$Month，\$Year）、单词（例如，“politician”，“age”）或短语（例如，“prime minister”）的频繁、具有信息性和精确的子序列，可能还有标点符号（例如，“，”，“（”），作为一个整体特定语境中的语义单位。

模式可靠性：模式p的可靠性定义为其提取的EAV元组$\mathcal{T}_p$正确的可能性。我们用分数$\rho_p$来衡量p的可靠性。越高越可靠。此外，如果模式在属性a上可靠，我们称其为正模式；如果模式不可靠，我们称其为负模式，即它常为属性a提取错误的信息。注意，如果模式在目标属性提取任务中不包含正确的实体或值类型，我们认为它与属性a无关，不评估属性a的可靠性。

元组可靠性：元组t的可靠性定义为t多大程度上是正确的，用$\tau_t$表示

问题：给定文本语料库和特定的目标属性提取任务a，我们的目标是生成可靠的模式$\mathcal P$，以便它们能够提取尽可能多的可靠EAV元组。

TruePIE

系统的结构如上图所示，由三个部分组成。输入是种子模式，TruePIE首先学习arity-constraints，以识别高质量的模式和低质量的模式，利用识别出的正、负模式，以模式嵌入为特征训练分类器，对候选模式进行分类。结合高度可靠的预测positive模式和先前发现的positive模式，可以提取更多的positive和negative信息。TruePIE将重复这一训练预测提取过程，以发现越来越多的可靠模式和信息。

候选模式生成

TruePIE中使用的模式候选可以由任何基于模式的信息提取方法生成，例如MetaPAD。

模式嵌入

模式嵌入的目的是把相似的模式映射到一起，因为相似的模式具有显示的含义。嵌入有两个部分挑战：构成模式的词语和模式提取的信息。

1
2
3

“$Location president$Person”
构造词：“president”，
抽取的信息：⟨USA，president，Trump⟩。

假设模式 $p$ 用构造词（$W_1^p$,…，$W_m^p$）
并且抽取了 $\{(e_i^p)\}_{i=1}^n$, 将$p$的嵌入表示为$vec(p)$：

$vec(p)= (vec^p(w),vec^p(r))$

其中：

$vec^p(w)=\frac{1}{m} \sum_{i=1}^m vec(w_i^p)$ $vec^p(r)= \frac{1}{n} \sum_{i=1}^n vec(e_i^p)-vec(v_i^p)$

嵌入分为两个部分，第一部分是构词嵌入的平均值，第二部分反映了抽取对之间的关系。

训练集的生成

上面的模式嵌入实际上是无监督的，就带来了一个问题，很难确定一个合适的阈值来，来证明对于每个目标属性，距离有多近才是近。

positive的模式比较好找，如果一个模式在语料库中显著重复，并且其提取的信息与从种子模式集P0提取的信息显著重叠，则很可能是可靠的。

怎么找到negative模式或元组呢？这就利用到了前面提到的arity-constraints。利用这一约束，把实体和属性值建模成二部图，其中边表示这个属性被抽取出来了。属性a的arity-constraints相当于对实体 $C_e^a$ （实体可以关联的属性值的数量）和值 $C_v^a$ （属性值可以关联的实体的数量）的度数设置约束。

给定一个可信的EAV元组集合（EVA表示<实体e,属性a,属性值v>）$\tau$，那么对于元组 $t$ ,如果$t \in \tau$，则为positive，反之为negative，构造验证集$C_e^a$和$C_v^a$，如果既不是positive也不是negative，则是undecidable。

确定Arity-Constraint

$C_e^a:deg(e)\leq median(f_e)$
$C_v^a:deg(v)\leq median(f_v)$

其中$f_e$和$f_v$表示实体和属性度的经验分布，median是中位数。
如果对元组的可靠性估计过于严格，可能会导致较高的错误率。因此，通过区分硬约束和软约束，进一步细化了arity-constraint的定义。对于前者，不允许违反，而对于后者，如果有足够的证据表明元组是正的，则允许违反。在数学上，如果 $ median(f_e)=Q_{F_e}(1-\alpha) $，则是硬约束。如果 $median(fe) \leq Q_{F_e}(1-\alpha)$，则是软约束。$Q_F(·)$是分布函数$F（x）=Pr(X \leq x)$的分位数函数，定义为$Q_F(p)=inf\{x \in R:F(x_0 \geq p\}$，α是显著水平。注意，$QF(·)$是非递减的，中值等于$Q_F(0.5)$，所以$median(f_e)≤Q_{F_e}(1-\alpha)$。在我们的实验中，$\alpha$设为0.1。

统一的模式和元组可靠性评估模型

在给定arity-constraint和可靠EAV元组集$\tau$的情况下，将模式可靠性$\rho_p$计算为：

$\rho_p=\frac{N_+ + \frac{1}{2}N_U}{N_+ +N_- +N_U}$

其中$N_+$，$N_-$,$N_U$表示positive元组、negative元组、undecidable元组的数量，其实就是一个precision的公式。

如果$ \rho_p $比较高，接近1，说明模式p是positive，如果接近0，则是negative，而接近0.5的说明是undecidable的。

对于可信的模式集合$\mathcal{P}$,和arity-constraint$C_e^a$和$C_v^a$，可靠性评分是边的权重，定义如下：

$\tau_t = \sum_{p:p \in P} \rho_p \times n_t^p -b$

其中$\rho_p$是p的可靠性评分，$n_t^p$是p抽取的元组数量，b是一个小的正参数，以减少提取中的随机性。只考虑来自可靠模式的元组，因为不可靠模式具有高噪声，并且可能对元组的可靠性估计产生有害影响。由于权重越高的元组越有可能是正确的，因此该问题等价于在arity-constraint下形成边权和最大的二部图。

$max \sum_{t} \tau_t − max(\beta_1 \mathbb 1 (\neg C_e^a),\beta_2 \mathbb 1(\neg C_v^a)$ $s.t.p \geq \theta, \forall p \in \mathcal{P} \mathcal{P_0} \subseteq \mathcal{P}$

其中$\mathbb 1$表示指示函数，$\mathcal{P_0}$是种子模式，则$\beta_i$为正惩罚参数，如果是硬约束，为无穷大。对于软约束，如果一条边导致破坏，但其权重$\tau_t$足够大，则该边仍应保持不变。

文章提出了一种贪婪的方法来加速优化过程

自训练框架

现在，利用生成的训练模式，训练分类器来预测既不是正的也不是负的候选模式的可靠性，其中特征是模式嵌入。考虑到所提出的模式嵌入方法的特点，在实验中，采用K近邻法进行预测，以余弦距离和逆距离为权重。更接近正模式的候选模式将被预测为正模式。为了避免过度拟合，将从训练集中移除与任何正模式接近的负模式（余弦相似性>0.9）。在实际应用中，负模式多于正模式，因此K值的选取应与正模式的个数成正比，以保证分类结果的有效性。

我们首先将预测的正模式的提取与已有的可靠模式集相结合，更新可靠元组集。在这一步中，由于新增加的正模式的可靠性未知，我们使用它们的预测概率：

$\tau_t^{new}=\tau_t^{old}+ \sum_{t\in \mathcal{T}} Prob(p)$

现在，通过更新的可靠元组集，可以计算候选模式的可靠性。最后，将具有高可靠性分数的模式添加到可靠性模式集中。综上所述，所提出的自训练TruePIE框架将通过重复以下训练预测提取步骤，逐步扩大可靠EAV元组集和正（可靠）模式集，直至满足停止准则。

具体步骤如下：

第一步：给定可靠元组集，生成训练模式；
第二步：根据训练模式，对候选模式进行分类，特征为模式嵌入；
第三步：合并正模式的提取，更新可靠元组集。从步骤一开始重复。

Evaluation

作者分别验证了这种方法筛选出来的模版和三元组的质量，具体看论文。

自然语言处理的技巧

TruePIE: 在基于模式的信息抽取中发现可信的模式

背景