论文翻译:ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification
$百度, 北京, 中国$
$\{jiawei07, daidai, xiaoxinyan, wu hua\} @baidu.com$
摘要
远程监督广泛应用于关系分类中,通过将知识库与未标记的语料库对齐来创建大规模的训练数据。然而,它也引入了大量噪声标签,而上下文句子实际上并不表示标签关系。在本文中,我们提出了ARNOR,一种新的基于注意力正则化的降噪框架(Attention Regularization based NOise Reduction),用于远程监督关系分类。ARNOR假设一个可信的关系标签应该用神经注意力模型来解释。具体地说,我们的ARNOR框架迭代地学习可解释的模型,并利用它来选择可信任的实例。我们首先引入注意力正则化,迫使模型注意解释关系标签的模式,从而使模型更具解释性。然后,如果学习到的模型能够清楚地定位训练集中候选实例的关系模式,我们将选择它作为可信任实例进行进一步训练。根据对NYT数据的实验,我们的ARNOR框架在关系分类性能和降噪效果方面都比现有的方法有了显著的改进。
论文翻译:Are Noisy Sentences Useless for Distant Supervised Relation Extraction?
$^1 计算机科学学院, 北京理工大学, 北京, 中国 $
$^2 中电大数据研究院有限公司, 贵阳, 中国,550022 $
$^3 华中科技大学, 湖北, 中国 $
$^4 贵阳大数据应用提高政府治理能力国家工程实验室, 中国, 550022 $
$\{ymshang, hhy63, maoxl, sunxin\}@bit.edu.cn, Weiw@hust.edu.cn$
摘要
噪声标签问题一直是远程监督关系抽取的主要障碍之一。现有的方法通常认为,噪声句子是无用的,将损害模型的性能。因此,他们主要通过减少噪声句子的影响来缓解这一问题,例如应用包级选择性注意力机制或从句子包中去除噪声句子。然而,噪声标签问题的根本原因不是缺少有用的信息,而是缺少关系标签。直观地说,如果我们能够为噪声句子分配可信的标签,它们将转化为有用的训练数据,并有利于模型的性能。因此,在本文中,我们提出了一种新的远程监督关系抽取方法,该方法采用无监督的深度聚类为含噪句子生成可靠的标签。具体来说,我们的模型包含三个模块:句子编码器、噪声检测器和标签生成器。句子编码器用于获取特征表示。噪声检测器从句子包中检测噪声句子,标签生成器为噪声句子生成高置信度关系标签。大量的实验结果表明,我们的模型在一个主流的基准数据集上优于最先进的基线,并且确实可以缓解噪声标签问题。
论文翻译:SENT:Sentence-level Distant Relation Extraction via Negative Training
$^1计算机科学学院, 复旦大学, 上海, 中国$
$^2现代语言与语言学研究所, 复旦大学, 上海, 中国$
$\{rtma19,tgui16,linyangli19,qz,yqzhou,xjhuang\}@fudan.edu.cn$
摘要
关系提取的远程监督为包内的每个句子提供统一的包级标签,而准确的句子标签对于需要确切关系类型的下游任务很重要。直接使用包级标签进行句子级训练会引入很多噪音,从而严重降低性能。在这项工作中,我们建议使用负训练(negative training,NT),其中使用关于“实例不属于这些互补标签(complementary labels)”的互补标签来训练模型。由于选择真实标签作为互补标签的概率很低,因此 NT 提供的噪声信息较少。此外,用 NT 训练的模型能够将噪声数据与训练数据分开。基于 NT,我们提出了一个句子级框架 SENT,用于远程监督关系提取。 SENT 不仅过滤噪声数据以构建更干净的数据集,而且还执行重新标记过程将噪声数据转换为有用的训练数据,从而进一步提高模型的性能。实验结果表明,所提出的方法在句子级评估和去噪效果方面比以前的方法有显着的改进。