发布于: Oct 10, 2022

实验数据
本文中选用的实验数据来自第三方工作室所提供的 W-NUT17 的实体识别任务数据集。W-NUT 数据在源数据的基础上,增加了人工合成的噪声文本已满足自然语言处理的需要。其中源数据包括,社交媒体,在线评估,众筹数据,网络论坛,临床诊断以及学习笔记等等。
数据集中包含了 1000 条带标注的 tweets,一共 65124 个 tokens。 评论文本来自 Twitter, Stack Overflow, YouTube 以及 Reddit。 命名实体的标注包括类别如下:

  1. 人名
  2. 地点 (包括地理位置和机构位置)
  3. 分组(如乐队,体育团队, 以及非企业单位)
  4. 创造性的工作 (歌曲, 电影, 书籍等等)
  5. 企业
  6. 产品(有形的产品或者定义良好的服务)

本文的开发训练样本和测试样本的划分来自 2017 年国际学术会议的参考文献 “Results of the W-NUT 17 Shared Task on Novel and Emerging Entity Recognition” 。具体情况如表 1 所示。

类别

训练

测试

Documents

1,008

1,287

Tokens

15,734

23,394

Entities

835

 1,070

1: 命名实体数据的样本统计

下图展示了解决方案的架构:

图1. 基于 Amazon Comprehend 和 NER 的简单流程图

在此解决方案中,我们通过将 Amazon Comprehend 与 Amazon S3 用于 NLP 任务来展示其简单性。例如,我们可以将 Comprehend 函数与输入的句子字符串一起使用,如图1左上角所示。它使用内置的 Comprehend 模型来实现命名实体检测、单词标记等功能。或者,如图1左下角所示,我们可以提供 txt 或 csv 文件作为文本语料库来自定义训练模型。如图1右侧所示,返回的结果以json形式呈现以方便进一步处理。句子标记(右上)和句子 NER(右下)可以方便的进行进一步分析和建模。
使用 Amazon Comprehend 进行 NER 和主题建模相当简单,我们可以应用内置模型或自行训练模型。对于 NER 任务,我们只需提供目标句子、语言代码和区域即可使用理解检测实体 Amazon NER API 文档 。设置主题建模比 NER 任务稍微复杂一些,在主题建模任务中,我们需要首先使用启动主题检测作业 API ,通过指向包含请求数据的 json 文件来启动主题检测作业。或者,Amazon SDK 是另一种利用 Amazon Web Services 理解主题建模的方法。有关 Amazon Comprehend 主题建模服务的详细使用,请参阅 Amazon 文档。
端到端的流程如下:

  1. 将一组带有实验数据的文本文件上传到 Amazon S3。
  2. 清晰标注所有文本文档的标签。
  3. 在 Amazon Comprehend 控制台上,使用 Amazon Web Services Lambda 生成的数据集启动自定义 NER 训练作业
  4. 在 Amazon Comprehend 控制台上,启动自定义主题建模作业。

我们开发了一个可以根据 Amazon Comprehend 指南来注释训练集的脚本。该注释内容一共有 5 列(如下图),其中包括了标明在 S3 上训练集文件名的‘File’,标明在训练集中具体第几行的‘Line’,标明在对应行上 entity 字段起始位置的‘Begin Offset’,同样标明在对应行上entity字段结束位置的‘End Offset’以及说明 entity 类型的‘Type’列。更多有关注释格式的信息,可以参照 Amazon 文档

图 2.训练集数据的注释

Amazon Comprehend 要求每一个类型的 entity 至少输入 200 个不用的注释。然而所用的训练集中的‘product’和‘creative-work’类型分别只有 139 和 137 个注释,因此这两个类型的注释内容被暂时的排除在我们的数据集之外。在训练集文件和注释文件被上传到 S3 之后,Amazon Comprehend 下面的 custom entity recognition 模组会使用这两个文件来训练模型,具体的操作页面如下图。

图 3.基于Amazon Comprehend 的模型训练

训练过程大概需要 25 分钟左右完成。在训练过程中我们发现 Amazon Comprehend 会返回一个 entity 类型识别重叠的错误值,例如像‘Jessica Simpson’ 和‘Simpson’。因此,为了确保训练集和模型质量,我们只保留了全名。Custom entity recognition 模组会自动测试并选出最合适的算法和参数,因此并不需要额外输入测试数据集。下图包含了最终模型结果的精确度,召回率和 F1 分数。Entity 类型‘corporation’ 和 ‘group’的相对较低的指标可能是因为这两种类型的样本数据也相对较少。模型的平均 F1 分数在 0。32 左右,这个结果接近和其他用了同样训练数据集的研究,表明了我们模型的可靠性。

图 4.模型结果的性能参数

有了训练好的 custom entity recognizer 模型之后,另一组没有标签的数据集被放入到模型中来做预测,会生成一份带有 named-entity recognition(NER)注释的新数据集。原始数据集和带有注释的新数据集会被分别放入 Amazon Comprehend 下面的 topic modeling 模组来生成不同的结果作比较。该模组采用了基于 Latent Dirichlet Allocation(LDA)算法的模型来模拟 topic modeling,这是一个在类似场景中非常常用的算法。更多详细信息可以在 Amazon 关于 topic modeling 的文档中找到。
下图是使用了带注释的数据集所生成的 topic modeling 模型的前五个主题以及对应的关键词和权重。

然后下图是使用了原始数据集(不带有 NER 注释)所生成的 topic modeling 模型的前五个主题以及对应的关键词和权重。因为 LDA 算法自身的特性,即便是相同的主题,每一次运行之后其对应的关键词可能会有略微的差异。尽管如此,对于使用不同数据集的两个模型, Amazon Comprehend 的 topic modeling 还是稳定的预测出了 0 号主题(topic0),并且两个模型的该主题的关键词也都相同。使用带 NER 注释的模型所预测出的 1 号主题和使用不带有 NER 注释的模型所预测出的 2 号主题也都包含了相同的关键词。

使用了带 NER 注释的模型预测出的 2 号主题和另一个模型的 1 号主题看上去可能都是和感情有关的主题,因为他们的关键词都包括了‘love’。但是我们提议的带 NER 注释的模型能够预测出更具有信息性的词汇,例如‘hate’,‘pain’和‘gallifreyan’等,这可能表明了该主题其实是有关小说或者电视剧的。带 NER 注释的模型的 3 号主题和不包括注释的模型的 4 号主题拥有几乎相同的关键词,说明这两个主题可能非常接近。最后,带 NER 注释的模型的 4 号主题预测出了包括‘location’, ‘calgary’, ‘adelaide’ 和 ‘europe’等关键词,表明了该主题很有可能和旅游相关,然而另一个不带 NER 注释的模型没有办法预测出类似的主题。

相关文章