博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)
阅读量:4203 次
发布时间:2019-05-26

本文共 1074 字,大约阅读时间需要 3 分钟。

笔记整理 | 栾岱洋,东南大学


来源:ACL 2020

链接:https://www.aclweb.org/anthology/2020.acl-main.571.pdf

本文提出了一种可以实现重叠主体的识别的BiFlaG(bipartite flatgraph network)模型,包含两个子图模块:用于外层实体的flat NER模块以及用于所有内层实体的图模块。双向LSTM以及图卷积网络被用于联合学习flat entity以及它们的内部依赖。不同于过去的方法,本文同时考虑了内外层的双向交互,flat NER模块识别的实体首先被用于构建实体图,然后反馈到图模块,后者得到涵盖了内部实体依赖信息的强化表示学习,并用于增强外部实体的预测,在三个NER数据集上的实验结果表明,本文模型优于已有SotA方法。

本文提出的命名实体识别模型可以实现重叠主体的识别。NER可以识别出包含预定义类别的实体(如位置、组织等),Nested NER用于处理重叠主体的问题。

模型

1) 标志表示:假定给定序列长度为N,对于每一个token,我们使用词嵌入和字母嵌入表

示????$ = [????i; ????i],前者表示word-level embedding,后者为character-level embedding.使用

BiLSTM捕获序列信息????i = BiLSTM(????i).

2) BiLSTM-CRF结构:包括一个双向LSTM编码器和条件随机场解码器。

BiLSTM获取序列的双向背景文本信息,其输出为CRF的输入,隐藏层状态为

条件随机场中使用Viterbi算法获取在解码过程中概率最大的标签序列,其评分函数为:

其中????yi,yi+1表示从????i到????i+1的转移评分,????i,yi表示标签????i对应第i个BiLSTM编码的词的评分。

图模块

使用BiGCN提取图中的特征。

算法:

实验

数据集:

GENIA 基于GENIA corpus3.02p,包含5种实体类型并切分为8.1:0.9:1的训练/验证/测试子集

ACE2005 包含7种实体类型,按8:1:1切分训练/验证/测试集

KBP2017 作者在英语评价数据集上验证了本文模型,训练集和验证集包含了之前的RichERE标注集

评价指标:

准确率及召回率和F1值

实验结果见表2


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

转载地址:http://nesli.baihongyu.com/

你可能感兴趣的文章
Observer模式
查看>>
高性能服务器设计
查看>>
图文介绍openLDAP在windows上的安装配置
查看>>
Pentaho BI开源报表系统
查看>>
andorid里关于wifi的分析
查看>>
Spring MVC 教程,快速入门,深入分析
查看>>
Ubuntu Navicat for MySQL安装以及破解方案
查看>>
HTML5学习之——HTML 5 应用程序缓存
查看>>
HTML5学习之——HTML 5 服务器发送事件
查看>>
hbase shell出现ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException
查看>>
解决Rhythmbox乱码
查看>>
kermit的安装和配置
查看>>
java中的异常机制
查看>>
商务智能-基本方法-数据钻取
查看>>
openstack-instance-high-availability-Evacuate
查看>>
evacuate-instance-automatically
查看>>
pycharm常用设置(keymap设置及eclipse常用快捷键总结)
查看>>
关于在openstack的环境变量.bashrc自定自己简化命令
查看>>
Openstack Heat Project介绍(转)
查看>>
How to Perform an Upgrade from Icehouse to Juno(ice升级到juno)
查看>>