针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona...针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。展开更多
关系抽取是自然语言处理中一项基础的上游任务.句子的结构信息在某种意义上蕴含了实体及其关系信息,有助于提高关系抽取的准确率,然而使用现有自然语言处理(Natural Language Processing,NLP)语言工具进行句法分析时会引入一定的错误传...关系抽取是自然语言处理中一项基础的上游任务.句子的结构信息在某种意义上蕴含了实体及其关系信息,有助于提高关系抽取的准确率,然而使用现有自然语言处理(Natural Language Processing,NLP)语言工具进行句法分析时会引入一定的错误传播问题,且现有的基于图结构的关系抽取模型在一定程度上忽略了句子的时序信息.通过结合双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi LSTM)捕获句子序列的上下文关系,同时使用传统条件随机场(Conditional Random Field,CRF)的关系标注结果矫正NLP工具的错误传播问题,提出了一种用于关系抽取的双层时空图卷积神经网络(Bilayer Spatiotemporal Graph Convolution Neural Network,Bi SpGCN)模型.该模型在中文糖尿病数据集和中文人物关系数据集上的实验结果表明,相较于传统的多头注意力引导的图卷积神经网络(Attention Guided Graph Convolutional Networks for Relation Extraction,AGGCN)模型,BiSpGCN模型能够充分利用句子的有效信息,具有更好的关系抽取性能.展开更多
由于卷积滤波尺寸等限制,U-net无法学习到心电(Electrocardiographic,ECG)信号的长时序关联性以及标签间的相关性。对此提出一种基于U-net-BiLSTM-CRF的心律失常多目标检测方法,可同时输出目标心拍所属类型和位置信息。使用U-net学习融...由于卷积滤波尺寸等限制,U-net无法学习到心电(Electrocardiographic,ECG)信号的长时序关联性以及标签间的相关性。对此提出一种基于U-net-BiLSTM-CRF的心律失常多目标检测方法,可同时输出目标心拍所属类型和位置信息。使用U-net学习融合特征,再将其输入到双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)中学习长时序依赖特征,最后使用条件随机场(Conditional Random Field,CRF)对标签间的关系建模,优化分类结果。依据ANSI/AAMI EC57:2012的心搏分类标准,对MIT-BIH心律失常数据库中共85609个心拍记录进行划分,在划分后数据集上的实验结果表明,该方法对心拍分类的准确率达99.11%,特异性为99.76%,灵敏度为97.21%,优于传统U-net在MIT-BIH心律失常数据库上的分类性能。展开更多
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名...针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名实体识别模型。模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field, CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体。实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%。Bert-BiLSTM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率。展开更多
基于方面情感分析(Aspect-Based Sentiment Analysis,ABSA)是自然语言处理的热门课题,其中意见目标抽取和意见目标情感极性分类是ABSA的基本子任务之一。而很少有研究直接抽取特定情感极性的意见目标,尤其是抽取更有潜在价值的消极情绪...基于方面情感分析(Aspect-Based Sentiment Analysis,ABSA)是自然语言处理的热门课题,其中意见目标抽取和意见目标情感极性分类是ABSA的基本子任务之一。而很少有研究直接抽取特定情感极性的意见目标,尤其是抽取更有潜在价值的消极情绪意见目标。文中提出了一种全新的ABSA子任务--抽取消极情绪意见目标(Negative-Emotion Opinion Target Extraction,NE-OTE),并提出了基于注意力机制和单词与字符混合嵌入的BiLSTM-CRF模型(Attention-based BiLSTM-CRF with Word Embedding and Character Embedding,AB-CE),在双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)学习文本语义信息和捕获长距离双向语义依赖关系的基础上,通过注意力机制使模型更好地关注输入序列中的关键部分和捕获与意见目标及其情感倾向相关的隐含特征,最终通过CRF层预测句子级别的全局最佳标签序列,实现对消极情绪意见目标的抽取。文中基于主流ABSA任务基准数据集构建了3个NE-OTE任务数据集,并在这些数据集上进行了广泛的实验,实验结果显示,所提模型能够有效识别消极情绪意见目标,且识别效果明显优于其他基线模型,验证了所提方法的有效性。展开更多
文摘针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。
文摘由于卷积滤波尺寸等限制,U-net无法学习到心电(Electrocardiographic,ECG)信号的长时序关联性以及标签间的相关性。对此提出一种基于U-net-BiLSTM-CRF的心律失常多目标检测方法,可同时输出目标心拍所属类型和位置信息。使用U-net学习融合特征,再将其输入到双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)中学习长时序依赖特征,最后使用条件随机场(Conditional Random Field,CRF)对标签间的关系建模,优化分类结果。依据ANSI/AAMI EC57:2012的心搏分类标准,对MIT-BIH心律失常数据库中共85609个心拍记录进行划分,在划分后数据集上的实验结果表明,该方法对心拍分类的准确率达99.11%,特异性为99.76%,灵敏度为97.21%,优于传统U-net在MIT-BIH心律失常数据库上的分类性能。
文摘针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名实体识别模型。模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field, CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体。实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%。Bert-BiLSTM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率。
文摘基于方面情感分析(Aspect-Based Sentiment Analysis,ABSA)是自然语言处理的热门课题,其中意见目标抽取和意见目标情感极性分类是ABSA的基本子任务之一。而很少有研究直接抽取特定情感极性的意见目标,尤其是抽取更有潜在价值的消极情绪意见目标。文中提出了一种全新的ABSA子任务--抽取消极情绪意见目标(Negative-Emotion Opinion Target Extraction,NE-OTE),并提出了基于注意力机制和单词与字符混合嵌入的BiLSTM-CRF模型(Attention-based BiLSTM-CRF with Word Embedding and Character Embedding,AB-CE),在双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)学习文本语义信息和捕获长距离双向语义依赖关系的基础上,通过注意力机制使模型更好地关注输入序列中的关键部分和捕获与意见目标及其情感倾向相关的隐含特征,最终通过CRF层预测句子级别的全局最佳标签序列,实现对消极情绪意见目标的抽取。文中基于主流ABSA任务基准数据集构建了3个NE-OTE任务数据集,并在这些数据集上进行了广泛的实验,实验结果显示,所提模型能够有效识别消极情绪意见目标,且识别效果明显优于其他基线模型,验证了所提方法的有效性。