期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
单词嵌入表示学习综述
1
作者 刘建伟 高悦 《控制理论与应用》 EI CAS CSCD 北大核心 2022年第7期1171-1193,共23页
单词嵌入表示学习是自然语言处理(NLP)中最基本但又很重要的研究内容,是所有后续高级语言处理任务的基础.早期的单词独热表示忽略了单词的语义信息,在应用中常常会遇到数据稀疏的问题,后来随着神经语言模型(NLM)的提出,单词被表示为低... 单词嵌入表示学习是自然语言处理(NLP)中最基本但又很重要的研究内容,是所有后续高级语言处理任务的基础.早期的单词独热表示忽略了单词的语义信息,在应用中常常会遇到数据稀疏的问题,后来随着神经语言模型(NLM)的提出,单词被表示为低维实向量,有效地解决了数据稀疏的问题.单词级的嵌入表示是最初的基于神经网络语言模型的输入表示形式,后来人们又从不同角度出发,提出了诸多变种.本文从模型涉及到的语种数的角度出发,将单词嵌入表示模型分为单语言单词嵌入表示模型和跨语言单词嵌入表示模型两大类.在单语言中,根据模型输入的颗粒度又将模型分为字符级、单词级、短语级及以上的单词嵌入表示模型,不同颗粒度级别的模型的应用场景不同,各有千秋.再将这些模型按照是否考虑上下文信息再次分类,单词嵌入表示还经常与其它场景的模型结合,引入其他模态或关联信息帮助学习单词嵌入表示,提高模型的表现性能,故本文也列举了一些单词嵌入表示模型和其它领域模型的联合应用.通过对上述模型进行研究,将每个模型的特点进行总结和比较,在文章最后给出了未来单词嵌入表示的研究方向和展望. 展开更多
关键词 单词嵌入表示学习 神经网络 语言模型 跨语言 双向编码器表示 信息瓶颈
在线阅读 下载PDF
基于层间融合滤波器与社交神经引文网络的推荐算法
2
作者 杨兴耀 李志林 +3 位作者 张祖莲 于炯 陈嘉颖 王东晓 《计算机工程》 CAS CSCD 北大核心 2024年第11期98-106,共9页
推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和... 推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和社交神经引文网络的推荐算法FS-Rec。首先,利用具有层间融合滤波器的BERT模型预处理引文上下文,在频域内从所有频率中提取有意义的特征,缓解引文上下文数据的噪声,同时在频域中对多层信息进行融合,增强上下文表示学习的能力;然后,在引文作者嵌入中引入社交关系,与其他引文信息嵌入通过编码器获得表示,将这些表示与经过BERT预训练的引文上下文表示进行融合,得到最终表示;最后,根据最终表示生成引文文本预测。实验结果表明,相较于现有的上下文引文推荐模型,FS-Rec在2个基准数据集arXivCS和PubMed取得了更高的召回率和平均倒数排名(MMR),证明了模型的有效性。 展开更多
关键词 滤波器 自注意力机制 基于Transformer的双向编码器表示 引文推荐 预训练语言模型
在线阅读 下载PDF
北京市不动产登记运维问题智能分类
3
作者 董承玮 李云汉 +2 位作者 邢晨 肖曼丽 刘世凡 《北京测绘》 2024年第12期1670-1676,共7页
为提高北京市不动产登记的日常运维效率,解决人工处理效率低下、响应时间长的问题,本文提出一种基于变换器的双向编码器表示模型(BERT)的运维问题自动分类方法。首先使用BERT模型提取运维问题文本的上下文语义特征,然后利用全局最大池... 为提高北京市不动产登记的日常运维效率,解决人工处理效率低下、响应时间长的问题,本文提出一种基于变换器的双向编码器表示模型(BERT)的运维问题自动分类方法。首先使用BERT模型提取运维问题文本的上下文语义特征,然后利用全局最大池化技术提取文本的关键类别特征,最后通过Soft Max函数计算各类别的概率,并选择概率最大的类别作为分类结果。实验结果表明,本文方法的宏平均精确率(MP)、宏平均召回率(MR)和宏平均F1值均大于93%,显著优于常用的文本分类技术,充分证明了该方法的有效性,对构建不动产登记智慧运维体系具有一定的参考意义。 展开更多
关键词 不动产 智能分类 预训练语言模型 基于变换器的双向编码器表示模型(BERT) 数据集构建
在线阅读 下载PDF
ALBERT预训练模型在医疗文书命名实体识别中的应用研究
4
作者 庞秋奔 李银 《信息与电脑》 2024年第6期152-156,共5页
中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform... 中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。 展开更多
关键词 命名实体识别 轻量级来自Transformer的双向编码器表示(ALBERT)模型 TRANSFORMERS 麻醉医疗质量控制指标 医疗手术麻醉文书
在线阅读 下载PDF
知识增强的BERT短文本分类算法 被引量:1
5
作者 傅薛林 金红 +2 位作者 郑玮浩 张奕 陶小梅 《计算机工程与设计》 北大核心 2024年第7期2027-2033,共7页
为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进... 为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进行领域知识的引入;提出一种知识适配器,通过知识适配器在BERT的各个编码层之间进行知识增强。通过在公开的短文本数据集上,将KE-BERT与其它深度学习模型相比较,该模型的F1均值和准确率均值达到93.46%和91.26%,结果表明了所提模型性能表现良好。 展开更多
关键词 短文本分类 深度学习 双向编码器表示转换器 知识图谱 领域知识 知识适配器 知识增强
在线阅读 下载PDF
基于MacBERT与对抗训练的机器阅读理解模型
6
作者 周昭辰 方清茂 +2 位作者 吴晓红 胡平 何小海 《计算机工程》 CAS CSCD 北大核心 2024年第5期41-50,共10页
机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测... 机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测结果。为了提高模型的泛化能力和鲁棒性,提出一种基于掩码校正的来自Transformer的双向编码器表示(Mac BERT)与对抗训练(AT)的机器阅读理解模型。首先利用Mac BERT对输入的问题和文本进行词嵌入转化为向量表示;然后根据原始样本反向传播的梯度变化在原始词向量上添加微小扰动生成对抗样本;最后将原始样本和对抗样本输入双向长短期记忆(Bi LSTM)网络进一步提取文本的上下文特征,输出预测答案。实验结果表明,该模型在简体中文数据集CMRC2018上的F1值和精准匹配(EM)值分别较基线模型提高了1.39和3.85个百分点,在繁体中文数据集DRCD上的F1值和EM值分别较基线模型提高了1.22和1.71个百分点,在英文数据集SQu ADv1.1上的F1值和EM值分别较基线模型提高了2.86和1.85个百分点,优于已有的大部分机器阅读理解模型,并且在真实问答结果上与基线模型进行对比,结果验证了该模型具有更强的鲁棒性和泛化能力,在输入的问题存在噪声的情况下性能更好。 展开更多
关键词 机器阅读理解 对抗训练 预训练模型 掩码校正的来自Transformer的双向编码器表示 双向长短期记忆网络
在线阅读 下载PDF
基于BERT的多模型融合的Web攻击检测方法
7
作者 袁平宇 邱林 《计算机工程》 CAS CSCD 北大核心 2024年第11期197-206,共10页
传统Web攻击检测方法准确率不高,不能有效防范Web攻击。针对该问题,提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预... 传统Web攻击检测方法准确率不高,不能有效防范Web攻击。针对该问题,提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预处理,再通过BERT进行训练得到具备上下文依赖的特征向量,并用TextCNN模型进一步提取其中的高阶语义特征,作为BiLSTM的输入,最后利用Softmax函数进行分类检测。在HTTP CSIC 2010和恶意URL检测两个数据集上对所提方法进行验证,结果表明,与支持向量机(SVM)、逻辑回归(LR)等传统的机器学习方法和现有较新的方法相比,基于BERT的多模型融合的Web攻击检测方法在准确率、精确率、召回率和F1值指标上均表现更优(准确率和F1值的最优值都在99%以上),能准确检测Web攻击。 展开更多
关键词 Web攻击检测 基于变换器的双向编码器表示 多模型融合 HTTP请求 文本卷积神经网络 双向长短期记忆网络
在线阅读 下载PDF
面向行政执法案件文本的事件抽取研究
8
作者 屈潇雅 李兵 温立强 《计算机工程》 CAS CSCD 北大核心 2024年第9期63-71,共9页
行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中... 行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息,可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据,并通过人工标注构建一个行政执法领域的数据集,根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征,提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法,通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明,事件类型检测任务的F1值达到99.54%,事件论元抽取任务的F1值达到97.36%,实现了对案件信息的有效抽取。 展开更多
关键词 行政执法案件 事件抽取 两阶段方法 基于Transformer的双向编码器表示模型 基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型
在线阅读 下载PDF
基于多模态交叉互动的情感识别算法
9
作者 张慧 李菲菲 《电子科技》 2024年第10期81-87,共7页
由于单模态情感识别的局限性,研究者已将其研究重点转移到多模态情感识别领域。多模态情感识别围绕最优提取每个模态的特征以及有效融合所提取出的特征这两方面问题进行研究。文中提出了一种基于多模态交叉互动的情感识别方法,以捕获模... 由于单模态情感识别的局限性,研究者已将其研究重点转移到多模态情感识别领域。多模态情感识别围绕最优提取每个模态的特征以及有效融合所提取出的特征这两方面问题进行研究。文中提出了一种基于多模态交叉互动的情感识别方法,以捕获模态表达的多样性。各种模态的编辑器分别提取具有情感信息的特征,模态间注意力机制堆叠的交互模块建模视觉-文本-音频之间的潜在关系。在基于文本、语音和图像的CMU-MOSI和CMU-MOSEI情感识别数据集上进行实验,结果显示在Acc2(Accuracy2)、Acc7(Accuracy7)、F1、MAE(Mean Absolute Error)和Corr(Correlation)这5个指标上文中方法分别取得了86.5%、47.7%、86.4%、0.718、0.776和83.4%、51.5%、83.4%、0.566、0.737的成绩,证明该方法性能具有显著提升,同时也验证了模态间交叉映射互相表示机制比各单模态表示方法具有更好的性能。 展开更多
关键词 多模态 特征融合 情感识别 情感分析 注意力机制 变压器 变压器的双向编码器表示 交互映射
在线阅读 下载PDF
基于MCA-BERT的数学文本分类方法 被引量:2
10
作者 杨先凤 龚睿 李自强 《计算机工程与设计》 北大核心 2023年第8期2312-2319,共8页
为尽可能地提高数学文本分类的效果,通过构建数学文本数据集并对该数据集进行分析,提出增强文本实体信息的多通道注意力机制-Transformers的双向编码器表示(MCA-BERT)模型。通过Word2vec词向量的平均池化获得句子级的实体信息,通过注意... 为尽可能地提高数学文本分类的效果,通过构建数学文本数据集并对该数据集进行分析,提出增强文本实体信息的多通道注意力机制-Transformers的双向编码器表示(MCA-BERT)模型。通过Word2vec词向量的平均池化获得句子级的实体信息,通过注意力机制给不同词赋予不同权重,获得词语级的实体信息,将两类实体信息与BERT输出的上下文信息拼接,通过Softmax层得到分类结果。该方法在数学文本数据集上的F1值相比BERT单通道的方法提高了2.1个百分点。实验结果说明,该方法能够有效增强文本实体信息,获得更好的分类效果。 展开更多
关键词 数学文本分类 实体信息 注意力机制 多通道 双向编码器表示 词向量 分类器
在线阅读 下载PDF
基于BERT模型的中文短文本分类算法 被引量:86
11
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
在线阅读 下载PDF
面向工业生产的中文Text-to-SQL模型 被引量:2
12
作者 吕剑清 王先兵 +2 位作者 陈刚 张华 王明刚 《计算机应用》 CSCD 北大核心 2022年第10期2996-3002,共7页
英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模... 英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模型精确匹配率变低。针对迁移过程中出现的问题,提出了对应的解决方法并构建修改后的模型。首先,在数据使用过程中融入工厂元数据信息以解决表示形式不一致以及列名隐含在语义中的问题;然后,根据中文语言表达方式的特性,使用基于相对位置的自注意力模型直接通过问句以及数据库模式信息识别出where子句的value值;最后,根据工业问句查询内容的特性,使用微调后的基于变换器的双向编码器表示技术(BERT)对问句进行分类以提高模型对SQL语句结构预测的准确率。构建了一个基于铝冶炼行业的工业数据集,并在该数据集上进行实验验证。结果表明所提模型在工业测试集上的精确匹配率为74.2%,对比英文数据集Spider上各阶段主流模型的效果后可以看出,所提模型能有效处理中文工业Text-to-SQL任务。 展开更多
关键词 中文Text-to-SQL任务 工业数据集 元数据 自注意力模型 基于变换器的双向编码器表示技术
在线阅读 下载PDF
融合BERT语义加权与网络图的关键词抽取方法 被引量:15
13
作者 李俊 吕学强 《计算机工程》 CAS CSCD 北大核心 2020年第9期89-94,共6页
结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对... 结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对文档中的词语进行综合影响力得分排序,最终提取得分最高的Top N个词语作为关键词。实验结果表明,当选取Top3、Top5、Top7和Top10个关键词时,与基于词向量聚类质心与TextRank加权的关键词抽取方法相比,该方法的平均F值提升了2.5%,关键词抽取效率更高。 展开更多
关键词 关键词抽取 语义关系 词向量 TextRank方法 基于Transformer的双向编码器表示
在线阅读 下载PDF
融合多种类型语法信息的属性级情感分析模型 被引量:2
14
作者 肖泽管 陈清亮 《计算机科学与探索》 CSCD 北大核心 2022年第2期395-402,共8页
属性级情感分析(ABSA)的目标是识别出句子中属性的情感倾向。现有的方法大多使用注意力机制隐性地建模属性与上下文中情感表达的关系,而忽略了使用语法信息。一方面,属性的情感倾向与句子中的情感表达有紧密的联系,利用句子的句法结构... 属性级情感分析(ABSA)的目标是识别出句子中属性的情感倾向。现有的方法大多使用注意力机制隐性地建模属性与上下文中情感表达的关系,而忽略了使用语法信息。一方面,属性的情感倾向与句子中的情感表达有紧密的联系,利用句子的句法结构可以更直接地对两者建模;另一方面,由于现有的基准数据集较小,模型无法充分学习通用语法知识,这使得它们难以处理复杂的句型和情感表达。针对以上问题,提出一种利用多种类型语法信息的神经网络模型。该模型采用基于依存句法树的图卷积神经网络(GCN),并利用句法结构信息直接匹配属性与其对应情感表达,缓解冗余信息对分类的干扰。同时,使用预训练模型BERT具有多种类型的语法信息的中间层表示作为指导信息,给予模型更多的语法知识。每一层GCN的输入结合上一层GCN的输出和BERT中间层指导信息。最后将属性在最后一层GCN的表示作为特征进行情感倾向分类。通过在SemEval 2014 Task4 Restaurant、Laptop和Twitter数据集上的实验结果表明,提出模型的分类效果超越了很多基准模型。 展开更多
关键词 属性级 情感分析 基于变换器的双向编码器表示技术(BERT) 依存句法树 图卷积神经网络(GCN)
在线阅读 下载PDF
融合注意力机制的电力集控安全隐患实体识别模型研究 被引量:2
15
作者 张滈辰 屈红军 +1 位作者 牛雪莹 耿琴兰 《自动化仪表》 CAS 2023年第10期55-59,64,共6页
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,... 针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。 展开更多
关键词 实体识别 注意力机制 基于Transformer的双向编码器表示 电力集控隐患 最优标签序列 双向长短时记忆网络 条件随机场
在线阅读 下载PDF
基于BERT-GCN-ResNet的文献摘要自动分类方法 被引量:1
16
作者 郭羽 林丽媛 刘玉良 《天津科技大学学报》 CAS 2022年第2期51-56,共6页
为了提升文献摘要自动分类性能,提高分类准确率,有效学习词与文档、文档与文档之间的关联性,本文提出一种基于BERT-GCN-ResNet的文献摘要分类方法.该方法采用转换器的双向编码器表示模型(bidirectional encoder representation from tra... 为了提升文献摘要自动分类性能,提高分类准确率,有效学习词与文档、文档与文档之间的关联性,本文提出一种基于BERT-GCN-ResNet的文献摘要分类方法.该方法采用转换器的双向编码器表示模型(bidirectional encoder representation from transformers,BERT)得到待分类短文本的词向量初始特征,进而构建边和节点特征;将其输入图卷积神经网络(graph convolutional networks,GCN),并在图卷积层之间加入残差网络(residual network,ResNet)模块;最后将利用图卷积层和残差网络层得到的短文本表示输出至softmax,得到最终的分类结果.将该方法在4种不同的公开文本分类数据集上进行实验,模型准确率最高达97.01%,优于基准模型.同时,在本文构建的基于短文本文献摘要的Abstext数据集上进行验证,分类准确率为96.85%,表明该模型泛化能力较好,能够提高文献自动分类的准确率. 展开更多
关键词 图卷积神经网络 转换器的双向编码器表示模型 残差网络 文献自动分类 预训练模型
在线阅读 下载PDF
基于BERT的施工安全事故文本命名实体识别方法 被引量:1
17
作者 孙文涵 王俊杰 《电视技术》 2023年第1期20-26,共7页
为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名... 为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用BERT预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的F1值分数为92.58%,较基准模型BiLSTM-CRF提升了4.19%;该方法对事故时间等5类实体识别F1值均可达到91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。 展开更多
关键词 双向编码器表示(BERT) 施工安全管理 命名实体识别 知识图谱 知识管理
在线阅读 下载PDF
基于BERT的灾害三元组信息抽取优化研究 被引量:7
18
作者 宋敦江 杨霖 钟少波 《中国安全科学学报》 CAS CSCD 北大核心 2022年第2期115-120,共6页
为从网络媒体文本中快速、准确提取灾害三元组信息,利用自然语言处理(NLP)技术,研究灾害三元组信息抽取应用及其算法优化。通过双向编码器表示(BERT)预训练语言模型,应用于地质灾害三元组信息提取的实例中,针对模型由于底层多头注意力(M... 为从网络媒体文本中快速、准确提取灾害三元组信息,利用自然语言处理(NLP)技术,研究灾害三元组信息抽取应用及其算法优化。通过双向编码器表示(BERT)预训练语言模型,应用于地质灾害三元组信息提取的实例中,针对模型由于底层多头注意力(MHA)机制会导致“低秩瓶颈”问题,对此,通过增大模型key-size对其进行优化。结果表明:所提方法能够显著提升从新闻报道等文本中提取地质灾害种类、发生地点、发生时间等关键信息的容错率及精准率;可得到对地质等灾害空间分布情况和趋势的分析,进而为预案编制、应急资源优化配置、区域监测预警等灾害应急管理工作提供科学分析和决策信息支持。 展开更多
关键词 然语言处理(NLP) 双向编码器表示(BERT) 低秩瓶颈 多头注意力(MHA) 灾害信息
在线阅读 下载PDF
基于BERT-CNN的Webshell流量检测系统设计与实现 被引量:6
19
作者 江魁 余志航 +1 位作者 陈小雷 李宇豪 《计算机应用》 CSCD 北大核心 2023年第S01期126-132,共7页
Webshell是一种网站后门程序,常被黑客用于入侵服务器后对服务器进行控制,给网站带来严重的安全隐患。针对以往基于流量的机器学习检测Webshell方法存在特征选择不全、向量化不准确、模型设计不合理导致的检测效果不佳问题,设计并实现... Webshell是一种网站后门程序,常被黑客用于入侵服务器后对服务器进行控制,给网站带来严重的安全隐患。针对以往基于流量的机器学习检测Webshell方法存在特征选择不全、向量化不准确、模型设计不合理导致的检测效果不佳问题,设计并实现了一种将基于变换器的双向编码器表示技术(BERT)与卷积神经网络(CNN)相结合的Webshell流量检测系统,通过分析超文本传输协议(HTTP)报文中各个字段信息,提取其中具有Webshell信息的特征字段,使用BERT模型对特征进行向量化编码,并结合一维CNN模型从不同空间维度检测特征建立分类模型,最后使用模型对流量数据进行检测调优。实验结果表明,与以往基于流量检测方法相比,该检测系统在准确率、召回率和F1值等性能指标上表现更好,分别达到99.84%、99.83%、99.84%。 展开更多
关键词 Webshell检测 深度学习 流量检测 基于变换器的双向编码器表示 卷积神经网络
在线阅读 下载PDF
基于孪生网络和BERT模型的主观题自动评分系统 被引量:10
20
作者 钱升华 《计算机系统应用》 2022年第3期143-149,共7页
由于现在缺乏多语言教学中的主观题自动评分,针对这一问题提出了一种基于孪生网络和BERT模型的主观题自动评分系统.主观题的问题文本和答案文本通过自然语言预处理BERT模型得到文本的句向量,BERT模型已经在大规模多种语言的语料上经过训... 由于现在缺乏多语言教学中的主观题自动评分,针对这一问题提出了一种基于孪生网络和BERT模型的主观题自动评分系统.主观题的问题文本和答案文本通过自然语言预处理BERT模型得到文本的句向量,BERT模型已经在大规模多种语言的语料上经过训练,得到的文本向量包含了丰富的上下文语义信息,并且能处理多种语言信息.然后把问题文本和答案文本的句向量再通过深度网络的孪生网络进行语义相似度的计算,最后连接逻辑回归分类器,完成主观题的自动评分.实验所使用数据集由Hewlett基金提供的英文数据集以及翻译后的中文数据集,并以二次加权Kappa系数作为模型的评估指标.实验结果表明,对比其他基准模型,基于孪生网络和BERT模型的自动评分系统在各个数据子集得到的结果最好. 展开更多
关键词 自然语言处理 主观题自动评分 孪生网络 基于transformer的双向编码器表示 二次加权Kappa系数
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部