期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
嵌入导联上下文编码的图卷积神经网络心律失常分类模型
1
作者 喻云虎 杨湘 陈艳红 《计算机工程与应用》 北大核心 2025年第3期212-222,共11页
心律失常对患者健康造成严重威胁,其通过12导联心电图(electrocardiogram,ECG)的自动分类在临床上具有重要意义。现有研究偏重两两导联之间的相关性,忽视多导联上下文及频域特征,这导致了分析的局限性,且易受噪声干扰,影响分类准确性。... 心律失常对患者健康造成严重威胁,其通过12导联心电图(electrocardiogram,ECG)的自动分类在临床上具有重要意义。现有研究偏重两两导联之间的相关性,忽视多导联上下文及频域特征,这导致了分析的局限性,且易受噪声干扰,影响分类准确性。该研究提出了嵌入导联上下文编码的图卷积神经网络心律失常分类模型(lead con-text encoding embedded graph convolutional neural network model for arrhythmia classification,LCEE-GCN)。该模型利用短时傅里叶变换获取12导联心电信号的功率谱密度(power spectral density,PSD),并运用ECG信号处理算法提取R-R间期等时域特征,通过导联上下文编码获得导联间更广泛的相关性信息,并结合PSD与时域特征构建动态图结构,利用图卷积神经网络增强模型对导联间关系的学习与表示能力。在查普曼数据集上进行的实验表明,模型达到了99.38%的准确率,超过了现有先进方法。这一创新有望提高心律失常诊断的效率和准确性。 展开更多
关键词 心律失常分类 12导联心电图 图卷积神经网络 功率谱密度 导联上下文编码
在线阅读 下载PDF
基于图结构特征采样数据摘要的联邦知识图谱查询 被引量:1
2
作者 高峰 李秋 顾进广 《计算机工程》 CAS CSCD 北大核心 2023年第1期73-81,共9页
联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且... 联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且在大部分环境中联邦查询无法完成对大数据集的统计工作。为在减少数据摘要索引文件生成时间和内存开销的同时捕获尽可能真实的计数信息,考虑主语和谓语的分布偏差,提出利用样图生成原始图近似数据摘要的方法。使用对RDF图出度特征加权的采样方法获取原始图的典型样图,通过改进的映射函数将样图中的信息映射到原始图上,从而生成原始图的近似数据摘要。实验结果表明,该方法相比于基线方法至少节省了70%的数据摘要索引文件生成时间,并且仅采样0.5%的原始图生成的近似数据摘要即可在查询正确率上与基线方法保持高度一致。 展开更多
关键词 数据摘要 数据源索引 RDF图采样 联邦查询 查询性能
在线阅读 下载PDF
融合依存句法和实体信息的临床时间关系抽取 被引量:1
3
作者 黄汉琴 顾进广 符海东 《计算机技术与发展》 2024年第1期128-135,共8页
在临床文本中,时间关系对于研究患者的病情和治疗方案至关重要。而目前的时间关系抽取基于简单时间比较,仅判断4种时间关系。考虑中文临床文本中还存在大量的复杂时间和关系,现有时间关系抽取任务不能全部表达临床事件的时间关系,参考CT... 在临床文本中,时间关系对于研究患者的病情和治疗方案至关重要。而目前的时间关系抽取基于简单时间比较,仅判断4种时间关系。考虑中文临床文本中还存在大量的复杂时间和关系,现有时间关系抽取任务不能全部表达临床事件的时间关系,参考CTO时间本体将抽取任务扩展为复杂时间关系抽取。同时针对中文临床文本语义的复杂性,提出了融合依存句法和实体信息的模型学习中文句子的整体信息和实体信息。该模型针对句内时间关系和句间时间关系设计依存特征矩阵引导BERT的编码器聚合全局信息和局部信息,然后导出句子表征向量,在此基础上使用内积和哈达玛积提取丰富的实体信息,最终将句子信息和实体信息导入分类器判断时间关系。与基线模型和其他深度学习模型相比,证明了该模型的有效性。 展开更多
关键词 时间关系抽取 自注意力机制 依存句法 局部信息 实体信息
在线阅读 下载PDF
基于查询特征表示学习的联邦复杂查询基数估计
4
作者 徐娇 田萍芳 +1 位作者 顾进广 徐芳芳 《计算机技术与发展》 2024年第2期32-39,共8页
准确的基数估计是实现最佳查询计划的关键因素,现有方法大多基于深度学习来解决基数估计问题。然而,这种基于RDF图模式的方法专注于具有特定拓扑结构的简单查询,适用范围有限,缺乏对现实场景中频繁使用的复杂类查询的支持。为了解决以... 准确的基数估计是实现最佳查询计划的关键因素,现有方法大多基于深度学习来解决基数估计问题。然而,这种基于RDF图模式的方法专注于具有特定拓扑结构的简单查询,适用范围有限,缺乏对现实场景中频繁使用的复杂类查询的支持。为了解决以上问题,提出一种基于查询特征表示学习的联邦复杂查询基数估计模型。该模型主要处理带有FILTER或DISTINCT关键字的复杂查询,使用新提出的FILTER查询特征化方法将SPARQL查询表示为特征向量,通过模型预测查询基数。同时使用模型预测DISITINCT查询中唯一行比率。在LUBM数据集上的实验表明,与最先进的基数估计方法相比,该模型在估计质量上表现优异,平均估计误差中位数可达1.16,并对多连接查询的基数估计表现出潜力和可扩展性。 展开更多
关键词 联邦系统 查询优化 复杂查询 深度学习 基数估计
在线阅读 下载PDF
结合多尺度融合和图匹配的行人重识别
5
作者 李冬 张智 《计算机工程与设计》 北大核心 2024年第7期2180-2186,共7页
由于行人遮挡、视角变化等因素影响,传统的行人重识别并不能准确表达遮挡行人的信息。针对该问题,提出一种基于多尺度融合和图匹配的网络模型。分为提取不同尺度的特征和基于拓扑结构匹配图像两个部分,将主干网络分为两个子分支分别提... 由于行人遮挡、视角变化等因素影响,传统的行人重识别并不能准确表达遮挡行人的信息。针对该问题,提出一种基于多尺度融合和图匹配的网络模型。分为提取不同尺度的特征和基于拓扑结构匹配图像两个部分,将主干网络分为两个子分支分别提取全局特征并融合多个网络层面的局部特征;使用多头注意力机制学习相邻关键点的关系,基于拓扑结构匹配图像并预测相似度结果。使用ResNet-50作为主干网络,在Occluded-Duke数据集上的Rank-1和mAP分别是64.8%和59.9%,验证该模型在遮挡行人重识别中有一定程度的准确率提升。 展开更多
关键词 行人重识别 目标检测 局部特征 多尺度特征融合 图注意力机制 图匹配 卷积神经网络
在线阅读 下载PDF
边缘场景下基于DDQN的容器组调度策略
6
作者 王钰童 顾进广 《计算机技术与发展》 2024年第9期16-22,共7页
工业互联网中存在大量部署于边缘服务器上的在/离线容器服务,这些容器服务一方面承载着低延时,高响应的需求,另一方面又具有错综复杂的调用关系。通常边缘集群的调度策略并未考虑到容器服务之间的依赖关系,这导致具有依赖关系容器服务... 工业互联网中存在大量部署于边缘服务器上的在/离线容器服务,这些容器服务一方面承载着低延时,高响应的需求,另一方面又具有错综复杂的调用关系。通常边缘集群的调度策略并未考虑到容器服务之间的依赖关系,这导致具有依赖关系容器服务可能在调度过程中被分散到不同的边缘节点上,并由此产生大量跨节点调用造成额外资源损耗。针对具有依赖关系的容器,该文提出面向边缘场景的容器组调度优化策略。首先通过容器聚类算法CDSC(Container Dependency Spectral Clustering)将有依赖关系的容器划分为一个或多个容器组,使得组内容器依赖强度尽可能的大,组间依赖强度尽可能的小,以减少其进行跨节点调用的频率;再通过引入双深度Q网络模型(Double DQN)将容器组作为基本调度单位,以容器依赖开销,集群和节点内部负载为优化目标,根据边缘节点实际情况自适应学习优化调度策略,使其能应对复杂多变的边缘集群情况。经实验表明,相比于传统的启发式算法和其他深度强化学习算法,该算法在容器服务响应时间、集群和节点负载方面具有明显的优势。 展开更多
关键词 调度优化 深度强化学习 容器聚类 集群 容器依赖开销
在线阅读 下载PDF
基于注意力机制的双向长短时记忆网络模型突发事件演化关系抽取 被引量:13
7
作者 闻畅 刘宇 顾进广 《计算机应用》 CSCD 北大核心 2019年第6期1646-1651,共6页
针对现有突发事件关系抽取研究多集中于因果关系抽取而忽略了其他演化关系的问题,为了提高应急决策中信息抽取的完备性,应用一种基于注意力机制的双向长短时记忆(LSTM)网络模型进行突发事件演化关系抽取。首先,结合突发事件演化关系的概... 针对现有突发事件关系抽取研究多集中于因果关系抽取而忽略了其他演化关系的问题,为了提高应急决策中信息抽取的完备性,应用一种基于注意力机制的双向长短时记忆(LSTM)网络模型进行突发事件演化关系抽取。首先,结合突发事件演化关系的概念,构建演化关系模型并进行形式化定义,依据模型对突发事件语料进行标注;其次,搭建双向LSTM网络结构,并引入注意力机制计算注意力概率以突出关键词汇在文本中的重要程度;最终,使用搭建的网络模型进行演化关系抽取得到结果。在演化关系抽取实验中,相对于现有因果关系抽取方法,所提方法不仅抽取出更加充分的演化关系,为突发事件应急决策提供了更完善的信息;同时,在正确率、召回率和F1分数上分别平均提升了7.3%、6.7%和7.0%,有效提高了突发事件演化关系抽取的准确性。 展开更多
关键词 关系抽取 突发事件 演化关系 注意力机制 双向长短时记忆网络
在线阅读 下载PDF
本体演化的波及效应计算优化研究 被引量:2
8
作者 陈晶 刘钊 +1 位作者 顾进广 刘宇 《计算机应用研究》 CSCD 北大核心 2020年第8期2366-2370,共5页
鉴于使用Floyd-Warshall算法对规模较大的本体评估具有时间复杂度与空间复杂度较高且未考虑本体演化过程中各版本之间的关联,提出基于邻接表的SPFA(shortest path faster algorithm)优化波及效应的计算。该算法不仅在大规模本体计算中... 鉴于使用Floyd-Warshall算法对规模较大的本体评估具有时间复杂度与空间复杂度较高且未考虑本体演化过程中各版本之间的关联,提出基于邻接表的SPFA(shortest path faster algorithm)优化波及效应的计算。该算法不仅在大规模本体计算中具有计算效率的优势,而且可以简化版本迭代过程中波及效应的计算过程。实验结果表明,使用SPFA在计算本体的波及效应相比于基于邻接矩阵的方式具有一定的时间优势,并且这种优势随着时间的变化逐渐增加;在本体演化的波及效应计算时间中,本体演化后版本的计算时间大约与原有方法相差较少,证明了优化计算的有效性。 展开更多
关键词 本体演化 波及效应 SPFA 邻接表
在线阅读 下载PDF
基于自适应学习率优化的AdaNet改进 被引量:6
9
作者 刘然 刘宇 顾进广 《计算机应用》 CSCD 北大核心 2020年第10期2804-2810,共7页
人工神经网络的自适应结构学习(AdaNet)是基于Boosting集成学习的神经结构搜索框架,可通过集成子网创建高质量的模型。现有的AdaNet所产生的子网之间的差异性不显著,因而限制了集成学习中泛化误差的降低。在AdaNet设置子网网络权重和集... 人工神经网络的自适应结构学习(AdaNet)是基于Boosting集成学习的神经结构搜索框架,可通过集成子网创建高质量的模型。现有的AdaNet所产生的子网之间的差异性不显著,因而限制了集成学习中泛化误差的降低。在AdaNet设置子网网络权重和集成子网的两个步骤中,使用Adagrad、RMSProp、Adam、RAdam等自适应学习率方法来改进现有AdaNet中的优化算法。改进后的优化算法能够为不同维度参数提供不同程度的学习率缩放,得到更分散的权重分布,以增加AdaNet产生子网的多样性,从而降低集成学习的泛化误差。实验结果表明,在MNIST(Mixed National Institute of Standards and Technology database)、Fashion-MNIST、带高斯噪声的Fashion-MNIST这三个数据集上,改进后的优化算法能提升AdaNet的搜索速度,而且该方法产生的更加多样性的子网能提升集成模型的性能。在F1值这一评估模型性能的指标上,改进后的方法相较于原方法,在三种数据集上的最大提升幅度分别为0.28%、1.05%和1.10%。 展开更多
关键词 AdaNet 神经架构搜索 集成学习 自适应学习率方法 自动机器学习
在线阅读 下载PDF
基于双通道混合神经网络的房颤风险预测模型 被引量:1
10
作者 柯博文 杨湘 陈艳红 《计算机工程》 CAS CSCD 北大核心 2023年第11期293-301,共9页
心房颤动是一种具有隐秘性的心血管疾病,发病时具有较高的致命性,因此,对其进行预判和早筛尤为重要。电子健康病历(EHR)作为常规的检查结果记录方式,相较于心电图(ECG)数据,能使房颤的预测和筛查更具普遍性。现有的基于EHR的房颤风险预... 心房颤动是一种具有隐秘性的心血管疾病,发病时具有较高的致命性,因此,对其进行预判和早筛尤为重要。电子健康病历(EHR)作为常规的检查结果记录方式,相较于心电图(ECG)数据,能使房颤的预测和筛查更具普遍性。现有的基于EHR的房颤风险预测方法缺乏对房颤重要指标的关注,同时传统的基于卷积的模型无法提取到医疗诊断之间的依赖关系。提出一种双通道混合神经网络学习模型FR-ANN。该模型分两个通道进行特征提取,一个通道利用注意力机制Attention提取医疗事件之间的潜在关系,另一个通道对房颤的部分重要指标进行特征提取,这些与房颤相关的重要指标在医生的协助下筛选得到。实验结果表明,所提模型在武汉亚洲心脏病医院的私有数据集上的AUC值为80.1%,F1值为68.1%,在MIT的公共数据集MIMIC-Ⅲ上的AUC值为71.4%,F1值为62.8%,相比基于EHR数据的疾病风险预测模型在房颤风险预测任务上的表现更好。此外,注意力机制的引入提供了事后可解释性,具有临床意义。 展开更多
关键词 心房颤动 疾病分类 电子健康病历 注意力机制 神经网络
在线阅读 下载PDF
基于特征联合与多注意力的实体关系链接 被引量:1
11
作者 付林 刘钊 +1 位作者 邱晨 高峰 《计算机工程》 CAS CSCD 北大核心 2022年第8期53-61,共9页
实体链接和关系链接作为知识库问答的核心组件链接自然语言问题和知识库信息,通常作为两个独立的任务执行,但该执行方式忽略了链接中产生的信息间的相互影响。同时,将候选实体和关系分别计算相似性的方法没有考虑候选实体和关系的内在... 实体链接和关系链接作为知识库问答的核心组件链接自然语言问题和知识库信息,通常作为两个独立的任务执行,但该执行方式忽略了链接中产生的信息间的相互影响。同时,将候选实体和关系分别计算相似性的方法没有考虑候选实体和关系的内在联系。提出一种基于神经网络的特征联合和多注意力的实体关系链接方法,运用神经网络对问题、实体、关系以及实体-关系对进行编码和向量表示学习,通过添加注意力机制的方法获取候选实体及关系在问题中的权重信息,在计算实体(关系)向量与问题向量的相似性时加入实体-关系对向量,利用实体-关系对中包含的信息提高链接的精度。在LC-QuAD和QALD-7数据集上的实验结果表明,与Falcon模型相比,该方法至少提高了1%的链接精度。 展开更多
关键词 知识库问答 联合实体关系链接 实体-关系对 注意力机制 知识图谱
在线阅读 下载PDF
基于资源紧迫度的实时ETL弹性调度机制 被引量:1
12
作者 王萌 刘旋律 +1 位作者 高峰 顾进广 《计算机应用研究》 CSCD 北大核心 2021年第7期2118-2124,共7页
在ETL系统中,当数据生产速度遇到较大的波动时,为了使现有资源在有限的条件下极大程度地满足用户的使用需求,提出了基于资源紧迫度的ETL弹性调度机制。首先,构建基于历史数据的时间序列预测模型,用来预测数据生产速度;然后,根据各个ETL... 在ETL系统中,当数据生产速度遇到较大的波动时,为了使现有资源在有限的条件下极大程度地满足用户的使用需求,提出了基于资源紧迫度的ETL弹性调度机制。首先,构建基于历史数据的时间序列预测模型,用来预测数据生产速度;然后,根据各个ETL过程提交的资源清单和各个服务器负载情况,对单个用户的多个ETL过程的资源进行调整。该调度机制将资源调度问题转换为多维背包问题,提出了基于资源紧迫度的动态调度算法。实验结果表明,当用户资源对所有的ETL过程稀缺的时候,该调度算法会使资源得到更好的利用。通过实验验证了弹性调度比传统的调度方式在资源利用方面具有优势。 展开更多
关键词 实时ETL 弹性调度 资源调度 多维背包
在线阅读 下载PDF
基于CS及ECS索引的后向链式流推理 被引量:1
13
作者 韩裕镥 顾进广 李奇缘 《计算机应用与软件》 北大核心 2023年第9期1-9,36,共10页
目前的RDF查询引擎存在忽略语义流数据量、查询延迟较高的缺陷。为了解决以上问题,将ECS索引和后向链式流推理相结合,加载新的RDF数据集并提取三元组特征集(Characteristic Set, CS)索引和扩展特征集(Extended Characteristic Set, ECS... 目前的RDF查询引擎存在忽略语义流数据量、查询延迟较高的缺陷。为了解决以上问题,将ECS索引和后向链式流推理相结合,加载新的RDF数据集并提取三元组特征集(Characteristic Set, CS)索引和扩展特征集(Extended Characteristic Set, ECS)索引,基于ECS索引后向推理,处理SPARQL查询并获取结果。对比结果表明,ECS索引和后向链式流推理相结合的方法可以明显提升RDF查询推理效率。 展开更多
关键词 流处理 流推理 SPARQL CS索引 ECS索引
在线阅读 下载PDF
基于稳定匹配的实时ETL弹性调度机制 被引量:1
14
作者 刘旋律 顾进广 《计算机应用与软件》 北大核心 2022年第2期266-273,共8页
在数据生产速度波动较大的场景,为了实时ETL资源利用更合理,提出基于稳定匹配的ETL弹性调度机制。预测数据源的数据生产速度,并计算满足预测值的消费数据速度;使用贪婪负载均衡算法,调整ETL服务个数使节点负载均衡;确定ETL操作匹配关系... 在数据生产速度波动较大的场景,为了实时ETL资源利用更合理,提出基于稳定匹配的ETL弹性调度机制。预测数据源的数据生产速度,并计算满足预测值的消费数据速度;使用贪婪负载均衡算法,调整ETL服务个数使节点负载均衡;确定ETL操作匹配关系,使消费数据速度最大且代价最小。该调度机制将匹配问题转化为最小费用最大流问题,并提出基于Dicnic算法的改进算法。实验结果表明,该调度机制在资源使用方面具有优势。 展开更多
关键词 实时ETL 弹性调度 稳定匹配 最小费用最大流
在线阅读 下载PDF
细粒度可循证医药学文档知识融合表示和推理 被引量:1
15
作者 高峰 龚珊珊 +1 位作者 顾进广 徐芳芳 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2023年第6期796-808,共13页
知识图谱开放灵活、互操作性强,对于表达医学知识具有重要价值,但现有医学知识本体模型存在过于关注概念体系构建、深层次医学知识及关联缺失、无法循证和难以跨病种和学科等不足,为解决以上问题,提出了一种支持全文内容与结构细粒度知... 知识图谱开放灵活、互操作性强,对于表达医学知识具有重要价值,但现有医学知识本体模型存在过于关注概念体系构建、深层次医学知识及关联缺失、无法循证和难以跨病种和学科等不足,为解决以上问题,提出了一种支持全文内容与结构细粒度知识和知识论证与循证关系表示的医药学融合知识表示模型及其推理机制,构建了一个面向高血压专病的医药知识图谱来验证这一方法。结果表明,该模型能全面、一致地表达医药学文献、文档中的细粒度知识,同时支持可循证查询和推理。 展开更多
关键词 知识图谱 医学知识 细粒度 可循证 推理
原文传递
本体演化中基于TFOF的波及效应分析 被引量:4
16
作者 陈晶 刘钊 +1 位作者 顾进广 刘宇 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2020年第2期197-204,共8页
通过定量地评估本体中概念或实体的波及效应,本体的所有者和使用者均能够准确、全面地分析本体演化。现有方法初步量化了本体中的波及效应,但是并未考虑本体中语义关系强弱对于波及效应的影响。针对上述问题,本文提出了基于术语频率与... 通过定量地评估本体中概念或实体的波及效应,本体的所有者和使用者均能够准确、全面地分析本体演化。现有方法初步量化了本体中的波及效应,但是并未考虑本体中语义关系强弱对于波及效应的影响。针对上述问题,本文提出了基于术语频率与本体频率(term frequency and ontology frequency,TFOF)的定量评估方法,并将其应用于本体演化研究。该方法利用本体中语义关系的出现频率计算关系的权重,从而获得本体所对应的语义关系矩阵,最后运用改进的Floyd-warshall算法计算各个概念或实体的波及效应。实验结果表明,基于TFOF波及效应的评估方法能够更精准地度量本体演化过程中概念或实体的波及效应,且该方法对不同版本中共有结点的度量结果更加稳定。 展开更多
关键词 本体演化 波及效应 语义关系 TFOF算法
原文传递
一种多篇科技论文新颖性对比评估方法 被引量:1
17
作者 张吉玉 张均胜 乔晓东 《图书情报工作》 CSSCI 北大核心 2023年第19期68-79,共12页
[目的/意义]结合科技论文内容与引文信息对多篇论文的新颖性进行综合评估,为代表作评价与人才遴选等提供辅助。[方法/过程]提出一种对多篇科技论文新颖性进行对比评估的方法。该方法建立多篇论文问题—方法矩阵关联模型,计算多篇论文的... [目的/意义]结合科技论文内容与引文信息对多篇论文的新颖性进行综合评估,为代表作评价与人才遴选等提供辅助。[方法/过程]提出一种对多篇科技论文新颖性进行对比评估的方法。该方法建立多篇论文问题—方法矩阵关联模型,计算多篇论文的问题新颖度与方法新颖度,并结合施引文献的引文文本与引用情况,构建多篇科技论文的评述画像用于新颖性对比评估。[结果/结论]以图情领域两名学者为例,将两位学者的多篇论文组合分别编号为D1与D2并对其新颖性进行对比评估,得出D2的问题新颖度优于D1,而D1的方法新颖性略高于D2等结论,验证了所提方法的可行性与合理性。 展开更多
关键词 科技论文 新颖性评估 代表作评价 问题—方法矩阵 可视化
原文传递
面向反恐安全领域的中文阅读理解数据集构建与评测
18
作者 高峰 杨梓航 +2 位作者 候进 顾进广 程军军 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2023年第10期131-143,共13页
【目的】为解决反恐安全领域机器阅读理解技术研究缺少专业数据集支持的问题,提出一个面向该领域的中文机器阅读理解数据集SecMRC。【方法】构建关键词搜索引擎获取领域新闻语料,通过ERNIE-GEN模型自动生成问题文本进行预标注。使用时... 【目的】为解决反恐安全领域机器阅读理解技术研究缺少专业数据集支持的问题,提出一个面向该领域的中文机器阅读理解数据集SecMRC。【方法】构建关键词搜索引擎获取领域新闻语料,通过ERNIE-GEN模型自动生成问题文本进行预标注。使用时间特征词和领域关键词匹配算法构建领域词表,辅助模型精确分词。最后结合人工标注问答对形成数据集,并提出新的基线模型SecMT5。【结果】数据集包含2100条反恐安全领域新闻文本,7300个抽取式问答对,2100个生成式问答对,总字符数4796264个。使用先进抽取式、生成式阅读理解模型在SecMRC数据集进行测试。结果显示抽取式F1指标达到72.05%,生成式ROUGE-L指标均值为37.62%,均大幅弱于人类水平。通过SecMRC数据集训练后抽取式模型F1指标提升6.13个百分点。【局限】数据集问答对数量还需补充,难度和多样性还有待提升。【结论】SecMRC数据集突出领域知识,具有一定难度和挑战性,能有效支持机器阅读理解技术在该领域的研究。数据集构建方法具有通用性,可推广至其他专业领域。 展开更多
关键词 反恐安全 机器阅读理解 数据集
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部