期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于偏旁部首计数分析网络的零样本汉字识别
1
作者 张琼霞 王大寒 朱顺痣 《贵州大学学报(自然科学版)》 2023年第6期69-77,共9页
为了提高零样本汉字识别的准确率,克服传统方法在未见汉字识别上的局限性,并进一步改进以偏旁部首为基元的汉字识别方法,本研究提出了一种以注意力机制为基础的编码器-解码器架构的部首计数分析网络,用于零样本汉字识别问题。在编码器阶... 为了提高零样本汉字识别的准确率,克服传统方法在未见汉字识别上的局限性,并进一步改进以偏旁部首为基元的汉字识别方法,本研究提出了一种以注意力机制为基础的编码器-解码器架构的部首计数分析网络,用于零样本汉字识别问题。在编码器阶段,引入了多尺度部首计数模块;而在解码器阶段,则运用了多尺度注意力机制。本文将一个汉字看作是由若干偏旁部首及其空间结构组成的序列,通过计算偏旁部首及空间结构的数量,实现了对汉字的有效识别。实验结果表明,在SCUT-SPCC和CTW两个基准数据集上,本文所提出的新模型在零样本汉字识别方面表现优异。本研究能够更好地捕捉汉字的特征信息,并实现对未见汉字的准确识别。这对汉字识别领域的研究与应用具有重要指导意义,可为相关领域的研究提供新思路和方法。 展开更多
关键词 汉字识别 样本学习 部首计数分析网络 多尺度 注意力机制
在线阅读 下载PDF
字符敏感编辑距离的零样本汉字识别
2
作者 陈宇 王大寒 +4 位作者 池雪可 江楠峰 张煦尧 王驰明 朱顺痣 《中国图象图形学报》 CSCD 北大核心 2024年第11期3383-3400,共18页
目的零样本汉字识别(zero-shot Chinese character recognition,ZSCCR)因其能在零或少训练样本下识别未见汉字而受到广泛关注。现有的零样本汉字识别方法大多采用基于部首序列匹配框架,即首先预测部首序列,然后根据表意描述序列(ideogra... 目的零样本汉字识别(zero-shot Chinese character recognition,ZSCCR)因其能在零或少训练样本下识别未见汉字而受到广泛关注。现有的零样本汉字识别方法大多采用基于部首序列匹配框架,即首先预测部首序列,然后根据表意描述序列(ideographic description sequence,IDS)字典进行最小编辑距离(minimum edit distance,MED)匹配。然而,现有的MED算法默认不同部首的替换代价、插入代价和删除代价相同,导致在匹配时候选字符类别存在距离代价模糊和冗余的问题。为此,提出了一种字符敏感编辑距离(character-aware edit distance,CAED)以正确匹配目标字符类别。方法通过设计多种部首信息提取方法,获得了更为精细化的部首描述,从而得到更精确的部首替换代价,提高了MED的鲁棒性和有效性;此外,提出部首计数模块预测样本的部首数量,从而形成代价门控以约束和调整插入和删除代价,克服了IDS序列长度预测不准确产生的影响。结果在手写汉字、场景汉字和古籍汉字等数据集上进行实验验证,与以往的方法相比,本文提出的CAED在识别未见汉字类别的准确率上分别提高了4.64%、1.1%和5.08%,同时对已见汉字类别保持相当的性能,实验结果充分表明了本方法的有效性。结论本文所提出的字符敏感编辑距离,使得替换、插入和删除3种编辑代价根据字符进行自适应调整,有效提升了对未见汉字的识别性能。 展开更多
关键词 样本汉字识别(zsccr) 表意描述序列(IDS) 编辑距离 字符敏感 部首信息 代价门控
原文传递
结合部首字形和层级结构的手写汉字纠错方法 被引量:2
3
作者 李云青 杜俊 +1 位作者 胡鹏飞 张建树 《中国图象图形学报》 CSCD 北大核心 2023年第8期2382-2395,共14页
目的手写汉字纠错(handwritten Chinese character error correction,HCCEC)任务具有两重性,即判断汉字正确性和对错字进行纠正,该任务在教育场景下应用广泛,可以帮助学生学习汉字、纠正书写错误。由于手写汉字具有复杂的空间结构、多... 目的手写汉字纠错(handwritten Chinese character error correction,HCCEC)任务具有两重性,即判断汉字正确性和对错字进行纠正,该任务在教育场景下应用广泛,可以帮助学生学习汉字、纠正书写错误。由于手写汉字具有复杂的空间结构、多样的书写风格以及巨大的数量,且错字与正确字之间具有高度的相似性,因此,手写汉字纠错的关键是如何精确地建模一个汉字。为此,提出一种层级部首网络(hierarchical radical network,HRN)。方法从部首字形的角度出发,挖掘部首形状结构上的相似性,通过注意力模块捕获包含部首信息的细粒度图像特征,增大相似字之间的区分性。另外,结合汉字本身的层级结构特性,采用基于概率解码的思路,对部首的层级位置进行建模。结果在手写汉字数据集上进行实验,与现有方案相比,HRN在正确字测试集与错字测试集上,精确率分别提升了0.5%和9.8%,修正率在错字测试集上提升了15.3%。此外,通过注意力机制的可视化分析,验证了HRN可以捕捉包含部首信息的细粒度图像特征。部首表征之间的欧氏距离证明了HRN学习到的部首表征向量中包含了部首的字形结构信息。结论本文提出的HRN能够更好地对相似部首进行区分,进而精确地区分正确字与错字,具有很强的鲁棒性和泛化性。 展开更多
关键词 手写汉字纠错(HCCEC) 汉字识别 部首分析 广义样本学习(GZSL) 注意力机制 卷积神经网络(CNN)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部