期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于中朝统一IDS编码的朝鲜语古籍文字识别方法
1
作者 赵梦玲 金小峰 《延边大学学报(自然科学版)》 CAS 2024年第2期101-106,共6页
为解决朝鲜语古籍中的中文和朝鲜文字混排的识别难题,提出一种中朝文字的表意文字描述序列(IDS)统一编码方案,旨在通过利用偏旁分解字符识别模型(CCR-CLIP)识别朝鲜语古籍文字.首先,根据中朝文字结构的相似性,对文字中出现的汉字偏旁、... 为解决朝鲜语古籍中的中文和朝鲜文字混排的识别难题,提出一种中朝文字的表意文字描述序列(IDS)统一编码方案,旨在通过利用偏旁分解字符识别模型(CCR-CLIP)识别朝鲜语古籍文字.首先,根据中朝文字结构的相似性,对文字中出现的汉字偏旁、朝鲜文字字母和12种基本结构进行了统一编码;其次,通过加入朝鲜文字的IDS序列扩充了CCR-CLIP原模型中提供的汉字的IDS序列文件;最后,通过在训练阶段使用印刷体文字训练的方式解决了朝鲜语古籍样本少的问题. 展开更多
关键词 朝鲜语古籍 零样本 文字识别 文字编码 表意文字描述序列
在线阅读 下载PDF
一种湘西民间苗文字形的动态生成方法及其实现途径 被引量:5
2
作者 莫礼平 周恺卿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期141-147,共7页
为了有效地解决湘西民间苗文字形的生成及描述问题,提出一种字形的动态生成方法。该方法将苗文字形的生成过程表示为由苗文构件作为操作数、由构件位置关系决定运算符的组合运算表达式,将2~3个构件进行不同的组合运算,即可动态生成不同... 为了有效地解决湘西民间苗文字形的生成及描述问题,提出一种字形的动态生成方法。该方法将苗文字形的生成过程表示为由苗文构件作为操作数、由构件位置关系决定运算符的组合运算表达式,将2~3个构件进行不同的组合运算,即可动态生成不同结构的苗文字形。利用操作系统自带的表意文字描述序列解释机制,将构件组合运算表达式转换为表意文字描述序列,即可实现该方法。测试结果表明,根据该方法编写的映射脚本生成的湘西民间苗文字形可以满足实用要求。 展开更多
关键词 民间苗文 字形 上下文无关文法 表意文字描述序列
在线阅读 下载PDF
字符敏感编辑距离的零样本汉字识别
3
作者 陈宇 王大寒 +4 位作者 池雪可 江楠峰 张煦尧 王驰明 朱顺痣 《中国图象图形学报》 CSCD 北大核心 2024年第11期3383-3400,共18页
目的零样本汉字识别(zero-shot Chinese character recognition,ZSCCR)因其能在零或少训练样本下识别未见汉字而受到广泛关注。现有的零样本汉字识别方法大多采用基于部首序列匹配框架,即首先预测部首序列,然后根据表意描述序列(ideogra... 目的零样本汉字识别(zero-shot Chinese character recognition,ZSCCR)因其能在零或少训练样本下识别未见汉字而受到广泛关注。现有的零样本汉字识别方法大多采用基于部首序列匹配框架,即首先预测部首序列,然后根据表意描述序列(ideographic description sequence,IDS)字典进行最小编辑距离(minimum edit distance,MED)匹配。然而,现有的MED算法默认不同部首的替换代价、插入代价和删除代价相同,导致在匹配时候选字符类别存在距离代价模糊和冗余的问题。为此,提出了一种字符敏感编辑距离(character-aware edit distance,CAED)以正确匹配目标字符类别。方法通过设计多种部首信息提取方法,获得了更为精细化的部首描述,从而得到更精确的部首替换代价,提高了MED的鲁棒性和有效性;此外,提出部首计数模块预测样本的部首数量,从而形成代价门控以约束和调整插入和删除代价,克服了IDS序列长度预测不准确产生的影响。结果在手写汉字、场景汉字和古籍汉字等数据集上进行实验验证,与以往的方法相比,本文提出的CAED在识别未见汉字类别的准确率上分别提高了4.64%、1.1%和5.08%,同时对已见汉字类别保持相当的性能,实验结果充分表明了本方法的有效性。结论本文所提出的字符敏感编辑距离,使得替换、插入和删除3种编辑代价根据字符进行自适应调整,有效提升了对未见汉字的识别性能。 展开更多
关键词 零样本汉字识别(ZSCCR) 表意描述序列(ids) 编辑距离 字符敏感 部首信息 代价门控
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部