期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Skip-ngram模型解决数据稀疏问题的研究 被引量:2
1
作者 鲁一冰 刘驰 《自动化技术与应用》 2015年第3期35-37 46,46,共4页
本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,... 本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,提升句子识别正确率。 展开更多
关键词 自然语言处理 ngram语言模型 数据稀疏 skip-ngram语言模型
在线阅读 下载PDF
基于局部上下文特征的组合的中文真词错误自动校对研究 被引量:8
2
作者 刘亮亮 曹存根 《计算机科学》 CSCD 北大核心 2016年第12期30-35,共6页
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆... 中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。 展开更多
关键词 真词错误 混淆集 上下文特征 ngram模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部