期刊导航
期刊开放获取
唐山市科学技术情报研究..
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Skip-ngram模型解决数据稀疏问题的研究
被引量:
2
1
作者
鲁一冰
刘驰
《自动化技术与应用》
2015年第3期35-37 46,46,共4页
本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,...
本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,提升句子识别正确率。
展开更多
关键词
自然语言处理
ngram
语言
模型
数据稀疏
skip-
ngram
语言
模型
在线阅读
下载PDF
职称材料
基于局部上下文特征的组合的中文真词错误自动校对研究
被引量:
8
2
作者
刘亮亮
曹存根
《计算机科学》
CSCD
北大核心
2016年第12期30-35,共6页
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆...
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。
展开更多
关键词
真词错误
混淆集
上下文特征
ngram模型
在线阅读
下载PDF
职称材料
题名
Skip-ngram模型解决数据稀疏问题的研究
被引量:
2
1
作者
鲁一冰
刘驰
机构
北京理工大学
出处
《自动化技术与应用》
2015年第3期35-37 46,46,共4页
文摘
本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,提升句子识别正确率。
关键词
自然语言处理
ngram
语言
模型
数据稀疏
skip-
ngram
语言
模型
Keywords
natural language processing
ngram
language model
data sparseness
skip-
ngram
language model
分类号
TN912.3 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
基于局部上下文特征的组合的中文真词错误自动校对研究
被引量:
8
2
作者
刘亮亮
曹存根
机构
江苏科技大学计算机科学与工程学院
中国科学院计算技术研究所智能信息重点实验室
出处
《计算机科学》
CSCD
北大核心
2016年第12期30-35,共6页
基金
国家自然科学基金项目(91224006
61173063
+3 种基金
61035004
61203284
30973713)
国家社科基金重点项目(10AYY003)资助
文摘
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。
关键词
真词错误
混淆集
上下文特征
ngram模型
Keywords
Real-word error,Confusion set,Context feature,
ngram
model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Skip-ngram模型解决数据稀疏问题的研究
鲁一冰
刘驰
《自动化技术与应用》
2015
2
在线阅读
下载PDF
职称材料
2
基于局部上下文特征的组合的中文真词错误自动校对研究
刘亮亮
曹存根
《计算机科学》
CSCD
北大核心
2016
8
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部