-
题名关于对数线性模型在词性标注中的应用
被引量:1
- 1
-
-
作者
王保芳
张瑞强
-
机构
河南大学医学院
日本先端基础技术研究所
-
出处
《计算机科学》
CSCD
北大核心
2008年第5期163-166,共4页
-
文摘
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低。为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法——对数线性模型,以此来提高词性标注精度。此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比。结果表明综合了多源信息的对数线性模型标注精度达81.52%,取得了比传统的HMM模型更好的结果。
-
关键词
对数线性模型
最大熵模型
词性标注
自然语言理解
-
Keywords
Log-linear model, Maximum entropy, Natural language processing, Part-of-speech tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
O212
[理学—概率论与数理统计]
-