使用概念基元特征进行自动文本分类被引量：6

Using concept primitive feature for text classification

在线阅读下载PDF

导出

摘要自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。 This paper presents a new kind of feature for text classification.The new features are based on HNC （Hierarchical Network of Concepts） concept primitive.HNC concept primitive are elements of HNC semantic network.They express word＇s semantic meaning with symbol expressions.We found the system with Maximum Entropy Model,and test word feature and HNC concept primitive feature respectively.The result shows that HNC concept primitive feature is better than word feature.

作者贾宁

机构地区中国科学院研究生院

出处《计算机工程与应用》 CSCD 北大核心 2007年第1期24-26,共3页 Computer Engineering and Applications

基金国家973重点基础研究规划资助项目(2004CB318104) 中国科学院声学研究所创新资助项目。

关键词文本分类 HNC 特征 text classification HNC feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Adwait R.Maximum entropy models for natural language ambiguity resolution[D].University of Pennsylvania, 1998.
2Kamal N,John L,Andrew M.Using maximum entropy for text classification[C]//Proceedings of the IJCAI-99 Workshop on Information Filtering, Stockholm, Sweden, 1999.
3Jin Rong,Yan Rong,Zhang Jian.A faster iterative scaling algorithm for conditional exponential model [C]//Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003),Washington DC,2003.
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96

二级参考文献16

1D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.
2Y. Yang, X. Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf. onResearch and Development in the Information Retrieval. NewYork: ACM Press, 1999.
3Y. Yang, C. G. Chute. An example based mapping method for text categorization and retrieval. ACM Trans. on Information Systems, 1994, 12(3): 252 -277.
4E. Wiener. A neural network approach to topic spotting. The 4th Annual Syrup. on Document Analysis and Information Retrieval,Las Vegas, NV, 1995.
5R. E. Schapire, Y. Singer. Improved boosting algorithms using confidence-rated predications. In: Proc. of the 11th Annual Conf.on Computational Learning Theory. New York: ACM Press,1998. 80--91.
6T. Joachims. Text categorization with support vector machines:Learning with many relevant features. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998. 137-142.
7Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) : 76-- 88.
8R. Adwait. Maximum entropy models for natural language ambiguity resolution: [ Ph. D. dissertation ] . Pennsylvania:University of Pennsylvania, 1998.
9R. Adwait. A maximum entropy model for part-of-speech tagging. The Empirical Methods in Natural Language Processing Conference, Philadelphia, USA, 1996.
10Adam L. Berger, Stephen A. Della Pietra, Vincent J. Della Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, 1996, 22( 1 ) : 38-- 73.

共引文献95

1陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
2修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
3钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
5尚文倩,瞿有利,黄厚宽,朱海滨,林永民,董红斌.基于基尼的模糊kNN分类器(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):87-90.
6周琳.摄影,靠的就是眼力[J].军事记者,2006(10):52-52.
7尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
8崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
9司广涛,李培峰,朱巧明,李军辉.基于最大熵模型的邮件过滤系统研究[J].计算机工程与应用,2006,42(32):119-121.
10孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41

同被引文献59

1肖峻,高海霞,葛少云,王怡萍,邓华,张瀛.城市中压配电网评估方法与实例研究[J].电网技术,2005,29(20):81-85. 被引量：108
2刘宝柱,朱涛,于继来.电力系统电压态势预警等级的多级模糊综合评判[J].电网技术,2005,29(24):31-36. 被引量：19
3HE Li1,2, LI ZhengLin1,3 & PENG ZhaoHui1 1 National Laboratory of Acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China,2 Institute of Geology and Geophysics, Chinese Academy of Sciences, Beijing 100029, China,3 NanHai Laboratory of Acoustics, Institute of Acoustics, Chinese Academy of Sciences, Haikou 570206, China.Ambient noise near the sea-route[J].Science China(Physics,Mechanics & Astronomy),2009,52(1):40-45. 被引量：5
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
5温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57. 被引量：74
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004,14(6):48-51. 被引量：45
8王伟,麻秀范,钟晖,张粒子.系列化中压配电网接线模式研究[J].华北电力技术,2005(5):46-49. 被引量：13
9姜永常.基于知识元的知识仓库构建[J].图书与情报,2005(6):73-74. 被引量：30
10樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70

引证文献6

1田苗苗.基于决策树的文本分类研究[J].吉林师范大学学报（自然科学版）,2008,29(1):54-56. 被引量：9
2刘向军,马爽,许刚.基元接线模型构建的配电网典型接线方式[J].电网技术,2012,36(2):58-63. 被引量：21
3叶飞.基于文本语义联系的特征选取算法研究[J].赤峰学院学报（自然科学版）,2012,28(12):35-37.
4李颖,王青海,池毓焕.句类分析准则在作战文书地名识别中的应用[J].计算机工程与设计,2013,34(8):2903-2907. 被引量：3
5李珊珊,王宇.基于HNC理论的期刊文献知识元检索[J].情报杂志,2013,32(9):190-194. 被引量：8
6李湘东,曹环,黄莉.文本分类中训练集相关数量指标的影响研究[J].计算机应用研究,2014,31(11):3324-3327. 被引量：6

二级引证文献47

1张梅,印勇.英语作文计算机评分技术综述[J].外语电化教学,2010(6):44-47. 被引量：9
2程鹏,葛少云,刘洪.基于多窝蚁群协同算法的中压配电网分支线路智能规划[J].电网技术,2013,37(7):1936-1940. 被引量：10
3葛少云,郭寅昌,刘洪,马康,刘军.基于供电能力计算的高压配电网接线模式分析[J].电网技术,2014,38(2):405-411. 被引量：28
4国宗,高翔,韦钢,郭运城.城市中压配电网接线方式的优选[J].电力与能源,2014,35(1):43-46. 被引量：6
5葛少云,郭寅昌,刘洪.基于供电能力分析的高压配电线路容量优化方法[J].电网技术,2014,38(3):768-775. 被引量：14
6靳冰洁,张步涵,代晓康,邵剑,葛腾宇,邓韦斯,张凯敏.市区高压配电网典型接线方式的技术经济分析[J].湖北工业大学学报,2014,29(1):53-57. 被引量：2
7姚刚,仲立军,张代红.复杂城市配电网网格化供电组网方式优化研究及实践[J].电网技术,2014,38(5):1297-1301. 被引量：48
8江云,李凤兰.大数据在我国图书馆的应用及推进研究[J].图书馆工作与研究,2014(6):35-41. 被引量：42
9杨丽玲.基于核覆盖算法的中文文本分类研究[J].吉林师范大学学报（自然科学版）,2014,35(4):133-135.
10侯祖锋.城市中压配电网络规划优化方法的探讨[J].科技资讯,2014,12(26):97-97. 被引量：3

1杨威,朱福喜.基于聚类融合的标题文本聚类方法[J].计算机工程与应用,2015,51(15):129-133. 被引量：2
2邓黎,王春鸿,饶长辉.基于二进制稳健独立基元特征的扩展目标快速检测[J].中国激光,2012,39(B06):327-331. 被引量：2
3谢法奎,张全.基于最大熵模型的语义块切分[J].计算机工程与应用,2009,45(26):118-120. 被引量：1
4熊亮.基于概念树的文本自动分类系统的研究与实现[J].计算机工程与应用,2005,41(30):6-9. 被引量：2
5赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
6尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
7柴馨雪,李秦川.3-PRRU并联机构自由度分析[J].浙江理工大学学报（自然科学版）,2016,35(2):192-197. 被引量：5
8徐雷,包呼和,罗峰,毛安定.基于质心法求解多自由度机械臂动力学方程[J].信息系统工程,2013(4):49-50.
9蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009,28(2):233-241. 被引量：9
10丁泽亚,张全.利用概念知识的文本分类[J].应用科学学报,2013,31(2):197-203. 被引量：3

计算机工程与应用

2007年第1期

浏览历史

内容加载中请稍等...

使用概念基元特征进行自动文本分类被引量：6

参考文献4

二级参考文献16

共引文献95

同被引文献59

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

使用概念基元特征进行自动文本分类 被引量：6

参考文献4

二级参考文献16

共引文献95

同被引文献59

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

使用概念基元特征进行自动文本分类被引量：6