稀疏自动编码器在文本分类中的应用研究被引量：17

Research of Text Categorization Based on Sparse Autoencoder Algorithm

在线阅读下载PDF

导出

摘要传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集。如果训练集的数据量较大,则容易出现特征项不明确、特征信息丢失等缺陷。为解决上述问题,提出运用"深度学习"中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机;但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。 Tradition text classification algorithms use the expected cross entropy, information gain and mutual information statistical method to get the feature set, but these methods require setting thresholds. If the training data set is large which prone to feature items is not clear, the feature information loss and other defects. In order to solve the above problem, the sparse autoencoder algorithm is used which belongs to ＂deep learning＂ automatically ex- tracts text features, and then combines with the deep belief networks to form SD algorithm for text classification. Experiments show that, in the case of small training set, SD algorithm performs lower than traditional support vector machines, but when dealing with high-dimensional data, SD has higher accuracy and recall rate than support vector machine algorithm.

作者秦胜君卢志平

机构地区广西科技大学管理学院

出处《科学技术与工程》北大核心 2013年第31期9422-9426,共5页 Science Technology and Engineering

基金欠发达地区工业化与信息化融合及其系统动力机制研究(11FJL007)资助

关键词文本分类深度学习稀疏自动编码器深度置信网络 text classification deep learning sparse autoencoder deep belief networks

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：84
2李学相.改进的最大熵权值算法在文本分类中的应用[J].计算机科学,2012,39(6):210-212. 被引量：8
3王进,金理雄,孙开伟.基于演化超网络的中文文本分类方法[J].江苏大学学报（自然科学版）,2013,34(2):196-201. 被引量：13
4朱云霞.结合聚类思想神经网络文本分类技术研究[J].计算机应用研究,2012,29(1):155-157. 被引量：13
5王德庆,张辉.基于支持向量的迭代修正质心文本分类算法[J].北京航空航天大学学报,2013,39(2):269-274. 被引量：3
6单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
7http://deeplearning.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity.
8Hinton G E.Learning multiple layers of representation.Trends in Cognitive Sciences,2007 ; (11):428-434.

二级参考文献63

1胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
2史晶蕊,郑玉明,韩希.人工神经网络在文本分类中的应用[J].计算机应用研究,2005,22(10):213-216. 被引量：10
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
5DEBOLE F, SCBASTIANI F. An analysis of the relative hardness of recuters-21578 subsets [J]. Journal of the American Society for Information Science and Technology,2004,56(6) :584-596.
6AHN B S, CHO S S, KIM C. The integrated methodology of rough set theory and artificial neural network for business failure prediction[ J]. Expert Systems with Applications, 2000,18(2) :65-74.
7Huang Zhe-xue, Michael K N, Rong hong-qiang, et al. Automa- ted Variable Weighting in k-Means Type Clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(5) : 657-668.
8Kulesza T, Stumpf S, Wong W K, et al. Why-oriented end-user debugging of naive bayes text classification [J]. ACM Transactions on Interactive Intelligent Sys- tems, 2011, 1 ( 1 ) ,doi : 10.1145/2030365. 2030367.
9Hao Xiulan, Tao Xiaopeng, Zhang Chenghong, et al. An effective method to improve KNN text classifier [ C ] //Proceedings of the 8th ACIS International Conference on Software Engineering, Artficial Intelligence, Networ- king and Parallel/Distributed Computing. Quebec: IEEE Computer Society ,2007 : 379 -384.
10Wang T Y, Chiang H M. One-against-one fuzzy support vector machine classifier: an approach to text categoriza- tion [ J ]. Expert Systems with Applications, 2009, 36 (6) : 10030 - 10034.

共引文献134

1韩祥民,刘晓波,徐邦贤,邱知,唐辉.基于CEEMD与GWO-SVM算法的配电网高阻接地故障选线方法[J].智能计算机与应用,2021,11(12):143-148. 被引量：2
2赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7
3任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
4柴加加,张德贤,耿瑞焕.基于TF-CA-CI算法的互信息特征选择改进研究[J].计算机应用与软件,2013,30(3):255-257. 被引量：3
5黄志艳.一种基于信息增益的特征选择方法[J].山东农业大学学报（自然科学版）,2013,44(2):252-256. 被引量：12
6王进,丁凌,孙开伟,李钟浩.演化超网络在多类型癌症分子分型中的应用[J].电子与信息学报,2013,35(10):2425-2431. 被引量：5
7成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报（自然科学版）,2013,33(5):63-68. 被引量：14
8王进,黄萍丽,孙开伟,蔡通.基于演化学习超网络的微阵列数据分类[J].江苏大学学报（自然科学版）,2014,35(1):56-62. 被引量：5
9符保龙,张爱科.基于均值密度中心估计的k-means聚类文本挖掘方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):111-116. 被引量：13
10李波,石慧霞,王毅.一种基于同义词发现的文本扩充算法[J].重庆理工大学学报（自然科学）,2014,28(2):76-81. 被引量：4

同被引文献141

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：59
2张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4许人灿,姜卫东,陈曾平.目标一维距离像特征提取方法研究[J].系统工程与电子技术,2005,27(7):1173-1174. 被引量：9
5饶妮妮,邱丽君.DNA序列数值映射方法的研究[J].生物医学工程学杂志,2005,22(4):681-685. 被引量：10
6张建华,陈家骏.自然语言生成综述[J].计算机应用研究,2006,23(8):1-3. 被引量：27
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
8明亮,谢桂海,齐子元,王新锋,彭德云.基于无线网的远程视频智能监控系统[J].计算机工程,2007,33(5):266-268. 被引量：16
9吴杰.基于高分辨距离像的雷达自动目标识别技术研究[D].南京:南京航空航天大学,2011.
10HINTON G E,OSINDERO S, TEH Y W. A fasJlearning algorithm for deep belief netsEJ~.Neural Com- putation, 2006,18(7) ~ 1527-1554.

引证文献17

1张建强,汪厚祥,杨红梅.基于自编码神经网络的高分辨率距离像降维法[J].解放军理工大学学报（自然科学版）,2016,17(1):31-37. 被引量：6
2江国荐,顾乃杰,张旭,任开新.基于SAE-LBP的网页分类研究[J].小型微型计算机系统,2016,37(4):738-742. 被引量：4
3杨洪余.基于稀疏编码器与集成学习的文本分类[J].科技创新与应用,2017,7(6):104-105. 被引量：1
4李森林,石元泉,黄隆华.一种基于SAE和BP网络相结合的人脸识别模型[J].怀化学院学报,2017,36(5):78-82. 被引量：3
5俸世洲,周尚波.基于深度自编码网络的高校招生咨询算法[J].计算机应用,2017,37(11):3323-3329. 被引量：2
6贾文娟,张煜东.自编码器理论与方法综述[J].计算机系统应用,2018,27(5):1-9. 被引量：27
7李程启,林颖,秦佳峰,李学钧,戴相龙,蒋勇.基于深度学习的输电线路危险源智能监控系统[J].南通大学学报（自然科学版）,2018,17(1):10-14. 被引量：7
8刘廷镇,张华.基于变种概率图模型的文本生成算法[J].计算机应用,2018,38(A01):99-103.
9徐毅,董晴,戴鑫,宋威.ELM优化的深度自编码分类算法[J].计算机科学与探索,2018,12(5):820-827. 被引量：6
10黄炜,黄建桥,李岳峰.一种基于稀疏自编码器的涉恐短文本特征提取方法[J].情报杂志,2019,38(3):203-206. 被引量：5

二级引证文献164

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：59
2李文举,张耀星,陈慧玲,李培刚,沙利业.基于TSCD模型的轨道板裂缝检测方法[J].应用科学学报,2022,40(1):155-166. 被引量：2
3张敏杰,徐宁,胡俊华,王宇飞,李晨,徐剑波,张诗玉.面向变压器智能运检的知识图谱构建和智能问答技术研究[J].全球能源互联网,2020,3(6):607-617. 被引量：13
4秦鹏,曹天杰.基于朴素贝叶斯网页分类的用户行为推衍[J].沈阳工业大学学报,2018,40(1):82-87. 被引量：3
5骆聪,王帅.结合深度学习与词性标注的网页分类算法研究[J].计算机技术与发展,2018,28(8):71-74. 被引量：2
6黄幸颖,梁路,滕少华.电影评分的自编码网络预测研究[J].小型微型计算机系统,2018,39(9):2035-2038. 被引量：4
7骆聪,周城.基于改进的n-gram模型的URL分类算法研究[J].计算机技术与发展,2018,28(9):38-41. 被引量：2
8翟正利,梁振明,周炜,孙霞.变分自编码器模型综述[J].计算机工程与应用,2019,55(3):1-9. 被引量：70
9冯文,陈志国,傅毅,王凯宇.增强碰撞体算法优化的自编码神经网络[J].小型微型计算机系统,2019,40(4):721-725. 被引量：2
10陈亮,刘晓东.基于深度ELM网络的电力变压器故障诊断[J].科学大众（科技创新）,2018,0(9):33-34.

1姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
2洪亮.文本分类中特征选择方法研究及分析[J].科技广场,2009(7):35-37.
3刘海峰,王元元,姚泽清,陈琦.文本分类中一种基于选择的二次特征降维方法[J].情报学报,2009,28(1):23-27. 被引量：8
4孙昊,张琦,许勇.机器学习在GDP预测分析中的应用研究[J].计算机技术与发展,2009,19(2):227-229. 被引量：2
5王维娜,康耀红,伍小芹.文本分类中特征选择方法研究[J].信息技术,2008,32(12):29-31. 被引量：3
6戴树春,林开生.基于SD算法的直流伺服电机PWM调速研究[J].工业控制计算机,2010,23(2):47-48.
7毛小丽,何中市,邢欣来,刘莉.基于特征选择的实体关系抽取[J].计算机应用研究,2012,29(2):530-532. 被引量：9
8王涛,裘国永,何聚厚.基于改进Nave Bayes的垃圾邮件过滤模型研究[J].计算机工程与应用,2007,43(13):186-190. 被引量：10
9黎鹏,陈宁.基于降噪自动编码器特征学习的音乐自动标注算法[J].华东理工大学学报（自然科学版）,2017,43(2):241-247. 被引量：4
10王海鹃,韩立新,甄志龙.基于索引项权重的文本特征选择方法[J].计算机工程与设计,2010,31(5):1149-1151. 被引量：4

科学技术与工程

2013年第31期

浏览历史

内容加载中请稍等...

稀疏自动编码器在文本分类中的应用研究被引量：17

参考文献8

二级参考文献63

共引文献134

同被引文献141

引证文献17

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

稀疏自动编码器在文本分类中的应用研究 被引量：17

参考文献8

二级参考文献63

共引文献134

同被引文献141

引证文献17

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

稀疏自动编码器在文本分类中的应用研究被引量：17