交互式数据探索框架的特征自适应技术被引量：2

Feature Adaptive Technology in Interactive Data Exploration Framework

在线阅读下载PDF

导出

摘要交互式数据探索是一组多样的发现式应用程序的关键技术,着重于交互、探索和发现;在许多场景和领域中广泛应用.以海量的学术文献数据探索为背景,对交互式数据探索的特征自适应技术进行研究.首先,提出一种适用于面向学术文献数据探索的特征自适应交互式数据探索框架FA-IDE(feature-adaptive interactive data exploration),在每次迭代过程中动态地调整特征子集,以满足用户兴趣多样性的需求.其次,针对该框架,提出特征子集的均匀度BFS(balance of feature subsets)评价准则,并给出了基于BFS的序列前向特征选择算法.再次,针对相关样本发现问题,提出划分等级建立方法,根据决策树模型对用户兴趣区域划分后,提出基于相似度的结果集排序策略.实验结果表明,所提出方法可有效提高用户探索效率和最终结果的准确性. Interactive data exploration(IDE)is a key technique in a diverse set of discovery-based applications,which focuses on interaction,exploration and discovery and has a wide range of applications in many scenes and areas.The feature adaptive technology of interactive data exploration was studied in this paper with the background of massive academic literature data exploration.Firstly,a framework of interactive data exploration was presented,namely FA-IDE(feature-adaptive interactive data exploration)framework,which can dynamically adjust the subset of features during each iteration to meet the needs of the user′s interest diversity.Secondly,according to this framework,the evaluation criteria of the balance of feature subsets(BFS)were proposed in the stage of exploration and a sequence forward feature selection algorithm based on BFS was also given.Besides,for the phases of related sample discovery,a division level establishment method was proposed.According to the decision tree model which can divide the user interest area,a strategy of result set sorting based on similarity was proposed.The results of experiments show that the accuracy and efficiency of the proposed method have been effectively improved.

作者王蒙湘李芳芳于戈 WANG Meng-xiang;LI Fang-fang;YU Ge(School of Computer Science&Engineering,Northeastern University,Shenyang 110169,China)

机构地区东北大学计算机科学与工程学院

出处《东北大学学报（自然科学版）》 EI CAS CSCD 北大核心 2018年第12期1685-1690,共6页 Journal of Northeastern University(Natural Science)

基金国家自然科学基金资助项目(61472071) 中央高校基本科研业务费专项资金资助项目(N161604005) 辽宁省自然科学基金资助项目(2015020018)

关键词交互式数据探索主题提取特征选择样本发现机器学习 interactive data exploration topic extraction feature selection sample discovery machine learning

分类号 TP315 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1王蒙湘,李芳芳,谷峪,于戈.交互式数据探索综述[J].计算机科学与探索,2017,11(2):171-184. 被引量：3
2谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：65

二级参考文献32

1邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：147
2毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
3Guyon I, Elisseeff A. An introduction to variable and feature selection. The Journal of Machine Learning Research, 2003, 3:1157-1182.
4Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines. Machine Learning, 2002, 46(1-3): 389-422.
5Rakotomamonjy A. Variable selection using svm based criteria. The Journal of Machine Learning Research, 2003, 3: 1357- 1370.
6Duan K B, Rajapakse J C, Wang H, et al. Multiple SVM- RFE for gene selection in cancer classification with expression data. IEEE Transactions on NanoBioscience, 2005, 4(3): 228-234.
7Xia H, Hu B Q. Feature selection using fuzzy support vector machines. Fuzzy Optimization and Decision Making, 2006, 5(2): 187-192.
8Zhou X, Tuck D P. MSVM-RFE: Extensions of SVM-RFE for multiclass gene selection on DNA microarray data. Bioinformatics, 2007, 23(9): 1106-1114.
9Maldonado S, Weber R. A wrapper method for feature selection using support vector machines. Information Sciences, 2009, 179(13): 2208-2217.
10Somol P, Novovicova J. Evaluating stability and comparing output of feature selectors that optimize feature subset cardinality. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(11): 1921-1939.

共引文献66

1李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：9
2盖超会,王成刚.基于改进布谷鸟算法与SVM的矿用变压器故障诊断[J].煤炭工程,2019,51(11):134-137. 被引量：6
3李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
4张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：24
5谢娟英,高红超.基于统计相关性与K-means的区分基因子集选择算法[J].软件学报,2014,25(9):2050-2075. 被引量：56
6张钰莎,蒋盛益.Clementine软件功能缺陷分析[J].信阳师范学院学报（自然科学版）,2015,28(3):450-453. 被引量：2
7毛文涛,徐文涛,薛天宇,何玲.一种基于特征子集区分度优化的分组特征选择算法[J].小型微型计算机系统,2015,36(8):1827-1831. 被引量：3
8杨昙,冯翔,虞慧群.基于多群体公平模型的特征选择算法[J].计算机研究与发展,2015,52(8):1742-1756. 被引量：5
9马国富,马胜利,王子贤,李双印,程雨丝.数据恢复在电子数据取证与司法鉴定中的应用[J].河北大学学报（自然科学版）,2015,35(5):538-545. 被引量：9
10黄晓娟,张莉.改进的多类支持向量机递归特征消除在癌症多分类中的应用[J].计算机应用,2015,35(10):2798-2802. 被引量：10

同被引文献3

1蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
2周彧,李晖,梁青青,陈梅,朱明.FastNavi:巡天数据的交互式探索系统[J].计算机工程与应用,2018,54(1):86-93. 被引量：2
3林洪文,周亚峰,周安,童文涛.基于“互联网+”和“大数据”的输电交互式巡检安全质量管控体系的探索和实践[J].电子技术与软件工程,2018(23):139-140. 被引量：3

引证文献2

1谢菁,陆冰芳.基于全链路的交互式数据探索技术研究[J].中国管理信息化,2020,23(2):150-151. 被引量：3
2刘振宇,宋晓莹.一种可用于分类型属性数据的多变量决策树算法[J].东北大学学报（自然科学版）,2020,41(11):1521-1527. 被引量：18

二级引证文献21

1周莉,李静毅.基于决策树算法的联级网络安全态势感知模型[J].计算机仿真,2021,38(5):264-268. 被引量：16
2杨复伟,周斌.基于决策树算法的心理健康智能评测研究[J].现代电子技术,2021,44(13):135-139. 被引量：2
3杨立疆.基于BIM模型的水利灌区用水信息集成管理系统[J].水利科技与经济,2021,27(7):111-116. 被引量：1
4孙小雪,钟辉,陈海鹏.基于决策树分类技术的学生考试成绩统计分析系统[J].吉林大学学报（工学版）,2021,51(5):1866-1872. 被引量：10
5葛文杰,陈龙.基于随机森林与多源信息融合的疲劳驾驶检测方法[J].软件导刊,2021,20(10):73-77. 被引量：6
6姚烨婷,陈瑾.可信度计算在智能电网综合停电管理平台上的应用[J].微型电脑应用,2021,37(11):204-207. 被引量：4
7刘振宇,宋晓莹.一种可用于分类型属性数据的多变量回归森林[J].计算机科学,2022,49(1):108-114. 被引量：3
8李偲希,白全生,舒畅,肖祥武.基于spark平台的供电煤耗并行回归预测[J].电力大数据,2021,24(11):85-92. 被引量：1
9张行,凌嘉瞳,刘思敏,董绍华.基于移动设备位置数据的油气管道第三方破坏行为识别研究[J].石油科学通报,2022,7(2):261-269. 被引量：3
10韦冬妮,车彬,张泽龙,唐梦媛,齐彩娟.基于伴随式数据采集和决策树算法的智库人才信息处理技术[J].电子设计工程,2022,30(23):56-60. 被引量：3

1薛萍.如何打造小学数学高效课堂[J].数学大世界（上旬）,2018,0(11):8-8.
2张青,韩立新,勾智楠.基于词向量和变分自动编码器的短文本主题模型[J].河北工业科技,2018,35(6):441-447. 被引量：2
3高海波,晋诚.网络化新闻热点主题自动提取方法研究[J].自动化与仪器仪表,2018,0(11):44-46.
4白云歌,郭炳晖,米志龙,郑志明.面向互联网金融平台的违约风险量化模型[J].计算机工程,2018,44(12):108-114. 被引量：3
5Bin Li,Daniel A.Griffith,Brian Becker.Spatially simplified scatterplots for large raster datasets[J].Geo-Spatial Information Science,2016,19(2).
6周晓蕾,王献红,李尊税,张曼林,袁彦丽,吴拥军.基于10项肿瘤标志的决策树模型在肺癌诊断中的应用[J].中国医药导刊,2018,20(11):641-645. 被引量：1
7侯淑娜.构建“三有”课堂落实有效教学——以《用数对确定位置》为例谈数学学科德育的渗透[J].中国校外教育,2018(12):143-143. 被引量：3
8黄梦莹,张晓滨.融合CHI与信息增益的情感文本特征选择[J].西安工程大学学报,2018,32(6):713-717. 被引量：3
9李三川,吴丽丽.基于相关搜索的前向序列特征选择算法[J].通信技术,2018,51(12):2920-2924. 被引量：4

东北大学学报（自然科学版）

2018年第12期

浏览历史

内容加载中请稍等...

交互式数据探索框架的特征自适应技术被引量：2

参考文献2

二级参考文献32

共引文献66

同被引文献3

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

交互式数据探索框架的特征自适应技术 被引量：2

参考文献2

二级参考文献32

共引文献66

同被引文献3

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

交互式数据探索框架的特征自适应技术被引量：2