基于数据挖掘的启发式抽样方法研究被引量：4

Research of heuristic sampling algorithm based on Data Mining

在线阅读下载PDF

导出

摘要在数据挖掘中应用抽样技术,可以显著提高数据挖掘任务的效率。通过采用不同的抽样方法,使得数据挖掘算法可以针对比原始数据集小得多的样本数据集进行分析,从而大幅度提高性能。随之而来的问题就是,由于采用了抽样方法,在大幅提高性能的同时,对分析的精确性就会产生影响。如何选取合适的反映总体数据水平的样本成为数据挖掘中的关键问题。传统意义上的抽样大多采用单一的抽样方法,进行单一抽样,抽取的样本在一定程度上具有局限性。本文对传统抽样方法和样本容量的选取进行总结,对传统的分层抽样思想进行改进,提出了一种新的基于数据挖掘的启发式抽样思想,大大提高了抽取样本的精确性。 In data mining the use of sampling algorithm, can significantly improve the efficiency of data mining tasks. Through using different sampling methods, data mining algorithm can analysis sample data sets which are much less than the original data sets, thereby significantly improving capability. The attendant problem is that use of sampling methods, while substantially increase the capability, also will have an impact on the accuracy of the analysis. How to select the appropriate data which can reflect the overall level of a sample are key issues of data mining. The traditional sense of the sampling method is usually a single sample. Using a single sample, the samples taken to a certain extent, has limitations. In this paper, we sum up the traditional sampling methods and how to select the sample size, improve the traditional stratified sampling, and bring up a new heuristic sampling algorithm based on data mining, greatly improving the accuracy of the sampling.

作者黎娅郭江娜

机构地区河南经贸职业学院信息管理系郑州大学计算机科学与技术

出处《微计算机信息》 2009年第12期216-217,199,共3页 Control & Automation

关键词数据挖掘启发式抽样样本容量 Data mining Heuristic Sampling Sample size

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1林琳.浅议在数据挖掘中应用抽样技术[J].江苏统计,2003(6):12-13. 被引量：3
2朱梅红.数据挖掘中抽样技术的应用[J].统计与决策,2007,23(16):147-150. 被引量：4
3方程乾.卫生统计学[M],人民卫生出版社,2005.
4林才生.多目标分层次复合抽样设计研究[D].中国博士学位论文全文数据库,2007
5吴春,抽样方法比较http://www.tsinghua.edu.cn/docsn/shxx/site/teacher/peijx/chouyang.doc.
6[美]谭[美]斯坦巴赫.数据挖掘导论[M],人民邮电出版社,2006.
7蔡元萃,陈立潮.基于数据挖掘的新产品竞争预测模型[J].微计算机信息,2007,23(03X):193-194. 被引量：1
8刘建华.关联规则挖掘的新模型[J].福建师范大学学报（自然科学版）,2004,20(2):32-35. 被引量：6
9王冠,司建辉,杨昌锋.数据挖掘系统研究[J].北京工业大学学报,2005,31(4):383-387. 被引量：10

二级参考文献34

1张利萍,李宏光.灰色神经网络预测算法在DMF回收过程中的应用[J].微计算机信息,2005,21(1):183-184. 被引量：27
2王永庆.人工智能原理及方法[M].西安:西安交通大学出版社,1998.162-171.
3KRISHNASWAMY S. Federated data mining services and a supporting XML-based language[A]. Pro 34th Int Conf on System Sciences[C]. Hawaii: IEEE, 2001. 1-10.
4RANA O, WALKER D, LI Mao-zhen. PaDDMAS: Parallel and distributed data mining application suite[A]. Pro 14th Int Conf on Parallel and Distributed Processing Symposium[C]. Cancun Mexico: IEEE, 2000. 387-392.
5GROSSMAN R, GU Yun-hong, HANLEY D, et al. Photonic Data Services: Integrating Data, Network and Path Services to Support Next Generation Data Mining Applications [EB/OL]. http:∥www.rgrossman.com/dl/proc-068.pdf, 2004-05-11/2004-10-08.
6朱建秋.数据挖掘系统发展综述[EB/OL].http:∥www.dmgroup.org.cn/zhujianqiu/dmsystem.pdf,2003-04-20/2004-10-10.
7MEO R. A tightly-coupled architecture for data mining[A]. Pro 14th Int Conf on Data Engineering[C]. Orlando: IEEE, 1998. 316-323.
8GOIL S, CHOUDHARY A. A parallel scalable infrastructure for OLAP and data mining[A]. Pro IDEAS '99 on Database Engineering and Applications[C]. Montreal: IEEE, 1999. 178-186.
9Data Mining Group. PMML2.1 Specification [EB/OL]. http:∥www.dmg.org/pmml-v2 -1.html, 2003-03-25/2004-09-28.
10WETTSCHERECK D, MULLER S. Exchanging Data Mining Models With the Predictive Modelling Markup Language[EB/OL]. http:∥ai.ijs.si/branax/iddm-2001-proceedings/workshop/ Paper26.pdf, 2001-09-06/2004-09-28.

共引文献18

1宋锦华,马传琦.数据挖掘技术探讨[J].电脑知识与技术（过刊）,2009,0(6):1299-1300. 被引量：2
2周雄,董威.基于FP增长挖掘模型的全社会行业用电关联规则分析[J].电力建设,2007,28(3):69-71. 被引量：1
3黄金凤.基于Web挖掘技术在电子商务中的应用[J].福建教育学院学报,2007,8(1):113-115.
4董威,杨晓梅,顾斌.软件项目实施过程中的知识管理与挖掘[J].电力信息化,2007,5(2):83-85. 被引量：3
5周雄,董威,何联初.决策支持系统中FP增长树的存储与优化[J].电力信息化,2007,5(7):80-82.
6施蕾,孟凡荣.数据挖掘系统结构的研究[J].微计算机信息,2007(18):167-168. 被引量：6
7林庆,张永鑫,吴旻.智能交通系统综合信息平台的设计[J].计算机工程与设计,2008,29(13):3491-3493. 被引量：2
8张卫国,高贤强,武晓宏.基于支持度-置信度框架的负关联规则研究[J].微电子学与计算机,2009,26(4):102-104. 被引量：4
9石云平.数据挖掘与统计学的关系研究[J].国外电子测量技术,2009,28(6):21-23. 被引量：2
10高雅奇,王冠.基于PMML的数据挖掘系统[J].中国电子商情（通信市场）,2010(2):70-74.

同被引文献34

1冯少荣,肖文俊.基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,43(20):216-221. 被引量：34
2薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
3Hagan M T , Demuth H B. Neural network design [M] .china machine press ,2002.
4Christer , A.H, Lee ,C. Refining the delay-time-based PM in section Model with Non-negligible System Downtime Estimates of expected number of failures. [J], Int. Production Economics 2000, (67).
5Staszewski W. Monitoring on-line integrated technologies for operational reliability-monitor [j], Air&Space Europe, 2000, 21 (4): 64-72.
6Dekker R. Applications of maintenance optimization models: a review and analysis [J]. Reliability Engineering & Systems Safety, 1996, 51: 229- 240.
7Philip A. Higgs. A SURVEY ON CONDITION MONITORING SYSTEMS IN INDUSTRY. Proceedings of: ESDA 2004: 7th Biennial ASME Conference Engineering Systems Design and Analysis July 19-22. 2004 Manchester. UK.
8Knorr E M, Ng R T. Algorithms for Mining Distance-based Outliers in Large Datasets[C]. New York: Proc. of Int. Conf. Very large Databases (VLDB' 98), 1998.392-403.
9Hawkins D. Identification of Outlier. London: Chapman and Hall, 1980.
10Berchtold C, Bohm, H P Kriegel. Improving the Query Performance of High-dimensional Index Structures by Bulk Load operations [C]. Proc. of EDBT, 1998.

引证文献4

1费永军,张博锋,胡剑波.BP神经网络在设备维修间隔预测中的应用研究[J].微计算机信息,2010,26(28):107-109. 被引量：2
2陈晓云,马良斋.基于属性权重的局部离群点挖掘算法研究[J].微计算机信息,2010,26(33):9-11. 被引量：5
3周红芳,赵雪涵,周扬.基于限定区域数据取样的密度聚类算法[J].计算机应用,2012,32(8):2182-2185. 被引量：5
4李苗华,陈淑燕,劳叶春,谷健.基于GA启发式抽样的交通事件自动检测[J].交通信息与安全,2016,34(5):87-92. 被引量：1

二级引证文献13

1邓玉洁,朱庆生.基于聚类的离群点分析方法[J].计算机应用研究,2012,29(3):865-868. 被引量：5
2冯燕.数据挖掘技术在学生信息中的应用[J].电子世界,2012(20):78-79.
3周冬,苏勇,黄烨.子空间聚类算法在高维数据异常检测中的应用[J].信息技术,2013,37(3):168-171.
4冯永,韩楠,贾东风.云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪[J].计算机应用,2013,33(12):3559-3562. 被引量：3
5王秀华.基于随机抽样的加速K-均值聚类方法[J].计算机与现代化,2013(12):27-29. 被引量：7
6耿德志.一种基于区间核的聚类算法[J].山西大学学报（自然科学版）,2016,39(3):429-433.
7张馨艺,常浩娟.基于神经网络的我国人口预测分析[J].农村经济与科技,2017,28(15):50-54. 被引量：3
8李广强,韩曜权,黄才权.基于局部离群因子的军事训练数据异常值检测[J].空军预警学院学报,2018,32(4):280-282. 被引量：1
9王秀华.一种并行的加速k-均值聚类方法[J].电脑知识与技术,2013,9(6X):4299-4302. 被引量：2
10凃强,李大韦,程琳.基于TAN分类算法的交通事件检测[J].交通信息与安全,2018,36(3):27-32. 被引量：1

1安维默.用Excel抽取样本的操作方法[J].北京统计,2003(5):76-77.
2刘丽,王春枝.抽样在数据挖掘中的应用[J].软件导刊,2008,7(7):97-98. 被引量：2
3桂海霞.利用表格特征信息的Web文本分类研究与实现[J].计算机时代,2008(12):38-40.
4刁东宇,曹正锋.改进多目标粒子群优化算法在间歇蒸煮过程中的应用[J].计算机应用,2012,32(A02):57-60.
5王宜青,陈庶樵,张震.基于动态计数型过滤器的网络流公平抽样机制[J].计算机应用与软件,2014,31(11):139-142. 被引量：2
6谢邦昌.缩减“数据”落差,创新“数据”契机[J].数据,2005(7):39-39.
7邱刚,王养利.基于边缘特征和神经网络的汽车牌照定位算法[J].微机发展,2005,15(4):30-32. 被引量：4
8金光.重要性抽样法研究[J].系统仿真学报,2002,14(9):1121-1125. 被引量：9
9谢铮桂,钟少丹,韦玉科.基于免疫聚类的神经网络集成的研究[J].微计算机信息,2010,26(4):154-155. 被引量：1
10徐勇,杨静宇,陆建峰.提升KPCA方法特征抽取效率的算法设计[J].中国工程科学,2005,7(10):38-42. 被引量：3

微计算机信息

2009年第12期

浏览历史

内容加载中请稍等...

基于数据挖掘的启发式抽样方法研究被引量：4

参考文献9

二级参考文献34

共引文献18

同被引文献34

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于数据挖掘的启发式抽样方法研究 被引量：4

参考文献9

二级参考文献34

共引文献18

同被引文献34

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于数据挖掘的启发式抽样方法研究被引量：4