期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种适用于不均衡数据分布的数据表索引方法
1
作者 牛立强 《新一代信息技术》 2022年第5期56-58,共3页
本文提出的部分索引是一种新的数据库表索引创建方法,它对表中索引列的所有数据值进行统计,将其分为高频数据值和非高频数据值,部分索引仅对非高频数据值创建索引,并将所有高频数据值放入索引开头的高频数据块中.部分索引方法适用于索... 本文提出的部分索引是一种新的数据库表索引创建方法,它对表中索引列的所有数据值进行统计,将其分为高频数据值和非高频数据值,部分索引仅对非高频数据值创建索引,并将所有高频数据值放入索引开头的高频数据块中.部分索引方法适用于索引列数据不均衡分布的场景,可以为SQL查询提供更合理的执行策略.本文具体介绍了部分索引的原理、创建方法以及部分索引场景下SQL语句的执行流程. 展开更多
关键词 表索引 不均衡数据分布 部分索引 数据
在线阅读 下载PDF
多子域隔离学习组合决策用于不均衡样本 被引量:2
2
作者 靳燕 彭新光 《计算机应用》 CSCD 北大核心 2016年第9期2475-2480,共6页
为进一步弱化数据不均衡对分类算法的束缚,从数据集区域分布特性着手,提出了不均衡数据集上基于子域学习的复合分类模型。子域划分阶段,扩展支持向量数据描述(SVDD)算法给出类的最小界定域,划分出域内密集区与域外稀疏区。借鉴不同类存... 为进一步弱化数据不均衡对分类算法的束缚,从数据集区域分布特性着手,提出了不均衡数据集上基于子域学习的复合分类模型。子域划分阶段,扩展支持向量数据描述(SVDD)算法给出类的最小界定域,划分出域内密集区与域外稀疏区。借鉴不同类存在相似样本的类重叠概念,对边界样本进行搜索,组合构成重叠域。子域清理阶段,基于邻近算法(KNN)的邻近性假设,结合不同域的密疏程度,设置样本有效性参数,对域内样本逐个检测以清理噪声。各子域隔离参与分类建模,按序组合产生出用于不均衡数据集的复合分类器CCRD。在相似算法对比以及代价敏感Meta Cost对比中,CCRD对正类的正确分类改善明显,且未加重负类误判;在SMOTE抽样比较中,CCRD改善了负类的误判情形,且未影响正类的正确分类;在五类数据集的逐个比较中,CCRD分类性能均有提升,在Haberman_sur的正类分类性能提升上尤为明显。结果表明,基于子域学习的复合分类模型的分类性能较好,是一种研究不均衡数据集的较有效的方法。 展开更多
关键词 不均衡数据集区域分布 支持向量数据描述 稀疏域与重叠域 子域隔离学习 复合分类器
在线阅读 下载PDF
簇特征加权的模糊紧致散布聚类算法
3
作者 周媛 束星玮 王蕾 《信息与控制》 CSCD 北大核心 2018年第6期722-729,共8页
针对非均衡数据聚类问题,提出了簇特征加权的模糊紧致散布聚类算法.指出了模糊紧致散布聚类算法中模糊隶属度表达式的不足之处,给出了簇特征加权模糊紧致散布聚类算法中样本隶属度的计算公式和各属性对不同类的权重计算公式,并讨论了样... 针对非均衡数据聚类问题,提出了簇特征加权的模糊紧致散布聚类算法.指出了模糊紧致散布聚类算法中模糊隶属度表达式的不足之处,给出了簇特征加权模糊紧致散布聚类算法中样本隶属度的计算公式和各属性对不同类的权重计算公式,并讨论了样本隶属度和属性权重的调整方法.分别将所提算法和模糊紧致散布聚类算法及两种加权聚类算法用于经典数据集.实验结果证明本文算法相对于其它3个算法对分布不均衡的数据划分有更高的准确性和合理性. 展开更多
关键词 簇特征加权 模糊紧致 模糊散布 聚类 分布不均衡数据
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部