-
题名一种适用于不均衡数据分布的数据表索引方法
- 1
-
-
作者
牛立强
-
机构
中博信息技术研究院有限公司
-
出处
《新一代信息技术》
2022年第5期56-58,共3页
-
文摘
本文提出的部分索引是一种新的数据库表索引创建方法,它对表中索引列的所有数据值进行统计,将其分为高频数据值和非高频数据值,部分索引仅对非高频数据值创建索引,并将所有高频数据值放入索引开头的高频数据块中.部分索引方法适用于索引列数据不均衡分布的场景,可以为SQL查询提供更合理的执行策略.本文具体介绍了部分索引的原理、创建方法以及部分索引场景下SQL语句的执行流程.
-
关键词
表索引
不均衡数据分布
部分索引
数据库
-
Keywords
table index
unbalanced data distribution
partial index
database
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名多子域隔离学习组合决策用于不均衡样本
被引量:2
- 2
-
-
作者
靳燕
彭新光
-
机构
山西大学商务学院信息学院
太原理工大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第9期2475-2480,共6页
-
基金
山西省自然科学基金资助项目(2010011022-2)
山西省高等学校科技创新项目(20131112)
山西大学商务学院科研基金资助项目(2014010)
-
文摘
为进一步弱化数据不均衡对分类算法的束缚,从数据集区域分布特性着手,提出了不均衡数据集上基于子域学习的复合分类模型。子域划分阶段,扩展支持向量数据描述(SVDD)算法给出类的最小界定域,划分出域内密集区与域外稀疏区。借鉴不同类存在相似样本的类重叠概念,对边界样本进行搜索,组合构成重叠域。子域清理阶段,基于邻近算法(KNN)的邻近性假设,结合不同域的密疏程度,设置样本有效性参数,对域内样本逐个检测以清理噪声。各子域隔离参与分类建模,按序组合产生出用于不均衡数据集的复合分类器CCRD。在相似算法对比以及代价敏感Meta Cost对比中,CCRD对正类的正确分类改善明显,且未加重负类误判;在SMOTE抽样比较中,CCRD改善了负类的误判情形,且未影响正类的正确分类;在五类数据集的逐个比较中,CCRD分类性能均有提升,在Haberman_sur的正类分类性能提升上尤为明显。结果表明,基于子域学习的复合分类模型的分类性能较好,是一种研究不均衡数据集的较有效的方法。
-
关键词
不均衡数据集区域分布
支持向量数据描述
稀疏域与重叠域
子域隔离学习
复合分类器
-
Keywords
regional distribution of imbalanced class
Support Vector Data Description (SVDD)
sparse and overlappingdomains
leaning classifiers on multiple isolated subdomains
Composite Classification model (CCRD)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名簇特征加权的模糊紧致散布聚类算法
- 3
-
-
作者
周媛
束星玮
王蕾
-
机构
南京信息工程大学电子与信息工程学院
中国东方航空江苏有限公司飞机维修部
-
出处
《信息与控制》
CSCD
北大核心
2018年第6期722-729,共8页
-
基金
国家自然科学基金资助项目(61403198)
江苏高校品牌专业建设工程资助项目(1181081501003)
+1 种基金
2017年国家电网总部科技计划资助项目
南京信息工程大学大学生创新训练项目(1214071701214)
-
文摘
针对非均衡数据聚类问题,提出了簇特征加权的模糊紧致散布聚类算法.指出了模糊紧致散布聚类算法中模糊隶属度表达式的不足之处,给出了簇特征加权模糊紧致散布聚类算法中样本隶属度的计算公式和各属性对不同类的权重计算公式,并讨论了样本隶属度和属性权重的调整方法.分别将所提算法和模糊紧致散布聚类算法及两种加权聚类算法用于经典数据集.实验结果证明本文算法相对于其它3个算法对分布不均衡的数据划分有更高的准确性和合理性.
-
关键词
簇特征加权
模糊紧致
模糊散布
聚类
分布不均衡数据
-
Keywords
cluster feature weighting
fuzzy compactness
fuzzy separation
clustering
imblanced distribution data
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-