期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
布茨定律用于中文同频词规律的实证研究
1
作者 李晓超 贾立国 +3 位作者 罗燕 陈敏 柳萌萌 赵书良 《情报杂志》 CSSCI 北大核心 2015年第6期62-67,共6页
布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文本的适用性,揭示中文文本同频词的统计规律,对大量中文文本同频词进行统计研究,实验过程中注重了实验数... 布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文本的适用性,揭示中文文本同频词的统计规律,对大量中文文本同频词进行统计研究,实验过程中注重了实验数据规模的选取和文本长度跨度的设计。实验得出:随着文本长度的增大,低频词的同频词数与不同词数的比值并非定值,而是逐渐减小;低频词的同频词数与不同词数的关系呈幂函数增长。另外,随着文本长度的增大,低频词的同频词数与频次为1的同频词数的比值也非定值,而是逐渐增大。上述结果与布茨所做英文的实验不一致,故得出结论:布茨定律不适用于中文文本。 展开更多
关键词 同频词 齐普夫定律 布茨定律 低频词
在线阅读 下载PDF
基于词频统计的文本关键词提取方法 被引量:78
2
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
在线阅读 下载PDF
多尺度聚类挖掘算法 被引量:7
3
作者 韩玉辉 赵书良 +2 位作者 柳萌萌 罗燕 丁亚飞 《计算机科学》 CSCD 北大核心 2016年第8期244-248,共5页
数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先... 数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。 展开更多
关键词 多尺度 聚类 尺度转换 多尺度聚类挖掘 克里格法
在线阅读 下载PDF
一种新的面向普通用户的多值属性关联规则可视化挖掘方法 被引量:9
4
作者 郭晓波 赵书良 +1 位作者 王长宾 陈敏 《电子学报》 EI CAS CSCD 北大核心 2015年第2期344-352,共9页
针对传统关联规则可视化挖掘方法不利于处理多值属性数据、缺乏展现数据间的频繁模式和关联模式以及效率低下等问题,提出了基于KAF因子和CHF因子的Apriori改进算法进行多值属性关联规则挖掘,实现了一种新的基于概念格的多值属性关联规... 针对传统关联规则可视化挖掘方法不利于处理多值属性数据、缺乏展现数据间的频繁模式和关联模式以及效率低下等问题,提出了基于KAF因子和CHF因子的Apriori改进算法进行多值属性关联规则挖掘,实现了一种新的基于概念格的多值属性关联规则可视化方法.运用概念格理论对多值属性数据进行了重新定义和分类,建立了较为完整的挖掘过程参数调整策略,方便用户选择关键属性值进行规则挖掘分析,提高了算法运行速度和挖掘效率.以概念格结构将多值数据组织起来,实现了对频繁项集的可视化展示,以及关联规则的多模式可视化展示.实验结果表明,改进后的挖掘算法具有更好的性能,所提出的可视化形式和已有成果相比具有良好的展现效果. 展开更多
关键词 多值属性 概念格 关联规则 可视化挖掘
在线阅读 下载PDF
基于概念图的关联规则知识表示 被引量:6
5
作者 郭晓波 赵书良 +2 位作者 刘军丹 赵娇娇 王长宾 《计算机科学》 CSCD 北大核心 2013年第8期261-265,共5页
针对传统关联规则表示方式无法展现领域知识、数据项间的关系及规则中所隐含的信息等问题,提出了一种基于概念图的关联规则知识表示方法,该方法包括模式定义和模式解析,其结合概念图理论可将关联规则转换成概念图的知识表示形式。给出... 针对传统关联规则表示方式无法展现领域知识、数据项间的关系及规则中所隐含的信息等问题,提出了一种基于概念图的关联规则知识表示方法,该方法包括模式定义和模式解析,其结合概念图理论可将关联规则转换成概念图的知识表示形式。给出了关联规则的概念图知识表示算法,并以某省全员人口数据为数据源对算法进行了具体实现和分析。实验结果表明,该方法在人口信息表现方面具有良好的效果。 展开更多
关键词 知识表示 概念图 关联规则 人口数据
在线阅读 下载PDF
多尺度关联规则挖掘的尺度上推算法 被引量:6
6
作者 柳萌萌 赵书良 +1 位作者 陈敏 李晓超 《计算机应用研究》 CSCD 北大核心 2015年第10期2924-2929,共6页
多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度... 多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度的定义;然后根据多尺度理论的研究重点阐明了多尺度数据挖掘的实质及研究核心;最后在多尺度数据理论研究的基础上提出了尺度上推关联规则挖掘算法SU-ARMA(scaling-up association rules mining algorithm)。该算法利用采样理论和Jaccard相似性系数对数据集挖掘结果中的频繁项集进行处理,实现了多尺度数据间知识的向上推导。利用人造数据集和H省全员人口真实数据集对算法进行了实验和分析,实验结果表明算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的。 展开更多
关键词 多尺度 概念分层 频繁项集 尺度上推 多尺度关联规则挖掘
在线阅读 下载PDF
中文文本同频词统计规律及在关键词提取中的应用 被引量:4
7
作者 李晓超 赵书良 +2 位作者 罗燕 陈敏 柳萌萌 《计算机应用研究》 CSCD 北大核心 2016年第4期1007-1012,共6页
通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词... 通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学术界关心的如何处理中文低频词的问题,对关键词提取中如何处理低频词提供了可操作标准。 展开更多
关键词 同频词 齐普夫定律 布茨定律 关键词提取 TF-IDF算法
在线阅读 下载PDF
家谱关系的元图表示 被引量:4
8
作者 刘军丹 赵书良 +3 位作者 赵娇娇 郭晓波 陈敏 柳萌萌 《计算机应用》 CSCD 北大核心 2013年第7期2037-2040,共4页
针对已有家谱图展示形式中,边的数量随节点数的增加而快速增长导致表现力下降的问题,提出以元图的形式对家谱进行可视化展示。家谱的元图表示形式中,产生集表示家族中所有人员组成的集合,每条边仅表示"父母子女"关系,不必存... 针对已有家谱图展示形式中,边的数量随节点数的增加而快速增长导致表现力下降的问题,提出以元图的形式对家谱进行可视化展示。家谱的元图表示形式中,产生集表示家族中所有人员组成的集合,每条边仅表示"父母子女"关系,不必存在表示夫妻关系的边。其中,边为产生集的两个子集的有序对,分别为具有夫妻关系的两个节点组成的入点集和单个的孩子节点组成的出点集。实验结果表明,在数据相同的情况下,家谱的元图可视化形式中边的数量约为通常的展示形式中边数量的一半,使得展示结果清晰易懂。同时,对家谱的数学建模、可视化研究以及家谱信息系统的改造具有一定指导作用。 展开更多
关键词 家谱 可视化 元图 人口数据库 系统原型
在线阅读 下载PDF
基于概念格的多值属性关联规则挖掘 被引量:4
9
作者 郭晓波 赵书良 +2 位作者 王长宾 赵娇娇 刘军丹 《计算机科学》 CSCD 北大核心 2014年第3期267-271,309,共6页
针对传统关联规则挖掘算法不利于用户选择关键数据进行分析、无法处理多值属性数据及效率低下等问题,提出了基于KAF因子和CHF因子的Apriori改进算法来进行多值属性关联规则挖掘,运用概念格理论对多值属性数据进行了重新定义和分类;建立... 针对传统关联规则挖掘算法不利于用户选择关键数据进行分析、无法处理多值属性数据及效率低下等问题,提出了基于KAF因子和CHF因子的Apriori改进算法来进行多值属性关联规则挖掘,运用概念格理论对多值属性数据进行了重新定义和分类;建立了数据挖掘参数调整机制,以提高算法挖掘效率,方便用户选择关键属性值进行规则挖掘分析。结合某省全员人口数据对算法进行了具体实现和分析。实验结果表明,算法性能具有较大提高。 展开更多
关键词 多值属性 概念格 关联规则 APRIORI
在线阅读 下载PDF
基于SC-AdaBoost的图像目标检测 被引量:6
10
作者 张朝晖 刘永霞 雷倩 《计算机科学》 CSCD 北大核心 2015年第7期309-313,共5页
基于AdaBoost分类器的图像/视频目标检测系统具有检测精度高、检测速度快的特点,但当训练样本数目多、样本描述的特征维数高时,分类器的训练过程将会异常缓慢。为有效改善分类器训练的时间性能,从限制弱分类器训练样本规模的角度,提出... 基于AdaBoost分类器的图像/视频目标检测系统具有检测精度高、检测速度快的特点,但当训练样本数目多、样本描述的特征维数高时,分类器的训练过程将会异常缓慢。为有效改善分类器训练的时间性能,从限制弱分类器训练样本规模的角度,提出了一种改进的boosting分类器训练模型,即基于SC-AdaBoost的分类器训练模型。基于VOC2006数据集的车辆检测实验表明,在不损失分类器检测性能的前提下,SC-AdaBoost训练模型可明显减少分类器的训练时间。 展开更多
关键词 训练集收缩 SC-AdaBoost算法 支持向量机 ADABOOST算法 目标检测
在线阅读 下载PDF
基于S-C元图的关联规则表示方法 被引量:2
11
作者 陈敏 赵书良 +2 位作者 郭晓波 柳萌萌 李晓超 《计算机科学》 CSCD 北大核心 2014年第8期267-273,共7页
针对现有的关联规则可视化形式中,面向专家用户而忽略了普通用户的感知能力,以及当规则数量增多时,边和节点的代表元素易发生重叠,缺乏有效的展现形式,降低了可读性等问题,提出了一种新的基于S-C元图形式的一对一、一对多、多对一、多... 针对现有的关联规则可视化形式中,面向专家用户而忽略了普通用户的感知能力,以及当规则数量增多时,边和节点的代表元素易发生重叠,缺乏有效的展现形式,降低了可读性等问题,提出了一种新的基于S-C元图形式的一对一、一对多、多对一、多对多的关联规则可视化表示方法。首先给出了S-C元图的基本定义和以S-C元图展示关联规则的模型;接着给出了S-C元图的性质和推导过程;最后以某省全员人口数据为基础,结合前注意加工理论与格式塔理论,以S-C元图和纺锤体相结合的形式对多模式的关联规则进行可视化展示,并分析了展示效果。实验结果表明,所提出的可视化方法具有良好的展示效果。 展开更多
关键词 元图 关联规则 可视化 格式塔理论 前注意加工理论
在线阅读 下载PDF
元图的存储结构及其搜索算法 被引量:3
12
作者 刘军丹 赵书良 +1 位作者 郭晓波 赵娇娇 《计算机应用研究》 CSCD 北大核心 2013年第7期2029-2032,共4页
给出了元图在计算机中的实现,提出元图的关联矩阵和邻接表存储结构,并给出了元图对应两种存储结构的广度优先搜索算法(BFS)和深度优先搜索算法(DFS)。最后,对给出的元图的存储结构和搜索算法进行了分析,验证了提出的存储结构和搜索算法... 给出了元图在计算机中的实现,提出元图的关联矩阵和邻接表存储结构,并给出了元图对应两种存储结构的广度优先搜索算法(BFS)和深度优先搜索算法(DFS)。最后,对给出的元图的存储结构和搜索算法进行了分析,验证了提出的存储结构和搜索算法的可行性。 展开更多
关键词 元图 存储结构 搜索算法
在线阅读 下载PDF
一种新的关联规则Vis-Meta图知识表示方法 被引量:2
13
作者 陈敏 赵书良 +2 位作者 郭晓波 李晓超 柳萌萌 《计算机科学》 CSCD 北大核心 2015年第3期218-223,共6页
针对传统关联规则表示方法无法展示领域知识,缺少对规则信息一对一、一对多、多对一、多对多的多模式表示,忽略知识发现结果的共享等问题,提出了一种新的基于Vis-Meta图的多模式关联规则知识表示方法。首先给出了Vis-Meta图的相关定义... 针对传统关联规则表示方法无法展示领域知识,缺少对规则信息一对一、一对多、多对一、多对多的多模式表示,忽略知识发现结果的共享等问题,提出了一种新的基于Vis-Meta图的多模式关联规则知识表示方法。首先给出了Vis-Meta图的相关定义与关联规则的Vis-Meta图表示方法,接着定义了关联规则Vis-Meta图知识表示中的概念关系,并在此基础上给出了关联规则概念关系知识表示算法、关联规则实例对比算法和关联规则知识表示优化算法。最后,以某省全员人口数据为基础,对关联规则信息进行可视化分析。实验结果表明,所提出的知识表示算法具有良好的展示效果与知识共享能力。 展开更多
关键词 META图 关联规则 知识表示 可视化
在线阅读 下载PDF
基于超图的关联规则可视化方法 被引量:3
14
作者 高琳 赵书良 +2 位作者 赵骏鹏 李超 池云仙 《计算机应用研究》 CSCD 北大核心 2017年第10期2933-2937,共5页
针对传统的关联规则可视化方法缺乏多模式关联规则展现形式、无法展示关联规则的内部信息以及分布情况、属性值重要程度突出不明显等问题,提出了基于超图的关联规则表示方法。首先,基于超图中BF-超边基础理论,给出了BF规则图的定义,并... 针对传统的关联规则可视化方法缺乏多模式关联规则展现形式、无法展示关联规则的内部信息以及分布情况、属性值重要程度突出不明显等问题,提出了基于超图的关联规则表示方法。首先,基于超图中BF-超边基础理论,给出了BF规则图的定义,并且设计了基于超图的一对一、一对多、多对一、多对多关联规则表示原型;结合沙漏结构,设计了基于超图的关联规则可视化布局算法;然后,基于交互理论及其相关技术,设计并实现了交互式关联规则可视化系统;最后,以某省全员人口数据为基础,对算法进行了具体实现和分析。实验结果表明,所提出的可视化形式和已有成果相比具有良好的展现效果。 展开更多
关键词 超图 关联规则 可视化 交互 人口数据
在线阅读 下载PDF
基于概念格的多值属性关联规则可视化 被引量:2
15
作者 郭晓波 赵书良 +1 位作者 赵娇娇 刘军丹 《计算机应用》 CSCD 北大核心 2013年第8期2198-2203,2211,共7页
针对传统关联规则可视化方法无法展现数据间的频繁模式和关联关系,表示形式比较单一,缺乏多模式展现形式等问题,提出了一种新的多值属性关联规则可视化表示算法。该算法运用概念格理论对多值属性数据进行了重新定义和分类,将频繁项集和... 针对传统关联规则可视化方法无法展现数据间的频繁模式和关联关系,表示形式比较单一,缺乏多模式展现形式等问题,提出了一种新的多值属性关联规则可视化表示算法。该算法运用概念格理论对多值属性数据进行了重新定义和分类,将频繁项集和关联规则中的多值数据项分别以概念格结构进行表示,实现了频繁项集可视化展示和一对一、一对多、多对一、多对多及概念分层的多模式关联规则可视化展示。最后,以某省全员人口数据为基础对算法进行了具体实现和分析,同时实现了对人口数据的源数据、频繁模式以及关联关系的可视化展示。实验结果表明,所提出的可视化形式和已有成果相比具有良好的频繁项集与多模式关联规则展现效果。 展开更多
关键词 多值属性 概念格 关联规则 可视化 人口数据
在线阅读 下载PDF
基于自然语言生成的关联规则可视化方法 被引量:2
16
作者 赵娇娇 赵书良 +1 位作者 郭晓波 刘军丹 《计算机工程与应用》 CSCD 2014年第23期122-126,175,共6页
针对传统的关联规则蕴含式表示方式和图形可视化方法对非专家用户来说不易理解的问题,提出了一种新的基于自然语言生成的关联规则可视化方法。该方法将自然语言生成技术引入到关联规则可视化中,通过领域知识库中的解释模式将关联规则中... 针对传统的关联规则蕴含式表示方式和图形可视化方法对非专家用户来说不易理解的问题,提出了一种新的基于自然语言生成的关联规则可视化方法。该方法将自然语言生成技术引入到关联规则可视化中,通过领域知识库中的解释模式将关联规则中每一项生成简单的自然语言句子,并经过句子规划、表层实现,最终生成流畅的自然语言句子。实验最终得出的结果,便于普通用户理解和应用,从而帮助用户获取更有价值的信息。 展开更多
关键词 自然语言生成 关联规则 可视化 领域知识库
在线阅读 下载PDF
网络热点话题传播的脉冲时序行为动力模型 被引量:1
17
作者 郭瑞强 郭阿为 +2 位作者 韩忠明 周萌 张伟 《计算机工程与应用》 CSCD 北大核心 2015年第16期121-129,共9页
微博、论坛等交互式网站上的热点话题是网络舆情的源头与集散地,早期发现与预测网络热点话题是舆情控制的关键。针对交互式网络热点话题,Yasuko Matsubara等人对信息传播的模式进行了建模,提出了Spike M模型,该模型可以较好地反映信息... 微博、论坛等交互式网站上的热点话题是网络舆情的源头与集散地,早期发现与预测网络热点话题是舆情控制的关键。针对交互式网络热点话题,Yasuko Matsubara等人对信息传播的模式进行了建模,提出了Spike M模型,该模型可以较好地反映信息传播的模式。但是针对热点话题呈现多峰的情况,该模型则无法拟合。且该模型假设针对某一事件,每个网络用户只能发布一次消息,这与实际情况不符。从实际情况出发(针对同一话题,网络用户可以多次发布消息),提出了脉冲时序行为动力模型(PTSDM)。假设多次发布消息的用户数服从幂律分布,从用户行为的角度分析话题的特征,在模型中引入脉冲干扰,使模型更具随机性,更符合客观实际,从而可以拟合不同类型的热点话题。采用两个数据集作为测试样本,进行了实验,实验表明了所构建模型的有效性。 展开更多
关键词 建模 时间序列 热点话题 脉冲噪声
在线阅读 下载PDF
基于粒计算的多尺度聚类尺度上推算法 被引量:8
18
作者 赵骏鹏 赵书良 +2 位作者 李超 高琳 池云仙 《计算机应用研究》 CSCD 北大核心 2018年第2期362-366,共5页
多尺度科学在数据挖掘领域的研究多见于图像和空间数据挖掘,对一般数据的多尺度特性研究较少。传统聚类算法只在单一尺度上进行,无法充分挖掘蕴藏在数据中的知识。引入粒计算思想,进行普适的多尺度聚类方法研究,对数据进行多层次、多角... 多尺度科学在数据挖掘领域的研究多见于图像和空间数据挖掘,对一般数据的多尺度特性研究较少。传统聚类算法只在单一尺度上进行,无法充分挖掘蕴藏在数据中的知识。引入粒计算思想,进行普适的多尺度聚类方法研究,对数据进行多层次、多角度分析,实现一次挖掘,多次应用。首先,介绍粒计算相关知识;然后,提出多尺度聚类尺度上推算法UAMC(upscaling algorithm of multi-scale clustering),以簇为粒子,簇心为粒子特征进行尺度转换,利用斑块模型得到大尺度知识,避免二次挖掘带来的资源浪费。最后,利用UCI公用数据集和H省全员人口真实数据集对算法性能进行实验验证,结果表明算法在准确性上优于K-means等基准算法,是有效可行的。 展开更多
关键词 多尺度 粒计算 信息粒度 斑块模型 多尺度聚类
在线阅读 下载PDF
基于加权向量提升的多尺度聚类挖掘算法 被引量:4
19
作者 苏东海 赵书良 +2 位作者 柳萌萌 苏嘉庚 李妍 《计算机科学》 CSCD 北大核心 2015年第4期263-267,共5页
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合... 多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm)。算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上。实验表明,算法WVB-MSCA是可行且有效的。 展开更多
关键词 多尺度 尺度转换 聚类挖掘 多尺度聚类
在线阅读 下载PDF
基于广义分形插值理论的多尺度分类尺度下推算法 被引量:8
20
作者 李佳星 赵书良 +1 位作者 安磊 李长镜 《计算机应用研究》 CSCD 北大核心 2019年第7期1970-1974,共5页
多尺度数据挖掘多应用于空间遥感图像数据,以图像的分辨率或者区域分割为依据进行尺度划分,然后在每个尺度层进行分析。近期,有不少学者将多尺度数据挖掘应用于一般数据集上,以等级理论、概念分层以及包含度理论等为尺度划分依据,研究... 多尺度数据挖掘多应用于空间遥感图像数据,以图像的分辨率或者区域分割为依据进行尺度划分,然后在每个尺度层进行分析。近期,有不少学者将多尺度数据挖掘应用于一般数据集上,以等级理论、概念分层以及包含度理论等为尺度划分依据,研究不同尺度层的分布规律,进而发现有意义的事实,如多尺度关联规则以及多尺度聚类。但是在一般数据集下很少将多尺度数据挖掘应用于分类算法领域。定义了广义分形插值理论的概念,打破了局限于迭代函数系统(iterative function systems,IFS)的缺憾,拓展了分形插值的应用;提出了基于广义分形插值理论的多尺度分类尺度下推算法(multi-scale classification scaling-down algorithm,MSCSDA)。仿真实验建立在四个UCI基准数据集和一个H省部分人口真实数据集上,并将MSCSDA与KNN、decision tree以及LIBSVM算法进行对比分析,实验结果表明,MSCSDA在不同的数据集上均优于其他算法。 展开更多
关键词 多尺度数据挖掘 分类 分形插值 尺度下推
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部