题名 面向不平衡类的联邦学习客户端智能选择算法
1
作者
朱素霞
王云梦
颜培森
孙广路
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《哈尔滨理工大学学报》
CAS
北大核心
2024年第2期33-42,共10页
基金
黑龙江省自然科学基金(LH2021F032)
黑龙江省重点研发计划项目(2022ZX01A34).
文摘
在联邦学习应用场景下,若客户端设备之间的数据呈现非独立同分布特征,甚至出现类不平衡的情况时,客户端本地模型的优化目标将偏离全局优化目标,从而给全局模型的性能带来巨大挑战。为解决这种数据异质性带来的挑战,通过积极选择合适的客户端子集以平衡数据分布将有助于提高模型的性能。因此,设计了一种面向不平衡类的联邦学习客户端智能选择算法—FedSIMT。该算法不借助任何辅助数据集,在保证客户端本地数据对服务器端不可见的隐私前提下,使用Tanimoto系数度量本地数据分布与目标分布之间的差异,采用强化学习领域中的组合多臂老虎机模型平衡客户端设备选择的开发和探索,在不同数据异质性类型下提高了全局模型的准确率和收敛速度。实验结果表明,该算法具有有效性。
关键词
联邦学习
类不平衡
客户端选择算法
多臂老虎机
Keywords
federated learning
class-imbalance
client selection algorithm
multi-armed bandit
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于最大信息系数和近似马尔科夫毯的特征选择方法
被引量:49
2
作者
孙广路
宋智超
刘金来
朱素霞
何勇军
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《自动化学报》
EI
CSCD
北大核心
2017年第5期795-805,共11页
基金
国家自然科学基金(60903083
61502123)
黑龙江省新世纪人才项目(1155-ncet-008)资助~~
文摘
最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.
关键词
特征选择
最大信息系数
近似马尔科夫毯
特征相关性
特征冗余性
Keywords
Feature selection, maximal information coefficient, approximate Markov blanket, feature relevance, feature redundancy
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 特征选择方法中三种度量的比较研究
被引量:9
3
作者
宋智超
康健
孙广路
何勇军
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
北京宇航系统工程研究 所
出处
《哈尔滨理工大学学报》
CAS
北大核心
2018年第1期111-116,共6页
基金
黑龙江省普通高等学校新世纪优秀人才培养计划(1155-ncet-008)
黑龙江省教育科学规划课题(GBC1211062)
黑龙江省自然科学基金(QC2015084)
文摘
不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线性相关系数、对称不确定性和互信息三种常用的线性或非线性度量,将它们应用于基于相关性的快速特征选择方法中,对它们在基因微阵列和图像数据上的特征选择效果进行实验验证和比较。实验结果表明,基于相关性的快速特征选择方法使用线性相关系数在基因数据集上选取的特征集往往具有较好分类准确率,使用互信息在图像数据集上选取的特征集的分类效果较好,使用对称不确定性在两种类型数据上选取特征的分类效果较为稳定。
关键词
特征选择
线性相关系数
对称不确定性
互信息
基于相关性的快速特征选择方法
Keywords
feature selection
linear correlation coefficient
symmetrical uncertainty
mutual Information
fast correlation-based filter
分类号
TM391.1
[电气工程—电机]
题名 基于朴素贝叶斯模型的邮件过滤技术
被引量:6
4
作者
杨赫
孙广路
何勇军
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《哈尔滨理工大学学报》
CAS
2014年第1期49-53,共5页
基金
黑龙江省普通高等学校新世纪优秀人才培养计划(1155-ncet-008)
教育部人文社科项目(11YJC740048)
+1 种基金
黑龙江省教育科学规划课题(GBC1211062)
黑龙江省高等教育教学改革项目(2011-NP33)
文摘
针对朴素贝叶斯算法应用于反垃圾邮件过滤时,其有效性十分依赖于对邮件内容的有效建模,而邮件内容建模方面研究尚不成熟限制了贝叶斯方法在垃圾邮件过滤中的性能.采用了三种概率分布对邮件内容进行建模,据此提出了3种概率分布下的朴素贝叶斯算法.为了提高训练效率,算法采用了一种增量式的垃圾邮件过滤方法.在trec05p-1、trec06p两个公开数据集上对这3种贝叶斯算法进行了实验对比,分析出三种贝叶斯分布的适用范围.从不同分布的邮件内容建模角度出发,为过滤垃圾邮件的方法选择提供了有效依据.
关键词
邮件过滤
朴素贝叶斯
机器学习
Keywords
e-mail fiherring
naive bayes
machine learning
分类号
TM391.1
[电气工程—电机]
题名 满足本地差分隐私的分类变换扰动机制
被引量:6
5
作者
朱素霞
王蕾
孙广路
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
2022年第2期430-439,共10页
基金
国家自然科学基金项目(61502123)
黑龙江省留学归国人员科学基金项目(LC2018030)
+1 种基金
黑龙江普通高校基本科研业务专项资金(JMRH2018XM04)
黑龙江省自然科学基金项目(LH2021F032)。
文摘
本地差分隐私作为一种隐私保护技术,被广泛用于连续数值型数据的均值估计,使用的扰动机制将直接影响均值的准确度.为进一步提高均值估计的准确性,提出了一种满足差分隐私的分类变换扰动机制.该机制对连续数值型数据划分变换范围并进行分段,根据分段将其变换为1维二元分类数据.转换后使用随机响应机制进行扰动,再根据扰动后的数据标识的数值段从中随机均匀抽取数值作为扰动值.在真实数据和合成数据中的均值估计实验结果表明该机制极大地提高了准确性.除此之外,将分类变换扰动机制用于构建满足本地差分隐私的小批量梯度下降算法,并完成线性回归学习任务,实验结果证明该方法同样优于其他已有机制,可得到更小的均方误差.
关键词
本地差分隐私
数据转换
均值估计
小批量梯度下降
随机响应
Keywords
local differential privacy
data transformation
mean value estimation
mini-batch gradient descent
random response
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于聚类和流量传播图的P2P流量识别方法
被引量:3
6
作者
苏阳阳
孙冬璞
李丹丹
孙广路
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《计算机应用研究》
CSCD
北大核心
2019年第11期3448-3451,3455,共5页
基金
国家自然科学基金资助项目(60903083,61502123)
黑龙江省新世纪人才项目(1155-ncet-008)
黑龙江省博士后科研启动基金资助项目
文摘
为有效监管网络,快速精确识别P2P流量,通过分析P2P网络流量中节点与节点、节点与链路之间的交互和行为特征,将聚类方法与流量传播图方法相结合,提出了一种基于网络行为特征的P2P流量识别方法。该方法首先通过采集网络流的包级和流级统计特征对不同种类的网络应用的流量进行聚类,然后利用流量传播图对P2P流量进行识别。实验结果表明,提出的方法在骨干网络数据上能够有效识别P2P网络应用流量,F 1-measure达到95%以上。
关键词
P2P流量识别
流量行为特征
流量传播图
基于密度带噪声的空间聚类算法
Keywords
P2P traffic identification
traffic behavior characteristics
traffic dispersion graph
density-based spatial clustering of applications with noise
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于子空间聚类的网络流量分类方法
被引量:3
7
作者
李丹丹
田春伟
李佰洋
孙广路
康健
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
北京宇航系统工程研究 所
出处
《哈尔滨理工大学学报》
CAS
北大核心
2015年第2期63-68,共6页
基金
黑龙江省普通高等学校新世纪优秀人才培养计划(1155-ncet-008)
黑龙江省博士后科研启动基金
黑龙江省教育科学规划课题(GBC1211062)
文摘
应用层网络流量分类技术对流量控制与管理等研究具有重要意义.针对传统的基于有监督机器学习的分类方法对所有应用程序使用相同的特征,使得某些特征对一种或几种应用类型有区分性,而对其他应用类型的网络流分类产生干扰等问题,提出基于子空间聚类方法的网络流分类框架.利用子空间聚类算法,在总特征集中为每一种类型应用进行特征选择,提取与之相对应的关键特征,自动消除不相关的特征,使得每种应用类型都产生对应的特征签名集,并用这些不同的特征签名对未知的网络流进行分类.实验结果表明:本文提出的方法能够有效地提出每种应用类型的特征签名,并且所提出的特征签名具有明显的可区分性,该方法的分类准确率在93%以上,并且能很好的识别新出现的应用.
关键词
子空间聚类
网络流分类
特征签名
Keywords
subspace clustering
network traffic classification
feature signatures
分类号
TM391.1
[电气工程—电机]
题名 自适应概念漂移问题的增量集成分类算法
被引量:1
8
作者
韩明明
孙广路
朱素霞
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《计算机科学与探索》
CSCD
北大核心
2020年第7期1200-1210,共11页
基金
黑龙江省留学归国人员科学基金No.LC2018030
黑龙江省普通高校基本科研业务费专项资金No.JMRH2018XM04。
文摘
由于数据流具有非平稳特性,即概念漂移问题,导致机器学习模型的性能随着概念漂移的发生而降低。对分类器如何自适应概念漂移进行了研究,提出了以小数据块为输入的增量学习的增强集成算法,用于处理概念漂移情况下的数据流分类问题。该算法没有复杂的参数,但对弱分类器提出较高的要求,每次移除不合格的弱分类器后添加新的弱分类器,在迭代增量训练过程中根据训练误差更新样本和弱分类器的权重,最后通过加权投票方式整合各弱分类器的预测结果。用五组已知具体漂移情况的人工数据和三组未知漂移情况的真实数据进行实验,并与已有的算法进行对比,实验结果表明该算法能很好地处理概念漂移下的数据流分类问题。
关键词
数据流分类问题
概念漂移
集成算法
Keywords
data stream classification problem
concept drift
ensemble algorithm
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]