-
题名一种基于学习的高维数据c-近似最近邻查询算法
被引量:18
- 1
-
-
作者
袁培森
沙朝锋
王晓玲
周傲英
-
机构
上海市智能信息处理重点实验室(复旦大学)
上海市高可信计算重点实验室(华东师范大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第8期2018-2031,共14页
-
基金
国家自然科学基金(60925008
60903014)
+2 种基金
国家重点基础研究发展计划(973)(2010CB328106)
"核心电子器件
高端通用芯片及基础软件产品"国家科技重大专项(2010ZX01042-002-003-004)
-
文摘
针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻.与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题.
-
关键词
随机投影
c-近似最近邻查询
支持向量机分类器
高维数据
熵最大化准则
位置敏感哈希
-
Keywords
random projection
c-approximate nearest neighbor query
SVM classifier
high-dimensional data
entropy maximizing criterion
locality sensitive hashing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-