摘要:
针对现有算法在处理海量数据集时处理效率低的问题,提出一种¤基于邻域搜索的在线特征选择(neighborhood search for online feature selection, NSOFS)并行大数据分类方法.在Map阶段,将大数据集进行分块,针对动态未知特征空间,通过萤火╳虫算法和模拟退火算法的优化,对于在线特征进行邻域搜索,选择最佳特征集,将获得︾的特征集作为Reduce阶段ξ输入特征,然后使用内核支持向量机(Kernel Support Vector Machine, KSVM)对数据分类.实验结果表明:所提方法在精确♀率、召回率、F值和时间等性能方面◣优于其他现有方法.