获奖名称: | 基于粒计算的数据建模理论与方法研究 |
获奖时间: | 2016年 |
获奖类别、等级: | 山西省科学技术奖(自然科学类)一等奖 |
主要完成人: | 梁吉业 钱宇华 李德玉 王文剑 白亮 |
成果简介: | |
本项目着眼于数据的海量性、复杂性和高增长性对数据建模提出的严峻挑战,聚焦于基础性核心科学问题,针对降维、聚类、分类与回归等典型任务,构建粒计算数据建模的理论体系,并发展高效算法。 1、大规模高维数据特征选择:发现了粒度链上正向近似可大幅度降低参与计算的样本数量,从而降低算法计算代价,构造了目标概念正向近似递归表达公式,创造性地提出了基于动态粒度的粗糙特征选择通用加速器;构造了信息熵的批增量递推计算公式,提出了基于属性重要度的批增量启发式特征选择算法,突破了传统增量算法的单增量模式;提出了分布一致性、传递性、遍历性数据拆分三原则,给出了子数据集规模的确定公式,设计了样本表征整体的大规模数据特征选择算法。 2、粒计算的理论基础:揭示了粒度空间在四种运算下的代数结构,以及其在粒度距离下的几何结构;证实了粒度空间在交、并运算下构成一个完备有补格,在粒度距离下是一个距离测度空间;发现了粒度泛化偏序关系下各种粒化不确定性度量的非负性、对称性与单调性等共性特征,发展了粒化不确定性度量的公理化方法;提出了乐观、悲观两种多粒度粗糙集模型,为不同粒度下获取的非协调规则型知识的融合提供了支撑技术。 3、聚类有效性:发现了已有的推广K-modes型算法不收敛性,提出了目标函数、相异性测度两种K-Modes算法聚类过程迭代更新策略,并从理论上证明了基于这两类更新策略的K-modes型算法的收敛性,解决了基于多属性值簇代表的K-modes型算法收敛性难题;发现了Renyi熵和互补熵的组合可以很好地刻画数值-符号混合型数据的相似性,提出了扩展分类效用函数,设计了一个混合数据最优聚类算法;揭示了模糊k-means算法的均匀效应,创造性地提出了多中心模糊K-Means聚类框架,为非平衡数据聚类分析提供了有效算法。 4、SVM分类与回归:提出了粒度支持向量机优化模型,揭示了数据在核映射像空间中的粒度特性,可兼顾机器的泛化性能和大规模数据集上的训练效率,为核方法学习机器的大规模高效训练提供了借鉴方法。 |