中南大学周晓君

当前位置: 周晓君的个人主页 >> 成果展示

群体决策集成学习

发布时间：2022-04-14

点击次数：

背景:

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。通过机器学习算法可以获得一个在训练集上表现十分优越的学习器，但过度学习往往容易学到一些并不普遍存在的特点，这样就会导致泛化能力下降，难以对新样本做出正确的判别。一个训练误差为零的模型通常会对训练数据过度拟合，不具备良好的泛化能力。集成学习是一种机器学习范式，它通过构建并结合多个学习器来提升系统的泛化能力。集成学习在完成分类任务时，通常采用投票法作为结合策略，其中最常用有绝对多数投票法和相对多数投票法。但是这些结合策略只能在个体学习器相互独立的前提下，对输出进行简单线性集成。

方法：

针对集成学习中的模型融合问题，本研究将群体多属性决策方法用作集成学习的结合策略，提出了基于群体多属性决策的集成学习算法。群体多属性决策的本质是按照决策群体的某种偏好对方案进行排序或择优，该算法将个体学习器看作决策者，类别看作方案，结合先验知识和多个个体学习器的输出对类别进行择优。为了充分挖掘和利用知识，引入贝叶斯理论建立了融合先验知识与后验知识的群体多属性决策模型。为了求解该群体多属性决策问题，采用基于2-可加模糊测度的Choquet积分算子对多个属性进行聚合。针对决策者权重确定问题，本研究提出了指标矩阵来客观反映决策者的重要程度，并利用TOPSIS方法基于指标矩阵生成决策者权重。针对属性权重确定问题，本研究基于对称交叉熵和广义Shapley值构建确定属性权重优化模型，并利用最优化算法获得属性权重。

结果：

将所提算法应用于泡沫浮选工况识别，采用6种传统机器学习算法训练个体学习器，它们分别是K近邻算法（KNN）、逻辑回归算法（LR）、支持向量机算法（SVM）、决策树算法（DT）、随机森林算法（RF）和Adaboost算法。为了显示出所提方法用作结合策略的优越性，采用投票法、最大值法、简单平均法、中位数法和乘积法5种经典的结合策略对个体学习器进行集成，并与基于群体多属性决策的集成学习算法进行对比。下图中蓝色部分是单一工况识别模型的准确率，其中Expert指的是根据专家经验知识构成的知识库通过模糊推理获得的准确率，可以看出通过引入传统的机器学习算法可以获得比专家经验更高的准确率；黄色部分是利用经典的结合策略以后的工况识别准确率，简单平均法和投票法的准确率高达88.1%，由此可见当我们没有足够的信息选择一个最合适的模型时，通过集成学习可以获得一个泛化能力较好的分类系统；红色部分是基于群体多属性决策的集成学习方法的工况识别准确率，高达93.7%，可见将群体决策方法用作集成学习的结合策略有机会获得比所有个体学习器更高的准确率。

上一条：群体决策集成学习

下一条： AI辅助乳腺癌预后诊断