预计所需阅读时间:3分钟

普查

这个数据科学项目由个人完成,注释比较完善,有目录与结论,最后被老师评为机器学习章节考核的参考。

结论:

  • 从连续型数据集来看,随机森林算法经过参数调整,测试集的准确度从85.95提升到了86.22,有一些效果,而AUC面积从0.9123提升到了0.9134,仅仅微微地提升。
  • 从连续型数据集来看,梯度提升算法经过参数调整,测试集的准确度从86.57提升到了87.22,调参有一定作用,而AUC面积从0.9199提升到了0.9254,调参有较好的效果。
  • 从离散型数据集来看,逻辑回归算法经过参数调整,测试集的准确度从84.44下降到了83.98,调参起反作用,只能让训练集准确度微微提升,也说明模型有一些过拟合情况,而AUC面积从0.8963也下降到了0.8936。经过不只notebook上300多次计算,用也其它的随机种子算过,准确度的提升,没有超过0.1的。
  • 从离散型数据集来看,梯度提升算法经过参数调整,测试集的准确度从84.42提升到了84.46,调参只有微弱效果,而AUC面积从0.8963下降到0.8948,调参起反作用。用其它随机种子计算之后,也没什么提升。
  • 对比两个数据集训练出来的最优模型,连续型的两个最优模型比离散型的要好,连续型用6个不同算法的AUC总面积为5.1521,离散型用6个不同算法的AUC总面积为5.128,也是连续型数据的算法较好。说明合理的数据处理和特征选择,基本决定模型预测的上限,用离散型数据集训练的模型准确度都没有超过85,AUC面积也没有超过0.9的。以这个人口特征来预测收入等级的数据来看,特征保留连续数值、标签化比划分区间、独热编码化要好。
  • 特征越多的数据集,用同样的算法在同样(默认)参数计算下,用时越多。
  • 随机森林算法,在引入多颗树之后准确度就在较高(85%)水平,而调参、做各项剪枝策略在这个数据集中提升不大,可能是量不大的原因,无法发挥各项参数作用。
  • 逻辑回归算法简单,计算量不是特别大,在样本规模不是很大,要求准确不是很高,但是要快速得到可接受的准确结果的情况下,逻辑回归算法是不错的选择。这四个最优模型中,本机计算只用9秒多,其它算法在12-17秒。
  • 梯度提升算法在连续型数据集中,调参作用明显,而离散型数据中,调参作用不明显,也说明了数据预处理的对算法结果的影响;它对比随机森林,除了可以调调树的剪枝参数外,还可以调整学习率的参数,以达到比随机森林更优的结果,经过多颗树后而接近实际结果,而不仅仅是一群决策树的投票。在更大的数据集中,也能表现比随机森林更好。