基于美国人口普查数据，分类预测个人收入能否超过五万美元

文章目录[隐藏]

结论：

这个数据科学项目由个人完成，注释比较完善，有目录与结论，最后被老师评为机器学习章节考核的参考。

结论：

从连续型数据集来看，随机森林算法经过参数调整，测试集的准确度从85.95提升到了86.22，有一些效果，而AUC面积从0.9123提升到了0.9134，仅仅微微地提升。
从连续型数据集来看，梯度提升算法经过参数调整，测试集的准确度从86.57提升到了87.22，调参有一定作用，而AUC面积从0.9199提升到了0.9254，调参有较好的效果。
从离散型数据集来看，逻辑回归算法经过参数调整，测试集的准确度从84.44下降到了83.98，调参起反作用，只能让训练集准确度微微提升，也说明模型有一些过拟合情况，而AUC面积从0.8963也下降到了0.8936。经过不只notebook上300多次计算，用也其它的随机种子算过，准确度的提升，没有超过0.1的。
从离散型数据集来看，梯度提升算法经过参数调整，测试集的准确度从84.42提升到了84.46，调参只有微弱效果，而AUC面积从0.8963下降到0.8948，调参起反作用。用其它随机种子计算之后，也没什么提升。
对比两个数据集训练出来的最优模型，连续型的两个最优模型比离散型的要好，连续型用6个不同算法的AUC总面积为5.1521，离散型用6个不同算法的AUC总面积为5.128，也是连续型数据的算法较好。说明合理的数据处理和特征选择，基本决定模型预测的上限，用离散型数据集训练的模型准确度都没有超过85，AUC面积也没有超过0.9的。以这个人口特征来预测收入等级的数据来看，特征保留连续数值、标签化比划分区间、独热编码化要好。
特征越多的数据集，用同样的算法在同样（默认）参数计算下，用时越多。
随机森林算法，在引入多颗树之后准确度就在较高（85%）水平，而调参、做各项剪枝策略在这个数据集中提升不大，可能是量不大的原因，无法发挥各项参数作用。
逻辑回归算法简单，计算量不是特别大，在样本规模不是很大，要求准确不是很高，但是要快速得到可接受的准确结果的情况下，逻辑回归算法是不错的选择。这四个最优模型中，本机计算只用9秒多，其它算法在12-17秒。
梯度提升算法在连续型数据集中，调参作用明显，而离散型数据中，调参作用不明显，也说明了数据预处理的对算法结果的影响；它对比随机森林，除了可以调调树的剪枝参数外，还可以调整学习率的参数，以达到比随机森林更优的结果，经过多颗树后而接近实际结果，而不仅仅是一群决策树的投票。在更大的数据集中，也能表现比随机森林更好。