这一篇文章主要介绍一下ROC曲线和AUC值, 两者是什么, 是如何进行计算的, 以及在实际使用的过程中我们应该如何写代码来得到想要的图像和计算出想要的指标.
模型评价指标说明与实践–混淆矩阵的说明
这一篇会介绍关于模型的评价指标,介绍每个指标的含义以及如何进行计算和如何代码实现。
数据样本不平衡时处理方法(Resampling strategies for imbalanced datasets)
这一篇介绍一下关于样本不平衡的处理的方式,主要介绍两种采样方式,分别是上采样和下采样。这里主要介绍最简单的上采样和下采样,更多的内容见文章中的链接。
混淆矩阵的绘制(Plot a confusion matrix)
这一篇简单介绍一下混淆矩阵的计算和绘制,混淆矩阵可以用来判断模型预测的结果。
TF-IDF简单介绍
这一篇简单介绍一下TF-IDF的相关内容,包括如何进行计算和如何使用sklearn和pandas进行结合的时候, 进行计算。
LightGBM使用简单介绍
这一篇介绍一下关于LightGBM的简单使用方式。主要介绍一下各个参数的含义和一些简单的例子,简单的功能。
机器学习文章总结
这一部分会对深度学习,机器学习的文章进行归类,方便查找与学习。
分类问题–Logistic Regression方法介绍
这一篇文章主要介绍分类问题的解决。主要介绍逻辑回归,从逻辑回归讲到他的损失函数的定义的来源,也就是Cross Entropy的来源。
交叉检验(Cross Validation)简介
这一篇简单介绍一下交叉检验的技术,以及给出一个交叉检验的实例。交叉检验可以进行模型的选择,查看模型是否存在过拟合或是欠拟合的状态。
正则化技术介绍–L1,L2范数
这一篇会简单介绍正则化的技术, 简单介绍一下L1和L2范数的性质, 并记录一下一个实验.
3