这一篇介绍一下关于样本不平衡的处理的方式,主要介绍两种采样方式,分别是上采样和下采样。这里主要介绍最简单的上采样和下采样,更多的内容见文章中的链接。
混淆矩阵的绘制(Plot a confusion matrix)
这一篇简单介绍一下混淆矩阵的计算和绘制,混淆矩阵可以用来判断模型预测的结果。
TF-IDF简单介绍
这一篇简单介绍一下TF-IDF的相关内容,包括如何进行计算和如何使用sklearn和pandas进行结合的时候, 进行计算。
LightGBM使用简单介绍
这一篇介绍一下关于LightGBM的简单使用方式。主要介绍一下各个参数的含义和一些简单的例子,简单的功能。
机器学习文章总结
这一部分会对深度学习,机器学习的文章进行归类,方便查找与学习。
分类问题–Logistic Regression方法介绍
这一篇文章主要介绍分类问题的解决。主要介绍逻辑回归,从逻辑回归讲到他的损失函数的定义的来源,也就是Cross Entropy的来源。
数据关键特征的提取
这一篇文章主要介绍了如何从数据集中提取重要的原始特征的方法,这些特征是可能能对分类器的分类产生很好的效果。
交叉检验(Cross Validation)简介
这一篇简单介绍一下交叉检验的技术,以及给出一个交叉检验的实例。交叉检验可以进行模型的选择,查看模型是否存在过拟合或是欠拟合的状态。
正则化技术介绍–L1,L2范数
这一篇会简单介绍正则化的技术, 简单介绍一下L1和L2范数的性质, 并记录一下一个实验.
2