0%

机器学习

考试要求

要求1:基本概念
要求2:数据集划分
要求3:性能度量
要求4:可以描述各个任务之间的关系

线性回归:

要求1:可以按照自己的理解简述线性回归问题。
要求2:可以对简单数据进行计算(PPT中例题)。
要求3: 可以编程实现线性回归算法。

逻辑回归:
要求1:可以按照自己的理解简述逻辑回归问题以及与线性回归问题的区别与联系。
要求2:掌握梯度下降法、牛顿法的基本原理和迭代公式。
要求3:可以编程实现逻辑回归算法。

决策树:

要求1:可以按照自己的理解简述决策树算法。
要求2:可以利用ID3,C4.5 和 CART算法对数据进行分类。
要求3:可以对生成的决策树进行剪枝处理。

感知机:
要求1:可以按照自己的理解简述感知机模型。
要求2:可以利用感知机解决逻辑分类问题(PPT例子)。

神经网络:

要求1:可以按照自己的理解简述神经网络模型,以及与感知机的关系。
要求2:掌握BP算法的基本原理和迭代公式。

支持向量机:

要求1:可以按照自己的理解简述支持向量机模型,以及与其他分类算法的区别。
要求2:掌握使用拉格朗日乘子法对约束优化问题进行求解,并理解使用拉格朗日乘子法求解SVM问题的原因。
要求3:可以按照自己的理解简述软间隔支持向量机,并分析其与常规支持向量机的关系与区别。
要求4: 了解SMO算法。

主成分分析:

要求1:可以按照自己的理解简述主成分分析算法。
要求2:可以简述PCA算法的流程。
要求3:核化PCA与PCA的相同与不同。

线性判别分析:

要求1:可以按照自己的理解简述线性判别分析算法,并分析其与PCA之间的联系与区别。
要求2:可以简述LDA算法的流程。

K-均值聚类:

要求1:可以按照自己的理解简述K-means算法。
要求2:可以简述Lloyd算法的流程。

2021 06 27 23 08 14

线性回归

泛化(generalization):在训练集上训练好的模型在未见样本上的效果

NFL定理(No Free Lunch):一个算法 A 若在某些问题上比另一个算法 B 好,必存在另一些问题 B 比 A 好。

过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差。

错误率:有多少比例的西瓜被判断错误;

查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜;

查全率(recall):所有的好西瓜中有多少比例被算法跳了出来。

继续按照上述前提,对于二分类问题,我们根据真实类别与算法预测类别会有下面四个名词:

在写下面四个名词前,需要给一些关于T(true)、F(false)、P(positive)、N(negative)的解释:P表示算法预测这个样本为1(好西瓜)、N表示算法预测这个样本为0(坏西瓜);T表示算法预测的和真实情况一样,即算法预测正确,F表示算法预测的和真实情况不一样,即算法预测不对。

TP:正确地标记为正,即算法预测它为好西瓜,这个西瓜真实情况也是好西瓜(双重肯定是肯定);
FP:错误地标记为正,即算法预测它是好西瓜,但这个西瓜真实情况是坏西瓜;
FN:错误地标记为负,即算法预测为坏西瓜,(F算法预测的不对)但这个西瓜真实情况是好西瓜(双重否定也是肯定);
TN:正确地标记为负,即算法标记为坏西瓜,(T算法预测的正确)这个西瓜真实情况是坏西瓜。

所以有:

20180716153628519

查准率和查全率是一对矛盾的指标,一般说,当查准率高的时候,查全率一般很低;查全率高时,查准率一般很低。比如:若我们希望选出的西瓜中好瓜尽可能多,即查准率高,则只挑选最优把握的西瓜,算法挑选出来的西瓜(TP+FP)会减少,相对挑选出的西瓜确实是好瓜(TP)也相应减少,但是分母(TP+FP)减少的更快,所以查准率变大;在查全率公式中,分母(所有好瓜的总数)是不会变的,分子(TP)在减小,所以查全率变小。
在实际的模型评估中,单用Precision或者Recall来评价模型是不完整的,评价模型时必须用Precision/Recall两个值。这里介绍三种使用方法:平衡点(Break-Even Point,BEP)、F1度量、F1度量的一般化形式。

2021 06 27 13 30 08

线性回归,公式1

2021 06 26 22 48 08

线性回归算法学习了一条直线,或者说两个参数(Parameters)
可以利用线性回归算法对未知数据进行预(Prediction)
线性回归的效果主要取决于数据本身的分布情况(Distribution)

公式2

2021 06 27 10 41 11

2021 06 27 10 41 31

2021 06 27 10 53 59

2021 06 27 13 01 35

逻辑回归

线性回归解决的是回归问题,逻辑回归相当于是线性回归的基础上,来解决分类问题。

将线性回归变成一个0~1输出的分类问题

区别:

1.线性回归用来预测连续的变量(房价预测),逻辑回归用来预测离散的变量(分类,癌症预测)
2. 线性回归是拟合函数,逻辑回归是预测函数
3. 线性回归的参数计算方法是最小二乘法,逻辑回归的参数计算方法是似然估计的方法

2021 06 27 13 15 50

2021 06 27 13 06 14

决策树

2021 06 27 13 52 04

2021 06 27 13 53 05

2021 06 27 13 54 56

2021 06 27 14 31 23

2021 06 27 14 00 28

2021 06 27 14 01 32

2021 06 27 14 02 28

2021 06 27 14 28 28

2021 06 27 14 38 07

2021 06 27 23 25 15

感知机

感知机由两层神经元组成。输入层接受外界输入信号后传递给输出层,输出层是MP神经元。感知机能容易的实现与或非运算。

需要注意的是,感知机无法处理非线性可分问题

2021 06 27 16 16 39

感知机的目标是使误分类点的个数为0,所以可以采用函数间隔,简化学习过程

两层感知机解决异或问题

2021 06 27 16 26 36

神经网络

神经网络(Neural Network):
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。

2021 06 27 16 28 20

2021 06 27 16 36 13

2021 06 27 16 37 49

2021 06 27 16 38 43

支持向量机

v2 e833772fe2044ad9c353fb0173bd0b79 1440w

线性可分

首先我们先来了解下什么是线性可分。

v2 a75409cca671ad0819cd28ff9f40a01b 720w

在二维空间上,两类点被一条直线完全分开叫做线性可分。

严格的数学定义是:

[公式][公式] 是 n 维欧氏空间中的两个点集。如果存在 n 维向量 w 和实数 b,使得所有属于 [公式] 的点 [公式] 都有 [公式] ,而对于所有属于 [公式] 的点 [公式] 则有 [公式] ,则我们称 [公式][公式] 线性可分。

最大间隔超平面

从二维扩展到多维空间中时,将 [公式][公式] 完全正确地划分开的 [公式] 就成了一个超平面。

为了使这个超平面更具鲁棒性,我们会去找最佳超平面,以最大间隔把两类样本分开的超平面,也称之为最大间隔超平面。

  • 两类样本分别分割在该超平面的两侧;
  • 两侧距离超平面最近的样本点到超平面的距离被最大化了。

支持向量

v2 0f1ccaf844905148b7e75cab0d0ee2e3 720w

样本中距离超平面最近的一些点,这些点叫做支持向量

SVM 最优化问题

2021 06 27 19 53 55

2021 06 27 19 54 56

2021 06 27 19 55 19

2021 06 27 19 55 52

2021 06 27 20 00 24

2021 06 27 19 56 47

2021 06 27 20 03 45

逻辑回归算法是基于全部样本的二分类器:考虑全部样本的平均似然性。
支持向量机算法是基于部分样本的二分类器:考虑部分靠近边界的支持向量

拉格朗日乘子法

2021 06 27 20 08 02

对偶问题

推导过程省略….

2021 06 27 20 24 27

软间隔SVM

2021 06 27 20 28 59

主成分分析

(Principal Component Analysis, PCA)

PCA是一个无监督降维方法(Unsupervised DR), 并 没 有 运 用 任 何 有 监 督 信 息 ( Supervised Information),这也是PCA算法一个弊端

2021 06 27 20 52 44

2021 06 27 20 56 20

2021 06 27 21 03 58

2021 06 27 21 05 11

线性判别分析

LDA的基本思想给定训练样本,设法将样本投影到一条直线上,使得同类样例的投影点尽可能的接近,异类样例的投影点尽可能的远。

2021 06 27 21 15 10

2021 06 27 21 17 58

2021 06 27 21 18 49

kernal pca:一种用核映射的方式将特征从低维映射到高维;可以类比支持向量机;然后再选择主成分;是一种非线性的

传统的pca或者svd是线性的处理方式

K-均值聚类

2021 06 27 21 23 40

2021 06 27 21 25 07

聚类的“好坏”不存在绝对标准

2021 06 27 21 33 39

2021 06 27 21 29 55

2021 06 27 21 30 26

2021 06 27 21 30 48

2021 06 27 21 31 25

2021 06 27 21 31 51

-------------本文结束感谢您的阅读-------------
Your support will be the driving force of my creation