机器学习笔记——一、二章

一、基本术语
数据集(data set)
示例(instance)或样本(sample):每条记录是关于一个时间或对象的描述成为示例或样本
属性(attribute value)或特征(feature):反应时间或对象在某方面的表现或性质的事项称为属性或特征
属性值(attribute value):属性上的取值称为属性值
属性空间(attribute apace)或样本空间(sample space)
特征向量(feature vector)
泛化(generalization):模型适用于新样本的能力
假设空间(hypothesis space):模型属于由输入空间到输出空间的映射的集合

二、机器学习的分类
1、 监督式学习
工作机制:用有正确答案的数据来训练算法进行机器学习。
代表算法:回归、决策树、随机森林、K – 近邻算法、逻辑回归,支持向量机等。
2、非监督式学习
工作机制:训练数据没有标签或者答案,目的是找出数据内部的关联和模式,趋势。
代表算法:关联算法和 K – 均值算法。
3、强化学习
工作机制:给予算法一个不断试错,并具有奖励机制的场景,最终使算法找到最佳路径或者策略。
代表算法:马尔可夫决策过程,AlphaGo+Zero, 蒙特卡洛算法
4. 半监督学习
工作机制: 训练数据一部分数据为生成数据,一部分数据为监督数据,算法分为生成器和判定器两部分, 生成器的目标是使判定器接受自己的数据,判别器是为了最大可能的区分生成数据和监督数据。通过不断的训练使两者都达到最佳性能。
代表算法: GANs(生成式对抗网络算法)
机器学习笔记——一、二章_第1张图片
三、算法选择
机器学习笔记——一、二章_第2张图片
四、性能度量
衡量模型推广能力的评价标准,包括性能度量和其他变量。
4.1 误差函数:

误差函数
单点误差 机器学习笔记——一、二章_第3张图片
多点误差样本内误差 机器学习笔记——一、二章_第4张图片
多点误差样本外误差 机器学习笔记——一、二章_第5张图片

4.2 回归度量

误差函数类型 表达式
均方误差 机器学习笔记——一、二章_第6张图片
均方根误差 机器学习笔记——一、二章_第7张图片
平均绝对误差 在这里插入图片描述
平均相对误差 机器学习笔记——一、二章_第8张图片
Huber误差 在这里插入图片描述

回归任务的误差函数用于评估数据集上,模型的连续性预测值H(x) 与连续型真是值y的距离,y和H(x)可以取任意实数。
y和h(x)的差别越小时损失越小
y和h(x)的差别越大时损失越大
4.3 分类度量

误差函数类型 表达式
0-1 在这里插入图片描述
对数 机器学习笔记——一、二章_第9张图片
指数 机器学习笔记——一、二章_第10张图片
合页 机器学习笔记——一、二章_第11张图片

分类任务的误差函数用于评估在数据集上,模型的离散型预测值h(x)与离散型真实值y的不一致程度。
y和 h(x) > 0代表预测值和真实值一致,损失变小
y和 h(x) < 0代表预测值和真实值不一致,损失变大
4.4 其他度量
错误率(Error Rate ):分类错误样本数占样本总数的比例
精度(Accuracy):分类正确样本数占样本总数比例
查准率(Precision):真正类/真正类+假正类=正确预测的正类/所有预测的正类
查全率(Recall):真正类/真正类+假负类=正确预测的正类/所有真实的正类
真正类=预测类别为真且和真实类别相同
真负类=预测类别为假且和真实类别相同
假正类=预测类别为真但和真实类别不同
假负类=预测类别为假但和真实类别不同
查准率高查全率低
查全率高查准率低
beta:查准率和查全率相对重要性
机器学习笔记——一、二章_第12张图片
beta=1同样重要,适用于癌症诊断
beta>1查全率影响更大,适用于警察追捕逃犯
0 查全查准曲线:趋近(1,1)更优
Roc曲线:趋近(0,1)更优
五、模型评估
训练集S 测试集T
留出法:
二分类:D:1000 S:700 T:300 在T上样本分类错误:90
错误率:90/300(T)
精度:210/300(T)
分层采样:D:500正例 500反例 S:70% T:30%
S:5000.7=350正例反例
T:500
0.3=150正例反例
单次留出法不稳定,采用多次划分,重复实验后取平均值

交叉验证:
训练集:k-1子集的并集
测试集:余下子集
结果:k个测试结果的均值
留一法(LOO):k=m,不受随机样本划分影响
自助法:数据集较小、难以有效划分训练/测试集时有用,对集成学习等方法有很大好处;改变初始数据集分布引入估计偏差。

你可能感兴趣的