当前位置:首页 > 开发 > 互联网 > 正文

机器学习 二 输入

发表于: 2013-06-27   作者:blackproof   来源:转载   浏览次数:
摘要: 机器学习:输入   一、四种学习方式: 1.分类学习 classification learning : 用一个已分类的样本集表示学习方法 2.关联学习 association learning : 寻找任何特征之间的关联 3.聚类 clustering : 寻找能够组合在一起的样本,并以此分组 4.数值预测 numeric prediction : 预测出的是一个数值量,不

机器学习:输入

 

一、四种学习方式:

1.分类学习 classification learning : 用一个已分类的样本集表示学习方法

2.关联学习 association learning : 寻找任何特征之间的关联

3.聚类 clustering : 寻找能够组合在一起的样本,并以此分组

4.数值预测 numeric prediction : 预测出的是一个数值量,不是离散类

 

1.分类学习:有称指导supervised学习,因为每一个训练样本都有一个明确的结论。

2.关联学习:因为可以预测任何一个属性,所以导致关联规则数量过多。

所以要查找一个能够适用的最小样本数量,并且大于特定的最小正确率。

(小量规则覆盖大量未来样本)

3.聚类:样本可分配到多个聚类上,找出这些聚类,并且可以将新样本归入到聚类上

4.数值预测:是分类学习的变种,预测的是数值,而不是一个类

 

二、样本:

输入:实例,表示单一、独立的概念样本,由一组预先定义的属性来表示

(但是在实例之间有密切关系时,需要用并列样本,递归等方法,防止关系丢失)

 

三、属性:

是实例的一列,分为两种:名词性值和有序值

名词性值:有范围,可枚举,离散的属性(包括二分值true false)

有序值:数值,可连续的属性

 

四、数据准备

1.数据收集:

数据必须集中,整合和清理。

2.ARFF格式:

是有独立的、无序的实例组成的数据集的标准表示方法,该表示方法不涉及实例之间的关系。

以下ARFF格式的例子:

%

%注释

@relation weather  关系名称

 

@attribute outlook {sunny, overcast, rainy} 属性列表

@attribute temperature numeric

 

@data 实例集,缺少的数据用?补位

sunny 89

overcast 88

 

 

3.稀疏数据

如购物的商品,文章的单词出现都是全集中的一个稀疏矩阵,

所以用非0值属性的位置、值来表示实例,如:

0,10,0,0,21为{1 10,4 21}

在ARFF中的稀疏属性也是如以上表示出@data实例集

 

 

4.属性类型

ARFF允许两种基本类型:名词性值和数量之。

对于两种基本类型的定义取决于机器学习方案:

4.1 数值作为有序的刻度处理

4.2 数值是比率值测出(定义一个标准,如减去统计平均值后处以标准差,或处以最大的一个值,或减去最小值后处以最大和最小值之差)

4.3 将名词性质作为数值编码,如日期07080217的前两位为入学日期

4.4 将数值归纳为名词性值,如20为young,将名词性可续化

 

 

5.残缺值

指的是数据出现超出正常值,或者空缺。需要了解数据的人进行残缺值处理。

 

 

6不正确的值

 

 

 

机器学习 二 输入

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
一.概念 概念学习:是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。 二.概念学习任
上一个博文,我们讲了Linear Regression, gradient descent, normal equations和Locally weighted l
在解决一些简单的分类问题时,线性回归与逻辑回归就足以应付,但面对更加复杂的问题时(例如对图片
按照上一篇笔记的说法,如果我们现在已经有了训练数据,明确了特征和输出变量,我们就可以用机器学
传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去。有因有果,
省略了Octave的使用方法结束,以后用得上再看吧 week three: Logistic Regression: 用于0-1分类 Hy
参考《机器学习实战》 利用Logistic回归进行分类的主要思想: 根据现有数据对分类边界线建立回归公
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了
  本系列是对机器学习常用的一些算法总结,本节主要概况后续的一些章节内容。   什么事机器学习
一.学习 1. 定义:如果一个计算机程序针对某类任务T的用户P衡量的性能根据经验E来自我完善。那么我
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号