数据分析概率及统计学基础

一.数据分析概述

1. 数据分析的概念

数据分析就是分析数据,从一大堆数据中提取你想要的信息。比较专业的回答:数据分析是有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。比较客观的回答:从行业的角度看,数据分析是基于某种行业目的,有目的地对数据进行收集、整理、加工和分析,提炼有价值信息的过程。
理解数据分析的三个方面:目标、方法、结果。

2. 数据挖掘的概念

   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

3. 商业数据分析预测的本质

数据分析和业务是紧密联合在一起的,其目的就是满足商业决策的需求。预测未来发展情况,及早发现问题,对业务进行优化,制定最优的决策方案。

4. 数据分析的8个层次

常规报表
即席查询
多维分析
警报
统计分析
预报
预测型建模
优化

5. 大数据对传统小数据的拓展

(1)大数据与小数据,大量数据的区别与转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
(2).还有一个重要的区别是在用途上,过去的数据很大程度上停留在说明过去的状态,拿数据说话,实际上是用过去的数据说明过去,而大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。使数据从原来停留在说明过去变为驱动现在,我以为预测对企业的作用从两个方向:
A.宏观是对趋势的预测,给企业做大势分析,
B.微观是对个体的精准分析,给企业做个性化精准营销
(3).从结构上,大数据更多的体现在海量非结构化数据本身与处理方法的整合
大数据与小数据判断原则:
A.数据的量
B.数据的种类、格式
C.数据的处理速度
D.数据复杂度
(4).分析基础不同,大数据是只有在大规模数据的基础上才可以做的事情,而这需要有从量变到质变的过程,也正因为科技的创新在方法上打下基础,而利用互联网展开的新的生活与工作方式,让信息积累到可以引发变革的程度,而很多事情在小规模数据的基础上是无法完成的

6. 明确数据分析目标的意义

数据分析的关键在于设定目标,专业上叫做“有针对性”。
数据分析的前提是有清晰的目标。对数据分析目的的把握,是数据分析成败的关键。只有对数据分析的目的深刻理解,才能整理出完整的分析框架和思路,因为根据不同的分析目标所选择的分析方法是不同的。

7. 数据分析的过程

明确分析的目的和内容——>数据收集——>数据预处理——>数据分析——>数据展现——>撰写报告

8. 统计分析和数据挖掘的区别和联系

联系:都来源于统计基础理论,数据挖掘中也经常会用到统计分析方法,如主成分分析、回归分析
     区别:数据挖掘是统计分析方法的延伸和发展。统计分析常需要先做假设或判断,然后利用数据分析技术来验证假设是否成立。数据挖掘则不需要对数据内在的关系做任何假设和判断,而是让数据挖掘工具中的算法自动去寻找数据中隐藏的关系和规律。  统计分析在预测中的应用常表现为一个或者一组函数关系式,而数据挖掘在预测中有时候不会从结果中生产明确的函数关系,不知道哪些变量起作用,缺乏解释性,例如“神经网络”。
实际应用中,统计分析和数据挖掘是不可分割开来。

9. CRISP-DM

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程". 
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段
是一种数据挖掘项目关系方法论。
数据分析概率及统计学基础_第1张图片

10. SEMMA

SAS公司的数据挖掘项目实施方法论。对CRISP-DM方法中的数据准备和建模环节进行了拓展。
Sample  ─数据取样
Explore ─数据特征探索、分析和予处理
Modify  ─问题明确化、数据调整和技术选择
Model   ─模型的研发、知识的发现
Assess  ─模型和知识的综合解释和评价 
数据分析概率及统计学基础_第2张图片

11. 数据分析中不同人员的角色与职责

一个大型数据分析项目会涉及行业学术专家、业务专家、数据分析师和IT人员。其中,业务专家提供业务目标,业务理解,并提供目前的营销和反馈信息;学术专家提供相关领域研究的最新进展,并进行维度分析;数据分析师进行数据理解、清洗和建模;IT人员提供数据支持和项目实施支持。



二、 描述性统计分析

1. 数据的计量尺度

定类尺度、定序尺度、定距尺度、定比尺度

分类变量:定类尺度  、定序尺度
连续性变量:定距尺度 、定尺度

数据分析概率及统计学基础_第3张图片数据分析概率及统计学基础_第4张图片


2. 数据的集中趋势

  集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值。
常用的指标:平均数、中位数(分位数)、众数
平均值易受极端值影响,中位数和众数不受极端值影响。

3. 数据的离中趋势

离中趋势在统计学中是指一组数据向某一中心值分散的程度,它反映了各个数据远离中心点的程度。从侧面说明了集中趋势测度的代表程度。
常用指标:极差、四分位距、平均差、方差、标准差、离散系数

极差 =  最大值 - 最小值
四分位距 = (第三个四分位数 - 第一个四分位数) / 2
平均差 
方差 
· 标准差 (一般68%在一个标准差,95%在2个标准差,其余5%远离)
离散系数 (比较两组样本离中程度大小:离散系数越小,平均值越具有代表性)

4. 数据分布形态

一组或一系列数字,落在坐标图里的形态特征。比如:正态分布。

数据分布形态的测度主要以正态分布为标准进行衡量。

指标: 偏态、峰度

   (1)偏态(数据分布的不对称性)
正偏态:平均数 > 众数>中位数     负偏态: 平均数< 众数<中位数
偏态系数 :计算方法有多种,在Excel中的计算公式为
SK=0 分布为对称的
SK>0 正偏态,值越大,正偏程度越高
SK<0 负偏态,值越小,负偏程度越高

(2)峰度
峰度系数:在Excel中的计算公式为
K=0  标准峰度
K<0 平顶峰度
K>0 尖顶峰度

(3)适度偏态时,中位数与平均数的距离,约等于众数与平均数距离的三分之一  
  已知两个,可以推导另一个。

5. 统计图

常用: 条形图 扇形图 折线图 箱线图 茎叶图 直方图
数据分析概率及统计学基础_第5张图片

散点图:描述两个变量之间的相关关系
气泡图:散点图的一种延伸

6.分类变量和连续型变量的描述统计量

分类:频数  百分比 累计频数和累计百分比  众数
连续型:均值  方差  偏度 峰度

三、 抽样估计

1. 随机试验、随机事件、随机变量的概念

随机试验: 对随机现象的观测
随机事件:由随机现象的某些基本结果组成的集合
随机变量:用来表示随机现象结果的变量

2. 总体与样本的概念

总体:把研究对象的全体称为总体

样本:一般地,从研究的总体中按照一定规则抽取n个个体进行观察或试验,这n个个体称为总体的一个样本

3. 抽样估计的理论基础

抽样估计是利用抽样调查所获得的样本信息,根据概率论所揭示的随机变量的一般规律,对总体的某些数量特征进行估计的一种统计分析方法。
抽样估计是建立在大数定律和中心极限定理基础上的。大数定律论证了抽样平均数趋近于总体平均数的趋势。中心极限定理论证了抽样平均数和总体平均数的离差在一定范围的概率问题。

4. 正态分布及三大分布

(1)正态分布
数据分析概率及统计学基础_第6张图片
数据分析概率及统计学基础_第7张图片
正态分布的特征:
a. 正态分布有两个参数,即均数μ和标准差σ,可记作 N(μ,σ2):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
b. u变换:为了便于描述和应用,常将正态变量作数据转换。μ是正态分布的位置参数,描述正态分布的 集中趋势位置。正态分布以X=μ为 对称轴,左右完全对称。正态分布的 均数、 中位数、众数相同,均等于μ。
c. σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
d.  3σ原则:P(μ-σ

(2) 卡方分布

卡方分布是从正态分布中衍生出的一种分布。其定义是若干个随机变量的平方和也服从一种分布,即卡方分布。
数据分析概率及统计学基础_第8张图片
数据分析概率及统计学基础_第9张图片
(3)t分布
数据分析概率及统计学基础_第10张图片

(3)F分布
数据分析概率及统计学基础_第11张图片

三大分布的用途:

卡方分布:常用于拟合优度检验
t分布:       多用于比例的估计和检验,用于方差分析,协方差分布和回归分析
t分布:       在信息不足的情况下,只能用t分布,比如在整体方差不知道的情况下,对总体均值的估计和检验常用t统计量

5. 抽样的组织形式

简单随机抽样
分层抽样
等距抽样
整群抽样
阶段抽样

6. 确定必要样本容量的原因

必要样本容量是指为了使抽样误差不超过给定的允许误差范围,至少应该抽取的样本个体数目。
如果抽样数目过大,尽管误差会减小,但是会增加调查的工作量,费时费力,体现不出抽样的优越性;抽样数目过少,误差变大,失去了抽样调查的意义。所以要选择合适的样本数量。

7. 必要样本容量的影响因素

总体方差(标准差σ)
允许误差范围
置信度(1-α)
抽样方法
抽样组织形式

8. 抽样平均误差

抽样平均误差是抽样平均数的标准差。反映了抽样平均数与总体平均数的平均误差程度。总体中多个样本的平均数的标准差。
数据分析概率及统计学基础_第12张图片
数据分析概率及统计学基础_第13张图片

9. 点估计与区间估计的特点及优缺点

参数估计就是通过样本来推断总体分布中的未知参数或者对未知参数的某些函数做出估计。
参数估计的两种基本形式:点估计  、 区间估计

点估计:是一种以点代面的估计方法。
                特点 : 根据总体指标的结构形式设计样本指标,并以样本指标的实际数值直接作为总体指标的估计值。
                优点: 简便易行,原理直观
缺点:没有标明点估计的误差,没有指出在误差在一定范围内的概念保证程度

区间估计:区间估计必须同时具备估计值、抽样误差范围、概率保证程度三个要素。
特点:不直接给出总体参数的被估计值,而是规定总体参数被估计值的上下限,即总体参数存在的区间范围,并给予一定概率的保证。
优点:明确了精度和可靠性
缺点:精度和可靠性是相互矛盾的。求出参数的置信区间,先保证可靠性,再提高精度。

10. 总体平均数和成数的区间估计方法

总体平均数的区间估计:
数据分析概率及统计学基础_第14张图片
数据分析概率及统计学基础_第15张图片
数据分析概率及统计学基础_第16张图片


总体成数的区间估计:

数据分析概率及统计学基础_第17张图片

11. 中心极限定理的意义和应用


中心极限定理的核心内容是只要n足够大,便可以把独立同分布的随机变量和的标准化当作正态变量,所以可以利用它解决很多实际问题,同时这还有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实,从而正态分布成为概率论中最重要的分布,这就奠定了中心极限定理的首要功绩。其次,中心极限定理对于其他学科都有着重要作用。例如数理统计中的参数(区间)估计、假设检验、抽样调查等;进一步,中心极限定理为数理统计在统计学中的应用铺平了道路,用样本推断总体的关键在于掌握样本特征值的抽样分布,而中心极限定理表明只要样本容量足够地大,得知未知总体的样本特征值就近似服从正态分布。从而,只要采用大量观察法获得足够多的随机样本数据,几乎就可以把数理统计的全部处理问题的方法应用于统计学,这从另一个方面也间接地开辟了统计学的方法领域,其在现代推断统计学方法论中居于主导地位。

12. 样本可能数目

样本可能数目是指从总体红可能抽取的全部样本数目。与抽取方法和样本容量有关系。
重复抽样
不重复抽样


四、假设检验

1.假设检验的基本概念和基本思想

假设检验:从总体出发用样本尺度去检验,实现对总体指标分析的过程。目的是为了分析样本指标和总体指标之间是否存在显著性差异。

基本思想:(1)反证法 (2)小概率事件。
对总体指标进行某种假设,以小概率事件不发生为基准,运用反证法思想,按照总体的假设,并根据所获得的样本的数据,通过样本统计量的分布,得出小概率事件在某一次抽样中发生的错误现象,从而对总体指标的假设做出拒绝的判断。

2. 假设检验在数据分析中的作用

在总体情况未知,以历史经验对总体进行推测,利用样本的统计量对推测结果进行检验。假设检验的原理和方法是数据分析的基石之一。

3. 假设检验的基本步骤

(1)建立原假设
(2)选择检验统计量
(3)寻找拒绝域
(4)计算样本统计量的值,和临界值做比较,做出判断
数据分析概率及统计学基础_第18张图片

4. 假设检验与区间估计的联系

假设检验是从对总体进行假设使用样本数据进行检验,而区间估计是从样本数据出发,估计总体的参数,但两者本质上是一致的。
在相同的显著性水平下,假设检验和区间估计得出的结果是一致的。

5. 假设检验中的两类错误

(1)在原假设为真得情况下,拒绝原假设
(2)在原假设为不真的情况下,接受原假设

事先给定显著性水平α,标明犯第一类错误的概率不超过α  。在样本容量一定的情况下,两类错误发生的概率是负相关。通常控制第一类错误发生的概率,一般情况下α取值为0.01、0.05、0.1等。

6. 利用P值进行假设检验

(1)P值的含义
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

(2)P值的计算
一般地,用X 表示检验的统计量,当H0 为真时,可由样本数据计算出该统计量的值C ,根据检验统计量X 的具体分布,可求出P 值。具体地说:
  左侧检验的P 值为检验统计量X 小于样本统计值C 的概率,即:P = P{ X < C}
  右侧检验的P 值为检验统计量X 大于样本统计值C 的概率:P = P{ X > C}
  双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍: P = 2P{ X > C} (当C位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| > C} 。

(3)使用P值进行判断

  计算出P 值后,将给定的显著性水平α与P 值比较,就可作出检验的结论:
  如果α > P 值,则在显著性水平α下拒绝原假设。
  如果α ≤ P 值,则在显著性水平α下接受原假设。
  在实践中,当α = P 值时,也即统计量的值C 刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。

7. Z检验统计量

z检验,也称u检验。在原假设成立时,检验统计量服从标准正态分布。一般用于大样本(n>30)。
(1)单个正态总体平均数的检验
(2)两个正态总体平均数之差的检验
适用条件:
(1) 已知总体均数;
  (2) 可得到样本均数及该样本标准误;
  (3) 样本来自正态或近似正态总体。
  

数据分析概率及统计学基础_第19张图片
数据分析概率及统计学基础_第20张图片
数据分析概率及统计学基础_第21张图片

8. T检验统计量

在原假设成立时,检验统计量服从t分布。
(1)单样本t检验 : 单个正态总体平均数的检验
(2)两对立样本t检验:两个正态总体平均数之差的检验
(3)配对样本t检验

数据分析概率及统计学基础_第22张图片


两独立样本t检验分两种情况
数据分析概率及统计学基础_第23张图片
数据分析概率及统计学基础_第24张图片???


9. 卡方检验统计量


10. F检验


11. 三种t检验


五、 方差分析

方差分析是分析多个总体的均值是否相等的检验方法。

1. 方差分析的概念

方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
因子:试验中会改变状态的因素
因子水平:因子所处的状态
单因子试验:试验中考察的因子只有一个
两因子试验、多因子试验

方差分析的基本假定:
(1)在不同因子水平下,指标服从正态分布
(2)在不同因子水平下,方差相等
(3)样本数据相互独立

方差分析的原理在于方差的可加性。

2. 单因素分析的计算公式

数据分析概率及统计学基础_第25张图片
数据分析概率及统计学基础_第26张图片

3. 单因素方差分析的基本步骤

数据分析概率及统计学基础_第27张图片
   数据分析概率及统计学基础_第28张图片

4. 方差分析的应用

单因素方差分析用于预测数据分析,预测变量是一个分类变量,反应变量是联系变量。例如:会计人员是否比教师收入更多?新药物的治疗效果是否有提高?等等。

五、 简单线性回归分析

1. 相关关系的概念和特点

当给定一个变量值后,另一个变量在一定范围内变化,这种不确定关系叫做相关关系

特点:(1)两者是相互说明的关系,不是唯一确定
(2)对大量数据观察研究,发现许多变量之间存在一定客观规律。
(3)散点图中,观测点分布在直线或曲线周围

2.相关关系与函数关系的联系区别

变量间的关系一般分为确定性关系和非确定性关系。
函数关系式一种确定性关系。相关关系式一种非确定性关系。
函数关系:    (1)关系表现为一种函数形式,给定自变量,有唯一的因变量对应。
(2)散点图上,各观测点落在一条直线或者曲线上。
相关关系:    (1)两者是相互说明的关系,不是唯一确定
(2)对大量数据观察研究,发现许多变量之间存在一定客观规律。
(3)散点图中,观测点分布在直线或曲线周围

3. 相关关系的种类

(1)按照相关的方向不同分为:正相关和负相关。
(2) 按照相关形式不同分为:线性相关和非线性相关。
(3)按相关程度分为:完全相关、不完全相关和不相关。
(4)按研究的变量(或因素)的多少分为:单相关、复相关和偏相关。

4. 相关系数的意义及性质

相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。相关系数r没有单位。在-1+1范围内变动,其绝对值愈接近1,两个变量间的直线相关愈密切,愈接近0,相关愈不密切。相关系数若为正,说明一变量随另一变量增减而增减,方向相同;若为负,表示一变量增加、另一变量减少,即方向相反,但它不能表达直线以外(如各种曲线)的关系。
相关系数r=O~0.3表示相关程度低普通,相关系数r=0.3~0.5表示相关程度普通,相关系数r=0.5~0.8表示相关程度显著,相关系数r=0.8~0.9表示相关程度高,相关系数r=0.9~1.0表示相关程度极高。

5. 相关系数的简洁计算公式r


数据分析概率及统计学基础_第29张图片

6.回归分析的概念

具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值.如用年龄估计血压。

7.相关分析和回归分析的关系

在研究因变量时,一方面需要研究哪些变量与因变量相关以及关联程度的强弱,这种研究可以称为相关分析。另一方面需要研究因变量与自变量之间是否具有某种数量关系,确定因变量与自变量之间的数学模型,这种研究称为回归分析。


相关分析与回归分析有着密切的联系,它们不仅具有共同的研究对象,而且基础理论也具有一致性。在对变量研究时经常需要它们相互补充。相关分析要为变量之间建立回归模型提供依据;回归分析揭示出变量相关的具体形式。只有当变量之间存在着高度相关时,进行回归分析才可能是正确的。同理,只有通过回归模型掌握了变量之间关联的具体形式,相关分析才有意义。


虽然相关分析与回归分析经常同时使用,但是,它们在研究目的和方法上还是有着明显区别的。首先,在研究目的上不同。进行相关分析是为了得到变量间的关联程度;二回归分析是为了得到因变量与自变量的关系模型。其次,在进行相关分析时,一般不需要区别因变量和自变量,且两种变量都属于随机变量;而建立回归模型却必须去边因变量和自变量,并且因变量是随机变量,自变量被看作是确定性变量。


8. 应用相关分析要注意的问题


分析的变量之间必须是有关联的,有联系的,否则就算数据上有一致性,也毫无意义。

有相关关系不一定有因果关系。


9. 回归分析的内容和特点

   回归分析主要包括三方面内容:

     (1)提供建立有相关关系的变量之间的数学关系式(通常称为经验公式)的一般方法;

     (2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著的;

     (3)利用所得的经验公式进行预测和控制。

回归分析的特点:

  (1)两个变量是不对等的  

 (2)必须区分自变量和因变量

 (3) 因变量是随机的

  (4)自变量是可以控制的量  


10. 应用回归分析要注意的问题

第一,在定性分析的基础上进行定量分析,是保证正确运用回归分析的必要条件。也就是说、在确定哪个变量作自变量,哪个变量作因变量之前,必须对所研究的问题有充分正确的认识。

  第二,在回归方程中,回归系数的绝对值只能表示自变量与因变量之间的联系程度,以及两变量间的变动比例。因为其值大小直接取决于变量所用计算单位的大小。

  第三,在进行回归分析时,为了使推算和预测更准确,应将相关系数、回归方程和估计标准误差结合使用。

  第四,要具体问题具体分析。回归方程是根据资料计算出来的,是一种经验数据,如条件发生变化,则推算或预测会不准确。因此,不能机械照搬,以免造成失误。


11.  建立一元线性回归模型的假设

理论模型 y=a+bx+ε  
X是解释变量,又称为自变量,它是确定性变量,是可以控制的。是已知的。 

Y是被解释变量,又称因变量,它是一个随机性变量。是已知的。

 a,b是待定的参数。是未知的。 

ε 是误差项。


保证最小二乘估计是最佳无偏估计。
(1)正态性假设:要求总体误差项服从正态分布
(2)零均值性假设:在自变量取一定值得条件下,其总体各误差项的条件平均值为零。
(3)零方差性假设:在自变量取一定值得条件下,其总体各误差项的条件方差为一常数。
(4)独立性假设:误差项之间相互独立,误差项和自变量之间相互独立。

12. 一元线性回归模型

如果我们要研究X与Y的关系,可以作线性拟合

           (2-1-1)

 我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。


其中 式中, Lxy称为 xy的协方差之和, Lxx称为 x的平方差之和


13.回归直线的拟合优度

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。显然若观测点离回归直线近,则拟合程度好;反之则拟合程度差。度量拟合优度的统计量是可决系数(亦称确定系数)R ^2。

1.R^2是由自变量x1,x2,...,xk的线性回归等式解释的因变量y的观测值的变化占总变化的比例。数值总是位于0到1之间的数。R^2越高,回归模型拟合的越好。(此规律也有例外。)

2.R^2的数值经常被用于测量回归模型拟合数据的程度。然而,当能够验证一个回归模型能够有效地用一个变量来预测另一个变量的数值时,模型本身并不能证明两个变量之间存在因果关系。例如,考虑这样一个例子。在冬季的几个月里,人们经常通过燃油取暖,因为取暖用的燃油在冬季的销售额比在夏天的销售额要高。同样,滑雪设备的销售额在冬季也比夏天要高。事实上,如果我们打算运行一个以滑雪设备的销售额作为自变量x以及取暖用的燃油的销售额作为因变量y的回归模型,那么产生的模型将是很好的模型,并具有很高的R^2数值。不过,我们知道滑雪设备的销售额并没有造成人们购买更多的家用取暖的燃油。

3.当回归直线是平行于x轴,并且与原始数据的散点图拟合度也非常高,但R^2=0.说明一个低的R平方数值,并不一定意味着回归模型缺乏可信度。

4.一个高的R平方数值经常被解释为拟合得很好的标志。但这也并不总是正确的。例如,R平方数值仍会很高,但原始数据的散点图表明因变量y的观测值用一条曲线拟合比用一条直线拟合的效果可能会更好。

结论:R平方数值有时会给出有关线性回归模型对数据拟合程度好的误导信息。一般说来,较高的R平方数值比较低的R平方数值要好。接受回归模型足够好的R平方数值的决定因素主要取决于这个模型的应用目的以及经验和良好的管理知识。


14. 回归估计标准误差

一元线性回归标准误差公式
数据分析概率及统计学基础_第30张图片
标准误差越大,回归系数的估计值越不可靠。
数据分析概率及统计学基础_第31张图片


15 . 线性回归的检验

数据分析概率及统计学基础_第32张图片
数据分析概率及统计学基础_第33张图片
数据分析概率及统计学基础_第34张图片

你可能感兴趣的