第二章 大数据技术概述

大数据基本概念

数据是各种符号如字符、数字等。声音、图片动画、视频多媒体,数据也是原始事实。要保证其原始性和真实性,后期加工才有意义。信息是人们为了某种需求而对原始数据加工重组后形成的有意义、有用途的数据。信息系统的表达上,可以把数据放在输入端,信息放在输出端。从信息的角度看数据可以从数据的输入和输出的位置得到理解。如图是信息系统的工作方式
人们掌握数据资源的目的是为了提炼加工数据为有用的资源,称为信息。
在信息的基础上提炼和总结成具有普遍指导意义的内容,包括共性规律、理论、模型模式方法等称为知识。
智慧: 运用知识,结合经验创造性的预测未来解释现象和问题,洞见未来。
大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯
大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
大数据具有“领悟数据,提升见识,洞察秋毫,驱动优化”四个内涵,侧重于大数据技术的应用,强调大数据间相关性的发现,其核心能力是“大数据中的价值发现和应用”
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。每天数以亿计的数据产生着,云计算、云存储的应用,有效地将这种隐态资源转化为可用资源,当前这种资源无疑成为国家、组织和个人的最重要的财富。
大数据是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组

大数据的技术与支撑

海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发展过程中,计算速度是非常关键的因素。分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光;
HDFS为海量的数据提供了存储;
MapReduce则为海量的数据提供了并行计算,从而大大提高了计算效率;
Spark、Storm、Impala等各种各样的技术进入人们的视野
大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工智能进一步提升了处理和理解数据的能力。

大数据产生原因

随着计算机技术全面融入社会生活的方方面面,信息爆炸已经积累到了一个开始引发技术创新和商业变革的程度。21世纪是数据信息大发展的时代,互联网(社交网络、搜索、电子商务)、视频网站、移动互联网(微博、推特)、物联网(传感器、智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)、天文学、基因组学、气象学、蛋白组学、天体物理学和脑科学等都在疯狂产生着大量数据,极大拓展了互联网的边界和应用范围。它不仅使世界充斥着比以往更多的信息,而且其创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。
2006年,广大的个人用户才刚刚迈进“TB”时代(个人计算机的硬盘容量从GB提升到了TB规格),全球一共新产生了约180EB的数据;全球在2010年正式进入ZB时代,2011年,这个数字达到了1.8ZB。IDC预计到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!其中,各数据量单位KB>MB>GB>TB>PB>EB>ZB>YB->NB>DB依次递增。注:单位PB级是大数据的临界点。
进入IT时代以来,积累了海量的数据,这些数据仍在不断急速增加,带来两个方面的巨变:一方面,在过去没有数据积累的时代无法实现的应用现在终于可以实现;另一方面,从数据匮乏时代到数据泛滥时代的转变,给数据的应用带来新的挑战与困扰,即如何从海量数据中高效的获取数据,有效的深加工并最终得到有价值意义的数据。
大数据的一个重要方面是数据的可用性。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。

云计算技术产生

1网络公司提出了以数据为核心,以云中心、云服务、云数据、云伙伴为四大方向
2云计算的发展为整
合打通业务系统、
聚合数据提供了技术支撑
3企业的服务器的存储方式,迅速转化为云端的存储方式

大数据的特征

大数据是数据分析的前沿技术。从各种各样类型的数据中,快速高效获得有价值信息的能力,就是大数据技术。在IT业界有的学者使用3S来描述大数据,还有的学者使用3I来描述大数据。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
1.3大数据的特征
大数据的四V特征
价值高(Value)
体量大(Volume
大数据有巨大的潜在价值,但同
从20132020年人类的数据
何指数得发式增长相比某一对象或横
将扩大50倍每年产生的数将增
数据的价值密度轻低这无疑给我们
长到44万亿G相于关国国家
开发先数据增加了度和成本
4
馆数据册的数百万倍,且每18个月到

特征
速度快(Velocity)
种类多(Variety
着现代感互联网计算机技
大数据与传统数据相比数据来广
术的发展数据生成,储存分析
组度多,类型杂各种机器仪表在自动
处理的速度远出人们的想象
产生数据的同时,人自身的生活行为
力。这是大数据区别于传统数据成
在不断创造数据,不仅有企业组织内
小数据的著特
的业务数据还有泡册相关的外部数
1.3大数据的特征
大数据的3
定义不明确的,多个大数据的定义都强调了大数据规模超过传统
数据的规模,随着技术的进步,数据分析的效率不断提高,符合
defined大数据定义的数据规模也不断变大,因而没有一个明确的标准。
从管理大数据到使用正确的工具获取它的价值,利用大数据的
Intimida过程中充满了各种挑战。
ting
数据的价值会随着时间快速衰减,为了保证大数据的可控性,需要
缩短数据搜集到获得之间的时间,使大数据成为真正的即时大数据
mmediate
这意味着能尽快地分析数据对获得竞争优势至关重要。

1.4大数据结构类型

大数据的存储结构小到以字节表示大到NB和DB级别。以210逐级增长。下面表示的是数据由小到大的尺寸和存储容量。最小的基本单位是bit,按顺序给出所有单位:Bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(210)来计算:
1KB(KiloByte)=210B
1MB(MegaByte)=210KB
1GB(GigaByte)=210MB=220KB=230B
1TB(TeraByte)=210GB =220MB=230KB=240B
1PB(PetaByte)=210TB =220GB =230MB=240B=250B
1EB(ExaByte)=210PB =220TB =230GB=240MB=250KB=260B
1ZB(ZettaByte)=210EB =220PB =230TB=240GB=250MB=260KB=270B
1YB(YottaByte)=210ZB =220EB =230PB=240TB=250GB=260MB=270KB=280B
1NB(NonaByte)=210YB =220ZB =230EB=240PB=250TB=260GB=270MB=280KB=290B
1DB(DoggaByte)=210NB =220YB =230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B

2大数据结构特征
数据的结构化程度直接关系到处理数据的方去选择的和经典的数据是结构化的,这些数据存
在数库中,采用相应的数据库技术完成询和管理需要而结构和结构的数据就是今天网页
和社交媒体产生的大量音频和视频等
数据结构类型

结构化
简单来说就是数据,如企业ER基太包括高速存储应用需求、数据备份
需求、数据共享需求以及数据容灾需求
半结构化半结构化数据具有一定的结构性比如有员工的简有的员工的简历很简单
比如只包括教育情况有的员工的简质粮复杂如包括工作情况、姻情况
等等
非结构化
数据结构不规则或不完整没有预义的数据楼型,不方便用数据库二维逻辑
来表现的数据。包括所有格的办公文档等非结构化数据其格式非常多样
大数据结
算机术理
构类型

数据 的复杂性与多样性

(1)数据的复杂性
多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结构的简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。数据的复杂性表现为处理大数据或异构数据
(2)数据的多样性
文本一直是非结构化数据的典型。早期的非结构化数据,在企业数据的语境里主要是文本,如电子邮件,文档,健康/医疗记录。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等等,真正诠释了数据的多样性。
从另一个维度上看,数据的多样性又表现在数据来源和用途上。卫生保健数据大致有药理学科研数据,临床数据,个人行为和情感数据,就诊/索赔记录和开销数据四类。

数据资产化和决策智能化

大数据将从数据资产化和智能化两个方面推动企业管理变革
(1)数据资产化
图无

在数据时代,数据溶透各个行业,渤渐成为企业战略资产,有公司的数据相
对于其他公司更多,使其拥有更多获取数据在价值的
(2)决策智能化
企业战将从“业动”转向“数据驱动化决是企业未来发展方向
,在大数据时代,企业通过收集、分析大最内和外部的数据,获取有价的信息通
过挖掘这些信息,企业可以预市场需求,进行智能化策析,从而把竞争优势
大数据
时代
技术变革特征
管理模式变革
倍息技术()向
算放东惊息理
数据技术(DT)的转
tn

1

.6大数据的表现形态

大数据在当今社会拿常时髦,大数据的信息是量的这个海量并不是某个时间点的量级总结,而是
持续更新,持续增量由于大数据产生的过程中诸多的不确定性使得大据的表形态多种多样

大数据来的个技术加生的样入数构的
复杂性,非的档式实手可能福老法有价微的
多源性
信息
大数据的实时体现在数据更新的实,教有效全的联
物联网,云计算产生的大皇的不同未障的数情说的关键
实时
因素
体现的是数据的不确定性。原始数据的不及数处理程度,求数
据集成和展示等因素得数据在不同度维上有不同度的不确定性
不确定性
条息理

大数据的应用

“大数据”已经在服务于普通百姓,通过它,企业可以了解市场行情,获得更多收入;农民可以了解明年种什么菜才能赚更多钱;农民工可以知道哪里更需要工人,哪里待遇更高,哪里能租到房子。而伴随着大数据技术的发展,人们的生活将会彻底改变。
目前的数据,都是在即时通讯过程中,包括电话、短信、微信、邮件、浏览网页等,通过人的手和口产生。而随着大数据技术与云计算、物联网的进一步融合,未来的数据,将更多地来源于大量传感器。
个人生活应用
交通智能软件获取路段拥堵信息的途径主要有三种:1.大家随身携带的手机,2.遍布大街小巷的监控摄像头可以直接看到路段的拥堵情况,3.在很多城市的交通管理中应用越来越普遍的小型无人驾驶直升机。
大数据技术可以根据你曾经买过的商品的价格,分析你的消费水平,同时根据你最近的浏览和搜索,分析你当下的需求,二者结合,进行针对性非常强的推销。
现代医学越来越依赖于具体数据的采集和判断。医学诊断正在演化为全人全程的信息跟踪、预测预防和个性化治疗。病人的“参与性”和“选择权”的重要性,会愈加显现。

企业应用
未来车间智能机器人的机械手可以进行自动化排产调度,工件、物料、刀具进行自动化装卸调度,可以达到无人值守的全自动化生产模式。如图智能工厂。视觉识别可以自动定位材料位置,更加精准便捷。视觉识别搭配机械手可以进行分拣,不同的数字、颜色可以分拣出来,并且按顺序排列,抓取速度是2秒。
政府应用举例
新闻类应用“国务院APP”在上线之初就刷爆了朋友圈以及各大应用平台,成为公众与政府互动交流的平台,满足了用户对于政治关注的需求,有效拉近了中央政府与普通民众之间的关系。国家总理和普通民众的层级阻隔不再受限,多数的民众将这个APP当成了一个必备软件。

数据科学和 大数据技术

1.8.1数据科学
目前大数据的工程技术研究已走在不研的面关国政府6个
部门启动的大数据研究计划中国科基金会的德到要形成
DATA SCIENCE
一个包括数学,统计基础和算机算法的
数据、信息和知识三者既有区别又有联系:铁是信息的载体,是
信息的原始记录包括数字、语言、文、声、图形图像等多种形
态信息是经过加工后的对某现象具有一定力的据,或说是有价
的数据知识是信息的一步升是更如系化理论化的信息
数据科学是以统计学机学习数据可他以及其他域知识为理论基
其主要研究内容包数据科学基的理论数据处,数据计算和数据
管理
数据科学
和大数据
数据科学
技术
大数据入
算帆技术
添大数据技术包括,大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术等。借助这些平台,大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策

大数据的关键技术

1.大数据分析技术
(1)数据处理:自然语言处理技术;多媒体内容理解;图文转换技术等。
(2)统计和分析:A/B test;地域占比;文本情感分析;语义分析技术。
(3)数据挖掘:关联规则分析;分类;聚类。
(4)模型预测:预测模型;机器学习;建模仿真;模式识别技术等。
2.大数据预处理技术
(1)数据采集:ETL(Extract-Transform-Load)工具。
(2)数据存取:关系数据库;NoSQL;SQL等。
(3)基础架构支持:云存储;分布式文件系统等。
(4)计算结果展现:云计算;标签云;关系图等。
3.数据存储
(1)结构化数据:海量数据的查询、统计、更新等操作效率低。
(2)非结构化数据:图片、视频、Word、PDF、等文件存储,不利于检索、查询和存储。
(3)半结构化数据:要么转换为结构化存储,要么按非结构化存储。
4.数据计算

数据采集与处理、分析技术

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采 集技术广泛引用在各个领域。比如摄像头,麦克风,都是数据采集工具。数据采集,还有一种解释就是网站数据的采集。
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
数据处理的过程大致分为数据的准备、处理和输出3个阶段。

数据可视化技术

科学可视化(Scientific Visualization 或 Scientific Visualisation)是科学之中的一个跨学科研究与应用领域,主要关注的是三维现象的可视化,如建筑学、气象学、医学或生物学方面的各种系统。重点在于对体、面以及光源等等的逼真渲染,或许甚至还包括某种动态成分。
就医学数据(CT、MRI、PET等),常常听说的一条术语就是“医学可视化”。如图是人类的颅骨CT片数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。为了有效地传达思想观念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。
就目标和技术方法而言,信息可视化与可视化分析论之间存在着一些重叠。当前,关于科学可视化、信息可视化及可视化分析论之间的边界问题,还没有达成明确清晰的共识。不过,大体上来说,这三个领域之间存在着如下区别:
科学可视化处理的是那些具有天然几何结构的数据(比如,MRI数据、气流);
信息可视化处理的是抽象数据结构,如树状结构或图形;
可视化分析论尤其关注的是意会和推理。

你可能感兴趣的