当前位置:首页 > 开发 > 数据库 > 正文

大数据时代到来 我们还需不需要ETL?

发表于: 2015-06-24   作者:蓝儿唯美   来源:转载   浏览:
摘要: 毫无疑问,数据正呈现出爆炸式的增长趋势。无论是传统的业务系统数据,还是新型的非结构化数据,随着IT技术的不断发展,我们能够利用起来并转化为有用信息的数据变得越来越多,它们也包含了各种各样的结构与类型,这就是我们常说的“大数据”。现如今,大数据这个名词几乎是无人不知、无人不晓,但真正能够理解其内涵,真正能够利用好的企业还是少数。为什么?我们可以简单地用一句话来总结:数据太多,信息太少。信息是经过梳理

毫无疑问,数据正呈现出爆炸式的增长趋势。无论是传统的业务系统数据,还是新型的非结构化数据,随着IT技术的不断发展,我们能够利用起来并转化为有用信息的数据变得越来越多,它们也包含了各种各样的结构与类型,这就是我们常说的“大数据”。

现如今,大数据这个名词几乎是无人不知、无人不晓,但真正能够理解其内涵,真正能够利用好的企业还是少数。为什么?我们可以简单地用一句话来总结:数据太多,信息太少。信息是经过梳理之后的数据,它包含了真正有价值的业务洞察。然而就是将数据转化为有用信息的这一步,成为了许多企业迈不过去的一道坎,也是许多大数据项目仓促上马但最终失败的主要原因。
分析大数据?要先有数据!

大数据分析可以支撑企业做出关键的决策,通过对市场趋势的预测来获得差异化的竞争力。相信有许多企业管理者明白这个道理,他们希望通过大数据分析来回答那些之前无法给出答案的业务难题。然而,我的数据从哪里来?我如何收集这些数据并进行整理?我如何根据业务需求建立分析模型?这些问题并不是上一套Hadoop系统就能够简单搞定,更何况真正能搞定Hadoop的人本来就不多。

要做大数据,首先要解决的一个问题就是数据收集。如果无法将数据有效收集起来,要对大量碎片化的数据源进行分析简直就是天方夜谭。并不是说把数据直接放在源头就无法进行分析,但拥有这样能力的公司只有数得上来的那几家。绝大部分企业还是需要将数据先集中存储到一个地方,然后再进行分析。

其次,这些数据收集起来放到什么地方?有人说Hadoop是个不错的选择。没错,Hadoop作为一个开源的分布式数据存储平台能够存储各种各样的数据并方便地对其进行分析,而且基于Hadoop的一整套生态系统包括了各种工具,可以说它几乎是为分布式计算和大数据分析而生的一种技术。但是不是所有企业都需要将大数据存储到HDFS中呢?也并不是。因为,Hadoop作为一项相对较新的技术,能够熟练掌握的人并不多,而且其开源的本质就决定了你没法获得商业上的技术支持,出了问题谁来负责?这些都是Hadoop目前所存在的弊端。

有人说,大数据宣告了数据仓库时代的终结。然而专家建议,要做好大数据分析项目的企业应该从“小”做起。即应该先夯实传统数据管理系统,然后再逐渐尝试新的技术。这里所说的小并不是数据量上的小,而是指包括数据库、数据仓库在内的这些传统平台中的数据。事实上,如今的数据仓库已经能够处理各种各样类型的数据,包括文本数据、XML等这些非结构化或者半结构化的数据。而你所需要的大部分业务洞察,也都隐藏在这些高价值的数据背后。

最后,大数据同样要关注的一点就是数据质量。有人说,大数据不需要准确的数据,只要数据量够大就能从中分析出趋势。这其实是大数据的一个主要误区,数据质量并没有因为数据量的增加而变得不重要。恰恰相反,数据质量从没有像现在这么重要过。根据Gartner机构的调查数据显示,数据质量工具市场规模正在逐年增长,不关注数据质量的大数据集成注定无法成功,高质量的数据对于大数据分析项目的成功将起到关键作用。
大数据时代,ETL仍将是主流

以上分析了要做好大数据项目的最重要的前提,那么接下来我们回到正题上:大数据时代,我们到底还需不需要ETL工具?如果认真阅读了文章的朋友应该已经能够得出答案了。是的,即使是进行大数据分析,ETL仍然是不可或缺的一个工具。

纵观现在的数据集成手段,除了ETL之外,还包括了数据虚拟化甚至数据湖(Data Lake)这样的概念。虽然承诺可以实现更好的数据集成效果,但无论是数据虚拟化还是数据湖都是比较新的技术,很大程度上它们也是IT厂商所宣传的理念,为的是更好地销售其解决方案。而且采用这些技术需要对原有的架构进行一定的改造,甚至是推倒重来。这对于在传统数据管理系统已经进行大量投入的企业来说,是难以接受的。更何况它最终实现的效果是否真的有那么好?谁也没有把握。因此在目前阶段,ETL毫无疑问依旧是企业最能依仗并且最成熟的数据集成工具。而且其自带的数据清洗与数据质量管理功能也是其他解决方案所无法比拟的。

在目前的ETL工具市场中,我们可以大致分成两种类型。一种是数据库厂商自带的工具,比如IBM的Datastage、Oracle的GoldenGate等;还有一种就是第三方工具,比如Informatica或者国内的BeeDI等。那么现在的问题是,我们究竟选择一款什么样的ETL工具?

简单总结起来,我们可以注意以下几点:

第一、尽可能支持多种数据源。如果一款ETL工具只支持一种或有限的几种数据源,那么它的应用范围就会非常窄。这样的ETL工具往往是与数据库产品做捆绑的,www.qhvip.com/amwsbc/对于异构系统的支持不好。如果你需要从多种数据源来进行数据集成,我们建议尽量不要采用这样的工具。

第二、操作要尽可能简单。DBA的首要工作并不是做数据集成,而是要对整个数据库环境进行维护,从而保证业务的稳定运行。如果一款ETL工具过于复杂,且用户界面不够友好的话,那么你的DBA就要花很多时间来熟悉,造成不必要的时间浪费。

第三、要具备足够的安全性。许多企业在做数据集成的时候往往会忽略数据的安全性问题,但如果在一个环节出现漏洞,那么就可能对你的企业造成难以弥补的损失。因此一款好的ETL工具,必须要具备足够的安全保障,在数据传输的过程中不会出现漏洞和数据丢失的情况。

当然,最重要的是企业需要根据自身的业务需求来选择ETL工具,也许适合你的并不适合他。但以上所提到的,是在选择ETL工具时最基本的考量因素,只有达到这几点,才能成为真正的企业级ETL产品。

大数据时代到来 我们还需不需要ETL?

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
大数据时代,我们为什么使用hadoop 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是
1月21日电 台湾《联合报》21日刊文称,去年一整年,在科技业界里“大数据(Big Data)”喊得震天价响
  去年一整年,在科技业界裡「大数据(Big Data)」喊得震天价响,彷彿可以作为一切问题的解决方案
1月21日电 台湾《联合报》21日刊文称,去年一整年,在科技业界里“大数据(Big Data)”喊得震天价响
去年一整年,在科技业界裡「大数据(Big Data)」喊得震天价响,彷彿可以作为一切问题的解决方案。大
近日百度和药监局达成战略合作,百度将使用药监局的的药品数据为人们提供用药相关的查询。百度为这
  科学界也有像Elon Musk那样玩嘛嘛酷的偶像派人物?当然有,除了美国总统奥巴马想跟他“玩”以外
   马云曾说:“很多人还没搞清楚什么是PC互联网,移动互联网来了。我们还没搞清楚移动互联的时候
大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据
大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号