数据分析常用名词解释

聚合(Aggregation): 搜索、合并、显示数据的过程。

算法(Algorithms): 可以完成某种数据分析的数学公式。

分析法(Analytics): 用于发现数据的内在涵义。

分析型客户关系管理(Analytical CRM/aCRM): 用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。

行为分析法(Behavioural Analytics): 这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式。

批量处理(Batch processing): 尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。

商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

分类分析(Classification analysis): 从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。

云计算(Cloud computing): 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。

集群计算(Cluster computing): 这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。

聚类分析(Clustering analysis): 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

冷数据存储(Cold data storage): 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

对比分析(Comparative analysis): 在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。

相关性分析(Correlation analysis): 是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。

仪表板(Dashboard): 使用算法分析数据,并将结果用图表方式显示于仪表板中。

数据聚合工具(Data aggregation tools): 将分散于众多数据源的数据转化成一个全新数据源的过程。

数据分析师(Data analyst): 从事数据分析、建模、清理、处理的专业人员。

数据库(Database): 一个以某种特定的技术来存储数据集合的仓库。

数据湖(Data lake): 数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。

暗数据(Dark Data): 基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?

数据挖掘(Data mining): 数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。

数据中心(Data centre): 一个实体地点,放置了用来存储数据的服务器。

数据清洗(Data cleansing): 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据质量(Data Quality): 有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程,并能满足在运营、决策、规划中的预期用途。

数据订阅(Data feed): 一种数据流,例如Twitter订阅和RSS。

数据集市(Data Mart): 进行数据集买卖的在线交易场所。

数据建模(Data modelling): 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

数据集(Data set): 大量数据的集合。

数据虚拟化(Data virtualization): 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

判别分析(Discriminant analysis): 将数据分类,按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

分布式文件系统(Distributed File System): 提供简化的,高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases): 又称为文档数据库,为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。

探索性分析(Exploratory analysis): 在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

提取-转换-加载(ETL:Extract,Transform and Load): 是一种用于数据库或者数据仓库的处理过程,天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。

你可能感兴趣的