Apache Doris:百度自研的交互式 SQL 数据仓库正式孵化

Doris 前身是 Palo ,Palo 是百度自研的基于 MPP 的交互式 SQL 数据仓库,主要用于解决报表和多维分析。它主要集成了 Google Mesa 和 Cloudera Impala 技术。


根据最新的 Apache 基金会邮件列表,百度开源项目 Doris 已全票通过投票,正式成为 Apache 基金会的孵化器项目。


投票结果是,在包含 8 个约束性投票(binding votes)和 6 个无约束性投票(non-binding votes)的投票过程中,均获得了一致的同意意见。


按投票页面中的说法,Apache Doris 正是目前百度的 Palo 项目(https://github.com/baidu/palo)。而进入 Apache 基金会后,项目相关的文档和网站内容也将会一并捐赠给基金会。


Palo 是百度自研的基于 MPP 的交互式 SQL 数据仓库,主要用于解决报表和多维分析。它主要集成了 Google Mesa 和 Cloudera Impala 技术。和其他流行的 SQL-on-Hadoop 系统不同的是,Palo 设计为单一紧密耦合系统,不依赖其他系统。目前在百度内部有着广泛应用(已应用于 200 多个业务线),如百度凤巢、百度统计、百度糯米等。


Palo 的实现包括两个守护进程:前端(FE)和后端(BE)。下图给出了架构和用法的概述:


Apache Doris:百度自研的交互式 SQL 数据仓库正式孵化_第1张图片



Apache Doris:百度自研的交互式 SQL 数据仓库正式孵化_第2张图片


Palo 不仅提供高并发低延迟的查询性能,而且提供了高吞吐量的 ad-hoc 分析查询。它还提供批量数据加载,以及近乎实时的小批量数据加载。


Palo 具有高可用性、可靠性、容错性和可扩展性,其主要特点是简单(开发、部署和使用)和满足单一系统中的许多数据服务需求。


本文原文:http://codebay.cn/post/9539.html(点击下面 阅读原文 即可进入)


猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

0、回复 电子书 获取 本站所有可下载的电子书

1、Apache Spark 统一内存管理模型详解

2、Elasticsearch 6.3 发布,你们要的 SQL 功能来了

3、Spark Summit North America 201806 全部PPT下载[共147个]

4、干货 | 深入理解 Spark Structured Streaming

5、Apache Spark 黑名单(Blacklist)机制介绍

6、Kafka分区分配策略(Partition Assignment Strategy)

7、Spark SQL 你需要知道的十件事

8、干货 | Apache Spark 2.0 作业优化技巧

9、[干货]大规模数据处理的演变(2003-2017)

10、干货 | 如何使用功能强大的 Apache Flink SQL

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档: http://flink.iteblog.com 13、Carbondata 中文文档 http://carbondata.iteblog.com

640?wx_fmt=png

你可能感兴趣的