hive join的深入解析

hive在大数据体系中占着很重要,并且很大的角色,我们知道,hive虽然开始只是为了让一些不擅长写MR
的人员,为了方便他们查询数据而生的一个基于Hadoop的查询工具,但hive现在被更多的框架所见解,包括
SparkSQL,Impala,等
我们知道hive的默认计算引挚是MapReduce,所以分Map Reduce两个阶段,其中有一个很重要的过程叫做Shuffle,它
就是制约hive运行慢的最重要的一个因素。

我们在查询一些数据时,不可避免的会用到join连接,其实join对于我们这些程序员来说非常的熟悉,不管是java开发,net等
都会用sql join
那么Hive join与我们传统的关系性数据中的join有哪些不同呢?

hive join 主要是分三类:

 1.Common Join/ Shuffle Join/Reduce Join
 2. Map Join
 3.Sort Merge Bucket Join

你可能感兴趣的