当前位置:首页 > 开发 > 互联网 > 正文

【Spark五十七】Spark on Yarn重复提交spark-assembly-1.2.0-hadoop2.4.0

发表于: 2015-02-12   作者:bit1129   来源:转载   浏览次数:
摘要: 在Spark on Yarn的部署模式中,每次提交application,都会往HDFS中存放一个spark的二进制包,这一方面影响性能,另一方面占用HDFS的存储空间, 可以在spark-default.conf文件中添加如下配置,将spark的二进制包告诉Spark,已经上传   spark.yarn.jar hdfs://hadoop.master:8020/spark_li

在Spark on Yarn的部署模式中,每次提交application,都会往HDFS中存放一个spark的二进制包,这一方面影响性能,另一方面占用HDFS的存储空间,

可以在spark-default.conf文件中添加如下配置,将spark的二进制包告诉Spark,已经上传

 

spark.yarn.jar hdfs://hadoop.master:8020/spark_lib_jars/spark-assembly-1.2.0-hadoop2.4.0

 

在运行spark程序前,需要将spark的jar文件上传至HDFS中

 

 

这个设置解决了在http://bit1129.iteye.com/blog/2174677中测试yarn client和yarn cluster两种方式提交作业时,spaspark jar提交了两次

 

参考:http://www.cnblogs.com/luogankun/p/4191796.html

【Spark五十七】Spark on Yarn重复提交spark-assembly-1.2.0-hadoop2.4.0

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
为什么要使用YARN? 数据共享、资源利用率、更方便的管理集群等。 详情参见:http://www.cnblogs.com
不知不觉,已经到了Spark的第19篇博客了,这个系列很不系统,基本上是学到哪写到哪,而不是成竹在胸
不知不觉,已经到了Spark的第19篇博客了,这个系列很不系统,基本上是学到哪写到哪,而不是成竹在胸
不知不觉,已经到了Spark的第19篇博客了,这个系列很不系统,基本上是学到哪写到哪,而不是成竹在胸
1:Spark的编译 Spark可以通过SBT(Scala Build Tool)或者Maven来编译,官方提供的二进制安装文件
欢迎转载,转载请注明出处,徽沪一郎。 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于
1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark
1:概述 说Spark on YARN的部署,还不如说是Spark应用程序在YARN环境中的运行。按照Spark应用程序中
一、服务器分布及相关说明 1、服务器角色 2、Hadoop(HDFS HA)总体架构 <p style="color: #2c2c
按照Spark的部署设置,对于Spark运行于Yarn之上,有如下四种选择方式(本质上是两种), yarn-client+
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号