执行这条命令,spark-jobserver的Docker镜像将被下载,它会在Docker上启动spark-jobserver作为守护进程。 $ git clone \ https://github.com/spark-jobserver/Spark-jobserver.git $ cd spark-jobserver $ sbt job-server-tests (2)选择运行在spark-jobserver上的主类。 提交job时不需要每次都编写Spark应用或者编译它,即使你想与其他人共享。 spark-jobserver会对如下对象持久化: job状态 job配置 JAR 因此,一旦你设置了这些信息,就不需要再次重新上传。 重要的是,可以通过spark-jobserver与同事共享你的应用的代码。
今天基本算是完成了一个类似spark-jobserver 的功能,当然功能还是比较简单的,不过提供了Web界面。很感慨Spark 用好了,真的是大数据的瑞士军刀 ?
这是Github的描述:spark-jobserver提供了一个RESTful接口,用于提交和管理ApacheSpark作业,jar和作业内容。
spark-jobserver:提交job的流程需要改进,因为对于非工程师来说,这项工作有点难。你需要理解如何用命令行或者其他UNIX命令去提交Spark job。 spark-jobserver提供了一个RESTful API来管理提交到Spark集群的job。因此,这意味着可以在企业内部环境中将Spark作为一个服务启动。