首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark流作业已退出,代码为% 11

Spark流作业已退出,代码为% 11
EN

Stack Overflow用户
提问于 2015-07-08 14:11:40
回答 2查看 3.8K关注 0票数 1

我正在使用spark流作业来执行多个任务。它正常运行了大约5-6个小时,但在那之后它失败了,出现了以下异常。Spark streaming作业在20 GB RAM和8核的yarn集群上运行。

代码语言:javascript
复制
Application application_1435667829099_0003 failed 2 times due to AM Container for appattempt_1435667829099_0003_000002 exited with exitCode: 11
For more detailed output, check application tracking page:http://hdp-master:8088/proxy/application_1435667829099_0003/Then, click on links to logs of each attempt.
Diagnostics: Exception from container-launch.
Container id: container_e09_1435667829099_0003_02_000001
Exit code: 11
Stack trace: ExitCodeException exitCode=11:
at org.apache.hadoop.util.Shell.runCommand(Shell.java:538)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:715)
at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:212)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
Container exited with a non-zero exit code 11
Failing this attempt. Failing the application.

请推荐我。

EN

回答 2

Stack Overflow用户

发布于 2015-12-11 21:34:05

在我的例子中,node-manager的日志中在异常之前有一行:

代码语言:javascript
复制
INFO org.apache.spark.deploy.yarn.ApplicationMaster: Final app status: FAILED,
exitCode: 11, (reason: Max number of executor failures (16) reached)

但我确信这是原版的缺点。仔细查看节点管理器日志

票数 0
EN

Stack Overflow用户

发布于 2016-03-02 10:44:53

我不确定我找到的解决方案是否能解决您的问题。然而,它解决了我与exitCode: 11 (reason: Max number of executor failures (16) reached)相关的问题

我的问题的根本原因是我们在main函数的末尾使用了sparkContext.stop()。它会停止所有的执行器。但是,一些异步进程(akka尝试发送消息)仍然有效,并尝试调用驱动程序/执行器。它无法成功调用,因为所有的执行器/驱动程序都已关闭。它尝试了很多次,并在exitCode: 11停止。

解决方案:删除代码中的sparkContext.stop()函数,将停止操作留给GC。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31284799

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档