搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Albert陈凯
Spark ReadmeApache Spark
Apache Spark Spark is a fast and general cluster computing system for Big Data. //spark.apache.org/ Online Documentation You can find the latest Spark documentation, including a programming Building Spark Spark is built using Apache Maven. For instance: MASTER=spark://host:7077 . Running Tests Testing first requires building Spark. Once Spark is built, tests can be run using: .
1.1K60发布于 2018-04-04
来自专栏LhWorld哥陪你聊算法
【Spark篇】---Spark初始
但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法二、具体细节 1、Spark Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。 Standalone Standalone是Spark自带的一个资源调度框架，它支持完全分布式。 Yarn Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。 5、Spark代码流程 1、创建SparkConf对象 <! 5、关闭Spark上下文对象SparkContext。
1.5K41发布于 2018-09-13
来自专栏SmartSi
Spark2.3.0 引入Spark
请注意，在 Spark 2.2.0 中删除了对 Java 7 的支持。要在 Java 中编写 Spark 应用程序，需要在 Spark 上添加依赖项。 Spark可通过 Maven 仓库获得： groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.3.0 另外，如果希望访问要编写 Spark 应用程序，需要在 Spark 上添加依赖项。 Spark 可通过 Maven 仓库获得： groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.3.0 另外，如果希望访问添加以下行： import org.apache.spark.SparkContext import org.apache.spark.SparkConf 备注在 Spark 1.3.0 之前，
1.1K40发布于 2019-08-07
来自专栏章鱼carl的专栏
【Spark】Spark之what
Spark按照功能侧重点划分为几个模块：Spark Core、Spark SQL、Spark Streaming、Spark MLlib、GraphX。 Spark Core：Spark的核心模块，主要就是对计算引擎本身的抽象和实现 2. Spark Streaming：以流就是无限个小批次，实现这样来定义的流式计算。 Spark MLlib：利用Spark自身作为计算引擎，提供的机器学习库 4. 这种内部优化是基于Spark数据混洗操作的输出均被写入磁盘的特性。架构 Spark三种提交模式： (1) Spark Core架构其实就是standalone模式。 Spark Cluster Spark on Yarn Spark on Yarn-Client mode Spark on Yarn-Cluster mode 流程基本流程 Spark一般流程
1.4K20编辑于 2022-03-31
来自专栏章鱼carl的专栏
【Spark】Spark之how
函数（function） Java中，函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。 Spark开发者们已经在Spark 中加入了一个日志设置文件的模版，叫作log4j.properties.template。，默认在conf/spark-defaults.conf文件中，也可以通过spark-submit的- -properties自定义该文件的路径 (4) 最后是系统默认其中，spark-submit的一般格式当Spark调度并运行任务时，Spark会为每个分区中的数据创建出一个任务。该任务在默认情况下会需要集群中的一个计算核心来执行。 Spark也会使用第三方序列化库：Kryo。需要设置spark.serializer为org.apache.spark.serializer.KryoSerializer。
1.6K20编辑于 2022-03-31
来自专栏小鹏的专栏
spark杂记：Spark Basics
Spark 学习笔记可以follow这里：https://github.com/MachineLP/Spark- 下面来看几个问题，下面将关注几个问题进行阐述： Mac下安装pyspark spark 安装目录和Java安装目录 os.environ['SPARK_HOME'] = "/Users/liupeng/spark/spark-2.4.0-bin-hadoop2.7/" sys.path.append ("/Users/liupeng/spark/spark-2.4.0-bin-hadoop2.7/bin") sys.path.append("/Users/liupeng/spark/spark-2.4.0 /liupeng/spark/spark-2.4.0-bin-hadoop2.7/python/lib/pyspark.zip") sys.path.append("/Users/liupeng/spark 相关基础知识相关spark基础知识如下： Spark Context： We start by creating a SparkContext object named sc.
1.2K20发布于 2019-05-26
来自专栏全栈程序员必看
【Spark】Spark基础教程
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark特点 Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比 Hadoop MapReduce快上百倍，基于磁盘的执行速度也能快十倍；容易使用：Spark支持使用Scala、Java、Python和R语言进行编程，简洁的API设计有助于用户轻松构建并行程序，并且可以通过 Spark Shell进行交互式编程；通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件，这些组件可以无缝整合在同一个应用中，足以应对复杂的计算；运行模式多样：Spark可运行于独立的集群模式中，或者运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。
93010编辑于 2022-08-19
来自专栏后端技术
spark
搭建spark集群 https://www.cnblogs.com/freeweb/p/5773619.html idea 创建maven项目配置scala环境： https://www.cnblogs.com 9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark 与scala对应版本关系： https://mvnrepository.com/artifact/org.apache.spark/spark-core 此处有2.12和2.11标签，如果是spark2.4 hadoop01会被映射到192.168.xx.xx(本地的私有ip) val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp") 版本问题 scala与spark 版本要对应，maven导入的sdk也要版本对应运行方式在本地测试则master设为本地运行在集群测试则master设为集群运行参考资源《Spark快速大数据分析》《Spark和核心技术与高级应用
81730发布于 2019-05-25
来自专栏全栈程序员必看
Spark pool_spark docker
org.apache.spark.scheduler.SchedulingAlgorithm。调度池则用于调度每个sparkContext运行时并存的多个互相独立无依赖关系的任务集。
69420编辑于 2022-09-20
来自专栏后端精进之路
Spark系列 - (5) Spark Shuffle
参与决定分区数的参数defaultMinPartitions也是由该参数确定的， defaultMinPartitions=min(spark.default.parallelism, 2) 由于spark 扩展：Tungsten-Sort Based Shuffle / Unsafe Shuffle 从 Spark 1.5.0 开始，Spark 开始了钨丝计划（Tungsten），目的是优化内存和CPU的使用，进一步提升spark的性能。从Spark-2.0.0开始，Spark 把 Hash Shuffle 移除，可以说目前 Spark-2.0 中只有一种 Shuffle，即为 Sort Shuffle。如果spark.shuffle.spill = false就只用内存。
1.1K11编辑于 2023-10-19
来自专栏小鹏的专栏
spark学习笔记：spark sql
本文链接：https://blog.csdn.net/u014365862/article/details/100982613 spark-env.sh环境配置：（添加hive支持） export JAVA_HOME =$SPARK_CLASSPATH:/***/emr-apache-hive-2.3.2-bin/lib/mysql-connector-java-5.1.38.jar scala代码： import org.apache.spark.sql.SQLContext import org.apache.spark. {SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.hive.HiveContext hiveContext = new HiveContext(sparkContext) val sqlContext = new SQLContext(sparkContext) val spark
1.1K10发布于 2019-09-19
来自专栏后端精进之路
Spark系列 - (3) Spark SQL
Shark：2011年Shark诞生，即Hive on Spark。 2014年7月，spark团队将Shark转给Hive进行管理，Hive on Spark是一个Hive的也就是说，Hive将不再受限于一个引擎，可以采用Map-Reduce、Tez、Spark等引擎； Spark SQL作为Spark生态的一员诞生，不再受限于Hive，只是兼容Hive。 3.3 Spark SQL优化 Catalyst是spark sql的核心，是一套针对spark sql 语句执行过程中的查询优化框架。因此要理解spark sql的执行流程，理解Catalyst的工作流程是理解spark sql的关键。而说到Catalyst，就必须提到下面这张图了，这张图描述了spark sql执行的全流程。
3.2K10编辑于 2023-10-19
来自专栏迁移内容
Spark初识-什么是Spark
Spark streaming）、机器学习（MLlib）、SQL分析（Spark SQL）和图计算（GraphX）。这一站式的计算框架，包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX ， 2014年2月，Spark 成为 Apache 的顶级项目 2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录 Spark 成功构建起了一体化、多元化的大数据处理体系三、Spark的优点 Spark之所以这么受关注，主要是因为其有与其他大数据平台不同的特点，主要如下。），这是个惊人的增长 *、本文参考 Spark官网深入浅出，一文让你了解什么是Spark Spark入门——什么是Hadoop，为什么是Spark?
2.9K10编辑于 2022-12-01
来自专栏LhWorld哥陪你聊算法
【Spark篇】---Spark中控制算子
一、前述 Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。 a.mapnode:hover {text-decoration: none; color: black; background: #eeeee0; } --> 2.1.Spark job执行完之后，spark会从finalRDD从后往前回溯。 2.3.回溯完成之后，Spark会重新计算标记RDD的结果，然后将结果保存到Checkpint目录中。
99530发布于 2018-09-13
来自专栏迁移内容
Spark入门-了解Spark核心概念
在本文中我们将从Spark集群角度和程序应用的角度来对相关概念进行了解一. 站在集群角度 1.1 Master Spark 特有资源调度系统的 Leader。 1.2 Worker Spark 特有资源调度系统的 Slave，有多个。驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中. 驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。使用Scala初始化SparkContext import org.apache.spark.SparkConf import org.apache.spark.SparkContext import 然后, Spark 会发送应用程序代码(比如:jar包)到每个执行器.
57410编辑于 2022-12-01
来自专栏机器学习/数据可视化
Spark笔记13-Spark Streaming
Spark streaming 数据分类：静态数据和动态数据。静态数据的常见应用是数据仓库。
58610发布于 2021-03-02
来自专栏技术圈
Spark系列(一) 认识Spark
怀念看论文的日子~/ 打算写一个Spark系列，主要以Scala代码实现，请赐予我力量吧！！！ Spark的特点运行速度：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。 spark生态圈：即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架 Spark的应用场景基于Spark自身存在的一些特点和优势，Spark的应用场景如下： Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。执行器节点 Spark 执行器节点是一种工作进程，负责在 Spark 作业中运行任务，任务间相互独立。 Spark 应用启动时，执行器节点就被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有执行器节点发生了异常或崩溃，Spark 应用也可以继续执行。
1.2K20发布于 2019-08-22
来自专栏xingoo, 一个梦想做发明家的程序员
Spark源码分析之Spark-submit和Spark-class
前面总结的Spark-shell的分析可以参考： Spark源码分析之Spark Shell（上） Spark源码分析之Spark Shell（下） Spark-submit if [ -z "${SPARK_HOME in Python 3.3+ export PYTHONHASHSEED=0 exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@" 跟Spark-shell一样，先检查是否设置了${SPARK_HOME},然后启动spark-class，并传递了org.apache.spark.deploy.SparkSubmit作为第一个参数，然后把前面Spark-shell的参数都传给spark-class Spark-class if [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$ "${SPARK_HOME}"/bin/load-spark-env.sh 在spark-env中设置了assembly相关的信息。
1.3K50发布于 2018-01-17
来自专栏最新最全的大数据技术体系
【Spark Streaming】Spark Day10：Spark Streaming 学习笔记
-Straming 概述之SparkStreaming计算思想 Spark Streaming是Spark生态系统当中一个重要的框架，它建立在Spark Core之上，下图也可以看出Sparking 依据业务需求，调用DStream中转换函数（类似RDD中转换函数） /* spark hive hive spark spark hadoop */ val resultDStream , 1) (spark, 1) -> (spark, [1, 1]) (hive, [1]) -> (spark, 2) (hive, 1) (hive, 1) import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel org.apache.spark spark-sql_${scala.binary.version} ${spark.version
1.6K20编辑于 2021-12-06
来自专栏最新最全的大数据技术体系
【Spark Streaming】Spark Day11：Spark Streaming 学习笔记
Spark Day11：Spark Streaming 01-[了解]-昨日课程内容回顾主要讲解：Spark Streaming 模块快速入门 1、Streaming 流式计算概述 - Streaming {DStream, InputDStream} import org.apache.spark.streaming.kafka010._ import org.apache.spark.streaming org.apache.spark.streaming. org.apache.spark spark-sql_${scala.binary.version} ${spark.version } ${spark.version} org.apache.spark spark-streaming-kafka
1.6K10编辑于 2021-12-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Spark ReadmeApache Spark

【Spark篇】---Spark初始

Spark2.3.0 引入Spark

【Spark】Spark之what

【Spark】Spark之how

spark杂记：Spark Basics

【Spark】Spark基础教程

spark

Spark pool_spark docker

Spark系列 - (5) Spark Shuffle

spark学习笔记：spark sql

Spark系列 - (3) Spark SQL

Spark初识-什么是Spark

【Spark篇】---Spark中控制算子

Spark入门-了解Spark核心概念

Spark笔记13-Spark Streaming

Spark系列(一) 认识Spark

Spark源码分析之Spark-submit和Spark-class

【Spark Streaming】Spark Day10：Spark Streaming 学习笔记

【Spark Streaming】Spark Day11：Spark Streaming 学习笔记

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐