首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Albert陈凯

    Spark ReadmeApache Spark

    Apache Spark Spark is a fast and general cluster computing system for Big Data. //spark.apache.org/ Online Documentation You can find the latest Spark documentation, including a programming Building Spark Spark is built using Apache Maven. For instance: MASTER=spark://host:7077 . Running Tests Testing first requires building Spark. Once Spark is built, tests can be run using: .

    1.1K60发布于 2018-04-04
  • 来自专栏LhWorld哥陪你聊算法

    Spark篇】---Spark初始

    但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法 二、具体细节 1、Spark Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。 Standalone Standalone是Spark自带的一个资源调度框架,它支持完全分布式。 Yarn Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。 5、Spark代码流程 1、创建SparkConf对象 <! 5、关闭Spark上下文对象SparkContext。

    1.5K41发布于 2018-09-13
  • 来自专栏SmartSi

    Spark2.3.0 引入Spark

    请注意,在 Spark 2.2.0 中删除了对 Java 7 的支持。 要在 Java 中编写 Spark 应用程序,需要在 Spark 上添加依赖项。 Spark可通过 Maven 仓库获得: groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.3.0 另外,如果希望访问 要编写 Spark 应用程序,需要在 Spark 上添加依赖项。 Spark 可通过 Maven 仓库获得: groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.3.0 另外,如果希望访问 添加以下行: import org.apache.spark.SparkContext import org.apache.spark.SparkConf 备注 在 Spark 1.3.0 之前,

    1.1K40发布于 2019-08-07
  • 来自专栏章鱼carl的专栏

    SparkSpark之what

    Spark按照功能侧重点划分为几个模块:Spark Core、Spark SQL、Spark Streaming、Spark MLlib、GraphX。 Spark Core:Spark的核心模块,主要就是对计算引擎本身的抽象和实现 2. Spark Streaming:以流就是无限个小批次,实现这样来定义的流式计算。 Spark MLlib:利用Spark自身作为计算引擎,提供的机器学习库 4. 这种内部优化是基于Spark数据混洗操作的输出均被写入磁盘的特性。 架构 Spark三种提交模式: (1) Spark Core架构其实就是standalone模式。 Spark Cluster Spark on Yarn Spark on Yarn-Client mode Spark on Yarn-Cluster mode 流程 基本流程 Spark一般流程

    1.4K20编辑于 2022-03-31
  • 来自专栏章鱼carl的专栏

    SparkSpark之how

    函数(function) Java中,函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。 Spark开发者们已经在Spark 中加入了一个日志设置文件的模版,叫作log4j.properties.template。 ,默认在conf/spark-defaults.conf文件中,也可以通过spark-submit的- -properties自定义该文件的路径 (4) 最后是系统默认 其中,spark-submit的一般格式 当Spark调度并运行任务时,Spark会为每个分区中的数据创建出一个任务。该任务在默认情况下会需要集群中的一个计算核心来执行。 Spark也会使用第三方序列化库:Kryo。需要设置spark.serializer为org.apache.spark.serializer.KryoSerializer。

    1.6K20编辑于 2022-03-31
  • 来自专栏小鹏的专栏

    spark杂记:Spark Basics

    Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark- 下面来看几个问题,下面将关注几个问题进行阐述: Mac下安装pyspark spark 安装目录和Java安装目录 os.environ['SPARK_HOME'] = "/Users/liupeng/spark/spark-2.4.0-bin-hadoop2.7/" sys.path.append ("/Users/liupeng/spark/spark-2.4.0-bin-hadoop2.7/bin") sys.path.append("/Users/liupeng/spark/spark-2.4.0 /liupeng/spark/spark-2.4.0-bin-hadoop2.7/python/lib/pyspark.zip") sys.path.append("/Users/liupeng/spark 相关基础知识 相关spark基础知识如下: Spark Context: We start by creating a SparkContext object named sc.

    1.2K20发布于 2019-05-26
  • 来自专栏全栈程序员必看

    SparkSpark基础教程

    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点 Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比 Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍; 容易使用:Spark支持使用Scala、Java、Python和R语言进行编程,简洁的API设计有助于用户轻松构建并行程序,并且可以通过 Spark Shell进行交互式编程; 通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以无缝整合在同一个应用中,足以应对复杂的计算; 运行模式多样 :Spark可运行于独立的集群模式中,或者运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

    93010编辑于 2022-08-19
  • 来自专栏后端技术

    spark

    搭建spark集群 https://www.cnblogs.com/freeweb/p/5773619.html idea 创建maven项目 配置scala环境: https://www.cnblogs.com 9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark 与scala对应版本关系: https://mvnrepository.com/artifact/org.apache.spark/spark-core 此处有2.12和2.11标签,如果是spark2.4 hadoop01会被映射到192.168.xx.xx(本地的私有ip) val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp") 版本问题 scala与spark 版本要对应,maven导入的sdk也要版本对应 运行方式 在本地测试则master设为本地运行 在集群测试则master设为集群运行 参考资源 《Spark快速大数据分析》 《Spark和核心技术与高级应用

    81730发布于 2019-05-25
  • 来自专栏全栈程序员必看

    Spark pool_spark docker

    org.apache.spark.scheduler.SchedulingAlgorithm。 调度池则用于调度每个sparkContext运行时并存的多个互相独立无依赖关系的任务集。

    69420编辑于 2022-09-20
  • 来自专栏后端精进之路

    Spark系列 - (5) Spark Shuffle

    参与决定分区数的参数defaultMinPartitions也是由该参数确定的, defaultMinPartitions=min(spark.default.parallelism, 2) 由于spark 扩展:Tungsten-Sort Based Shuffle / Unsafe Shuffle 从 Spark 1.5.0 开始,Spark 开始了钨丝计划(Tungsten),目的是优化内存和CPU的使用 ,进一步提升spark的性能。 从Spark-2.0.0开始,Spark 把 Hash Shuffle 移除,可以说目前 Spark-2.0 中只有一种 Shuffle,即为 Sort Shuffle。 如果spark.shuffle.spill = false就只用内存。

    1.1K11编辑于 2023-10-19
  • 来自专栏小鹏的专栏

    spark学习笔记:spark sql

    本文链接:https://blog.csdn.net/u014365862/article/details/100982613 spark-env.sh环境配置:(添加hive支持) export JAVA_HOME =$SPARK_CLASSPATH:/***/emr-apache-hive-2.3.2-bin/lib/mysql-connector-java-5.1.38.jar scala代码: import org.apache.spark.sql.SQLContext import org.apache.spark. {SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.hive.HiveContext hiveContext = new HiveContext(sparkContext) val sqlContext = new SQLContext(sparkContext) val spark

    1.1K10发布于 2019-09-19
  • 来自专栏后端精进之路

    Spark系列 - (3) Spark SQL

    Shark:2011年Shark诞生,即Hive on Spark。 2014年7月,spark团队将Shark转给Hive进行管理,Hive on Spark是一个Hive的也就是说,Hive将不再受限于一个引擎,可以采用Map-Reduce、Tez、Spark等引擎; Spark SQL作为Spark生态的一员诞生,不再受限于Hive,只是兼容Hive。 3.3 Spark SQL优化 Catalyst是spark sql的核心,是一套针对spark sql 语句执行过程中的查询优化框架。 因此要理解spark sql的执行流程,理解Catalyst的工作流程是理解spark sql的关键。而说到Catalyst,就必须提到下面这张图了,这张图描述了spark sql执行的全流程。

    3.2K10编辑于 2023-10-19
  • 来自专栏迁移内容

    Spark初识-什么是Spark

    Spark streaming)、机器学习(MLlib)、SQL分析(Spark SQL)和图计算(GraphX)。 这一站式的计算框架,包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX , 2014年2月,Spark 成为 Apache 的顶级项目 2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录 Spark 成功构建起了一体化、多元化的大数据处理体系 三、Spark的优点 Spark之所以这么受关注,主要是因为其有与其他大数据平台不同的特点,主要如下。 ),这是个惊人的增长 *、本文参考 Spark官网 深入浅出,一文让你了解什么是Spark Spark入门——什么是Hadoop,为什么是Spark?

    2.9K10编辑于 2022-12-01
  • 来自专栏LhWorld哥陪你聊算法

    Spark篇】---Spark中控制算子

    一、前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。 a.mapnode:hover {text-decoration: none; color: black; background: #eeeee0; } -->            2.1.Spark job执行完之后,spark会从finalRDD从后往前回溯。 2.3.回溯完成之后,Spark会重新计算标记RDD的结果,然后将结果保存到Checkpint目录中。   

    99530发布于 2018-09-13
  • 来自专栏迁移内容

    Spark入门-了解Spark核心概念

    在本文中我们将从Spark集群角度和程序应用的角度来对相关概念进行了解 一. 站在集群角度 1.1 Master Spark 特有资源调度系统的 Leader。 1.2 Worker Spark 特有资源调度系统的 Slave,有多个。 驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中. 驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。 使用Scala初始化SparkContext import org.apache.spark.SparkConf import org.apache.spark.SparkContext import 然后, Spark 会发送应用程序代码(比如:jar包)到每个执行器.

    57410编辑于 2022-12-01
  • 来自专栏机器学习/数据可视化

    Spark笔记13-Spark Streaming

    Spark streaming 数据分类:静态数据和动态数据。静态数据的常见应用是数据仓库。

    58610发布于 2021-03-02
  • 来自专栏技术圈

    Spark系列(一) 认识Spark

    怀念看论文的日子~/ 打算写一个Spark系列,主要以Scala代码实现,请赐予我力量吧!!! Spark的特点 运行速度:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。 spark生态圈:即BDAS(伯克利数据分析栈)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件,这些组件分别处理Spark Core提供内存计算框架 Spark的应用场景 基于Spark自身存在的一些特点和优势,Spark的应用场景如下: Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。 执行器节点 Spark 执行器节点是一种工作进程,负责在 Spark 作业中运行任务,任务间相互独立。 Spark 应用启动时,执行器节点就被同时启动,并且始终伴随着整个 Spark 应用的生命周期而存在。如果有执行器节点发生了异常或崩溃,Spark 应用也可以继续执行。

    1.2K20发布于 2019-08-22
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    Spark源码分析之Spark-submit和Spark-class

    前面总结的Spark-shell的分析可以参考: Spark源码分析之Spark Shell(上) Spark源码分析之Spark Shell(下) Spark-submit if [ -z "${SPARK_HOME in Python 3.3+ export PYTHONHASHSEED=0 exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@" 跟Spark-shell一样,先检查是否设置了${SPARK_HOME},然后启动spark-class,并传递了org.apache.spark.deploy.SparkSubmit作为第一个参数 ,然后把前面Spark-shell的参数都传给spark-class Spark-class if [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$ "${SPARK_HOME}"/bin/load-spark-env.sh 在spark-env中设置了assembly相关的信息。

    1.3K50发布于 2018-01-17
  • 来自专栏最新最全的大数据技术体系

    Spark Streaming】Spark Day10:Spark Streaming 学习笔记

    -Straming 概述之SparkStreaming计算思想 ​ Spark Streaming是Spark生态系统当中一个重要的框架,它建立在Spark Core之上,下图也可以看出Sparking 依据业务需求,调用DStream中转换函数(类似RDD中转换函数) /* spark hive hive spark spark hadoop */ val resultDStream , 1) (spark, 1) -> (spark, [1, 1]) (hive, [1]) -> (spark, 2) (hive, 1) (hive, 1) import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel org.apache.spark spark-sql_${scala.binary.version} ${spark.version

    1.6K20编辑于 2021-12-06
  • 来自专栏最新最全的大数据技术体系

    Spark Streaming】Spark Day11:Spark Streaming 学习笔记

    Spark Day11:Spark Streaming 01-[了解]-昨日课程内容回顾 主要讲解:Spark Streaming 模块快速入门 1、Streaming 流式计算概述 - Streaming {DStream, InputDStream} import org.apache.spark.streaming.kafka010._ import org.apache.spark.streaming org.apache.spark.streaming. org.apache.spark spark-sql_${scala.binary.version} ${spark.version } ${spark.version} org.apache.spark spark-streaming-kafka

    1.6K10编辑于 2021-12-06
领券