pyspark:local模式环境-搭建和使用

前言

  1. spark不一定非要跑在hadoop集群上,可以在本地,起多个线程的方式来执行spark任务。
  2. Spark的应用程序以多线程的方式直接运行在本地,一般都是为了方便调试。
  3. 本地模式分三类:
  4. local:只启动一个executor
  5. local[k]:启动kexecutor
  6. local[*]:启动跟cpu数目相同的 executor

1/下载

  1. 官方下载地址:spark.apache.org/downloads.h ,选择Spark版本和对应的Hadoop版本后再下载:

2/解压安装包:

  1. # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz

3/配置环境变量

  1. vim /etc/profile
  2. export SPARK_HOME=/home/hadoop/spark-2.2.3-bin-hadoop2.6
  3. export PATH=$PATH:${SPARK_HOME}/bin
  4. source /etc/profile

4/spark

  1. local模式是最简单的一种运行方式,
  2. 它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。
  3. <1>ala语言开发程序,则在spark安装目录的bin目录下启动spark-shell
  4. spark-shell --master local[2]
  5. local:只启动一个工作线程;
  6. local[k]:启动k个工作线程;
  7. local[*]:启动跟cpu数目相同的工作线程数。
  8. 这是成功启动spark之后的界面,我们可以看到spark的版本。
  9. scala是一门编程语言,spark默认的编程语言,当然我们要在python中启动spark也是可以的.

  1. <2你是使用python开发程序,则到安装目录bin目录下,
  2. ./pyspark
  3. 这样就启动了

image.png


文章标签:

原文连接:https://juejin.cn/post/7031069058443247647

相关推荐