抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >


Spark 环境部署(Ubuntu20.04)

Spark  在 Ubuntu20.04 中的配置

实验环境

实验环境

Ubuntu20.04 LTS

Ubuntu20.04 LTS

Hadoop 2.6.0-cdh5.14.0

Hadoop 2.6.0-cdh5.14.0

Java 1.8.0_141

Java 1.8.0_141

Python3.8.2(default)

Python3.8.2(default)

Spark 3.0.0-preview2

Spark 3.0.0-preview2

配置 java 环境

解压安装 jdk

tar -zxvf jdk-8u141-linux-x64.tar.gz -C ../servers/

配置环境变量

nano /etc/profile
/etc/profile
export JAVA_HOME=/export/servers/jdk1.8.0_141
export PATH=:$JAVA_HOME/bin:$PATH

修改完成之后记得  
reboot -h nowsource
/etc/profile 生效

验证

jps

配置 Hadoop 环境

下载解压

Hadoop 2 可以通过  https://mirrors.cnnic.cn/apache/hadoop/common/  下载

将 Hadoop 安装至 /usr/local/ 中:

sudo tar -zxf hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop # 修改文件权限

Hadoop 伪分布式配置

伪分布式需要修改 2 个配置文件  core-site.xml  和  hdfs-site.xml

core-site.xml

core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

hdfs-site.xml

hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

配置 JAVA_HOME

到 hadoop 的安装目录修改配置文件 “/usr/local/hadoop/etc/hadoop/hadoop-env.sh”,在里面找到 “export JAVA_HOME=${JAVA_HOME}” 这行,然后,把它修改成 JAVA 安装路径的具体地址

NameNode 格式化

cd /usr/local/hadoop
./bin/hdfs namenode -format

开启 NameNode 和 DataNode 守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh

安装 Spark

打开浏览器,访问 Spark 官方下载地址

安装 Spark

由于我们已经自己安装了 Hadoop,所以,在 Choose a package type 后面需要选择 Pre-build with user-provided Hadoop
将 spark 解压到 /usr/local,并重命名为 spark
修改 Spark 的配置文件 spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑 spark-env.sh 文件,在第一行添加以下配置信息:

spark-env.sh
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

修改环境变量

/etc/profile
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

运行 Spark 自带的示例,验证 Spark 是否安装成功

使用 Spark 计算 PI3.1415926....

cd /usr/local/spark
bin/run-example SparkPi

Spark 计算 PI
grep 命令进行过滤

bin/run-example SparkPi 2>&1 | grep "Pi is"

Spark 计算 PI

推荐阅读
Apache Hadoop三种架构介绍(StandAlone) Apache Hadoop三种架构介绍(StandAlone) CDH 伪分布式环境搭建 CDH 伪分布式环境搭建 apache hadoop三种架构介绍(高可用分布式环境介绍以及安装) apache hadoop三种架构介绍(高可用分布式环境介绍以及安装) CentOS7安装Python3 CentOS7安装Python3 Apache Hadoop三种架构介绍(伪分布介绍以及安装) Apache Hadoop三种架构介绍(伪分布介绍以及安装) Spark RDD 编程 Spark RDD 编程

留言区

Are You A Robot?