安装Hadoop伪分布式及spark Local模式

目录

  • 一、前期准备工作
  • 二、 安装Hadoop伪分布式
  • 三、安装Spark Local模式

    一、前期准备工作

    1. 添加一个hadoop用户(可以跳过,但是后面使用的用户就需要根据你自己的用户修改了)
    • 在终端输入下面命令,创建hadoop用户,并指定shell为/bin/bash

      sudo useradd -m hadoop -s /bin/bash
      
    • 通过下面命令设置hadoop用户密码,按照提示输入两次密码。在这里我也将hadoop用户密码设置为hadoop,虽然会提示密码不能少于8位,但是不用管这个提示,我们也将密码设置为hadoop就可以了。

      sudo passwd hadoop
      
    • 为hadoop用户添加使用sudo权限的权限(不然hadoop用户不能使用sudo)

      sudo adduser hadoop sudo
      
      1. 配置JAVA环境
      • 准备jdk包(注意命名,后面配置的环境变量可能会有影响),也可以从我给的链接下
        通过百度网盘分享的文件:jdk-8u37…
        链接:https://pan.baidu.com/s/1F4QG_-I_e2ETUjlcFc9aZQ?pwd=z9t2 
        提取码:z9t2
        复制这段内容打开「百度网盘APP 即可获取」
        
      • 上传jdk-linux的包到虚拟机,并使用tar -zxvf -C /usr/lib/jvm将其解压到/usr/lib/jvm目录(需要自己创建jvm目录)

      • 要是不放心可以cd /usr/lib/jvm看一下是否多了一个jdk文件夹
      • 修改环境变量vim ~/.bashrc

        # 添加下面内容
        export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_371
        export JRE_HOME=${JAVA_HOME}/jre
        export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
        export PATH=${JAVA_HOME}/bin:$PATH
        
      • 保存退出.bashrc,使用source ~/.bashrc让我们刚刚的配置生效。使用java -version查看是否配置java成功

        二、 安装Hadoop伪分布式

        Hadoop下载地址:https://dlcdn.apache.org/hadoop/common/,我下的是hadoop-3.3.6.tar.gz 696M的那个

        1. 使用tar命令解压Hadoop包到/usr/local目录

        2. 使用chown修改Hadoop权限,查看相关版本信息

        3. 修改配置文件 /usr/local/hadoop(这个hadoop是我们解压后重命名的文件夹名)/etc/hadoop/目录下
        • core-site.xml
            hadoop.tmp.dir file:/usr/local/hadoop/tmp Abase for other temporary directories.   fs.defaultFS hdfs://localhost:9000 
        • hdfs-site.xml
            dfs.replication 1   dfs.namenode.name.dir file:/usr/local/hadoop/tmp/dfs/name   dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data 
          1. 格式化NameNode名称节点

            cd /usr/local/hadoop
            ./bin/hdfs namenode -format
            
          2. 启动Hadoop,开启守护进程,通过JPS查看进程数目应该是4个

            cd /usr/local/hadoop
            ./sbin/start-dfs.sh
            
          3. 浏览器查看localhost:9870(或者ip:9870)

          三、安装Spark Local模式

          下载地址:https://archive.apache.org/dist/spark/,我这里下的是spark-3.4.2-bin-without-hadoop.tgz

          1. 使用tar命令解压spark包到/usr/local目录

          2. 修改解压后的文件夹为spark,并修改内容所有者和所属组为hadoop

          3. 修改./conf/spark-env.sh配置文件(需要使用cp复制模板文件再进行修改)

            cd /usr/local/spark
            cp ./conf/spark-env.sh.template ./conf/spark-env.sh
            
            export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
            
          4. 看spark是否安装成功

            cd /usr/local/spark
            bin/run-example SparkPi 2>&1 | grep "Pi is"
            

            虽然结果可能不一定是3.14……