hive 简简单单易如反掌

Hadoop平台安装

1. 实验一：Linux操作系统环境设置

实验环境本实验所需之主要资源环境：资源环境服务器集群单节点，机器最低配置：双核 CPU、8GB 内存、100G 硬盘运行环境 CentOS 7.4 服务和组件服务和组件根据实验需求安装

实验过程

实验任务一：配置 Linux 系统基础环境

步骤一：查看服务器的 IP 地址查看服务器的 IP 地址

[root@localhost ~]# ip add show

步骤二：设置服务器的主机名称

[root@localhost ~]# hostnamectl set-hostname master

[root@localhost ~]# bash

[root@master ~]# hostname master

步骤三：绑定主机名与 IP 地址

[root@master ~]# vi /etc/hosts

步骤四：查看 SSH 服务状态。

[root@master ~]# systemctl status sshd

步骤五：关闭防火墙 Hadoop

可以使用 Web 页面进行管理，但需要关闭防火墙，否则打不开 Web 页面。同时不关闭防火墙也会造成 Hadoop 后台运行脚本出现莫名其妙的错误。 [root@master ~]# systemctl stop firewalld

[root@master ~]# systemctl status firewalld

[root@master ~]# systemctl disable firewalld

步骤六：创建 hadoop 用户

[root@master ~]# useradd hadoop

实验任务二：安装 JAVA 环境 .

步骤一：下载 JDK 安装包 JDK 安装包需要在 Oracle 官网下载

步骤二：卸载自带 OpenJDK

[root@master ~]# rpm -qa | grep java

[root@master ~]# rpm -e --nodeps javapackages-tools-3.4.1-11.el7.noarch

[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-1.8.0.352.b08- 2.el7_9.x86_64

[root@master ~]# rpm -qa | grep java 查看删除结果再次键入命令

java -version 出现以下结果表示删除功

[root@master ~]# java --version bash: java: 未找到命令

步骤三：安装 JDK Hadoop 2.7.1

安装命令如下，将安装包解压到/usr/local/src 目录下，注意/opt/software目录下的软件包事先准备好。

[root@master ~]# tar -zxvf /opt/software/jdk-8u152-linux-x64.tar.gz -C /usr/local/src/

[root@master ~]# ls /usr/local/src/ jdk1.8.0_152

步骤四：设置 JAVA 环境变量

[root@master ~]# vi /etc/profile

在文件的最后增加如下两行： export JAVA_HOME=/usr/local/src/jdk1.8.0_152 export PATH=$PATH:$JAVA_HOME/bin

执行 source 使设置生效：

[root@master ~]# source /etc/profile

检查 JAVA 是否可用。

[root@master ~]# echo $JAVA_HOME /usr/local/src/jdk1.8.0_152

[root@master ~]# java -version

够正常显示 Java 版本则说明 JDK 安装并配置成功。

安装 Hadoop 软件

步骤一：安装 Hadoop 软件安装命令如下，将安装包解压到/usr/local/src/目录下

[root@master ~]# tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src/

[root@master ~]# ll /usr/local/src/

查看 Hadoop 目录,得知 Hadoop 目录内容如下:

[root@master ~]# ll /usr/local/src/hadoop-2.7.1/

share 解析： bin：此目录中存放 Hadoop、HDFS、YARN 和 MapReduce 运行程序和管理软件。 23 etc：存放 Hadoop 配置文件。 include: 类似 C 语言的头文件 lib：本地库文件，支持对数据进行压缩和解压。 libexe：同 lib sbin：Hadoop 集群启动、停止命令 share：说明文档、案例和依赖 jar 包。 .

步骤二：配置 Hadoop 环境变量和设置 JAVA 环境变量类似，修改/etc/profile 文件。

[root@master ~]# vi /etc/profile 在文件的最后增加如下两行： export HADOOP_HOME=/usr/local/src/hadoop-2.7.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 执行 source 使用设置生效： [root@master ~]# source /etc/profile

检查设置是否生效： [root@master~]# hadoop

[root@master ~]# 出现上述 Hadoop 帮助信息就说明 Hadoop 已经安装好了。

步骤三：修改目录所有者和所有者组上述安装完成的 Hadoop 软件只能让 root 用户使用，要让 hadoop 用户能够运行 Hadoop 软件，需要将目录/usr/local/src 的所有者改为 hadoop 用户。

[root@master ~]# chown -R hadoop:hadoop /usr/local/src/

[root@master ~]# ll /usr/local/src/

实验三安装单机版 Hadoop

实验任务一：配置 Hadoop 配置文件

[root@master ~]# cd /usr/local/src/hadoop-2.7.1/

[root@master hadoop-2.7.1]# ls

[root@master hadoop-2.7.1]# vi etc/hadoop/hadoop-env.sh

在文件中查找 export JAVA_HOME 这行，将其改为如下所示内容: export JAVA_HOME=/usr/local/src/jdk1.8.0_152 这样就设置好 Hadoop 的本地模式

实验任务二：测试 Hadoop 本地模式的运行 3.4.2.

步骤一: 切换到 hadoop 用户使用 hadoop 这个用户来运行 Hadoop 软件。

[root@master hadoop-2.7.1]# su - hadoop

步骤二: 创建输入数据存放目录将输入数据存放在~/input 目录（hadoop 用户主目录下的 input 目录中）。

[hadoop@master ~]$ mkdir ~/input

[hadoop@master ~]$ ls Input 3.4.2.3. 步骤三: 创建数据输入文件创建数据文件 data.txt，将要测试的数据内容输入到 data.txt 文件中。

[hadoop@master ~]$ vi input/data.txt 输入如下内容，保存退出。

Hello World Hello Hadoop Hello Husan

Hadoop平台环境配置

实验环境下集群网络配置修改 slave1 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave1

[root@localhost ~]# bash

[root@slave1 ~]# 修改 slave2 机器主机名

[root@localhost ~]# hostnamectl set-hostname slave2

[root@localhost ~]# bash

分别修改主机配置文件“/etc/hosts”，在命令终端输入如下命令：

实验二 SSH 无密码验证配置生成 SSH 密钥

步骤一：每个节点安装和启动 SSH 协议实现 SSH 登录需要 openssh 和 rsync 两个服务，一般情况下默认已经安装（如没有自行安装），可以通过下面命令查看结果。

[root@master ~]# rpm -qa | grep openssh

[root@master ~]# rpm -qa | grep rsync

步骤二：切换到 hadoop 用户

步骤三：每个节点生成秘钥对

#在 master 上生成密钥

[hadoop@master ~]$ ssh-keygen -t rsa

#slave1 生成密钥

[hadoop@slave1 ~]$ ssh-keygen -t rsa

#slave2 生成密钥

[hadoop@slave2 ~]$ ssh-keygen -t rsa

步骤四：查看"/home/hadoop/"下是否有".ssh"文件夹，且".ssh"文件下是否有两个刚生产的无密码密钥对。

[hadoop@master ~]$ ls ~/.ssh/

步骤五：将 id_rsa.pub 追加到授权 key 文件中

#master

[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@master ~]$ ls ~/.ssh/

#slave1 [hadoop@slave1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ ls ~/.ssh/ authorized_keys id_rsa id_rsa.pub

#slave2 [hadoop@slave2 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ ls ~/.ssh/ authorized_keys id_rsa id_rsa.pub

步骤六：修改文件"authorized_keys"权限通过 ll 命令查看，可以看到修改后 authorized_keys 文件的权限为“rw-------”，表示所有者可读写，其他用户没有访问权限。如果该文件权限太大，ssh 服务会拒绝工作，出现无法通过密钥文件进行登录认证的情况。

#master [hadoop@master ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@master ~]$ ll ~/.ssh/

#slave1

[hadoop@slave1 ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ ll ~/.ssh/

#slave2

[hadoop@slave2 ~]$ chmod 600 ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ ll ~/.ssh/

步骤七：配置 SSH 服务 32 使用 root 用户登录，修改 SSH 配置文件"/etc/ssh/sshd_config"的下列内容，需要将该配置字段前面的#号删除，启用公钥私钥配对认证方式。

#master [hadoop@master ~]$ su - root

[root@master ~]# vi /etc/ssh/sshd_config PubkeyAuthentication yes #找到此行，并把#号注释删除。

#slave1 [hadoop@ slave1 ~]$ su - root

[root@ slave1 ~]# vi /etc/ssh/sshd_config PubkeyAuthentication yes #找到此行，并把#号注释删除。

#slave2 [hadoop@ slave2 ~]$ su - root

[root@ slave2 ~]# vi /etc/ssh/sshd_config PubkeyAuthentication yes #找到此行，并把#号注释删除。

步骤八：重启 SSH 服务设置完后需要重启 SSH 服务，才能使配置生效。

[root@master ~]# systemctl restart sshd

步骤九：切换到 hadoop 用户

[root@master ~]# su - hadoop

[hadoop@master ~]$

步骤十：验证 SSH 登录本机在 hadoop 用户下验证能否嵌套登录本机，若可以不输入密码登录，则本机通过密钥登录认证成功。

[hadoop@master ~]$ ssh localhost

[hadoop@master ~]$ 首次登录时会提示系统无法确认 host 主机的真实性，只知道它的公钥指纹，询问用户是否还想继续连接。需要输入“yes”，表示继续登录。第二次再登录同一个主机，则不会再出现该提示，可以直接进行登录。读者需要关注是否在登录过程中是否需要输入密码，不需要输入密码才表示通过密钥认证成功。

交换 SSH 密钥

步骤一：将 Master 节点的公钥 id_rsa.pub 复制到每个 Slave 点 hadoop 用户登录，通过 scp 命令实现密钥拷贝。

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave1:~/

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub hadoop@slave2:~/

首次远程连接时系统会询问用户是否要继续连接。需要输入“yes”，表示继续。因为目前尚未完成密钥认证的配置，所以使用 scp 命令拷贝文件需要输入slave1 节点 hadoop 用户的密码。

步骤二：在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件 hadoop 用户登录 slave1 和 slave2 节点，执行命令。

[hadoop@slave1 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

步骤三：在每个 Slave 节点删除 id_rsa.pub 文件

[hadoop@slave1 ~]$ rm -rf ~/id_rsa.pub

[hadoop@slave2 ~]$ rm -rf ~/id_rsa.pub

步骤四：将每个 Slave 节点的公钥保存到 Master

（1）将 Slave1 节点的公钥复制到 Master

[hadoop@slave1 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

[hadoop@slave1 ~]$

（2）在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

（3）在 Master 节点删除 id_rsa.pub 文件 [hadoop@master ~]$ rm -rf ~/id_rsa.pub

（4）将 Slave2 节点的公钥复制到 Master

[hadoop@slave2 ~]$ scp ~/.ssh/id_rsa.pub hadoop@master:~/

[hadoop@slave2 ~]$

（5）在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件

[hadoop@master ~]$ cat ~/id_rsa.pub >>~/.ssh/authorized_keys

（6）在 Master 节点删除 id_rsa.pub 文件

[hadoop@master ~]$ rm -rf ~/id_rsa.pub

验证 SSH 无密码登录

步骤一：查看 Master 节点 authorized_keys 文件

[hadoop@master ~]$ cat ~/.ssh/authorized_keys

[hadoop@slave1 ~]$ cat ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/.ssh/authorized_keys

步骤二：验证 Master 到每个 Slave 节点无密码登录 hadoop 用户登录 master 节点，执行 SSH 命令登录 slave1 和 slave2 节点。可以观察到不需要输入密码即可实现 SSH 登录。

[hadoop@master ~]$ ssh slave1

[hadoop@slave1 ~]$

[hadoop@master ~]$ ssh slave2

[hadoop@slave2 ~]$

步骤三：验证两个 Slave 节点到 Master 节点无密码登录

[hadoop@slave1 ~]$ ssh master

[hadoop@master ~]$

[hadoop@slave2 ~]$ ssh master

[hadoop@master ~]$

步骤四：配置两个子节点slave1、slave2的JDK环境。

[root@master ~]# cd /usr/local/src/

[root@master src]# ls hadoop-2.7.1 jdk1.8.0_152

[root@master src]# scp -r jdk1.8.0_152 root@slave1:/usr/local/src/

[root@master src]# scp -r jdk1.8.0_152 root@slave2:/usr/local/src/

#slave1 [root@slave1 ~]# ls /usr/local/src/ jdk1.8.0_152

#slave2 [root@slave2 ~]# ls /usr/local/src/ jdk1.8.0_152

[root@slave1 ~]# vi /etc/profile

#此文件最后添加下面两行 export JAVA_HOME=/usr/local/src/jdk1.8.0_152 37 export PATH=$PATH:$JAVA_HOME/bin

[root@slave2 ~]# vi /etc/profile

#此文件最后添加下面两行 export JAVA_HOME=/usr/local/src/jdk1.8.0_152 export PATH=$PATH:$JAVA_HOME/bin

[root@slave1 ~]# source /etc/profile

[root@slave1 ~]# java -version

[root@slave2 ~]# source /etc/profile

[root@slave2 ~]# java -version

二、Hadoop集群运行

1、Hadoop文件参数配置

实验一：hadoop 全分布配置

实验任务一：在 Master 节点上安装 Hadoop

1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop

[root@master ~]# cd /usr/local/src/

[root@master src]# mv hadoop-2.7.1 hadoop

[root@master src]# ls

配置 Hadoop 环境变量

[root@master src]# vim /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

3.使配置的 Hadoop 的环境变量生效

[root@master src]# su - hadoop

[hadoop@master ~]$ source /etc/profile

[hadoop@master ~]$ exit 登出

4. 执行以下命令修改 hadoop-env.sh 配置文件

[root@master src]# cd /usr/local/src/hadoop/etc/hadoop/

[root@master hadoop]# vim hadoop-env.sh

#修改以下配置

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

任务二：配置 hdfs-site.xml 文件参数

[root@master hadoop]# vim hdfs-site.xml

  dfs.namenode.name.dir file:/usr/local/src/hadoop/dfs/name   dfs.datanode.data.dir file:/usr/local/src/hadoop/dfs/data   dfs.replication 3

[root@master hadoop]# tail -n 14 hdfs-site.xml

配置文件主要参数序号参数名默认值参数解释

1 dfs.namenode.secondary .httpaddress 0.0.0.0:50090 定义 HDFS 对应的 HTTP 服务器地址和端口

2 dfs.namenode.name.dir file://${hadoop.tmp.dir} /dfs/name 定义 DFS 的名称节点在本地文件系统的位置

3 dfs.datanode.data.dir file://${hadoop.tmp.dir} /dfs/data 定义 DFS 数据节点存储数据块时存储在本地文件系统的位置

4 dfs.replication 3 缺省的块复制数量

5 dfs.webhdfs.enabled true 是否通过 http 协议读取 hdfs 文件，如果选是，则集群安全性较差

任务三:配置 core-site.xml 文件参数

[root@master hadoop]# vim core-site.xml

#编辑以下内容

 fs.defaultFS hdfs://192.168.130.101:9000   io.file.buffer.size 131072   hadoop.tmp.dir file:/usr/local/src/hadoop/tmp

[root@master hadoop]# tail -n 14 core-site.xml

任务四:配置 mapred-site.xml

[root@master hadoop]# pwd

/usr/local/src/hadoop/etc/hadoop

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]# vim mapred-site.xml

#添加以下配置

 mapreduce.framework.name yarn   mapreduce.jobhistory.address master:10020  mapreduce.jobhistory.webapp.address master:19888

[root@master hadoop]# tail -n 14 mapred-site.xml

mapred-site.xml 配置文件主要参数序号参数名默认值参数解释

1 mapreduce.framework.name local 取值 local、classic 或 yarn 其中之一，如果不是 yarn，则不会使用 YARN 集群来实现资源的分配

2 mapreduce.jobhistory.address 0.0.0.0:10020 定义历史服务器的地址和端口，通过历史服务器查看已经运行完的 Mapreduce 作业记录

3 mapreduce.jobhistory.webapp.addres 0.0.0.0:19888 定义历史服务器 web 应用访问的地址和端口

任务五：配置 yarn-site.xml

[root@master hadoop]# vim yarn-site.xml #添加以下配置

 yarn.resourcemanager.address master:8032   yarn.resourcemanager.scheduler.address master:8030   yarn.resourcemanager.resource-tracker.address master:8031   yarn.resourcemanager.admin.address master:8033   yarn.resourcemanager.webapp.address master:8088   yarn.nodemanager.aux-services mapreduce_shuffle   yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

[root@master hadoop]# tail -n 32 yarn-site.xml

参数解释

1 yarn.resourcemanager.addre ss 0.0.0.0:8032 ResourceManager 提供给客户端访问的地址。客户端通过该地址向 RM 提交应用程序，杀死应用程序等

2 yarn.resourcemanager.sched uler.address 0.0.0.0:8030 定义历史服务器的地址和端口，通过历史服务器查看已经运行完的 Mapreduce 作业记录

3 yarn.resourcemanager.resou rcetracker.address 0.0.0.0:8031 ResourceManager 提供给 NodeManager 的地址。 NodeManager 通过该地址向 RM 汇报心跳，领取任务等

4 yarn.resourcemanager.admin .address 0.0.0.0:8033 ResourceManager 提供给管理员的访问地址。管理员通过该地址向 RM 发送管理命令等

5 yarn.resourcemanager.webap p.address 0.0.0.0:8088 ResourceManager 对 web 服务提供地址。用户可通过该地址在浏览器中查看集群各类信息

6 yarn.nodemanager.auxservices org.apache.hadoop. mapred.ShuffleHand ler 通过该配置项，用户可以自定义一些服务，例如 Map-Reduce 的 shuffle 功能就是采用这种方式实现的，这样就可以在 NodeManager 上扩展自己的服务。

任务六:Hadoop 其他相关配置

1. 配置 masters 文件

[root@master hadoop]# vim masters

[root@master hadoop]# cat masters

2. 配置 slaves 文件

[root@master hadoop]# vim slaves

[root@master hadoop]# cat slaves

新建目录

[root@master hadoop]# mkdir /usr/local/src/hadoop/tmp

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/name -p

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/data -p

4. 修改目录权限

[root@master hadoop]# chown -R hadoop:hadoop /usr/local/src/hadoop/

5. 同步配置文件到 Slave 节点

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave1:/usr/local/src/

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave2:/usr/local/src/

[root@slave1 ~]# chown -R hadoop:hadoop /usr/local/src/hadoop/

[root@slave1 ~]# su - hadoop

[root@slave1~]# vim /etc/profile

[hadoop@slave1 ~]$ source /etc/profile

#slave2 配置

[root@slave2 ~]# yum install -y vim

[root@slave2 ~]# vim /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/usr/local/src/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

[root@slave2 ~]# chown -R hadoop:hadoop /usr/local/src/hadoop/

[root@slave2 ~]# su - hadoop

[hadoop@slave2 ~]$ source /etc/profile

2、大数据平台集群运行

1. 实验一：hadoop 集群运行

步骤一：NameNode 格式化将 NameNode 上的数据清零，第一次启动 HDFS 时要进行格式化，以后启动无需再格式化，否则会缺失 DataNode 进程。另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。执行如下命令，格式化 NameNode

[root@master ~]# su – hadoop

[hadoop@master ~]# cd /usr/local/src/hadoop/

[hadoop@master hadoop]$ bin/hdfs namenode –format

步骤二：启动 NameNode 执行如下命令，启动 NameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start namenode

实验任务二：查看 Java 进程启动完成后，可以使用 JPS 命令查看是否成功。JPS 命令是 Java 提供的一个显示当前所有 Java 进程 pid 的命令。

[hadoop@master hadoop]$ jps

3557 NameNode 3624 Jps

步骤一：slave节点启动 DataNode 执行如下命令，启动 DataNode：

[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode

[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode

[hadoop@slave1 hadoop]$ jps

3557 DataNode 3725 Jps

[hadoop@slave2 hadoop]$ jps

3557 DataNode 3725 Jps

步骤二：启动 SecondaryNameNode 执行如下命令，启动 SecondaryNameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode

[hadoop@master hadoop]$ jps

Jps 查看到有 NameNode 和 SecondaryNameNode 两个进程，就表明 HDFS 启动成功。

步骤三：查看 HDFS 数据存放位置：执行如下命令，查看 Hadoop 工作目录：

[hadoop@master hadoop]$ ll dfs

[hadoop@master hadoop]$ ll ./tmp/dfs

可以看出 HDFS 的数据保存在/usr/local/src/hadoop/dfs 目录下，NameNode、 DataNode和/usr/local/src/hadoop/tmp/目录下,SecondaryNameNode 各有一个目录存放数据。

实验任务三：查看 HDFS 的报告

[hadoop@master sbin]$ hdfs dfsadmin -report

实验任务四：使用浏览器查看节点状态

在浏览器的地址栏输入http://master:50070，进入页面可以查看NameNode和DataNode 信息

通过 Web 查看 HDFS 在浏览器的地址栏输入 http://master:50090，进入页面可以查看 SecondaryNameNode信息

这时需要配置 SSH 免密码登录，否则在启动过程中系统将多次要求确认连接和输入 Hadoop 用户密码。

[hadoop@master hadoop]$ stop-dfs.sh

[hadoop@master hadoop]$ start-dfs.sh

运行测试：下面运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。

步骤一：在 HDFS 文件系统中创建数据输入目录确保 dfs 和 yarn 都启动成功

[hadoop@master hadoop]$ start-yarn.sh

[hadoop@master hadoop]$ jps

34257 NameNode 34449 SecondaryNameNode 34494 Jps 32847 ResourceManager 如果是第一次运行 MapReduce 程序，需要先在 HDFS 文件系统中创建数据输入目录，存放输入数据。这里指定/input 目录为输入数据的存放目录。

在 HDFS 文件系统中创建/input 目录：

[hadoop@master hadoop]$ hdfs dfs -mkdir /input

[hadoop@master hadoop]$ hdfs dfs -ls 此处创建的/input 目录是在 HDFS 文件系统中，只能用 HDFS 命令查看和操作。

步骤二：将输入数据文件复制到 HDFS 的/input 目录中测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt，内容如下所示。

[hadoop@master hadoop]$ cat ~/input/data.txt

Hello World

Hello Hadoop

Hello Huasan

执行如下命令，将输入数据文件复制到 HDFS 的/input 目录中：

[hadoop@master hadoop]$ hdfs dfs -put ~/input/data.txt /input

确认文件已复制到 HDFS 的/input 目录：

[hadoop@master hadoop]$ hdfs dfs -ls /input

步骤四：查看 JAVA 进程，确认 HDFS 进程已全部关闭

[hadoop@master hadoop]$ jps

报错解决：没有jps查看没有namenode，或者没有datanode

1.查看防火墙是否关闭 systemctl status firewalld

2.查看配置文件 core.site.xml

3.查看/etc/profile 路径是否正确

4.查看主机域名解析 vi /etc/hosts

删除上面两行的域名解析

5.格式化太多次，第一次启动 HDFS 时要进行格式化，以后启动无需再格式化，否则会缺失DataNode 进程。

先停止 stop-dfs.sh

先删除tmp

rm -rf /usr/locar/src/hadoop/tmp

ls查看是否删完

创建tmp文件夹

mkdir /usr/local/src/hadoop/tmp

重新格式化hadoop

[hadoop@master hadoop]$ bin/hdfs namenode –format

开启start-dfs.sh

6.重新停止开启一次试试

Hive数据仓库组件

Hive 组件安装配置-CSDN博客

三、大数据生态组件 1、Zookeeper组件

下载和安装 ZooKeeper ZooKeeper 最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，安装 ZooKeeper 组件需要与 Hadoop 环境适配。注意，各节点的防火墙需要关闭，否则会出现连接问题。

1.ZooKeeper 的安装包 zookeeper-3.4.8.tar.gz 已放置在 Linux 系统 /opt/software目录下。

2.解压安装包到指定目标，在 Master 节点执行如下命令。

[root@master ~]# tar -zxvf /opt/software/zookeeper3.4.8.tar.gz -C /usr/local/src

[root@master ~]# mv /usr/local/src/zookeeper-3.4.8 /usr/local/src/zookeeper

实验任务二：ZooKeeper 的配置选项

步骤一：Master 节点配置

（1）在 ZooKeeper 的安装目录下创建 data 和 logs 文件夹。

[root@master ~]# cd /usr/local/src/zookeeper

[root@master zookeeper]# mkdir data && mkdir logs

（2）在每个节点写入该节点的标识编号，每个节点编号不同，master 节点写入 1，slave1 节点写入 2，slave2 节点写入 3。

[root@master zookeeper]# echo 1 > /usr/local/src/zookeeper/data/myid

（3）修改配置文件 zoo.cfg

[root@master zookeeper]# cp /usr/local/src/zookeeper/conf/zoo_sample.cfg /usr/local/src/zookeeper/conf/zoo.cfg

[root@master zookeeper]# vi /usr/local/src/zookeeper/conf/zoo.cfg

修改 dataDir 参数内容如下：

dataDir=/usr/local/src/zookeeper/data

（4）在 zoo.cfg 文件末尾追加以下参数配置，表示三个 ZooKeeper 节点的访问端口号。 server.1=master:2888:3888

server.2=slave1:2888:3888

server.3=slave2:2888:3888

（5）修改 ZooKeeper 安装目录的归属用户为 hadoop 用户。

[root@master zookeeper]# chown -R hadoop:hadoop /usr/local/src/zookeeper

步骤二：Slave 节点配置

（1）从 Master 节点复制 ZooKeeper 安装目录到两个 Slave 节点。

[root@master ~] # cd ~

[root@master ~] # scp -r /usr/local/src/zookeeper slave1:/usr/local/src/

[root@master ~] # scp -r /usr/local/src/zookeeper slave2:/usr/local/src/

（2）在 slave1 节点上修改 zookeeper 目录的归属用户为 hadoop 用户。

[root@slave1 ~] # chown -R hadoop:hadoop /usr/local/src/zookeeper

（3）在 slave1 节点上配置该节点的 myid 为 2。

[root@slave1 ~] # echo 2 > /usr/local/src/zookeeper/data/myid

（4）在 slave2 节点上修改 zookeeper 目录的归属用户为 hadoop 用户。

[root@slave2 ~] # chown -R hadoop:hadoop /usr/local/src/zookeeper

（5）在 slave2 节点上配置该节点的 myid 为 3。

[root@slave2 ~] # echo 3 > /usr/local/src/zookeeper/data/myid

步骤三：系统环境变量配置在 master、slave1、slave2 三个节点增加环境变量配置。

# vi /etc/profile

# 在文件末尾追加

# set zookeeper environment # ZooKeeper 安装目录
export ZOOKEEPER_HOME=/usr/local/src/zookeeper # ZooKeeper 可执行程序目录
export PATH=$PATH:$ZOOKEEPER_HOME/bin

启动 ZooKeeper 启动 ZooKeeper 需要使用 Hadoop 用户进行操作。

（1）分别在 master、slave1、slave2 三个节点使用 zkServer.sh start 命令启动ZooKeeper。 [hadoop@master ~]su – hadoop

[hadoop@master ~]source /etc/profile

# ZooKeeper 启动

[hadoop@master ~] zkServer.sh start

[hadoop@slave1 ~] su – hadoop

[hadoop@slave1 ~] source /etc/profile

# ZooKeeper 启动

[hadoop@slave1 ~] zkServer.sh start

[hadoop@slave2 ~] su – hadoop

[hadoop@slave2 ~] source /etc/profile

# ZooKeeper 启动

[hadoop@slave2 ~] zkServer.sh start

（2）三个节点都启动完成后，再统一查看 ZooKeeper 运行状态。

分别在 master、slave1、slave2 三个节点使用 zkServer.sh status 命令查看 ZooKeeper 状态。

可以看到三个节点的状态分别为 follower、leader、 follower。三个节点会包括一个 leader 和两个 follower，每个节点地位均等， leader 是根据 ZooKeeper 内部算法进行选举，每个节点的具体状态不固定。

#master 节点状态

[hadoop@master ~]$ zkServer.sh status

# follower 状态

#slave1 节点状态 [hadoop@s1ave1 ~]$ zkServer.sh status

# leader 状态

#slave2 节点状态 [hadoop@s1ave2 ~]$ zkServer.sh status

2、Hbase数据库组件任务一：

Hbase 安装与配置

1. 解压缩 HBase 安装包

[root@master ~]# tar zxf tools/hbase-1.2.1-bin.tar.gz -C /usr/local/src/

2. 重命名 HBase 安装文件夹

[root@master ~]# cd /usr/local/src/

[root@master src]# mv hbase-1.2.1/ hbase

3. 在所有节点添加环境变量

[root@master src]# vim /etc/profile

[root@master src]# tail -n 2 /etc/profile

export HBASE_HOME=/usr/local/src/hbase

export PATH=$HBASE_HOME/bin:$PATH

[root@slave1 ~]# vim /etc/profile

export HBASE_HOME=/usr/local/src/hbase
export PATH=$HBASE_HOME/bin:$PATH

[root@slave2 ~]# vim /etc/profile

[root@slave2 ~]# tail -n 2 /etc/profile

export HBASE_HOME=/usr/local/src/hbase

export PATH=$HBASE_HOME/bin:$PATH

4. 在所有节点使环境变量生效

[root@master ~]# source /etc/profile

[root@slave1 ~]# source /etc/profile

[root@slave2 ~]# source /etc/profile

5. 在 master 节点进入配置文件目录

[root@master ~]# cd /usr/local/src/hbase/conf/

6. 在 master 节点配置 hbase-env.sh 文件

[root@master conf]# vim hbase-env.sh

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export HBASE_MANAGES_ZK=false

export HBASE_CLASSPATH=/usr/local/src/hadoop/etc/hadoop/

7. 在 master 节点配置 hbase-site.xml 如下

[root@master conf]# vi hbase-site.xml

hbase.rootdirhdfs://master:9000/hbase # 使用 9000 端口
The directory shared by region servers.hbase.master.info.port60010 # 使用 master 节点 60010 端口
hbase.zookeeper.property.clientPort2181 # 使用 master 节点 2181 端口
Property from ZooKeeper's config zoo.cfg. The port at
which the clients will connect.
zookeeper.session.timeout120000 # ZooKeeper 超时时间
hbase.zookeeper.quorummaster,slave1,slave2 # ZooKeeper 管理节点
hbase.tmp.dir/usr/local/src/hbase/tmp # HBase 临时文件路径
63
hbase.cluster.distributedtrue # 使用分布式 HBase

8. 在 master 节点修改 regionservers 文件

[root@master conf]# vim regionservers

9.在 master 节点创建 hbase.tmp.dir 目录

[root@master conf]# mkdir /usr/local/src/hbase/tmp

10. 将 master 上的 hbase 安装文件同步到 slave1 slave2

[root@master conf]# scp -r /usr/local/src/hbase/ root@slave1:/usr/local/src/

[root@master conf]# scp -r /usr/local/src/hbase/ root@slave2:/usr/local/src/

11. 在所有节点修改 hbase 目录权限

[root@master conf]# chown -R hadoop:hadoop /usr/local/src/hbase/

[root@slave1 ~]# chown -R hadoop:hadoop /usr/local/src/hbase/

[root@slave2 ~]# chown -R hadoop:hadoop /usr/local/src/hbase/

12. 在所有节点切换到 hadoop 用户

[root@master conf]# su - hadoop

[hadoop@master ~]$ source /etc/profile

[root@slave1 ~]# su - hadoop

[hadoop@slave1 ~]$ source /etc/profile

[root@slave2 ~]# su - hadoop

[hadoop@slave2 ~]$ source /etc/profile

13. 启动 HBase [hadoop@master ~]$ start-all.sh

[hadoop@master ~]$ jps

[hadoop@slave1 ~]$ jps

14. 在所有节点启动 ZooKeeper

[hadoop@master ~]$ zkServer.sh start

[hadoop@master ~]$ jps

[hadoop@slave1 ~]$ zkServer.sh start

[hadoop@slave1 ~]$ jps

[hadoop@slave2 ~]$ zkServer.sh start

[hadoop@slave2 ~]$ jps

15. 在 master 节点启动 HBase

[hadoop@master ~]$ start-hbase.sh

[hadoop@master ~]$ jps

[hadoop@slave1 ~]$ jps

[hadoop@slave2 ~]$ jps

在浏览器输入 master:60010 出现如下图

分类:热门推荐日期:2024-05-30浏览:1评论:0

Hadoop平台安装

实验过程

实验任务一：配置 Linux 系统基础环境

步骤一：查看服务器的 IP 地址 查看服务器的 IP 地址

步骤二：设置服务器的主机名称

步骤三：绑定主机名与 IP 地址

步骤四：查看 SSH 服务状态。

步骤五：关闭防火墙 Hadoop

步骤六：创建 hadoop 用户

实验任务二：安装 JAVA 环境 .

步骤一：下载 JDK 安装包 JDK 安 装 包 需 要 在 Oracle 官 网 下 载

步骤二：卸载自带 OpenJDK

步骤三：安装 JDK Hadoop 2.7.1

步骤四：设置 JAVA 环境变量

安装 Hadoop 软件

步骤一：安装 Hadoop 软件 安装命令如下，将安装包解压到/usr/local/src/目录下

步骤二：配置 Hadoop 环境变量 和设置 JAVA 环境变量类似，修改/etc/profile 文件。

步骤三：修改目录所有者和所有者组 上述安装完成的 Hadoop 软件只能让 root 用户使用，要让 hadoop 用户能够 运行 Hadoop 软件，需要将目录/usr/local/src 的所有者改为 hadoop 用户。

实验三 安装单机版 Hadoop

实验任务一：配置 Hadoop 配置文件

实验任务二：测试 Hadoop 本地模式的运行 3.4.2.

步骤一: 切换到 hadoop 用户 使用 hadoop 这个用户来运行 Hadoop 软件。

步骤二: 创建输入数据存放目录 将输入数据存放在~/input 目录（hadoop 用户主目录下的 input 目录中）。

Hadoop平台环境配置

实验环境下集群网络配置 修改 slave1 机器主机名

实验二 SSH 无密码验证配置生成 SSH 密钥

步骤一：每个节点安装和启动 SSH 协议 实现 SSH 登录需要 openssh 和 rsync 两个服务，一般情况下默认已经安装（如没有自行安 装），可以通过下面命令查看结果。

步骤二：切换到 hadoop 用户

步骤三：每个节点生成秘钥对

步骤四：查看"/home/hadoop/"下是否有".ssh"文件夹，且".ssh"文件下是否有两个刚 生产的无密码密钥对。

步骤五：将 id_rsa.pub 追加到授权 key 文件中

步骤七：配置 SSH 服务 32 使用 root 用户登录，修改 SSH 配置文件"/etc/ssh/sshd_config"的下列内容，需要将该配 置字段前面的#号删除，启用公钥私钥配对认证方式。

步骤八：重启 SSH 服务 设置完后需要重启 SSH 服务，才能使配置生效。

步骤九：切换到 hadoop 用户

步骤十：验证 SSH 登录本机 在 hadoop 用户下验证能否嵌套登录本机，若可以不输入密码登录，则本机通过密钥登录 认证成功。

交换 SSH 密钥

步骤一：将 Master 节点的公钥 id_rsa.pub 复制到每个 Slave 点 hadoop 用户登录，通过 scp 命令实现密钥拷贝。

步骤二：在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件 hadoop 用户登录 slave1 和 slave2 节点，执行命令。

步骤三：在每个 Slave 节点删除 id_rsa.pub 文件

步骤四：将每个 Slave 节点的公钥保存到 Master

验证 SSH 无密码登录

步骤一：查看 Master 节点 authorized_keys 文件

步骤二：验证 Master 到每个 Slave 节点无密码登录 hadoop 用户登录 master 节点，执行 SSH 命令登录 slave1 和 slave2 节点。可以观察 到不需要输入密码即可实现 SSH 登录。

步骤三：验证两个 Slave 节点到 Master 节点无密码登录

步骤四：配置两个子节点slave1、slave2的JDK环境。

二、Hadoop集群运行

1、Hadoop文件参数配置

实验一：hadoop 全分布配置

实验任务一：在 Master 节点上安装 Hadoop

配置 Hadoop 环境变量

任务二：配置 hdfs-site.xml 文件参数

任务三:配置 core-site.xml 文件参数

任务四:配置 mapred-site.xml

任务五：配置 yarn-site.xml

任务六:Hadoop 其他相关配置

2、大数据平台集群运行

1. 实验一：hadoop 集群运行

步骤二：启动 NameNode 执行如下命令，启动 NameNode：

实验任务二：查看 Java 进程 启动完成后，可以使用 JPS 命令查看是否成功。JPS 命令是 Java 提供的一个显示当前所有 Java 进程 pid 的命令。

步骤一：slave节点 启动 DataNode 执行如下命令，启动 DataNode：

步骤二：启动 SecondaryNameNode 执行如下命令，启动 SecondaryNameNode：

步骤三：查看 HDFS 数据存放位置： 执行如下命令，查看 Hadoop 工作目录：

实验任务三：查看 HDFS 的报告

实验任务四：使用浏览器查看节点状态

运行测试： 下面运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可 以用来统计年度十大热销产品、年度风云人物、年度最热名词等。

报错解决：没有jps查看没有namenode，或者没有datanode

1.查看防火墙是否关闭 systemctl status firewalld

2.查看配置文件 core.site.xml

3.查看/etc/profile 路径是否正确

4.查看主机域名解析 vi /etc/hosts

5.格式化太多次，第一次启动 HDFS 时要进行格式化，以后启动无需再格式化，否则会缺失DataNode 进程。

6.重新停止开启一次试试

Hive数据仓库组件

三、大数据生态组件 1、Zookeeper组件

节点步骤

相关推荐

步骤一：查看服务器的 IP 地址查看服务器的 IP 地址

步骤一：下载 JDK 安装包 JDK 安装包需要在 Oracle 官网下载

步骤一：安装 Hadoop 软件安装命令如下，将安装包解压到/usr/local/src/目录下

步骤二：配置 Hadoop 环境变量和设置 JAVA 环境变量类似，修改/etc/profile 文件。

步骤三：修改目录所有者和所有者组上述安装完成的 Hadoop 软件只能让 root 用户使用，要让 hadoop 用户能够运行 Hadoop 软件，需要将目录/usr/local/src 的所有者改为 hadoop 用户。

实验三安装单机版 Hadoop

步骤一: 切换到 hadoop 用户使用 hadoop 这个用户来运行 Hadoop 软件。

步骤二: 创建输入数据存放目录将输入数据存放在~/input 目录（hadoop 用户主目录下的 input 目录中）。

实验环境下集群网络配置修改 slave1 机器主机名

步骤一：每个节点安装和启动 SSH 协议实现 SSH 登录需要 openssh 和 rsync 两个服务，一般情况下默认已经安装（如没有自行安装），可以通过下面命令查看结果。

步骤四：查看"/home/hadoop/"下是否有".ssh"文件夹，且".ssh"文件下是否有两个刚生产的无密码密钥对。

步骤七：配置 SSH 服务 32 使用 root 用户登录，修改 SSH 配置文件"/etc/ssh/sshd_config"的下列内容，需要将该配置字段前面的#号删除，启用公钥私钥配对认证方式。

步骤八：重启 SSH 服务设置完后需要重启 SSH 服务，才能使配置生效。

步骤十：验证 SSH 登录本机在 hadoop 用户下验证能否嵌套登录本机，若可以不输入密码登录，则本机通过密钥登录认证成功。

步骤二：验证 Master 到每个 Slave 节点无密码登录 hadoop 用户登录 master 节点，执行 SSH 命令登录 slave1 和 slave2 节点。可以观察到不需要输入密码即可实现 SSH 登录。

实验任务二：查看 Java 进程启动完成后，可以使用 JPS 命令查看是否成功。JPS 命令是 Java 提供的一个显示当前所有 Java 进程 pid 的命令。

步骤一：slave节点启动 DataNode 执行如下命令，启动 DataNode：

步骤三：查看 HDFS 数据存放位置：执行如下命令，查看 Hadoop 工作目录：

运行测试：下面运行 WordCount 官方案例，统计 data.txt 文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。