Ubuntu14.10下安装伪分布式hdoop2.5.0

阅读次数：335 次来源：admin 发布时间：2022-03-18 07:17

折腾了一天，其间配置SSH时候出现了问题，误删了ssh-keygen相关文件，导致配置SSH彻底萎了，又重装了系统。。。。

采用伪分布式模式，即hadoop将所有进程运行于同一台主机上，但此时Hadoop将使用分布式文件系统，而且各jobs也是由JobTracker服务管理的独立进程。同时，由于伪分布式的Hadoop集群只有一个节点，因此HDFS的块复制将限制为单个副本，其secondary-master和 slave也都将运行于本地主机。此种模式除了并非真正意义的分布式之外，其程序执行逻辑完全类似于完全分布式，因此，常用于开发人员测试程序执行。

安装步骤

1 下载hadoop源码包，自己编译。参考前面文章http://www.cnblogs.com/liuchangchun/p/4087231.html

2 JDK安装

（1）jdk下载

链接: http://pan.baidu.com/s/1jGr41SU 密码: rawv

（2）jdk解压到合适目录

（3）配置环境变量

export JAVA_HOME=/usr/dev/jdk1.7.0_51
export HADOOP_HOME=/home/lcc/software/hadoop/hadoop-2.5.0
export HBASE_HOME=/home/lcc/software/hadoop/hbase-0.99.0
export LD_LIBRARY_PATH=/home/lcc/software/dev/protobuf-2.5.0
export ANT_HOME=/usr/dev/apache-ant-1.9.4
export PATH=$PATH:$ANT_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib

3 配置hadoo

3.1 解压hadoop到合适位置

3.2 配置hadoop环境变量，参考上面

3.3 进入hadoop文件家，配置etc/hadoop中的文件

3.3.1 配置hadoop-env.sh

export JAVA_HOME="/usr/dev/jdk1.7.0_51"

3.3.2 配置core-site.xml

<configuration>
    <property>
            <name>fs.default.name</name>
            <value>hdfs://localhost:9000</value>
    </property>
lt;property>
lt;name>hadoop.tmp.dir</name>
lt;value>/home/lcc/software/hadoop/hadoop-2.5.0/tmp</value>
lt;/property>
lt;/configuration>

3.3.3 配置hdfs-site.xml，做如下配置（系统默认文件保存3份，因伪分布模式，故改为1份）

<configuration>
    <property>
            <name>dfs.replication</name>
            <value>1</value>
    </property>lt;property>
            <name> dfs.namenode.name.dir</name>
            <value>/home/lcc/software/hadoop/hadoop-2.5.0/dfs/name</value>
    </property>
lt;property>
            <name>dfs.datanode.data.dir</name>
            <value>/home/lcc/software/hadoop/hadoop-2.5.0/dfs/data</value>
    </property>
</configuration>

3.3.4 配置mapred-site.xml.template

<configuration>
     <property>lt;name>mapred.job.tracker</name>
lt;value>localhost:9001</value>
lt;/property>
</configuration>

3.3.5 配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
      </property>

    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
      </property>
</configuration>

3.4 设置ssh免密码登录，注意实在root目录下

ssh-keygen -t rsa -P ""cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_key

输入ssh localhost 看看能否登录

3.5 格式化节点信息

hadoop namenode –format

3.6 进度hadoop目录，启动hadoo

sbin/start-all.sh

3.7 用命令jps查看是否启动成功，如果出现大概如下信息说明成功了

28522 NodeManager
27997 DataNode
28206 SecondaryNameNode
28380 ResourceManager
27823 NameNode
6612 Jps

3.8 进度hadoop目录，停止hadoo

sbin/stop-all.sh

3.9 http://localhost:50070 这是hdfs的页面

3.10 http://localhost:8088 hadoop进程管理页面

3.11 禁用IPV6

3.11.1 编辑grup文件

sudo nano /etc/default/grub

3.11.2 将文件中的 GRUB_CMDLINE_LINUX_DEFAULT="quiet spalsh" 修改为

GRUB_CMDLINE_LINUX_DEFAULT="ipv6.disable=1 quiet splash"

3.11.3 保存后运行sudo update-grub更新

3.11.4 重启网络服务

/etc/init.d/network-manager restart

3.11.5. 可以使用 ip a | grep inet6 查看关闭情况，若没有结果则说明禁用IPv6成功