以下给初次使用hadoop的朋友,快速搭建并启动hadoop,记住需要修改的东西分别是“三个site,四个env,一个slaver”,所有配置文件都在$HADOOP_HOME/etc/hadoop/下
三个site.xml
core-site.xml
fs.defaultFS:namenode服务ip:port
hadoop.tmp.dir:临时文件存放路径,注意:此处一定要修改,否则默认存放在系统tmp路径,数据会被系统删除
mapreduce-site.xml
mapreduce.jobhistory.address:历史服务地址
mapreduce.jobhistory.webapp.address:历史服务web地址
mapreduce.framework.name:设置为yarn,yarn管理mapreduce
yarn-site.xml
yarn.nodemanager.aux-services:设置为mapreduce_shuffle,指定shuffe过程方式
yarn.resourcemanage.hostname:resourcemanage主节点,默认本机
yarn.log-aggregation-enable:true,false是否开启日志聚合
yarn.log-aggregation.retain-seconds:日志聚合时间长读
这是对于快速搭建可配可不配置的文件,但是比较常用也拿出来说明
hdfs-site.xml
dfs.replication:副本数默认3,基本原则是副本数不大于datanode节点数
dfs.namenode.secondary.http-address:配置secondarynamenode,历史遗留问题,可配可不配,同样可启动可不启动,一般不用
四个env.sh
这里不一一写出,记住env文件主要指定JAVA_HOME路径,加入export JAVA_HOME=xxxxx 即可
一个slaver
slaver写入datanode,nodemanager开启节点地址,一个写一行
当上诉所有配置文件都修改完之后,通过start-all.sh(windows下使用start-all.cmd)启动hadoop,其中历史服务和secondarynamenode需要单独启动,这里并不详说
namenode,resourcemanager的内部连接端口和外部访问端口分别为
namenode 8020 50070
resoucemanager 8032 8088
通过namenode节点和resourcemanager节点的端口可分别从外部查看hadoop当前信息。