当前位置:首页 > 问答 > 正文

树叶云带你一步步搞定Hadoop配置那些事儿,别急慢慢来学

树叶云带你一步步搞定Hadoop配置那些事儿,别急慢慢来学

(根据树叶云博客相关技术文章内容整理)

好啦,朋友们,咱们今天就来聊聊Hadoop配置这个事儿,我知道,一听到“分布式”、“大数据”这些词,很多人头都大了,感觉特别高大上,离自己很远,别怕,咱们今天就把它拉下神坛,就像搭积木一样,一步一步把它给拼起来,树叶云的那篇文章说得特别实在,咱们就跟着那个思路走,我再用大白话给你捋一遍。

第一步:先把“地基”打好——环境准备

树叶云带你一步步搞定Hadoop配置那些事儿,别急慢慢来学

盖房子得先有块地吧?配置Hadoop也一样,你得有几台电脑(虚拟机也行),用来扮演不同的角色,树叶云的文章里提到,最起码你得准备一台机器当“主节点”(Master),就好比是工地的总指挥;再准备几台当“从节点”(Slave),就是干具体活儿的小工,一开始学习,你用一台电脑开三个虚拟机完全没问题,分别当成主节点和两个从节点,这样就能模拟出一个小集群了。

非常非常关键的一步,就是让这几台机器之间能够“串门”不用敲门,什么意思呢?就是你要配置它们之间的SSH免密登录,总指挥(主节点)要能随时给手下(从节点)下达指令,如果每次下令还要输密码,那得多麻烦啊,树叶云的文章里详细写了怎么用ssh-keygenssh-copy-id这两个命令来搞定这件事,你照着做就行,这一步千万别偷懒,不然后面会卡住。

第二步:认识一下Hadoop的“三大将”

Hadoop不是一个大锅饭,它里面有几个核心的部件,各管一摊,树叶云的文章重点介绍了三个:

树叶云带你一步步搞定Hadoop配置那些事儿,别急慢慢来学

  1. HDFS(分布式文件系统):这家伙就是个超级硬盘柜,你的数据本来存在自己电脑上,现在要把它切碎了,分散地存到那几台从节点电脑的硬盘里,这样既安全(一台坏了别的还有备份),读取得也快(可以同时从好几台电脑上读),配置HDFS主要就是告诉系统,谁是主节点(NameNode),谁是从节点(DataNode),数据存哪儿。
  2. YARN(资源调度器):数据存好了,你得写程序去处理它吧?YARN就是集群的“人力资源总监”,当你有计算任务需要跑的时候,YARN负责分配哪台机器有多少内存、多少CPU核心给你用,它也有一个主节点(ResourceManager)和一堆从节点(NodeManager),配置YARN就是划定每台机器能拿出多少“家当”来给集体用。
  3. MapReduce(计算模型):这个可以理解为干活儿的方法论,它规定了一个任务该怎么拆分成很多小任务(Map阶段),然后怎么把各个小任务的结果汇总起来得到最终答案(Reduce阶段),你写的程序就是要遵循这个套路。

第三步:动手修改配置文件——最核心的一步

Hadoop的配置主要是通过修改一堆XML文件来完成的,听着复杂,其实你就当是在填表格,树叶云的文章里列出了几个最关键的文件,比如core-site.xml(核心设置)、hdfs-site.xml(HDFS设置)、yarn-site.xml(YARN设置)和mapred-site.xml(MapReduce设置)。

我举个例子你就明白了,在core-site.xml里,你要指定HDFS的老大(NameNode)住在哪儿,也就是它的地址,就像你告诉快递员,总仓库的地址是“北京市海淀区XX路XX号”一样,在这里你要写成类似hdfs://你的主节点IP:9000这样的格式,其他的配置文件也是类似的,你需要按照文章里的示例,把对应的值改成你自己机器的IP地址和你想设置的路径。

第四步:启动和验收——看看咱们的成果

树叶云带你一步步搞定Hadoop配置那些事儿,别急慢慢来学

所有文件都配置好之后,激动人心的时刻就到了:启动集群!树叶云的文章会教你先格式化HDFS(注意!这个操作有点像格式化硬盘,只在第一次搭建时做一次),然后依次启动HDFS和YARN的相关服务。

怎么知道成功了呢?有几种简单的检查方法:

  • 用命令看:输入jps命令,在主节点上你应该能看到NameNode、ResourceManager等进程;在从节点上应该能看到DataNode、NodeManager等进程,这就说明“将领”和“士兵”都各就各位了。
  • 用网页看:Hadoop很贴心地把集群状态做成了网页,你可以在浏览器输入http://你的主节点IP:9870来看HDFS的状态,看看各个DataNode是不是都健康在线,输入http://你的主节点IP:8088可以看到YARN的界面,看看资源使用情况。

最后唠叨几句

树叶云在文章里也提醒了,第一次配置失败太正常了!千万别灰心,出了问题,最重要的就是看日志文件,Hadoop会把每一步操作的详细记录都写在日志里,你根据错误提示去日志里找线索,八成都能解决,常见的坑可能就是IP地址写错了、端口被占用了、或者目录权限不对。

配置Hadoop就是个细心活儿,慢慢来,一步一步验证,当你第一次在浏览器里看到集群正常运行的界面时,那种成就感绝对是满满的!希望这个跟着树叶云思路走的讲解,能帮你把Hadoop配置这事儿给搞定,别急,慢慢学!