读懂hadoop、hbase、hive、spark分布式系统架构

读懂hadoophbasehivespark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深入系统内部以充分理解分布式系统架构和他们之间的关系

本文结构

首先,我们来分别部署一套hadoop、hbase、hive、spark,在讲解部署方法过程中会特殊说明一些重要配置,以及一些架构图以帮我们理解,目的是为后面讲解系统架构和关系打基础。

之后,我们会通过运行一些程序来分析一下这些系统的功能

最后,我们会总结这些系统之间的关系

 

分布式hadoop部署

首先,在http://hadoop.apache.org/releases.html找到最新稳定版tar包,我选择的是

http://apache.fayea.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

下载到/data/apache并解压

在真正部署之前,我们先了解一下hadoop的架构

hadoop分为几大部分:yarn负责资源和任务管理、hdfs负责分布式存储、map-reduce负责分布式计算

先来了解一下yarn的架构:

yarn的两个部分:资源管理、任务调度。

资源管理需要一个全局的ResourceManager(RM)和分布在每台机器上的NodeManager协同工作,RM负责资源的仲裁,NodeManager负责每个节点的资源监控、状态汇报和Container的管理

任务调度也需要ResourceManager负责任务的接受和调度,在任务调度中,在Container中启动的ApplicationMaster(AM)负责这个任务的管理,当任务需要资源时,会向RM申请,分配到的Container用来起任务,然后AM和这些Container做通信,AM和具体执行的任务都是在Container中执行的

yarn区别于第一代hadoop的部署(namenode、jobtracker、tasktracker)

然后再看一下hdfs的架构:hdfs部分由NameNode、SecondaryNameNode和DataNode组成。DataNode是真正的在每个存储节点上管理数据的模块,NameNode是对全局数据的名字信息做管理的模块,SecondaryNameNode是它的从节点,以防挂掉。

最后再说map-reduce:Map-reduce依赖于yarn和hdfs,另外还有一个JobHistoryServer用来看任务运行历史

hadoop虽然有多个模块分别部署,但是所需要的程序都在同一个tar包中,所以不同模块用到的配置文件都在一起,让我们来看几个最重要的配置文件:

各种默认配置:core-default.xml, hdfs-default.xml, yarn-default.xml, mapred-default.xml

各种web页面配置:core-site.xml, hdfs-site.xml, yarn-site.xml, mapred-site.xml

从这些配置文件也可以看出hadoop的几大部分是分开配置的。

除上面这些之外还有一些重要的配置:hadoop-env.sh、mapred-env.sh、yarn-env.sh,他们用来配置程序运行时的java虚拟机参数以及一些二进制、配置、日志等的目录配置

下面我们真正的来修改必须修改的配置文件。

修改etc/hadoop/core-site.xml,把配置改成:

  1. <configuration>
  2. <property>
  3. <name>defaultFS</name>
  4. <value>hdfs://127.0.0.1:8000</value>
  5. </property>
  6. <property>
  7. <name>file.buffer.size</name>
  8. <value>131072</value>
  9. </property>
  • </configuration>

这里面配置的是hdfs的文件系统地址:本机的9001端口

修改etc/hadoop/hdfs-site.xml,把配置改成:

  1. <configuration>
  2. <property>
  3. <name>namenode.name.dir</name>
  4. <value>file:/data/apache/dfs/name</value>
  5. </property>
  6. <property>
  7. <name>datanode.data.dir</name>
  8. <value>file:/data/apache/dfs/data</value>
  9. </property>
  10. <property>
  11. <name>datanode.fsdataset.volume.choosing.policy</name>
  12. <value>apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy</value>
  13. </property>
  14. <property>
  15. <name>namenode.http-address</name>
  16. <value>0.0.1:50070</value>
  17. </property>
  18. <property>
  19. <name>namenode.secondary.http-address</name>
  20. <value>0.0.1:8001</value>
  21. </property>
  • </configuration>

这里面配置的是hdfs文件存储在本地的哪里以及secondary namenode的地址

修改etc/hadoop/yarn-site.xml,把配置改成:

  1. <configuration>
  2. <property>
  3. <name>resourcemanager.hostname</name>
  4. <value>0.0.1</value>
  5. </property>
  6. <property>
  7. <name>resourcemanager.webapp.address</name>
  8. <value>0.0.1:8088</value>
  9. </property>
  10. <property>
  11. <name>nodemanager.aux-services</name>
  12. <value>mapreduce_shuffle</value>
  13. </property>
  14. <property>
  15. <name>nodemanager.aux-services.mapreduce.shuffle.class</name>
  16. <value>apache.hadoop.mapred.ShuffleHandler</value>
  17. </property>
  18. <property>
  19. <name>log-aggregation-enable</name>
  20. <value>true</value>
  21. </property>
  22. <property>
  23. <name>log-aggregation.retain-seconds</name>
  24. <value>864000</value>
  25. </property>
  26. <property>
  27. <name>log-aggregation.retain-check-interval-seconds</name>
  28. <value>86400</value>
  29. </property>
  30. <property>
  31. <name>nodemanager.remote-app-log-dir</name>
  32. <value>/YarnApp/Logs</value>
  33. </property>
  34. <property>
  35. <name>log.server.url</name>
  36. <value>http://127.0.0.1:19888/jobhistory/logs/</value>
  37. </property>
  38. <property>
  39. <name>nodemanager.local-dirs</name>
  40. <value>/data/apache/tmp/</value>
  41. </property>
  42. <property>
  43. <name>scheduler.maximum-allocation-mb</name>
  44. <value>5000</value>
  45. </property>
  46. <property>
  47. <name>scheduler.minimum-allocation-mb</name>
  48. <value>1024</value>
  49. </property>
  50. <property>
  51. <name>nodemanager.vmem-pmem-ratio</name>
  52. <value>1</value>
  53. </property>
  54. <property>
  55. <name>nodemanager.vmem-check-enabled</name>
  56. <value>false</value>
  57. </property>
  • </configuration>

这里面配置的是yarn的日志地址以及一些参数配置

阅读更多