Centos6-Hadoop+Spark+Zookeeper+HBase+Hive-Mysql-Cluster集群環境虛擬機下載

本博主搭建的基於CentOS6.5 LINUX操作系統下Hadoop+Spark+Zookeeper+HBase+Hive-Mysql-Cluster 集群環境虛擬機，下載後，用vmware workstion打開即可以使用

.鏈接：https://pan.baidu.com/s/1uWKCCvQXEa4ijA1qKrwsmA
提取碼：v4hj

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。
用戶可以在不了解分佈式底層細節的情況下，開發分佈式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop實現了一個分佈式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有着超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。
Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，而MapReduce則為海量的數據提供了計算。

Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。
Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分佈處理。
Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。
Hadoop 還是可伸縮的，能夠處理 PB 級數據。
此外，Hadoop 依賴於社區服務，因此它的成本比較低，任何人都可以使用。
Hadoop是一個能夠讓用戶輕鬆架構和使用的分佈式計算平台。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：
高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。
高效性。Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。
高容錯性。Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。
低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。
Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是——Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。
Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分佈數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。
Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分佈式數據集。
儘管創建 Spark 是為了支持分佈式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統中並行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程序。
Spark 主要有三個特點：
首先，高級 API 剝離了對集群本身的關注，Spark 應用開發者可以專註於應用所要做的計算本身。
其次，Spark 很快，支持交互式計算和複雜算法。
最後，Spark 是一個通用引擎，可用它來完成各種各樣的運算，包括 SQL 查詢、文本處理、機器學習等，而在 Spark 出現之前，我們一般需要學習各種各樣的引擎來分別處理這些需求。

本博主搭建的基於CentOS6.5 LINUX操作系統下Hadoop+Spark+Zookeeper+HBase+Hive-Mysql-Cluster 集群環境虛擬機，下載後，用vmware workstion打開即可以使用

.鏈接：https://pan.baidu.com/s/1uWKCCvQXEa4ijA1qKrwsmA
提取碼：v4hj

ZooKeeper是一個分佈式的，開放源碼的分佈式應用程序協調服務，是Google的Chubby一個開源的實現，是Hadoop和Hbase的重要組件。它是一個為分佈式應用提供一致性服務的軟件，提供的功能包括：配置維護、域名服務、分佈式同步、組服務等。
ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。
ZooKeeper包含一個簡單的原語集， [1] 提供Java和C的接口。
ZooKeeper代碼版本中，提供了分佈式獨享鎖、選舉、隊列的接口，代碼在zookeeper-3.4.3\src\recipes。其中分佈鎖和隊列有Java和C兩個版本，選舉只有Java版本。（概述圖片來源： [2] ）

在Zookeeper中，znode是一個跟Unix文件系統路徑相似的節點，可以往這個節點存儲或獲取數據。如果在創建znode時Flag設置為EPHEMERAL，那麼當創建這個znode的節點和Zookeeper失去連接後，這個znode將不再存在在Zookeeper里，Zookeeper使用Watcher察覺事件信息。當客戶端接收到事件信息，比如連接超時、節點數據改變、子節點改變，可以調用相應的行為來處理數據。Zookeeper的Wiki頁面展示了如何使用Zookeeper來處理事件通知，隊列，優先隊列，鎖，共享鎖，可撤銷的共享鎖，兩階段提交。
那麼Zookeeper能做什麼事情呢，簡單的例子：假設我們有20個搜索引擎的服務器(每個負責總索引中的一部分的搜索任務)和一個總服務器(負責向這20個搜索引擎的服務器發出搜索請求併合並結果集)，一個備用的總服務器(負責當總服務器宕機時替換總服務器)，一個web的cgi(向總服務器發出搜索請求)。搜索引擎的服務器中的15個服務器提供搜索服務，5個服務器正在生成索引。這20個搜索引擎的服務器經常要讓正在提供搜索服務的服務器停止提供服務開始生成索引，或生成索引的服務器已經把索引生成完成可以提供搜索服務了。使用Zookeeper可以保證總服務器自動感知有多少提供搜索引擎的服務器並向這些服務器發出搜索請求，當總服務器宕機時自動啟用備用的總服務器。

HBase是一個分佈式的、面向列的開源數據庫，該技術來源於 Fay Chang 所撰寫的Google論文「Bigtable：一個結構化數據的分佈式存儲系統」。就像Bigtable利用了Google文件系統（File System）所提供的分佈式數據存儲一樣，HBase在Hadoop之上提供了類似於Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關係數據庫，它是一個適合於非結構化數據存儲的數據庫。另一個不同的是HBase基於列的而不是基於行的模式。
HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。
與FUJITSU Cliq等商用大數據產品不同，HBase是Google Bigtable的開源實現，類似Google Bigtable利用GFS作為其文件存儲系統，HBase利用Hadoop HDFS作為其文件存儲系統；Google運行MapReduce來處理Bigtable中的海量數據，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據；Google Bigtable利用 Chubby作為協同服務，HBase利用Zookeeper作為對應。 [1]
上圖描述Hadoop EcoSystem中的各層系統。其中,HBase位於結構化存儲層，Hadoop HDFS為HBase提供了高可靠性的底層存儲支持，Hadoop MapReduce為HBase提供了高性能的計算能力，Zookeeper為HBase提供了穩定服務和failover機制。

本博主搭建的基於CentOS6.5 LINUX操作系統下Hadoop+Spark+Zookeeper+HBase+Hive-Mysql-Cluster 集群環境虛擬機，下載後，用vmware workstion打開即可以使用

.鏈接：https://pan.baidu.com/s/1uWKCCvQXEa4ijA1qKrwsmA
提取碼：v4hj

此外，Pig和Hive還為HBase提供了高層語言支持，使得在HBase上進行數據統計處理變的非常簡單。 Sqoop則為HBase提供了方便的RDBMS數據導入功能，使得傳統數據庫數據向HBase中遷移變的非常方便。

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。
Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化加載（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。
Hive 沒有專門的數據格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允許用戶指定數據格式。

MySQL是一個關係型數據庫管理系統，由瑞典MySQL AB 公司開發，目前屬於 Oracle 旗下產品。MySQL 是最流行的關係型數據庫管理系統之一，在 WEB 應用方面，MySQL是最好的 RDBMS (Relational Database Management System，關係數據庫管理系統) 應用軟件。
MySQL是一種關係數據庫管理系統，關係數據庫將數據保存在不同的表中，而不是將所有數據放在一個大倉庫內，這樣就增加了速度並提高了靈活性。
MySQL所使用的 SQL 語言是用於訪問數據庫的最常用標準化語言。MySQL 軟件採用了雙授權政策，分為社區版和商業版，由於其體積小、速度快、總體擁有成本低，尤其是開放源碼這一特點，一般中小型網站的開發都選擇 MySQL 作為網站數據庫。
由於其社區版的性能卓越，搭配 PHP 和 Apache 可組成良好的開發環境。

本博主搭建的基於CentOS6.5 LINUX操作系統下Hadoop+Spark+Zookeeper+HBase+Hive-Mysql-Cluster 集群環境虛擬機，下載後，用vmware workstion打開即可以使用

.鏈接：https://pan.baidu.com/s/1uWKCCvQXEa4ijA1qKrwsmA
提取碼：v4hj

以下文章點擊率最高

Loading…