Suselinux下infosphere DataStage8.5環境虛擬機文件下載

Suselinux下infosphere DataStage8.5環境虛擬機文件下載，鏈接：https://pan.baidu.com/s/12VTr-uLTWYCm9U9aj10V_g
提取碼：7slm 下載後，用Vmware Worstation 打開，即可以正常使用

IBM® InfoSphere™ Information Server 是一種數據集成軟體平台，能夠幫助企業從散布在各個系統中的複雜異構信息獲得更多價值。InfoSphere Information Server提供了一個統一的平台，使公司能夠了解、清理、變換和交付值得信賴且上下文豐富的信息。

IBM® InfoSphere™ DataStage® and QualityStage™ 提供了圖形框架，您可使用該框架來設計和運行用於變換和清理、載入數據的作業。

依靠您具有許可證的那些產品，您可以開發可變換和清理、載入數據的並行作業、可變換數據的伺服器作業以及可變換數據的大型機作業。並行作業和伺服器作業在 IBM InfoSphere Information Server 引擎上運行。大型機作業將生成可在大型機上運行的 COBOL 代碼。

您可以在 IBM InfoSphere DataStage and QualityStage Designer 客戶機中設計作業並在 IBM InfoSphere DataStage and QualityStage Director 客戶機中運行這些作業。作業以項目的形式組織，您可以使用 IBM InfoSphere DataStage and QualityStage Administrator 客戶機來管理這些項目。您可以使用 InfoSphere Information Server Manager 來部署作業設計及其間接材料。

ETL是數據倉庫中的非常重要的一環，是承前啟後的必要的一步。ETL負責將分布的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。下面給大家介紹一下什麼是ETL以及ETL常用的三種工具（Datastage，Informatica，Kettle）！

1.ETL是什麼？

ETL，是英文 Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。（數據倉庫結構）通俗的說法就是從數據源抽取數據出來，進行清洗加工轉換，然後載入到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標準不統一的數據整合到一起，為企業的決策提供分析依據。ETL是BI項目重要的一個環節，其設計的好壞影響生成數據的質量，直接關係到BI項目的成敗。

2.為什麼要用ETL工具？

▶ 當數據來自不同的物理主機，這時候如使用SQL語句去處理的話，就顯得比較吃力且開銷也更大。

▶ 數據來源可以是各種不同的資料庫或者文件，這時候需要先把他們整理成統一的格式後才可以進行數據的處理，這一過程用代碼實現顯然有些麻煩。

▶ 在資料庫中我們當然可以使用存儲過程去處理數據，但是處理海量數據的時候存儲過程顯然比較吃力，而且會佔用較多資料庫的資源，這可能會導致數據資源不足，進而影響資料庫的性能。

上面所說的問題，我們用ETL工具就可以解決。它的優點有：

● 支持多種異構數據源的連接。（部分）

● 圖形化的界面操作十分方便。

● 處理海量數據速度快、流程更清晰等。

3.ETL工具介紹

Informatica和Datastage佔據國內市場的大部分的份額。

4.ETL工具差異

Kettle，Datastage，Informatica三個ETL工具的特點和差異介紹：

操作

都是屬於比較簡單易用，主要是開發人員對於工具的熟練程度。Informatica有四個開發管理組件，開發的時候我們需要打開其中三個進行開發，Informatica沒有ctrl+z的功能，如果對job作了改變之後，想要撤銷，返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中，不用切換界面，能夠看到數據的來源，整個job的情況，在找bug的時候會比Informatica方便。Kettle介於兩者之間。

部署

Kettle只需要JVM環境，Informatica需要伺服器和客戶端安裝，而Datastage的部署比較耗費時間，有一點難度。

數據處理的速度

大數據量下Informatica 與Datastage的處理速度是比較快的，比較穩定。Kettle的處理速度相比之下稍慢。

服務

Informatica與Datastage有很好的商業化的技術支持，而Kettle則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。

風險

風險與成本成反比，也與技術能力成正比。

擴展

Kettle的擴展性無疑是最好，因為是開源代碼，可以自己開發拓展它的功能，而Informatica和Datastage由於是商業軟體，基本上沒有。

Job的監控

三者都有監控和日誌工具。在數據的監控上，個人覺得Datastage的實時監控做的更加好，可以直觀看到數據抽取的情況，運行到哪一個控制項上。這對於調優來說，我們可以更快的定位到處理速度太慢的控制項並進行處理，而informatica也有相應的功能，但是並不直觀，需要通過兩個界面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查找。

網上的技術文檔

Datastage < Informatica < kettle,相對來說，Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低，kettle則比較多。

5.項目經驗分享

多張表同步、重複的操作：在項目中，很多時候我們都需要同步生產庫的表到數據倉庫中。一百多張表同步、重複的操作，對開發人員來說是細心和耐心的考驗。在這種情況下，開發人員最喜歡的工具無疑是kettle，多個表的同步都可以用同一個程序運行，不必每一張表的同步都建一個程序，而informatica雖然有提供工具去批量設計，但還是需要生成多個程序進行一一配置，而datastage在這方面就顯得比較笨拙。

增量表：在做增量表的時候，每次運行後都需要把將最新的一條數據操作時間存到資料庫中，下次運行我們就取大於這個時間的數據。Kettle有控制項可以直接讀取資料庫中的這個時間置為變數；對於沒有類似功能控制項的informatica，我們的做法是先讀取的資料庫中的這個時間存到文件，然後主程序運行的時候指定這個文件為參數文件，也可以得到同樣的效果。

有一句話說的好：世上沒有最好的，只有適合的！每一款ETL工具都有它的優缺點，我們需要根據實際項目，權衡利弊選擇適合的ETL工具，合適的就是最好的。當下越來越多公司及其客戶更重視最新的數據（實時數據）展現，傳統的ETL工具可能滿足不了這樣的需求，而實時流數據處理和雲計算技術更符合。所以我們也需要與時俱進，學習大數據時代下的ETL工具。

以下文章點擊率最高

Loading…