讀懂GPFS:從基礎知識到集群搭建、參數設置優化及故障診斷(四)

GPFS 可靠性分析與如何設計

基於上面闡述的 GPFS 可用性機制,我們可以看出 GPFS 是通過上述的三種 quorum 機制來檢查資源是否超過半數狀態正常來判斷系統狀態好壞。我們在設計 GPFS 文件系統集群的時候需要注意最好保證各種資源數都為 2N+1 個(N 是指數量),也即數量為奇數,來獲得系統最大的可用性。

  • Filesystem Descriptor (FD)Quorum的設計。我們在一般的生產系統中都會使用兩組不同的failure group 的磁盤來創建一個文件系統,以實現數據的冗餘保護,但是丟失一個 failure group 的磁盤實際不影響數據的完整性,但是由於 FD quorum 2N+1 的機制,文件系統仍將會關閉,所以我們在創建一個 GPFS 文件系統時,可以通過增加一個很小的本地的磁盤作為第三個 failure group。以實現 2N+1 的冗餘設計。本地的磁盤可以設置為只保存 GPFS 文件系統信息(FD),實際不參與數據讀寫。(同一個 failure group 的磁盤是指有可能同時壞掉的磁盤,比如來自同一個存儲的磁盤或連在同一個適配器上的磁盤)
  • Node Quorum如果採用了 2N+1 個 Quorum Node,那麼這個系統就能容忍 N 個主機節點的離線,所以如果主機節點小於 5 個採用此種方法都不是很經濟,此時建議採用 Tiebreaker quorum 機制。
  • Tiebreaker quorum只能配置兩個 quorum 主機,但是只要 tiebreaker 磁盤在線,只有一個 quorum 主機狀態正常,系統也能正常工作,同時也意味着必須有一台 quorum 主機在線。如果是主機節點數較多的情況,採用此種機制其可靠性不如 Node quorum。

參考鏈接:https://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/

4.NSD設計

使用同等級別存儲io或lun方面,避免短板,加寬條帶化,增加並發讀寫能力。設置多個nsd server,設置nsd 順序,均衡io

5.文件系統

根據以往的經驗結合IBM官方建議,文件系統塊大小設置可以參考以下內容:

在創建文件系統時,生產系統一般建議以下主要幾個參數 -m2 -M2 -r2 -R2 ,當然根據具體需要增大某個值,其他參數並不是可以保持默認,根據情況再做適當調整。

總結:

以上這些參數的設置均不是絕對,而是結合以往歷史經驗參考設置,切記不可完全對號入座,根據實際情況進行適當調整。

六、故障診斷

故障診斷對於日常運維顯得尤為重要,那麼有一個清晰的問題處理流程,那麼在問題出現時就不會過於慌亂,有條不紊進行GPFS 群集方面使用的問題。

GPFS 日常監控:

1.IBM TPC軟件 支持GPFS4.1 及以後版本

  1. 使用Dstat集成GPFS的插件
  2. 基於snmp的如zabbix監控
  3. Mmpmon監控性能
  4. 使用IBM提過的監控自定義腳本諸如:getio_s.ksh,gpfs_perf.pl,netperf,collect_stats

GPFS常用的診斷工具大多還是基於本身自帶的一些tools,常用的命令有:mmcluster,mmgetstate -aLs,mmlsconfig all,mmlnsd -aXv,mmchdisk ,mmlicense,mmdf,mmfsadm,mmdiag,mmrestripe,gpfs.snap 等等

下面我將結合著以往的實際經驗,在問題診斷流程方面做一下梳理:

故障診斷流程:

1.網絡是否正常

  1. 集群狀態是否正常
  2. nsd磁盤狀態是否正常
  3. 查看gpfs 日誌
  4. 查看操作系統日誌
  5. 具體日誌報錯參考手冊和經驗
  6. 收集故障信息給二線進行支持

以下文章點擊率最高

Loading…

     

如果這文章對你有幫助,請掃左上角微信支付-支付寶,給於打賞,以助博客運營