讀懂GPFS：從基礎知識到集群搭建、參數設置優化及故障診斷（四）

GPFS 可靠性分析與如何設計

基於上面闡述的 GPFS 可用性機制，我們可以看出 GPFS 是通過上述的三種 quorum 機制來檢查資源是否超過半數狀態正常來判斷系統狀態好壞。我們在設計 GPFS 文件系統集群的時候需要注意最好保證各種資源數都為 2N+1 個（N 是指數量），也即數量為奇數，來獲得系統最大的可用性。

Filesystem Descriptor （FD）Quorum的設計。我們在一般的生產系統中都會使用兩組不同的failure group 的磁盤來創建一個文件系統，以實現數據的冗餘保護，但是丟失一個 failure group 的磁盤實際不影響數據的完整性，但是由於 FD quorum 2N+1 的機制，文件系統仍將會關閉，所以我們在創建一個 GPFS 文件系統時，可以通過增加一個很小的本地的磁盤作為第三個 failure group。以實現 2N+1 的冗餘設計。本地的磁盤可以設置為只保存 GPFS 文件系統信息（FD），實際不參與數據讀寫。（同一個 failure group 的磁盤是指有可能同時壞掉的磁盤，比如來自同一個存儲的磁盤或連在同一個適配器上的磁盤）
Node Quorum如果採用了 2N+1 個 Quorum Node，那麼這個系統就能容忍 N 個主機節點的離線，所以如果主機節點小於 5 個採用此種方法都不是很經濟，此時建議採用 Tiebreaker quorum 機制。
Tiebreaker quorum只能配置兩個 quorum 主機，但是只要 tiebreaker 磁盤在線，只有一個 quorum 主機狀態正常，系統也能正常工作，同時也意味着必須有一台 quorum 主機在線。如果是主機節點數較多的情況，採用此種機制其可靠性不如 Node quorum。

參考鏈接：https://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/

4.NSD設計

使用同等級別存儲io或lun方面，避免短板，加寬條帶化，增加並發讀寫能力。設置多個nsd server，設置nsd 順序，均衡io

5.文件系統

根據以往的經驗結合IBM官方建議，文件系統塊大小設置可以參考以下內容：

在創建文件系統時，生產系統一般建議以下主要幾個參數 -m2 -M2 -r2 -R2 ，當然根據具體需要增大某個值，其他參數並不是可以保持默認，根據情況再做適當調整。

總結：

以上這些參數的設置均不是絕對，而是結合以往歷史經驗參考設置，切記不可完全對號入座，根據實際情況進行適當調整。

六、故障診斷

故障診斷對於日常運維顯得尤為重要，那麼有一個清晰的問題處理流程，那麼在問題出現時就不會過於慌亂，有條不紊進行GPFS 群集方面使用的問題。

GPFS 日常監控：

1.IBM TPC軟件支持GPFS4.1 及以後版本

使用Dstat集成GPFS的插件
基於snmp的如zabbix監控
Mmpmon監控性能
使用IBM提過的監控自定義腳本諸如：getio_s.ksh，gpfs_perf.pl，netperf，collect_stats

GPFS常用的診斷工具大多還是基於本身自帶的一些tools，常用的命令有：mmcluster，mmgetstate -aLs，mmlsconfig all，mmlnsd -aXv，mmchdisk ，mmlicense，mmdf,mmfsadm,mmdiag,mmrestripe,gpfs.snap 等等

下面我將結合著以往的實際經驗，在問題診斷流程方面做一下梳理：

故障診斷流程：

1.網絡是否正常

集群狀態是否正常
nsd磁盤狀態是否正常
查看gpfs 日誌
查看操作系統日誌
具體日誌報錯參考手冊和經驗
收集故障信息給二線進行支持

以下文章點擊率最高

Loading…