GPFS 可靠性分析與如何設計
基於上面闡述的 GPFS 可用性機制,我們可以看出 GPFS 是通過上述的三種 quorum 機制來檢查資源是否超過半數狀態正常來判斷系統狀態好壞。我們在設計 GPFS 文件系統集群的時候需要注意最好保證各種資源數都為 2N+1 個(N 是指數量),也即數量為奇數,來獲得系統最大的可用性。
- Filesystem Descriptor (FD)Quorum的設計。我們在一般的生產系統中都會使用兩組不同的failure group 的磁碟來創建一個文件系統,以實現數據的冗餘保護,但是丟失一個 failure group 的磁碟實際不影響數據的完整性,但是由於 FD quorum 2N+1 的機制,文件系統仍將會關閉,所以我們在創建一個 GPFS 文件系統時,可以通過增加一個很小的本地的磁碟作為第三個 failure group。以實現 2N+1 的冗餘設計。本地的磁碟可以設置為只保存 GPFS 文件系統信息(FD),實際不參與數據讀寫。(同一個 failure group 的磁碟是指有可能同時壞掉的磁碟,比如來自同一個存儲的磁碟或連在同一個適配器上的磁碟)
- Node Quorum如果採用了 2N+1 個 Quorum Node,那麼這個系統就能容忍 N 個主機節點的離線,所以如果主機節點小於 5 個採用此種方法都不是很經濟,此時建議採用 Tiebreaker quorum 機制。
- Tiebreaker quorum只能配置兩個 quorum 主機,但是只要 tiebreaker 磁碟在線,只有一個 quorum 主機狀態正常,系統也能正常工作,同時也意味著必須有一台 quorum 主機在線。如果是主機節點數較多的情況,採用此種機制其可靠性不如 Node quorum。
參考鏈接:https://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/
4.NSD設計
使用同等級別存儲io或lun方面,避免短板,加寬條帶化,增加並發讀寫能力。設置多個nsd server,設置nsd 順序,均衡io
5.文件系統
根據以往的經驗結合IBM官方建議,文件系統塊大小設置可以參考以下內容:
在創建文件系統時,生產系統一般建議以下主要幾個參數 -m2 -M2 -r2 -R2 ,當然根據具體需要增大某個值,其他參數並不是可以保持默認,根據情況再做適當調整。
總結:
以上這些參數的設置均不是絕對,而是結合以往歷史經驗參考設置,切記不可完全對號入座,根據實際情況進行適當調整。
六、故障診斷
故障診斷對於日常運維顯得尤為重要,那麼有一個清晰的問題處理流程,那麼在問題出現時就不會過於慌亂,有條不紊進行GPFS 群集方面使用的問題。
GPFS 日常監控:
1.IBM TPC軟體 支持GPFS4.1 及以後版本
- 使用Dstat集成GPFS的插件
- 基於snmp的如zabbix監控
- Mmpmon監控性能
- 使用IBM提過的監控自定義腳本諸如:getio_s.ksh,gpfs_perf.pl,netperf,collect_stats
GPFS常用的診斷工具大多還是基於本身自帶的一些tools,常用的命令有:mmcluster,mmgetstate -aLs,mmlsconfig all,mmlnsd -aXv,mmchdisk ,mmlicense,mmdf,mmfsadm,mmdiag,mmrestripe,gpfs.snap 等等
下面我將結合著以往的實際經驗,在問題診斷流程方面做一下梳理:
故障診斷流程:
1.網路是否正常
- 集群狀態是否正常
- nsd磁碟狀態是否正常
- 查看gpfs 日誌
- 查看操作系統日誌
- 具體日誌報錯參考手冊和經驗
- 收集故障信息給二線進行支持
以下文章點擊率最高
Loading…