讀懂GPFS:從基礎知識到集群搭建、參數設置優化及故障診斷(五)

當需要IBM支持的時候,IBM經常會讓我們收集snap信息,具體方式如下:The command to collect GPFS Snap is “gpfs,snap” , this is very generic but very helpful.

# gpfs.snap

Note: The purpose of above command is to collect the snap on one node in the cluster,preferably the problematic one.If the cluster is experiencing problems as a whole use -a flag

# gpfs.snap -a

Note1: -a flag only recommended for smaller clusters as it collects the logs for all of the nodes in the cluster.Note2: -d option can specify the Output Directory but the default is /tmp/gpfs.snapOut.==> Another recommendation is collect an mmfsadm dump waiters/usr/lpp/mmfs/bin/mmfsadm dump waiters > gpfs.waiters/usr/lpp/mmfs/bin/mmfsadm dump all > gpfs.dump.all/usr/lpp/mmfs/bin/mmfsadm dump kthreads > gpfs.dump.kthreads==> Another file you need to check is log file /var/adm/ras/mmfs.log.latestThis information will greatly assist development in reviewing performance or problematic issues in GPFS.

在這裡我們列舉一下,在GPFS的日常使用過程當中,經常或者遇到最多的問題,在此提供一些故障原因或解決參考建議。

1.GPFS軟件安裝配置問題參考:

選擇支持操作系統版本

安裝必須的操作系統組件

有的編譯安裝需要指定操作系統版本類型

2.GPFS軟件版本升級

參考:

滾動升級群集了集群節點版本,不影響正常整體使用

條件允許的話可以關閉集群統一升級

3.如何動態添加磁盤到GPFS文件系統

參考:

使用支持盤符類型,盤符大小和以前最好保持一致

編寫NSD文件,使用支持的書寫格式,版本不一致支持的類型不同

4.GPFS 磁盤錯誤

參考:

沒有配置failgroup,使用mmfsck和mmchdisk ,確實不行就需要考慮備份恢復

有failgroup,如果NSD磁盤處於down狀態,很多時候需要mmchdisk 或mmdelnsd 刪除再從新添加修復

5.GPFS NSD Failure Group 異常

參考:

如果nsd 所在nsd filegroup 異常,需要使用mmchdisk fs_name change -d nsd_name …方法修改為正確的failgroup id

6.群集節點故障或從新安裝處理

參考:

群集中節點GPFS不能修復,那麼備份正常節點集群配置,修改角色信息,從集群中提出故障節點,重新安裝軟件,添加至群集,修改參數配置和角色。

7.GPFS網絡異常以及網絡調整

參考:

診斷是個別節點問題還是整體網絡問題

查看OS網絡和物理硬件狀態

管理網絡問題和數據網絡問題

修改節點ip或者添加允許通訊網絡

8.刪除或添加GPFS群集節點

參考:

刪除:協助該節點文件系統,關閉節點,集群中提出節點

添加:安裝軟件,配置信任,集群添加節點,授權license

9.GPFS文件系統使用異常

參考:

沒有掛載,不能正常訪問

文件系統沒有默認策略,沒有指定數據池,空間寫入異常

節點掛載出現stale file handle ,重啟該故障節點或安裝版本補丁或者是fs文件系統磁盤異常修復

參數設置不合理,沒有設置複製等

10.群集部分或個別節點性能異常

參考:

版本兼容問題

數據網絡異常

使用mmfsadm 和mmdiag 進行診斷

使用gpfs.snap 配合其他日誌信息收集必要信息供二線診斷

11.集群如何能夠均衡IO

參考:

NSD 設置io server順序太集中

磁盤添加或刪除後沒有重新條帶化mmrestripe

本篇文章基於社區活動內容“GPFS 應用場景及日常運維管理交流”,希望給大家一個相對清晰明了的認識,為日常的GPFS方面的工作帶來便利,文章內容由於筆者經驗有限不能涵蓋全部內容,敬請諒解。感謝大家積极參与。(作者:董志衛)

原文地址:http://www.aixchina.net/Article/177413,歡迎大家瀏覽

點擊閱讀原文,可以到上文提及的“GPFS 應用場景及日常運維管理交流”中,觀看大家的討論。

 

以下文章點擊率最高

Loading…

     

如果這文章對你有幫助,請掃左上角微信支付-支付寶,給於打賞,以助博客運營