當需要IBM支持的時候,IBM經常會讓我們收集snap信息,具體方式如下:The command to collect GPFS Snap is “gpfs,snap” , this is very generic but very helpful.
# gpfs.snap
Note: The purpose of above command is to collect the snap on one node in the cluster,preferably the problematic one.If the cluster is experiencing problems as a whole use -a flag
# gpfs.snap -a
Note1: -a flag only recommended for smaller clusters as it collects the logs for all of the nodes in the cluster.Note2: -d option can specify the Output Directory but the default is /tmp/gpfs.snapOut.==> Another recommendation is collect an mmfsadm dump waiters/usr/lpp/mmfs/bin/mmfsadm dump waiters > gpfs.waiters/usr/lpp/mmfs/bin/mmfsadm dump all > gpfs.dump.all/usr/lpp/mmfs/bin/mmfsadm dump kthreads > gpfs.dump.kthreads==> Another file you need to check is log file /var/adm/ras/mmfs.log.latestThis information will greatly assist development in reviewing performance or problematic issues in GPFS.
在這裡我們列舉一下,在GPFS的日常使用過程當中,經常或者遇到最多的問題,在此提供一些故障原因或解決參考建議。
1.GPFS軟件安裝配置問題參考:
選擇支持操作系統版本
安裝必須的操作系統組件
有的編譯安裝需要指定操作系統版本類型
2.GPFS軟件版本升級
參考:
滾動升級群集了集群節點版本,不影響正常整體使用
條件允許的話可以關閉集群統一升級
3.如何動態添加磁盤到GPFS文件系統
參考:
使用支持盤符類型,盤符大小和以前最好保持一致
編寫NSD文件,使用支持的書寫格式,版本不一致支持的類型不同
4.GPFS 磁盤錯誤
參考:
沒有配置failgroup,使用mmfsck和mmchdisk ,確實不行就需要考慮備份恢復
有failgroup,如果NSD磁盤處於down狀態,很多時候需要mmchdisk 或mmdelnsd 刪除再從新添加修復
5.GPFS NSD Failure Group 異常
參考:
如果nsd 所在nsd filegroup 異常,需要使用mmchdisk fs_name change -d nsd_name …方法修改為正確的failgroup id
6.群集節點故障或從新安裝處理
參考:
群集中節點GPFS不能修復,那麼備份正常節點集群配置,修改角色信息,從集群中提出故障節點,重新安裝軟件,添加至群集,修改參數配置和角色。
7.GPFS網絡異常以及網絡調整
參考:
診斷是個別節點問題還是整體網絡問題
查看OS網絡和物理硬件狀態
管理網絡問題和數據網絡問題
修改節點ip或者添加允許通訊網絡
8.刪除或添加GPFS群集節點
參考:
刪除:協助該節點文件系統,關閉節點,集群中提出節點
添加:安裝軟件,配置信任,集群添加節點,授權license
9.GPFS文件系統使用異常
參考:
沒有掛載,不能正常訪問
文件系統沒有默認策略,沒有指定數據池,空間寫入異常
節點掛載出現stale file handle ,重啟該故障節點或安裝版本補丁或者是fs文件系統磁盤異常修復
參數設置不合理,沒有設置複製等
10.群集部分或個別節點性能異常
參考:
版本兼容問題
數據網絡異常
使用mmfsadm 和mmdiag 進行診斷
使用gpfs.snap 配合其他日誌信息收集必要信息供二線診斷
11.集群如何能夠均衡IO
參考:
NSD 設置io server順序太集中
磁盤添加或刪除後沒有重新條帶化mmrestripe
本篇文章基於社區活動內容「GPFS 應用場景及日常運維管理交流」,希望給大家一個相對清晰明了的認識,為日常的GPFS方面的工作帶來便利,文章內容由於筆者經驗有限不能涵蓋全部內容,敬請諒解。感謝大家積极參与。(作者:董志衛)
原文地址:http://www.aixchina.net/Article/177413,歡迎大家瀏覽
點擊閱讀原文,可以到上文提及的「GPFS 應用場景及日常運維管理交流」中,觀看大家的討論。
以下文章點擊率最高
Loading…