当需要IBM支持的时候,IBM经常会让我们收集snap信息,具体方式如下:The command to collect GPFS Snap is “gpfs,snap” , this is very generic but very helpful.
# gpfs.snap
Note: The purpose of above command is to collect the snap on one node in the cluster,preferably the problematic one.If the cluster is experiencing problems as a whole use -a flag
# gpfs.snap -a
Note1: -a flag only recommended for smaller clusters as it collects the logs for all of the nodes in the cluster.Note2: -d option can specify the Output Directory but the default is /tmp/gpfs.snapOut.==> Another recommendation is collect an mmfsadm dump waiters/usr/lpp/mmfs/bin/mmfsadm dump waiters > gpfs.waiters/usr/lpp/mmfs/bin/mmfsadm dump all > gpfs.dump.all/usr/lpp/mmfs/bin/mmfsadm dump kthreads > gpfs.dump.kthreads==> Another file you need to check is log file /var/adm/ras/mmfs.log.latestThis information will greatly assist development in reviewing performance or problematic issues in GPFS.
在这里我们列举一下,在GPFS的日常使用过程当中,经常或者遇到最多的问题,在此提供一些故障原因或解决参考建议。
1.GPFS软件安装配置问题参考:
选择支持操作系统版本
安装必须的操作系统组件
有的编译安装需要指定操作系统版本类型
2.GPFS软件版本升级
参考:
滚动升级群集了集群节点版本,不影响正常整体使用
条件允许的话可以关闭集群统一升级
3.如何动态添加磁盘到GPFS文件系统
参考:
使用支持盘符类型,盘符大小和以前最好保持一致
编写NSD文件,使用支持的书写格式,版本不一致支持的类型不同
4.GPFS 磁盘错误
参考:
没有配置failgroup,使用mmfsck和mmchdisk ,确实不行就需要考虑备份恢复
有failgroup,如果NSD磁盘处于down状态,很多时候需要mmchdisk 或mmdelnsd 删除再从新添加修复
5.GPFS NSD Failure Group 异常
参考:
如果nsd 所在nsd filegroup 异常,需要使用mmchdisk fs_name change -d nsd_name …方法修改为正确的failgroup id
6.群集节点故障或从新安装处理
参考:
群集中节点GPFS不能修复,那么备份正常节点集群配置,修改角色信息,从集群中提出故障节点,重新安装软件,添加至群集,修改参数配置和角色。
7.GPFS网络异常以及网络调整
参考:
诊断是个别节点问题还是整体网络问题
查看OS网络和物理硬件状态
管理网络问题和数据网络问题
修改节点ip或者添加允许通讯网络
8.删除或添加GPFS群集节点
参考:
删除:协助该节点文件系统,关闭节点,集群中提出节点
添加:安装软件,配置信任,集群添加节点,授权license
9.GPFS文件系统使用异常
参考:
没有挂载,不能正常访问
文件系统没有默认策略,没有指定数据池,空间写入异常
节点挂载出现stale file handle ,重启该故障节点或安装版本补丁或者是fs文件系统磁盘异常修复
参数设置不合理,没有设置复制等
10.群集部分或个别节点性能异常
参考:
版本兼容问题
数据网络异常
使用mmfsadm 和mmdiag 进行诊断
使用gpfs.snap 配合其他日志信息收集必要信息供二线诊断
11.集群如何能够均衡IO
参考:
NSD 设置io server顺序太集中
磁盘添加或删除后没有重新条带化mmrestripe
本篇文章基于社区活动内容“GPFS 应用场景及日常运维管理交流”,希望给大家一个相对清晰明了的认识,为日常的GPFS方面的工作带来便利,文章内容由于笔者经验有限不能涵盖全部内容,敬请谅解。感谢大家积极参与。(作者:董志卫)
原文地址:http://www.aixchina.net/Article/177413,欢迎大家浏览
点击阅读原文,可以到上文提及的“GPFS 应用场景及日常运维管理交流”中,观看大家的讨论。
以下文章点击率最高
Loading…