读懂GPFS:从基础知识到集群搭建、参数设置优化及故障诊断(五)

当需要IBM支持的时候,IBM经常会让我们收集snap信息,具体方式如下:The command to collect GPFS Snap is “gpfs,snap” , this is very generic but very helpful.

# gpfs.snap

Note: The purpose of above command is to collect the snap on one node in the cluster,preferably the problematic one.If the cluster is experiencing problems as a whole use -a flag

# gpfs.snap -a

Note1: -a flag only recommended for smaller clusters as it collects the logs for all of the nodes in the cluster.Note2: -d option can specify the Output Directory but the default is /tmp/gpfs.snapOut.==> Another recommendation is collect an mmfsadm dump waiters/usr/lpp/mmfs/bin/mmfsadm dump waiters > gpfs.waiters/usr/lpp/mmfs/bin/mmfsadm dump all > gpfs.dump.all/usr/lpp/mmfs/bin/mmfsadm dump kthreads > gpfs.dump.kthreads==> Another file you need to check is log file /var/adm/ras/mmfs.log.latestThis information will greatly assist development in reviewing performance or problematic issues in GPFS.

在这里我们列举一下,在GPFS的日常使用过程当中,经常或者遇到最多的问题,在此提供一些故障原因或解决参考建议。

1.GPFS软件安装配置问题参考:

选择支持操作系统版本

安装必须的操作系统组件

有的编译安装需要指定操作系统版本类型

2.GPFS软件版本升级

参考:

滚动升级群集了集群节点版本,不影响正常整体使用

条件允许的话可以关闭集群统一升级

3.如何动态添加磁盘到GPFS文件系统

参考:

使用支持盘符类型,盘符大小和以前最好保持一致

编写NSD文件,使用支持的书写格式,版本不一致支持的类型不同

4.GPFS 磁盘错误

参考:

没有配置failgroup,使用mmfsck和mmchdisk ,确实不行就需要考虑备份恢复

有failgroup,如果NSD磁盘处于down状态,很多时候需要mmchdisk 或mmdelnsd 删除再从新添加修复

5.GPFS NSD Failure Group 异常

参考:

如果nsd 所在nsd filegroup 异常,需要使用mmchdisk fs_name change -d nsd_name …方法修改为正确的failgroup id

6.群集节点故障或从新安装处理

参考:

群集中节点GPFS不能修复,那么备份正常节点集群配置,修改角色信息,从集群中提出故障节点,重新安装软件,添加至群集,修改参数配置和角色。

7.GPFS网络异常以及网络调整

参考:

诊断是个别节点问题还是整体网络问题

查看OS网络和物理硬件状态

管理网络问题和数据网络问题

修改节点ip或者添加允许通讯网络

8.删除或添加GPFS群集节点

参考:

删除:协助该节点文件系统,关闭节点,集群中提出节点

添加:安装软件,配置信任,集群添加节点,授权license

9.GPFS文件系统使用异常

参考:

没有挂载,不能正常访问

文件系统没有默认策略,没有指定数据池,空间写入异常

节点挂载出现stale file handle ,重启该故障节点或安装版本补丁或者是fs文件系统磁盘异常修复

参数设置不合理,没有设置复制等

10.群集部分或个别节点性能异常

参考:

版本兼容问题

数据网络异常

使用mmfsadm 和mmdiag 进行诊断

使用gpfs.snap 配合其他日志信息收集必要信息供二线诊断

11.集群如何能够均衡IO

参考:

NSD 设置io server顺序太集中

磁盘添加或删除后没有重新条带化mmrestripe

本篇文章基于社区活动内容“GPFS 应用场景及日常运维管理交流”,希望给大家一个相对清晰明了的认识,为日常的GPFS方面的工作带来便利,文章内容由于笔者经验有限不能涵盖全部内容,敬请谅解。感谢大家积极参与。(作者:董志卫)

原文地址:http://www.aixchina.net/Article/177413,欢迎大家浏览

点击阅读原文,可以到上文提及的“GPFS 应用场景及日常运维管理交流”中,观看大家的讨论。

 

以下文章点击率最高

Loading…

发表评论