读懂GPFS：从基础知识到集群搭建、参数设置优化及故障诊断（四）

GPFS 可靠性分析与如何设计

基于上面阐述的 GPFS 可用性机制，我们可以看出 GPFS 是通过上述的三种 quorum 机制来检查资源是否超过半数状态正常来判断系统状态好坏。我们在设计 GPFS 文件系统集群的时候需要注意最好保证各种资源数都为 2N+1 个（N 是指数量），也即数量为奇数，来获得系统最大的可用性。

Filesystem Descriptor （FD）Quorum的设计。我们在一般的生产系统中都会使用两组不同的failure group 的磁盘来创建一个文件系统，以实现数据的冗余保护，但是丢失一个 failure group 的磁盘实际不影响数据的完整性，但是由于 FD quorum 2N+1 的机制，文件系统仍将会关闭，所以我们在创建一个 GPFS 文件系统时，可以通过增加一个很小的本地的磁盘作为第三个 failure group。以实现 2N+1 的冗余设计。本地的磁盘可以设置为只保存 GPFS 文件系统信息（FD），实际不参与数据读写。（同一个 failure group 的磁盘是指有可能同时坏掉的磁盘，比如来自同一个存储的磁盘或连在同一个适配器上的磁盘）
Node Quorum如果采用了 2N+1 个 Quorum Node，那么这个系统就能容忍 N 个主机节点的离线，所以如果主机节点小于 5 个采用此种方法都不是很经济，此时建议采用 Tiebreaker quorum 机制。
Tiebreaker quorum只能配置两个 quorum 主机，但是只要 tiebreaker 磁盘在线，只有一个 quorum 主机状态正常，系统也能正常工作，同时也意味着必须有一台 quorum 主机在线。如果是主机节点数较多的情况，采用此种机制其可靠性不如 Node quorum。

参考链接：https://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/

4.NSD设计

使用同等级别存储io或lun方面，避免短板，加宽条带化，增加并发读写能力。设置多个nsd server，设置nsd 顺序，均衡io

5.文件系统

根据以往的经验结合IBM官方建议，文件系统块大小设置可以参考以下内容：

在创建文件系统时，生产系统一般建议以下主要几个参数 -m2 -M2 -r2 -R2 ，当然根据具体需要增大某个值，其他参数并不是可以保持默认，根据情况再做适当调整。

总结：

以上这些参数的设置均不是绝对，而是结合以往历史经验参考设置，切记不可完全对号入座，根据实际情况进行适当调整。

六、故障诊断

故障诊断对于日常运维显得尤为重要，那么有一个清晰的问题处理流程，那么在问题出现时就不会过于慌乱，有条不紊进行GPFS 群集方面使用的问题。

GPFS 日常监控：

1.IBM TPC软件支持GPFS4.1 及以后版本

使用Dstat集成GPFS的插件
基于snmp的如zabbix监控
Mmpmon监控性能
使用IBM提过的监控自定义脚本诸如：getio_s.ksh，gpfs_perf.pl，netperf，collect_stats

GPFS常用的诊断工具大多还是基于本身自带的一些tools，常用的命令有：mmcluster，mmgetstate -aLs，mmlsconfig all，mmlnsd -aXv，mmchdisk ，mmlicense，mmdf,mmfsadm,mmdiag,mmrestripe,gpfs.snap 等等

下面我将结合着以往的实际经验，在问题诊断流程方面做一下梳理：

故障诊断流程：

1.网络是否正常

集群状态是否正常
nsd磁盘状态是否正常
查看gpfs 日志
查看操作系统日志
具体日志报错参考手册和经验
收集故障信息给二线进行支持

以下文章点击率最高

Loading…