读懂GPFS:从基础知识到集群搭建、参数设置优化及故障诊断(四)

GPFS 可靠性分析与如何设计

基于上面阐述的 GPFS 可用性机制,我们可以看出 GPFS 是通过上述的三种 quorum 机制来检查资源是否超过半数状态正常来判断系统状态好坏。我们在设计 GPFS 文件系统集群的时候需要注意最好保证各种资源数都为 2N+1 个(N 是指数量),也即数量为奇数,来获得系统最大的可用性。

  • Filesystem Descriptor (FD)Quorum的设计。我们在一般的生产系统中都会使用两组不同的failure group 的磁盘来创建一个文件系统,以实现数据的冗余保护,但是丢失一个 failure group 的磁盘实际不影响数据的完整性,但是由于 FD quorum 2N+1 的机制,文件系统仍将会关闭,所以我们在创建一个 GPFS 文件系统时,可以通过增加一个很小的本地的磁盘作为第三个 failure group。以实现 2N+1 的冗余设计。本地的磁盘可以设置为只保存 GPFS 文件系统信息(FD),实际不参与数据读写。(同一个 failure group 的磁盘是指有可能同时坏掉的磁盘,比如来自同一个存储的磁盘或连在同一个适配器上的磁盘)
  • Node Quorum如果采用了 2N+1 个 Quorum Node,那么这个系统就能容忍 N 个主机节点的离线,所以如果主机节点小于 5 个采用此种方法都不是很经济,此时建议采用 Tiebreaker quorum 机制。
  • Tiebreaker quorum只能配置两个 quorum 主机,但是只要 tiebreaker 磁盘在线,只有一个 quorum 主机状态正常,系统也能正常工作,同时也意味着必须有一台 quorum 主机在线。如果是主机节点数较多的情况,采用此种机制其可靠性不如 Node quorum。

参考链接:https://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/

4.NSD设计

使用同等级别存储io或lun方面,避免短板,加宽条带化,增加并发读写能力。设置多个nsd server,设置nsd 顺序,均衡io

5.文件系统

根据以往的经验结合IBM官方建议,文件系统块大小设置可以参考以下内容:

在创建文件系统时,生产系统一般建议以下主要几个参数 -m2 -M2 -r2 -R2 ,当然根据具体需要增大某个值,其他参数并不是可以保持默认,根据情况再做适当调整。

总结:

以上这些参数的设置均不是绝对,而是结合以往历史经验参考设置,切记不可完全对号入座,根据实际情况进行适当调整。

六、故障诊断

故障诊断对于日常运维显得尤为重要,那么有一个清晰的问题处理流程,那么在问题出现时就不会过于慌乱,有条不紊进行GPFS 群集方面使用的问题。

GPFS 日常监控:

1.IBM TPC软件 支持GPFS4.1 及以后版本

  1. 使用Dstat集成GPFS的插件
  2. 基于snmp的如zabbix监控
  3. Mmpmon监控性能
  4. 使用IBM提过的监控自定义脚本诸如:getio_s.ksh,gpfs_perf.pl,netperf,collect_stats

GPFS常用的诊断工具大多还是基于本身自带的一些tools,常用的命令有:mmcluster,mmgetstate -aLs,mmlsconfig all,mmlnsd -aXv,mmchdisk ,mmlicense,mmdf,mmfsadm,mmdiag,mmrestripe,gpfs.snap 等等

下面我将结合着以往的实际经验,在问题诊断流程方面做一下梳理:

故障诊断流程:

1.网络是否正常

  1. 集群状态是否正常
  2. nsd磁盘状态是否正常
  3. 查看gpfs 日志
  4. 查看操作系统日志
  5. 具体日志报错参考手册和经验
  6. 收集故障信息给二线进行支持

以下文章点击率最高

Loading…

发表评论