某客户CICS WLM集群生产环境, 灾备演练前,cicswlmstat状态前后不一致

某客户CICS WLM集群生产环境,生产环境, 灾备演练前,查看WLM的运行状态如下:
[csp-cics2/#]cicswlmstat
BHG3963I 09/05/18 10:48:39 WLM status and routing status
HOST-NAME                WLM-NODE              STATUS  SELECTION     NORMAL      ABEND
Info-not-available       CSPSAR11      Region-Running          0          0          0
Info-not-available       CSPSAR21      Region-Running          0          0          0
Info-not-available       CSPSAR12      Region-Running          0          0          0
Info-not-available       CSPSAR13      Region-Running          0          0          0
Info-not-available       CSPSAR22      Region-Running          0          0          0
Info-not-available       CSPSAR23      Region-Running          0          0          0
Info-not-available       CSPSAR14      Region-Running          0          0          0
Info-not-available       CSPSAR15      Region-Running          0          0          0
Info-not-available       CSPSAR24      Region-Running          0          0          0
Info-not-available       CSPSAR25      Region-Running          0          0          0

灾备演练后,查看WLM的运行状态如下:

[csp-cics2/#]cicswlmstat
BHG3963I 09/09/18 04:59:13 WLM status and routing status
HOST-NAME                WLM-NODE              STATUS  SELECTION     NORMAL      ABEND
csp-cics1                CSPSAR11      Region-Running          0          0          0
csp-cics2                CSPSAR21      Region-Running          0          0          0
csp-cics2                CICSCSPS      Region-Running          0          0          0

就是wlm的运行状态,在灾备演练前后,不一致。 但现在生产环境的业务一切正常。
产生如此奇怪的问题,一时不得其解,最后求助IBM 同事和IBM实验室,IBM同事回复如下 :


几个方面:
1. cicswlmstat 本身在XXX(某客户)的架构下就有问题,cicswlmstat单机只支持一个wap,也就是第一个启动的wap。但是XXX(某客户)的架构里一台机有五个。所以本身通过cicswlmstat就有局限性,其状态不能确保一定会返回正确信息。这个问题当时在建设期应该有沟通。

2.附件中演练后检查并没有检查CTG cicscli的输出,COR判断AOR的状态时,是需要CTG启动中。(这里补充一点,事实上CICSCLI的输出,所有cics region对应的ctg客户端都启动正常 ,都提示可用)

3.WLM不工作时,COR会将请求只分发至第一个AOR,所以业务功能方面无论如何都不会受到影响,除非一个AOR都没有。

最后求助IBM 实验室,IBM实验室的回复如下:
Initially CICSWLMSTAT will try to fetch the region related information
from WCM. If WCM cache is empty, it will try to get the information
from WAP. WAP will be having global data related to all the plex.
This might have caused printing all the regions as output of
cicswlmstat.
When the regions are restarted and cicswlmstat command is issued the
WCM is loaded properly and it is able to fetch the information related
to region.
看这个意思,应该是CICSWLM第一次启动时候,因为WCM CACHE是空的,所以,就将PLEX的全局数据输出来,这就可能是输出全部REGION信息的原因。而当第二次重启时候,CICSWLMSTATS就只输出 当前机器的REGION信息。

“Info-not-available” is seen when cicswlmstat is not able to retrieve
the information of hostname from wcm/wap.
This may be due to unsuccessful load of wcl or wap.
This will not have any impact on customer environment.
Kindly ask customer to check the scenario/conditions if the issue
occurs again.
看这个意思, Info-not-available  是代表cicswlmstat第一次启动是不能从WCM/WAP读取HOSTNAME信息。这个可能是当时,没有正确加载WCL 或者WAP。但这个都不会影晌到当前客户环境,也就是不会影晌到客户的业务应用。

以下文章点击率最高

Loading…

发表评论