提供IBM /ORACLE   期下的websphere/Weblogic 中间件, 以及db2 /oracle数据库方面等产品诊断排障,

包括 WAS,MQ,ilog(odm),wps(bpm),wsrr,LDAP,TSM.NBU,CICS.Lotus. 诊断排障DB2,Informix,Oracle,sybase.excahnge.weblogic.Portal等产品的。。。。

这里会记录以往帮客户应用环境诊断与排障的记录,陆续会更新,敬请关注。

序号 故障时间 项目(客户)  项目(客户)故障情况 故障诊断与排除简述
001 2019.11 广州机电院ORACLE DG环境漏洞修复 安全扫描工具扫描ORACLE ADG环境存在大量漏 洞 下载补丁,停ADG,给ORACLE ADG环境两个节点,分别升级补丁,然后再启ADG,确认环境可用,补丁安装升级成功。
002 2020.3 广州机电院ORACLE11G数据库恢复 技术人员误操作,给ORACLE 导入错误数据,造成数据异常。  首先用expdp 将  oracle环境数据全备,然后用impdp 将备份数据恢复到oracle环境,恢复数据可用。
003 2019.12 广州金域检验检测公司ORACLE ASM磁盘维护 客户增置新存储,需将oracle数据  迁移到新存储,然后旧存储下线。 在新存储,创建新磁盘,通过ASM加盘,加入oracle 环境磁盘组,ASM磁盘平衡完,将原来的旧存储ASM磁盘从ORACLE环境的磁盘组迁走(踢盘),实现数据从旧存储迁到新存储。
004 2019.12 南部战区空军医院 AD故障排除处理 客户反馈域控的AD服务异常,造成AD用户连接与登录AD 共享目录很慢。客户的AD有三台,一主两备。不同操作系统,只有其中一台存在异常。 查证域控 的AD服务。发现不可用,查证域控的系统服务,发现服务都是正常状态,再次查证系统服务,发现系统服务存在一些不知名的安全软件服务,并发现该安全软件服务会自动影晌一些系统服务。将该安全软件服务禁停,并卸载。AD服务恢复正常,不再收到客户反馈有类似的AD 用户连接缓慢问题。
005 2020.1 广东省邮储VDI-AD故障排除与处理 微软的AD服务不可用,造成域控异常,造成VMWARE VDI桌面不可用。全部用户无法登录。 查证域控 的AD服务。发现不可用,查证域控的系统服务,发现某AD核心服务给禁用,恢复该服务,AD服务恢复,VDI 用户可以正常登录。后查证,才知是域控的安全杀毒软件自动升级,造 成AD 服务自动给禁停。
006 2019.12 广东省邮储ORACLE  RAC 故障排除与数据恢复 起初,客户反映只是删除一些TMP文件,就发现RAC环境访问缓慢,重启与停止CRS服务,发现很久才恢复与晌应。貌似I/0紧张,怀疑是后端挂载的存储问题。 在查证期间,机房有同事在拔插存储里的磁盘,造成RAC无法正常起来,最终确认是存储问题 。临时增加新存储,将数据实例先启动起来,再次查证,发现有某个磁盘组不可用,里面的磁盘的数据无法读取,最后只能先将数据恢复与挂载新存储,然后对旧存储修复,并恢复损坏的磁盘组的数据,再将好的和修复好的数据,一并挂载到新存储。待旧存储修复后,再通过ASM磁盘平衡,将数据再次恢复到旧存储。将临时增加的新存储下线。
007 2020.1 佛山市移动oracle rac节点故障诊断与排除 RAC 一个节点所在的主机主板损坏,更换主板后,该节点的RAC CRS无法恢复,ORACLE实例无法访问。 查证后,确认是该节点的网络问题 。
008 2018.7 深圳市工银国际cognos 数据导出故障诊断与排除 cognos10.1 导出数据成 excel2007 数据表格时,导出很慢,最后导出报错, 日志有time out报错。导出成pdf格式,或者导出成excel2003 正常。 后深入分析与查证,确认是cognos10.1的版本过低,不支持excel2007。
009 2019.6 深圳市华商银行MQ 故障诊断与排除 MQ因为物理故障重启,修复机器物理故障后,MQ 客户端无法连接MQ服务器端。 深入查证后,发现MQ服务器端的某服务没有正常恢复与启动起来,后修复该 服务,MQ客户端可以正常连接MQ服务器端。
010 2018.8 广东省中国银行WAS故障诊断与排除 WINDOWS2003安装的WAS6.1 ,在WINDOWS2003重启后,无法启动WAS6.1,造成was 服务不可用,客户急需在一个半小时内恢复WAS6.1应用服务。 后深入查证与了解客户的现场 环境后,发现WAS6.1的应用节点的JVM最小内存被改成机器物理内存的值,致使was服务无法获取到足够的初始化内存,迁成WAS服务无法正常启动,修改server.xml,降低jvm最小内存值,重启WAS,WAS服务最后恢复正常。
011 2018.9 某银行Weblogic故障诊断与排除 weblogic 在运行过程中,经常报用户连接数不够,造成weblogic服务经常time out.造成用户经常无法正常连接应用。 起初认为是weblogic的最大用户连接数值 设置过小,多次调整最大用户连接数,情况没有改善,后深入查证用户的应用系统日志和weblogic 日志,后确认是应用的sql语句问题。造成用户连接数不会自动释放,致使用户连接数很快给用完,而报 错。
012 2018.5 广东省中国银行cics故障诊断与排除 客户反馈CICS 日志里,时不时出现OUT OF MEMERYY(内存溢出错误),影晌业务 经深入分析CICS日志 ,最后 调整 CICS某参数值 ,最后问题 解决。
013 2018.10 广东省高等法院MQ故障诊断与排除 因为物理故障,造成MQ系统重启,重启后,MQ集群不可用,MQ之间数据无法正常传输,数据一进入通道,通道状态就异常。 多次重置通道,多次放入测试数据到队列,情况还是一样。数据一进入队列,通道就报异常,最后 重建队列管理器,重建 通道,重建测试队列,放入测试数据。测试正常,通道正常。然后从备份中,重建Q 复制的队列,重设Q复制。MQ 集群恢复正常。
014 2018.4 佛山市农商行WAS故障诊断与排除 客户反馈布署到WAS的某业务应用,在运行一段时间后,会 hang住,前台点击没有反应。 经过分析,WAS应用在重启一段时间后,业务应用正常,但经一段时间,应用没有反应,后测试与分析日志,发现有某段ORACLE 业务SQL ,在执行后,总不能自动释放,一直停在ORACLE的业务日志里,最后确认是该 SQL 存在问题 ,致使该SQL执行完,不会自动SESSION和资源,致使时间一长,并多次调用业务模块时,会hang住 应用。
015 2020.1 中山市人民医院病历系统集群发生自动切换 客户反馈病历系统出现过几次HA自动切换情况 后查证,从WINDOWS系统日志里,发现系统日志不断报有某个共享文件夹无法访问。后跟客户沟通,得知客户前段时间手工删除该文件夹。
016 2020.2 信诚保险公司IIS   内存溢出故障 客户反馈IIS  日志里会不定时报内存溢出错误 经诊断分析,基本上是确认IIS的业务应用基于32位编译器生成,并运行在64位的操作系统上,致使32位应用不能获取足够的内存,致使业务访问量,日志里就会报OUT OF MEMERRY(内存溢出),需要在64位编译器重编译应用。
017 2020.4 某生物医药公司 MS SQRVER AWAYSON集群 故障诊断与排除 某生物医药公司 MS SQRVER AWAYSON集群不能顺利创建 LISTEN 多次重建 aways on 集群,MS 故障转移集群可以成功创建 与切换,但就是不能创建 LISTEN ,创建 LISTEN 报19471错误,后经深入分折与诊断,确认是集群用户所在AD的位置 不对,致使无法创建 ,调整到集群用户在正确的目录,可以成功LISTEN,并测试一切正常。
018 2020.5 中山人民医院某系统SQLSERVER2012定时调度任务调度失效 中山人民医院某系统SQLSERVER2012定时调度任务调度失效,某存储过程无法正常调度执行 经过日志分析与测试,存储过程可以手工执行,但通过SQLSERVER的定时调度执行失败。分析日志得知,原来是某系统功能组件因为杀毒软件更新而自动失效。需要重新激活该系统功能组件。
019 2020.6 广州中医院大学第一附属医院SQLSERVER 故障诊断与排除 广州中医院大学第一附属医院SQLSERVER ,每隔一个小时,就资源占满 ,无法访问与使用。只能暴力重启。 经过日志分析与排查,确认系统日志没有报错。确认数据库日志也没有异常报错,确认数据库定时调度任务没异常,确认存储过程也没有异常。后来从杀毒软件日志,查看到不断有进程对某应用端口访问,杀毒软件误认为这个进程是执行DOS拒绝服务攻击。后从系统禁止该应用端口。DOS攻击失效。故障没有再出现。