提供IBM /ORACLE 期下的websphere/Weblogic 中间件, 以及db2 /oracle数据库方面等产品诊断排障,
包括 WAS,MQ,ilog(odm),wps(bpm),wsrr,LDAP,TSM.NBU,CICS.Lotus. 诊断排障DB2,Informix,Oracle,sybase.excahnge.weblogic.Portal等产品的。。。。
这里会记录以往帮客户应用环境诊断与排障的记录,陆续会更新,敬请关注。
序号 | 故障时间 | 项目(客户) | 项目(客户)故障情况 | 故障诊断与排除简述 |
001 | 2019.11 | 广州机电院ORACLE DG环境漏洞修复 | 安全扫描工具扫描ORACLE ADG环境存在大量漏 洞 | 下载补丁,停ADG,给ORACLE ADG环境两个节点,分别升级补丁,然后再启ADG,确认环境可用,补丁安装升级成功。 |
002 | 2020.3 | 广州机电院ORACLE11G数据库恢复 | 技术人员误操作,给ORACLE 导入错误数据,造成数据异常。 | 首先用expdp 将 oracle环境数据全备,然后用impdp 将备份数据恢复到oracle环境,恢复数据可用。 |
003 | 2019.12 | 广州金域检验检测公司ORACLE ASM磁盘维护 | 客户增置新存储,需将oracle数据 迁移到新存储,然后旧存储下线。 | 在新存储,创建新磁盘,通过ASM加盘,加入oracle 环境磁盘组,ASM磁盘平衡完,将原来的旧存储ASM磁盘从ORACLE环境的磁盘组迁走(踢盘),实现数据从旧存储迁到新存储。 |
004 | 2019.12 | 南部战区空军医院 AD故障排除处理 | 客户反馈域控的AD服务异常,造成AD用户连接与登录AD 共享目录很慢。客户的AD有三台,一主两备。不同操作系统,只有其中一台存在异常。 | 查证域控 的AD服务。发现不可用,查证域控的系统服务,发现服务都是正常状态,再次查证系统服务,发现系统服务存在一些不知名的安全软件服务,并发现该安全软件服务会自动影晌一些系统服务。将该安全软件服务禁停,并卸载。AD服务恢复正常,不再收到客户反馈有类似的AD 用户连接缓慢问题。 |
005 | 2020.1 | 广东省邮储VDI-AD故障排除与处理 | 微软的AD服务不可用,造成域控异常,造成VMWARE VDI桌面不可用。全部用户无法登录。 | 查证域控 的AD服务。发现不可用,查证域控的系统服务,发现某AD核心服务给禁用,恢复该服务,AD服务恢复,VDI 用户可以正常登录。后查证,才知是域控的安全杀毒软件自动升级,造 成AD 服务自动给禁停。 |
006 | 2019.12 | 广东省邮储ORACLE RAC 故障排除与数据恢复 | 起初,客户反映只是删除一些TMP文件,就发现RAC环境访问缓慢,重启与停止CRS服务,发现很久才恢复与晌应。貌似I/0紧张,怀疑是后端挂载的存储问题。 | 在查证期间,机房有同事在拔插存储里的磁盘,造成RAC无法正常起来,最终确认是存储问题 。临时增加新存储,将数据实例先启动起来,再次查证,发现有某个磁盘组不可用,里面的磁盘的数据无法读取,最后只能先将数据恢复与挂载新存储,然后对旧存储修复,并恢复损坏的磁盘组的数据,再将好的和修复好的数据,一并挂载到新存储。待旧存储修复后,再通过ASM磁盘平衡,将数据再次恢复到旧存储。将临时增加的新存储下线。 |
007 | 2020.1 | 佛山市移动oracle rac节点故障诊断与排除 | RAC 一个节点所在的主机主板损坏,更换主板后,该节点的RAC CRS无法恢复,ORACLE实例无法访问。 | 查证后,确认是该节点的网络问题 。 |
008 | 2018.7 | 深圳市工银国际cognos 数据导出故障诊断与排除 | cognos10.1 导出数据成 excel2007 数据表格时,导出很慢,最后导出报错, 日志有time out报错。导出成pdf格式,或者导出成excel2003 正常。 | 后深入分析与查证,确认是cognos10.1的版本过低,不支持excel2007。 |
009 | 2019.6 | 深圳市华商银行MQ 故障诊断与排除 | MQ因为物理故障重启,修复机器物理故障后,MQ 客户端无法连接MQ服务器端。 | 深入查证后,发现MQ服务器端的某服务没有正常恢复与启动起来,后修复该 服务,MQ客户端可以正常连接MQ服务器端。 |
010 | 2018.8 | 广东省中国银行WAS故障诊断与排除 | WINDOWS2003安装的WAS6.1 ,在WINDOWS2003重启后,无法启动WAS6.1,造成was 服务不可用,客户急需在一个半小时内恢复WAS6.1应用服务。 | 后深入查证与了解客户的现场 环境后,发现WAS6.1的应用节点的JVM最小内存被改成机器物理内存的值,致使was服务无法获取到足够的初始化内存,迁成WAS服务无法正常启动,修改server.xml,降低jvm最小内存值,重启WAS,WAS服务最后恢复正常。 |
011 | 2018.9 | 某银行Weblogic故障诊断与排除 | weblogic 在运行过程中,经常报用户连接数不够,造成weblogic服务经常time out.造成用户经常无法正常连接应用。 | 起初认为是weblogic的最大用户连接数值 设置过小,多次调整最大用户连接数,情况没有改善,后深入查证用户的应用系统日志和weblogic 日志,后确认是应用的sql语句问题。造成用户连接数不会自动释放,致使用户连接数很快给用完,而报 错。 |
012 | 2018.5 | 广东省中国银行cics故障诊断与排除 | 客户反馈CICS 日志里,时不时出现OUT OF MEMERYY(内存溢出错误),影晌业务 | 经深入分析CICS日志 ,最后 调整 CICS某参数值 ,最后问题 解决。 |
013 | 2018.10 | 广东省高等法院MQ故障诊断与排除 | 因为物理故障,造成MQ系统重启,重启后,MQ集群不可用,MQ之间数据无法正常传输,数据一进入通道,通道状态就异常。 | 多次重置通道,多次放入测试数据到队列,情况还是一样。数据一进入队列,通道就报异常,最后 重建队列管理器,重建 通道,重建测试队列,放入测试数据。测试正常,通道正常。然后从备份中,重建Q 复制的队列,重设Q复制。MQ 集群恢复正常。 |
014 | 2018.4 | 佛山市农商行WAS故障诊断与排除 | 客户反馈布署到WAS的某业务应用,在运行一段时间后,会 hang住,前台点击没有反应。 | 经过分析,WAS应用在重启一段时间后,业务应用正常,但经一段时间,应用没有反应,后测试与分析日志,发现有某段ORACLE 业务SQL ,在执行后,总不能自动释放,一直停在ORACLE的业务日志里,最后确认是该 SQL 存在问题 ,致使该SQL执行完,不会自动SESSION和资源,致使时间一长,并多次调用业务模块时,会hang住 应用。 |
015 | 2020.1 | 中山市人民医院病历系统集群发生自动切换 | 客户反馈病历系统出现过几次HA自动切换情况 | 后查证,从WINDOWS系统日志里,发现系统日志不断报有某个共享文件夹无法访问。后跟客户沟通,得知客户前段时间手工删除该文件夹。 |
016 | 2020.2 | 信诚保险公司IIS 内存溢出故障 | 客户反馈IIS 日志里会不定时报内存溢出错误 | 经诊断分析,基本上是确认IIS的业务应用基于32位编译器生成,并运行在64位的操作系统上,致使32位应用不能获取足够的内存,致使业务访问量,日志里就会报OUT OF MEMERRY(内存溢出),需要在64位编译器重编译应用。 |
017 | 2020.4 | 某生物医药公司 MS SQRVER AWAYSON集群 故障诊断与排除 | 某生物医药公司 MS SQRVER AWAYSON集群不能顺利创建 LISTEN | 多次重建 aways on 集群,MS 故障转移集群可以成功创建 与切换,但就是不能创建 LISTEN ,创建 LISTEN 报19471错误,后经深入分折与诊断,确认是集群用户所在AD的位置 不对,致使无法创建 ,调整到集群用户在正确的目录,可以成功LISTEN,并测试一切正常。 |
018 | 2020.5 | 中山人民医院某系统SQLSERVER2012定时调度任务调度失效 | 中山人民医院某系统SQLSERVER2012定时调度任务调度失效,某存储过程无法正常调度执行 | 经过日志分析与测试,存储过程可以手工执行,但通过SQLSERVER的定时调度执行失败。分析日志得知,原来是某系统功能组件因为杀毒软件更新而自动失效。需要重新激活该系统功能组件。 |
019 | 2020.6 | 广州中医院大学第一附属医院SQLSERVER 故障诊断与排除 | 广州中医院大学第一附属医院SQLSERVER ,每隔一个小时,就资源占满 ,无法访问与使用。只能暴力重启。 | 经过日志分析与排查,确认系统日志没有报错。确认数据库日志也没有异常报错,确认数据库定时调度任务没异常,确认存储过程也没有异常。后来从杀毒软件日志,查看到不断有进程对某应用端口访问,杀毒软件误认为这个进程是执行DOS拒绝服务攻击。后从系统禁止该应用端口。DOS攻击失效。故障没有再出现。 |
020 | 2020.12 | 广东省中医院SQLSERVER故障诊断与排除 | 广东省中医院客户端访问SQLSERVER服务器慢,并且无法往SQLSERVER服务器上传图片 | 经过日志分析与排查,确认系统日志没有报错,确认数据库日志也没有异常报错,确认数据库服务器系统CPU,内存,硬盘I/O,网络问题 ,并且在SQLSERVER服务器SSMS查询与调用当前最耗时的SQL,也不见异常,因而诊断SQLSERVER数据库没有问题。相反系统里安装360安全软件,怀疑是安全软件的安全策略没有设置正确,对于大量数据传输与访问,会错误认为是DDOS攻击,而加以阻止与屏蔽。因而造成数据库连接异常。
|
021 | 2021.2 | 广东省中医院SQLSERVER故障诊断与排除 | 广东省中医院 SQL Server Management Studio 显示SQL SERVER代理某日志清理作业 报错:c001f011(Microsfoft.SqlServer.ManagedDTS) | 分析与诊断报错信息,并提供解决办法,最终解决报错。 |
022 | 2021.3 | 深圳中信银行Websphere 升级与漏洞修补 | 中信银行某业务系统内部安全扫描得出WAS存在某个漏洞,需要升级与修补 | 在现场,进行was8.5.5.0升级到 was8.5.5.12,并打上漏洞修补补丁。 |
023 | 2021.5 | 广东省中医院SQLSERVER 数据移位故障诊断与排除 | 先电话沟通,了解到从ORACLE导出的CSV平面文件导入到MSSQL时,存在数据移位问题。 | 去到现场,查看故障情况,初步怀疑是CSV平面文件存在错误字符或者编码不对。排查下,发现有个英文逗号字符会将一段中文字符串,分成两部份,最后,将这个英文逗号全局替换成中文逗号字符,再次导入预读,发现数据移位问题不在出现,数据可以成功导入,问题最终解决。 |
。
江门MQ故障分析报告(PDF版)
1 文件 389.58 KB
WAS内存溢出分析报告(pdf版)
1 文件 732.55 KB