提供IBM /ORACLE   期下的websphere/Weblogic 中間件, 以及db2 /oracle數據庫方面等產品診斷排障,

包括 WAS,MQ,ilog(odm),wps(bpm),wsrr,LDAP,TSM.NBU,CICS.Lotus. 診斷排障DB2,Informix,Oracle,sybase.excahnge.weblogic.Portal等產品的。。。。

這裡會記錄以往幫客戶應用環境診斷與排障的記錄,陸續會更新,敬請關注。

序號 故障時間 項目(客戶)  項目(客戶)故障情況 故障診斷與排除簡述
001 2019.11 廣州機電院ORACLE DG環境漏洞修復 安全掃描工具掃描ORACLE ADG環境存在大量漏 洞 下載補丁,停ADG,給ORACLE ADG環境兩個節點,分別升級補丁,然後再啟ADG,確認環境可用,補丁安裝升級成功。
002 2020.3 廣州機電院ORACLE11G數據庫恢復 技術人員誤操作,給ORACLE 導入錯誤數據,造成數據異常。  首先用expdp 將  oracle環境數據全備,然後用impdp 將備份數據恢復到oracle環境,恢複數據可用。
003 2019.12 廣州金域檢驗檢測公司ORACLE ASM磁盤維護 客戶增置新存儲,需將oracle數據  遷移到新存儲,然後舊存儲下線。 在新存儲,創建新磁盤,通過ASM加盤,加入oracle 環境磁盤組,ASM磁盤平衡完,將原來的舊存儲ASM磁盤從ORACLE環境的磁盤組遷走(踢盤),實現數據從舊存儲遷到新存儲。
004 2019.12 南部戰區空軍醫院 AD故障排除處理 客戶反饋域控的AD服務異常,造成AD用戶連接與登錄AD 共享目錄很慢。客戶的AD有三台,一主兩備。不同操作系統,只有其中一台存在異常。 查證域控 的AD服務。發現不可用,查證域控的系統服務,發現服務都是正常狀態,再次查證系統服務,發現系統服務存在一些不知名的安全軟件服務,並發現該安全軟件服務會自動影晌一些系統服務。將該安全軟件服務禁停,並卸載。AD服務恢復正常,不再收到客戶反饋有類似的AD 用戶連接緩慢問題。
005 2020.1 廣東省郵儲VDI-AD故障排除與處理 微軟的AD服務不可用,造成域控異常,造成VMWARE VDI桌面不可用。全部用戶無法登錄。 查證域控 的AD服務。發現不可用,查證域控的系統服務,發現某AD核心服務給禁用,恢復該服務,AD服務恢復,VDI 用戶可以正常登錄。後查證,才知是域控的安全殺毒軟件自動升級,造 成AD 服務自動給禁停。
006 2019.12 廣東省郵儲ORACLE  RAC 故障排除與數據恢復 起初,客戶反映只是刪除一些TMP文件,就發現RAC環境訪問緩慢,重啟與停止CRS服務,發現很久才恢復與晌應。貌似I/0緊張,懷疑是後端掛載的存儲問題。 在查證期間,機房有同事在拔插存儲里的磁盤,造成RAC無法正常起來,最終確認是存儲問題 。臨時增加新存儲,將數據實例先啟動起來,再次查證,發現有某個磁盤組不可用,裏面的磁盤的數據無法讀取,最後只能先將數據恢復與掛載新存儲,然後對舊存儲修復,並恢復損壞的磁盤組的數據,再將好的和修復好的數據,一併掛載到新存儲。待舊存儲修復後,再通過ASM磁盤平衡,將數據再次恢復到舊存儲。將臨時增加的新存儲下線。
007 2020.1 佛山市移動oracle rac節點故障診斷與排除 RAC 一個節點所在的主機主板損壞,更換主板後,該節點的RAC CRS無法恢復,ORACLE實例無法訪問。 查證後,確認是該節點的網絡問題 。
008 2018.7 深圳市工銀國際cognos 數據導出故障診斷與排除 cognos10.1 導出數據成 excel2007 數據表格時,導出很慢,最後導出報錯, 日誌有time out報錯。導出成pdf格式,或者導出成excel2003 正常。 後深入分析與查證,確認是cognos10.1的版本過低,不支持excel2007。
009 2019.6 深圳市華商銀行MQ 故障診斷與排除 MQ因為物理故障重啟,修復機器物理故障後,MQ 客戶端無法連接MQ服務器端。 深入查證後,發現MQ服務器端的某服務沒有正常恢復與啟動起來,後修復該 服務,MQ客戶端可以正常連接MQ服務器端。
010 2018.8 廣東省中國銀行WAS故障診斷與排除 WINDOWS2003安裝的WAS6.1 ,在WINDOWS2003重啟後,無法啟動WAS6.1,造成was 服務不可用,客戶急需在一個半小時內恢復WAS6.1應用服務。 後深入查證與了解客戶的現場 環境後,發現WAS6.1的應用節點的JVM最小內存被改成機器物理內存的值,致使was服務無法獲取到足夠的初始化內存,遷成WAS服務無法正常啟動,修改server.xml,降低jvm最小內存值,重啟WAS,WAS服務最後恢復正常。
011 2018.9 某銀行Weblogic故障診斷與排除 weblogic 在運行過程中,經常報用戶連接數不夠,造成weblogic服務經常time out.造成用戶經常無法正常連接應用。 起初認為是weblogic的最大用戶連接數值 設置過小,多次調整最大用戶連接數,情況沒有改善,後深入查證用戶的應用系統日誌和weblogic 日誌,後確認是應用的sql語句問題。造成用戶連接數不會自動釋放,致使用戶連接數很快給用完,而報 錯。
012 2018.5 廣東省中國銀行cics故障診斷與排除 客戶反饋CICS 日誌里,時不時出現OUT OF MEMERYY(內存溢出錯誤),影晌業務 經深入分析CICS日誌 ,最後 調整 CICS某參數值 ,最後問題 解決。
013 2018.10 廣東省高等法院MQ故障診斷與排除 因為物理故障,造成MQ系統重啟,重啟後,MQ集群不可用,MQ之間數據無法正常傳輸,數據一進入通道,通道狀態就異常。 多次重置通道,多次放入測試數據到隊列,情況還是一樣。數據一進入隊列,通道就報異常,最後 重建隊列管理器,重建 通道,重建測試隊列,放入測試數據。測試正常,通道正常。然後從備份中,重建Q 複製的隊列,重設Q複製。MQ 集群恢復正常。
014 2018.4 佛山市農商行WAS故障診斷與排除 客戶反饋布署到WAS的某業務應用,在運行一段時間後,會 hang住,前台點擊沒有反應。 經過分析,WAS應用在重啟一段時間後,業務應用正常,但經一段時間,應用沒有反應,後測試與分析日誌,發現有某段ORACLE 業務SQL ,在執行後,總不能自動釋放,一直停在ORACLE的業務日誌里,最後確認是該 SQL 存在問題 ,致使該SQL執行完,不會自動SESSION和資源,致使時間一長,並多次調用業務模塊時,會hang住 應用。
015 2020.1 中山市人民醫院病歷系統集群發生自動切換 客戶反饋病歷系統出現過幾次HA自動切換情況 後查證,從WINDOWS系統日誌里,發現系統日誌不斷報有某個共享文件夾無法訪問。後跟客戶溝通,得知客戶前段時間手工刪除該文件夾。
016 2020.2 信誠保險公司IIS   內存溢出故障 客戶反饋IIS  日誌里會不定時報內存溢出錯誤 經診斷分析,基本上是確認IIS的業務應用基於32位編譯器生成,並運行在64位的操作系統上,致使32位應用不能獲取足夠的內存,致使業務訪問量,日誌里就會報OUT OF MEMERRY(內存溢出),需要在64位編譯器重編譯應用。
017 2020.4 某生物醫藥公司 MS SQRVER AWAYSON集群 故障診斷與排除 某生物醫藥公司 MS SQRVER AWAYSON集群不能順利創建 LISTEN 多次重建 aways on 集群,MS 故障轉移集群可以成功創建 與切換,但就是不能創建 LISTEN ,創建 LISTEN 報19471錯誤,後經深入分折與診斷,確認是集群用戶所在AD的位置 不對,致使無法創建 ,調整到集群用戶在正確的目錄,可以成功LISTEN,並測試一切正常。
018 2020.5 中山人民醫院某系統SQLSERVER2012定時調度任務調度失效 中山人民醫院某系統SQLSERVER2012定時調度任務調度失效,某存儲過程無法正常調度執行 經過日誌分析與測試,存儲過程可以手工執行,但通過SQLSERVER的定時調度執行失敗。分析日誌得知,原來是某系統功能組件因為殺毒軟件更新而自動失效。需要重新激活該系統功能組件。
019 2020.6 廣州中醫院大學第一附屬醫院SQLSERVER 故障診斷與排除 廣州中醫院大學第一附屬醫院SQLSERVER ,每隔一個小時,就資源佔滿 ,無法訪問與使用。只能暴力重啟。 經過日誌分析與排查,確認系統日誌沒有報錯。確認數據庫日誌也沒有異常報錯,確認數據庫定時調度任務沒異常,確認存儲過程也沒有異常。後來從殺毒軟件日誌,查看到不斷有進程對某應用端口訪問,殺毒軟件誤認為這個進程是執行DOS拒絕服務攻擊。後從系統禁止該應用端口。DOS攻擊失效。故障沒有再出現。
020 2020.12 廣東省中醫院SQLSERVER故障診斷與排除 廣東省中醫院客戶端訪問SQLSERVER服務器慢,並且無法往SQLSERVER服務器上傳圖片 經過日誌分析與排查,確認系統日誌沒有報錯,確認數據庫日誌也沒有異常報錯,確認數據庫服務器系統CPU,內存,硬盤I/O,網絡問題 ,並且在SQLSERVER服務器SSMS查詢與調用當前最耗時的SQL,也不見異常,因而診斷SQLSERVER數據庫沒有問題。相反系統里安裝360安全軟件,懷疑是安全軟件的安全策略沒有設置正確,對於大量數據傳輸與訪問,會錯誤認為是DDOS攻擊,而加以阻止與屏蔽。因而造成數據庫連接異常。

 

021 2021.2 廣東省中醫院SQLSERVER故障診斷與排除 廣東省中醫院 SQL Server Management Studio 顯示SQL SERVER代理某日誌清理作業 報錯:c001f011(Microsfoft.SqlServer.ManagedDTS) 分析與診斷報錯信息,並提供解決辦法,最終解決報錯。
022 2021.3 深圳中信銀行Websphere 升級與漏洞修補 中信銀行某業務系統內部安全掃描得出WAS存在某個漏洞,需要升級與修補 在現場,進行was8.5.5.0升級到 was8.5.5.12,並打上漏洞修補補丁。
023 2021.5 廣東省中醫院SQLSERVER 數據移位故障診斷與排除 先電話溝通,了解到從ORACLE導出的CSV平面文件導入到MSSQL時,存在數據移位問題。 去到現場,查看故障情況,初步懷疑是CSV平面文件存在錯誤字符或者編碼不對。排查下,發現有個英文逗號字符會將一段中文字符串,分成兩部份,最後,將這個英文逗號全局替換成中文逗號字符,再次導入預讀,發現數據移位問題不在出現,數據可以成功導入,問題最終解決。