提供IBM /ORACLE 期下的websphere/Weblogic 中間件, 以及db2 /oracle數據庫方面等產品診斷排障,
包括 WAS,MQ,ilog(odm),wps(bpm),wsrr,LDAP,TSM.NBU,CICS.Lotus. 診斷排障DB2,Informix,Oracle,sybase.excahnge.weblogic.Portal等產品的。。。。
這裡會記錄以往幫客戶應用環境診斷與排障的記錄,陸續會更新,敬請關注。
序號 | 故障時間 | 項目(客戶) | 項目(客戶)故障情況 | 故障診斷與排除簡述 |
001 | 2019.11 | 廣州機電院ORACLE DG環境漏洞修復 | 安全掃描工具掃描ORACLE ADG環境存在大量漏 洞 | 下載補丁,停ADG,給ORACLE ADG環境兩個節點,分別升級補丁,然後再啟ADG,確認環境可用,補丁安裝升級成功。 |
002 | 2020.3 | 廣州機電院ORACLE11G數據庫恢復 | 技術人員誤操作,給ORACLE 導入錯誤數據,造成數據異常。 | 首先用expdp 將 oracle環境數據全備,然後用impdp 將備份數據恢復到oracle環境,恢複數據可用。 |
003 | 2019.12 | 廣州金域檢驗檢測公司ORACLE ASM磁盤維護 | 客戶增置新存儲,需將oracle數據 遷移到新存儲,然後舊存儲下線。 | 在新存儲,創建新磁盤,通過ASM加盤,加入oracle 環境磁盤組,ASM磁盤平衡完,將原來的舊存儲ASM磁盤從ORACLE環境的磁盤組遷走(踢盤),實現數據從舊存儲遷到新存儲。 |
004 | 2019.12 | 南部戰區空軍醫院 AD故障排除處理 | 客戶反饋域控的AD服務異常,造成AD用戶連接與登錄AD 共享目錄很慢。客戶的AD有三台,一主兩備。不同操作系統,只有其中一台存在異常。 | 查證域控 的AD服務。發現不可用,查證域控的系統服務,發現服務都是正常狀態,再次查證系統服務,發現系統服務存在一些不知名的安全軟件服務,並發現該安全軟件服務會自動影晌一些系統服務。將該安全軟件服務禁停,並卸載。AD服務恢復正常,不再收到客戶反饋有類似的AD 用戶連接緩慢問題。 |
005 | 2020.1 | 廣東省郵儲VDI-AD故障排除與處理 | 微軟的AD服務不可用,造成域控異常,造成VMWARE VDI桌面不可用。全部用戶無法登錄。 | 查證域控 的AD服務。發現不可用,查證域控的系統服務,發現某AD核心服務給禁用,恢復該服務,AD服務恢復,VDI 用戶可以正常登錄。後查證,才知是域控的安全殺毒軟件自動升級,造 成AD 服務自動給禁停。 |
006 | 2019.12 | 廣東省郵儲ORACLE RAC 故障排除與數據恢復 | 起初,客戶反映只是刪除一些TMP文件,就發現RAC環境訪問緩慢,重啟與停止CRS服務,發現很久才恢復與晌應。貌似I/0緊張,懷疑是後端掛載的存儲問題。 | 在查證期間,機房有同事在拔插存儲里的磁盤,造成RAC無法正常起來,最終確認是存儲問題 。臨時增加新存儲,將數據實例先啟動起來,再次查證,發現有某個磁盤組不可用,裏面的磁盤的數據無法讀取,最後只能先將數據恢復與掛載新存儲,然後對舊存儲修復,並恢復損壞的磁盤組的數據,再將好的和修復好的數據,一併掛載到新存儲。待舊存儲修復後,再通過ASM磁盤平衡,將數據再次恢復到舊存儲。將臨時增加的新存儲下線。 |
007 | 2020.1 | 佛山市移動oracle rac節點故障診斷與排除 | RAC 一個節點所在的主機主板損壞,更換主板後,該節點的RAC CRS無法恢復,ORACLE實例無法訪問。 | 查證後,確認是該節點的網絡問題 。 |
008 | 2018.7 | 深圳市工銀國際cognos 數據導出故障診斷與排除 | cognos10.1 導出數據成 excel2007 數據表格時,導出很慢,最後導出報錯, 日誌有time out報錯。導出成pdf格式,或者導出成excel2003 正常。 | 後深入分析與查證,確認是cognos10.1的版本過低,不支持excel2007。 |
009 | 2019.6 | 深圳市華商銀行MQ 故障診斷與排除 | MQ因為物理故障重啟,修復機器物理故障後,MQ 客戶端無法連接MQ服務器端。 | 深入查證後,發現MQ服務器端的某服務沒有正常恢復與啟動起來,後修復該 服務,MQ客戶端可以正常連接MQ服務器端。 |
010 | 2018.8 | 廣東省中國銀行WAS故障診斷與排除 | WINDOWS2003安裝的WAS6.1 ,在WINDOWS2003重啟後,無法啟動WAS6.1,造成was 服務不可用,客戶急需在一個半小時內恢復WAS6.1應用服務。 | 後深入查證與了解客戶的現場 環境後,發現WAS6.1的應用節點的JVM最小內存被改成機器物理內存的值,致使was服務無法獲取到足夠的初始化內存,遷成WAS服務無法正常啟動,修改server.xml,降低jvm最小內存值,重啟WAS,WAS服務最後恢復正常。 |
011 | 2018.9 | 某銀行Weblogic故障診斷與排除 | weblogic 在運行過程中,經常報用戶連接數不夠,造成weblogic服務經常time out.造成用戶經常無法正常連接應用。 | 起初認為是weblogic的最大用戶連接數值 設置過小,多次調整最大用戶連接數,情況沒有改善,後深入查證用戶的應用系統日誌和weblogic 日誌,後確認是應用的sql語句問題。造成用戶連接數不會自動釋放,致使用戶連接數很快給用完,而報 錯。 |
012 | 2018.5 | 廣東省中國銀行cics故障診斷與排除 | 客戶反饋CICS 日誌里,時不時出現OUT OF MEMERYY(內存溢出錯誤),影晌業務 | 經深入分析CICS日誌 ,最後 調整 CICS某參數值 ,最後問題 解決。 |
013 | 2018.10 | 廣東省高等法院MQ故障診斷與排除 | 因為物理故障,造成MQ系統重啟,重啟後,MQ集群不可用,MQ之間數據無法正常傳輸,數據一進入通道,通道狀態就異常。 | 多次重置通道,多次放入測試數據到隊列,情況還是一樣。數據一進入隊列,通道就報異常,最後 重建隊列管理器,重建 通道,重建測試隊列,放入測試數據。測試正常,通道正常。然後從備份中,重建Q 複製的隊列,重設Q複製。MQ 集群恢復正常。 |
014 | 2018.4 | 佛山市農商行WAS故障診斷與排除 | 客戶反饋布署到WAS的某業務應用,在運行一段時間後,會 hang住,前台點擊沒有反應。 | 經過分析,WAS應用在重啟一段時間後,業務應用正常,但經一段時間,應用沒有反應,後測試與分析日誌,發現有某段ORACLE 業務SQL ,在執行後,總不能自動釋放,一直停在ORACLE的業務日誌里,最後確認是該 SQL 存在問題 ,致使該SQL執行完,不會自動SESSION和資源,致使時間一長,並多次調用業務模塊時,會hang住 應用。 |
015 | 2020.1 | 中山市人民醫院病歷系統集群發生自動切換 | 客戶反饋病歷系統出現過幾次HA自動切換情況 | 後查證,從WINDOWS系統日誌里,發現系統日誌不斷報有某個共享文件夾無法訪問。後跟客戶溝通,得知客戶前段時間手工刪除該文件夾。 |
016 | 2020.2 | 信誠保險公司IIS 內存溢出故障 | 客戶反饋IIS 日誌里會不定時報內存溢出錯誤 | 經診斷分析,基本上是確認IIS的業務應用基於32位編譯器生成,並運行在64位的操作系統上,致使32位應用不能獲取足夠的內存,致使業務訪問量,日誌里就會報OUT OF MEMERRY(內存溢出),需要在64位編譯器重編譯應用。 |
017 | 2020.4 | 某生物醫藥公司 MS SQRVER AWAYSON集群 故障診斷與排除 | 某生物醫藥公司 MS SQRVER AWAYSON集群不能順利創建 LISTEN | 多次重建 aways on 集群,MS 故障轉移集群可以成功創建 與切換,但就是不能創建 LISTEN ,創建 LISTEN 報19471錯誤,後經深入分折與診斷,確認是集群用戶所在AD的位置 不對,致使無法創建 ,調整到集群用戶在正確的目錄,可以成功LISTEN,並測試一切正常。 |
018 | 2020.5 | 中山人民醫院某系統SQLSERVER2012定時調度任務調度失效 | 中山人民醫院某系統SQLSERVER2012定時調度任務調度失效,某存儲過程無法正常調度執行 | 經過日誌分析與測試,存儲過程可以手工執行,但通過SQLSERVER的定時調度執行失敗。分析日誌得知,原來是某系統功能組件因為殺毒軟件更新而自動失效。需要重新激活該系統功能組件。 |
019 | 2020.6 | 廣州中醫院大學第一附屬醫院SQLSERVER 故障診斷與排除 | 廣州中醫院大學第一附屬醫院SQLSERVER ,每隔一個小時,就資源佔滿 ,無法訪問與使用。只能暴力重啟。 | 經過日誌分析與排查,確認系統日誌沒有報錯。確認數據庫日誌也沒有異常報錯,確認數據庫定時調度任務沒異常,確認存儲過程也沒有異常。後來從殺毒軟件日誌,查看到不斷有進程對某應用端口訪問,殺毒軟件誤認為這個進程是執行DOS拒絕服務攻擊。後從系統禁止該應用端口。DOS攻擊失效。故障沒有再出現。 |
020 | 2020.12 | 廣東省中醫院SQLSERVER故障診斷與排除 | 廣東省中醫院客戶端訪問SQLSERVER服務器慢,並且無法往SQLSERVER服務器上傳圖片 | 經過日誌分析與排查,確認系統日誌沒有報錯,確認數據庫日誌也沒有異常報錯,確認數據庫服務器系統CPU,內存,硬盤I/O,網絡問題 ,並且在SQLSERVER服務器SSMS查詢與調用當前最耗時的SQL,也不見異常,因而診斷SQLSERVER數據庫沒有問題。相反系統里安裝360安全軟件,懷疑是安全軟件的安全策略沒有設置正確,對於大量數據傳輸與訪問,會錯誤認為是DDOS攻擊,而加以阻止與屏蔽。因而造成數據庫連接異常。
|
021 | 2021.2 | 廣東省中醫院SQLSERVER故障診斷與排除 | 廣東省中醫院 SQL Server Management Studio 顯示SQL SERVER代理某日誌清理作業 報錯:c001f011(Microsfoft.SqlServer.ManagedDTS) | 分析與診斷報錯信息,並提供解決辦法,最終解決報錯。 |
022 | 2021.3 | 深圳中信銀行Websphere 升級與漏洞修補 | 中信銀行某業務系統內部安全掃描得出WAS存在某個漏洞,需要升級與修補 | 在現場,進行was8.5.5.0升級到 was8.5.5.12,並打上漏洞修補補丁。 |
023 | 2021.5 | 廣東省中醫院SQLSERVER 數據移位故障診斷與排除 | 先電話溝通,了解到從ORACLE導出的CSV平面文件導入到MSSQL時,存在數據移位問題。 | 去到現場,查看故障情況,初步懷疑是CSV平面文件存在錯誤字符或者編碼不對。排查下,發現有個英文逗號字符會將一段中文字符串,分成兩部份,最後,將這個英文逗號全局替換成中文逗號字符,再次導入預讀,發現數據移位問題不在出現,數據可以成功導入,問題最終解決。 |
。