[計(jì)算機(jī)硬件及網(wǎng)絡(luò)]小機(jī)生產(chǎn)系統(tǒng)異常操作指南
《[計(jì)算機(jī)硬件及網(wǎng)絡(luò)]小機(jī)生產(chǎn)系統(tǒng)異常操作指南》由會(huì)員分享,可在線閱讀,更多相關(guān)《[計(jì)算機(jī)硬件及網(wǎng)絡(luò)]小機(jī)生產(chǎn)系統(tǒng)異常操作指南(32頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、 小機(jī)生產(chǎn)系統(tǒng)異常操作指南小機(jī)生產(chǎn)系統(tǒng)異常操作指南目錄目錄第一章第一章 WASWAS 篇篇 .4無法登陸管理控制臺(tái).4應(yīng)用效勞器無法啟動(dòng).4應(yīng)用程序請(qǐng)求無響應(yīng).4應(yīng)用程序無法訪問.5應(yīng)用效勞器JAVA進(jìn)程CRASH.5概要文件被破壞.6JAVA進(jìn)程 CPU 100%.10新部署應(yīng)用程序無法訪問.10在集群模式下節(jié)點(diǎn)不同步.12第二章第二章 MQMQ 篇篇 .13通道無法啟動(dòng).13隊(duì)列管理器無法啟動(dòng).13隊(duì)列管理器無法停止.14死信隊(duì)列不斷有消息堆積.14MQ 對(duì)象被損壞.14第三章第三章 DB2DB2 篇篇 .16實(shí)例停止.16實(shí)例無法啟動(dòng).16表空間暫時(shí)性的無法訪問.16表空間永久性的無法訪
2、問.17數(shù)據(jù)庫(kù)活動(dòng)日志喪失.17表空間滿.17活動(dòng)日志空間滿.17活動(dòng)日志所在目錄文件系統(tǒng)滿.18表被鎖,無法訪問.18表中的內(nèi)容被誤刪除.18第四章第四章 AIXAIX 篇篇 .19硬件故障.19CPU 使用過度 .19內(nèi)存使用過度.19系統(tǒng)PING不通.20系統(tǒng)可以PING通,但是無法TELNET.20局部主機(jī)不能訪問某臺(tái)主機(jī).20HA 無法切換,或切換不正常 .21文件系統(tǒng)滿.21文件系統(tǒng)無法進(jìn)行正常讀寫.22鏡像不同步.22DUMP設(shè)備太小.22密碼喪失.23系統(tǒng)有報(bào)錯(cuò)信息.23TELNET的響應(yīng)很慢 .23文件系統(tǒng)不能UMOUNT.24TCP 網(wǎng)絡(luò)的SOCKET端口不能釋放,始終處于
3、CLOSE_WAIT狀態(tài) .24系統(tǒng)中包含大量的僵尸進(jìn)程.25第五章第五章 突發(fā)情況信息收集突發(fā)情況信息收集 .26DB2 需要收集的信息.26WAS 需要收集的信息.27MQ 需要收集的信息.29SNA 需要收集的信息.29AIX 需要收集的信息 .30第一章第一章 WASWAS 篇篇無法登陸管理控制臺(tái)無法登陸管理控制臺(tái)1、現(xiàn)象描述、現(xiàn)象描述IE 瀏覽: :/IP:9060/admin 判斷是否還能登陸,不能登錄時(shí)說明控制臺(tái)應(yīng)用沒有發(fā)布。其中 9060 是 WAS 的效勞端口。2、處理方法、處理方法進(jìn)入 wsadmin狀態(tài)(AdminConsole.ear_Path, -server ser
4、ver1)AdminConfig.save完成安裝/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server應(yīng)用效勞器無法啟動(dòng)應(yīng)用效勞器無法啟動(dòng)1、現(xiàn)象描述、現(xiàn)象描述對(duì)于 WAS5.1,在 bin 目錄下執(zhí)行:./startServer.sh server 判斷是否能正常啟動(dòng)。對(duì)于 WAS6.1,WAS 使用的端口是 9060,因此不會(huì)和 9090 端口沖突。2、處理方法、處理方法1) # netstat an|grep 9090 查看端口9090 是 WAS5.1 控制臺(tái)所用的默認(rèn)端口2) #/usr/websm/bin/wsmser
5、ver disable 關(guān)閉系統(tǒng)占用的 9090 端口3)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集時(shí)請(qǐng)收集 install_root/logs/server_name 的所有信息應(yīng)用程序請(qǐng)求無響應(yīng)應(yīng)用程序請(qǐng)求無響應(yīng)1、現(xiàn)象描述、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問長(zhǎng)時(shí)間沒有頁面顯示,在瀏覽器訪問后長(zhǎng)時(shí)間沒有反響。2、處理方法、處理方法1)ps ef|grep java 查看 java 進(jìn)程號(hào);2)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./stopServer.sh server假設(shè)無法停止那
6、么使用 kill 命令殺掉3)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server在以下圖中可以看到進(jìn)程號(hào)碼是 8822。信息收集時(shí),參見 5.2 3 系統(tǒng) hung 或者性能下降。應(yīng)用程序無法訪問應(yīng)用程序無法訪問1、現(xiàn)象描述、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問出現(xiàn) 404 錯(cuò)誤頁面或者找不到效勞器2、處理方法、處理方法1.查看 IBM Server 的 d 進(jìn)程是否正常狀態(tài)運(yùn)行;例如是否有父進(jìn)程為“1”的現(xiàn)象;2. /usr/IBMIHS/bin/apachectl stop 停止 IBM Server假設(shè)無法停止那么把相關(guān)的 進(jìn)程殺掉3
7、. /usr/IBMIHS/bin/apachectl start 啟動(dòng) IBM Server信息收集時(shí),收集 IHS 的 logs 目錄下的日志,ps ef|grep 的輸出。Plugin 的日志和 WAS 的 logs 目錄的日志應(yīng)用效勞器應(yīng)用效勞器 java 進(jìn)程進(jìn)程 crash1、現(xiàn)象描述、現(xiàn)象描述ps ef|grep java 沒有 WAS 的 java 進(jìn)程在執(zhí)行2、處理方法、處理方法/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server成功啟動(dòng)后可以看到類似如下的輸出:信息收集時(shí),參見 5.2 - 2 系統(tǒng)崩潰概要文件
8、被破壞概要文件被破壞1、現(xiàn)象描述、現(xiàn)象描述對(duì)于 WAS6.1 版本,創(chuàng)立效勞器需要一個(gè)概要表,即 profile。概要文件位于$WAS_HOME/profiles,包含了一個(gè)應(yīng)用所用的一組 server,如果遭到人為破壞,那么需要重建整個(gè) profile。2、處理方法、處理方法假設(shè)以前對(duì)配置做過備份,先恢復(fù)以前的配置,看是否能夠啟動(dòng),假設(shè)仍然不能啟動(dòng),那么創(chuàng)立新的概要文件:/usr/WebSphere/AppServer/bin/manageprofiles.sh -help命令輸出如下,可以看到,針對(duì)所需的配置內(nèi)容,可以從命令中得到進(jìn)一步的聯(lián)機(jī)幫助,例如 manageprofiles.sh
9、-create -help 用來查看創(chuàng)立 profile 的幫助內(nèi)容。信息收集時(shí),需要收集的內(nèi)容如下:1./startServer.sh server trace 的信息;2install_root/logs/server_name 的所有信息。以下腳本會(huì)創(chuàng)立一個(gè)名為 newProfileName 的新的 Default 類型 Profile,對(duì)應(yīng)節(jié)點(diǎn)名稱為 newNode。1進(jìn)入 WAS 安裝目錄下 bin 目錄,例如在 AIX 上為 cd /usr/IBM/WebSphere/AppServer/bin2在 root 權(quán)限下執(zhí)行:# ./manageprofiles.sh -create
10、-profileName newProfileName -profilePath /usr/IBM/WebSphere/AppServer/profiles/newProfileName -templatePath /usr/IBM/WebSphere/AppServer/profileTemplates/default -nodeName newNode概要文件名:newProfileName概要文件路徑:/usr/IBM/WebSphere/AppServer/profiles/newProfileName概要文件類型:defaultnode 名稱:newNode如果需要使用 Dmgr P
11、rofile 對(duì) Default Profile 進(jìn)行管理,那么需要把 Default Profile 的節(jié)點(diǎn)添加到 Dmgr Profile 所在的單元。假設(shè) Dmgr Profile 所在主機(jī)名稱為DMGR_HOSTNAME,那么把名為 newProfile 的 Default Profile 添加其中的步驟為:1.進(jìn)入 Default Profile 安裝目錄下的 bin 目錄;cd /usr/IBM/WebSphere/AppServer/profiles/newProfile/bin;2.把節(jié)點(diǎn)添加到單元,在 root 權(quán)限中執(zhí)行:./addNode.sh DMGR_HOSTNAME
12、 8879PMT 是管理概要表的圖形工具,是 profile management tool 的簡(jiǎn)稱。通常位于WAS_HOME/bin/ProfileManagement/pmt.sh,或 pmt.bat,或 pmtAIX.sh,腳本取決于操作系統(tǒng)和 WAS 版本。如果使用 PMT 管理概要文件,可以通過圖形界面創(chuàng)立概要表1。1 不同版本的 pmt 界面會(huì)有較大的差異,64 位版本的 was 不包含管理概要表的圖形工具。選擇概要表類型:選擇概要表的創(chuàng)立位置和名稱:選擇節(jié)點(diǎn)名和主機(jī)名:在安裝過程不要啟用全局平安性,安裝后需要該功能時(shí)可以從管理控制臺(tái)啟用。由 WAS 生成默認(rèn)的端口,如果需要也可以
13、自行修改,此時(shí)需要確保端口和該效勞器上安裝的其他應(yīng)用不存在沖突。復(fù)核概要表的定義無誤后,點(diǎn)擊“下一步創(chuàng)立概要表:Java 進(jìn)程進(jìn)程 CPU 100%1、現(xiàn)象描述、現(xiàn)象描述topas 查看 java 的 CPU 使用情況2、處理方法、處理方法ps ef|grep java 查看 java 進(jìn)程號(hào);用 kill 殺掉該進(jìn)程。/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集參見 5.2 - 1 CPU 利用率到達(dá) 100%。新部署應(yīng)用程序無法訪問新部署應(yīng)用程序無法訪問1、現(xiàn)象描述、現(xiàn)象描述訪問新系統(tǒng)出現(xiàn) 404 錯(cuò)誤2、處理
14、方法、處理方法1).查看最新的插件更新日期:/usr/WebSphere/AppServer/config/cells/2).在 IE 管理控制臺(tái)里面更新插件,然后復(fù)制最新的插件到 Web Server 的指定目錄下;/usr/IBMIHS/bin/apachectl stop 停止 IBM Server/usr/IBMIHS/bin/apachectl start 啟動(dòng) IBM Server應(yīng)用程序部署完成后,需要為 IHS 配置插件,提供給用的 URI、虛擬主機(jī)、效勞器地址等信息,以便 IHS 把請(qǐng)求轉(zhuǎn)發(fā)到應(yīng)用效勞器。IHS PLUGIN 的配置包含兩個(gè)步驟:插件的生成和傳播,這里的插件指
15、的是 IHS PLUGIN所需的配置文件 plugin-cfg.xml。進(jìn)入 WAS 控制臺(tái),進(jìn)入應(yīng)用效勞器web 效勞器,選中需要更新插件的 web 效勞器,點(diǎn)擊“生成插件所生成的效勞器的插件位置將會(huì)顯示如下。如果 IHS 和 AppServer 處于同一臺(tái)效勞器上,那么不需要傳播插件。否那么請(qǐng)按照下一節(jié)內(nèi)容完成插件的傳播。如果 IHS 和 AppServer 位于不同的機(jī)器上,請(qǐng)?jiān)诓寮珊?,再次選擇需要傳播插件的效勞器,點(diǎn)擊傳播插件。此前需要確認(rèn) IHS 效勞器的控制臺(tái)已經(jīng)啟動(dòng),WAS 將通過 IHS的控制臺(tái)端口把插件配置傳播到 IHS 效勞器中。信息收集時(shí),需要收集 install_r
16、oot/logs/server_name 的所有信息。在集群模式下節(jié)點(diǎn)不同步在集群模式下節(jié)點(diǎn)不同步1、現(xiàn)象描述、現(xiàn)象描述訪問管理控制臺(tái)之后,管理控制臺(tái)無法修改和管理節(jié)點(diǎn),在 nodeagent 上顯示:不同步2、處理方法、處理方法1).停止節(jié)點(diǎn)上的 server 和 nodeagent,保持 dmgr 正常啟動(dòng)狀態(tài);在節(jié)點(diǎn)的 bin 目錄下執(zhí)行:#./syncNode.sh server 88792).在節(jié)點(diǎn)的 bin 目錄下執(zhí)行:3).進(jìn)管理控制臺(tái)查看節(jié)點(diǎn)是否同步信息收集時(shí),需要收集 install_root/logs/server_name 的所有信息。第二章第二章 MQMQ 篇篇通道無法
17、啟動(dòng)通道無法啟動(dòng)1、現(xiàn)象描述、現(xiàn)象描述在 Runmqsc 中 start channel(channel name)無法啟動(dòng)。2、處理方法、處理方法將通道序列號(hào)復(fù)位。使用 Reset channel 命令。使用 strmqm 和 endmqm 命令重啟隊(duì)列管理器。根據(jù)錯(cuò)誤代碼檢查 sna 和網(wǎng)絡(luò)、對(duì)方 MQ 的狀態(tài)。以下圖為 dspmq 命令的輸出樣例:信息收集時(shí),參見 5.3 1-5 點(diǎn)內(nèi)容。隊(duì)列管理器無法啟動(dòng)隊(duì)列管理器無法啟動(dòng)1、現(xiàn)象描述、現(xiàn)象描述Strmqm QMGR 命令失敗2、處理方法、處理方法使用 ps ef 檢查,把所有的 MQ 進(jìn)程都?xì)⒌?。使?mqiclen x m QMGR
18、 命令去除共享內(nèi)存資源。然后重啟 MQ:strmqm該命令的輸出結(jié)果類似下面的情況:信息收集時(shí),參見 5.3 1-5 點(diǎn)內(nèi)容。隊(duì)列管理器無法停止隊(duì)列管理器無法停止1、現(xiàn)象描述、現(xiàn)象描述Endmqm QMGR 命令不能停止隊(duì)列管理器2、處理方法、處理方法使用 endmqm i QMGR 命令。仍然不能停止那么使用 endmqm p QMGR 命令。命令的輸出情況如下所示:信息收集時(shí),參見 5.3 1-6 點(diǎn)內(nèi)容。死信隊(duì)列不斷有消息堆積死信隊(duì)列不斷有消息堆積1、現(xiàn)象描述、現(xiàn)象描述Dis queue(DLQ)看到有消息堆積。2、處理方法、處理方法查看通道的狀態(tài)是否正常:dis chs(*);以及對(duì)端
19、 MQ 的狀態(tài)是否正常。使用 amqsbcg Qname Qmgr 命令瀏覽死信隊(duì)列的消息內(nèi)容,根據(jù)原因碼再采取相應(yīng)的措施。該命令的使用參數(shù)列表如下:信息收集時(shí),參見 5.3 1-5 點(diǎn)內(nèi)容。MQ 對(duì)象被損壞對(duì)象被損壞1、現(xiàn)象描述、現(xiàn)象描述MQ 隊(duì)列、通道等對(duì)象被刪除或者 MQ 的系統(tǒng)文件被破壞,Dis queue(*)Dis channel(*)找不到對(duì)象。2、處理方法、處理方法使用 crtmqm QMGR 的命令重新創(chuàng)立隊(duì)列管理器,使用 runmqsc 80%表示CPU消耗過量2 2、處理方法、處理方法方法 1控制應(yīng)用使用的CPU量,減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行CPU緊急擴(kuò)容
20、。使用LPAR動(dòng)態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的CPU總量。降低系統(tǒng)的CPU使用百分比方法 3在方法 1 和方法 2 都無法執(zhí)行,且系統(tǒng)問題非常緊急的情況下,使用sar 以及nice等命令,調(diào)整進(jìn)程的使用CPU優(yōu)先級(jí),確保主要應(yīng)用暫時(shí)不受影響。另行安排時(shí)間進(jìn)行CPU擴(kuò)容。信息收集時(shí),需要收集perfpmr的信息。內(nèi)存使用過度內(nèi)存使用過度1 1、現(xiàn)象描述、現(xiàn)象描述Vmstat觀察pi po值;Svmon觀察free的內(nèi)存值;Topas觀察內(nèi)存和paging。如果free的內(nèi)存為零,并且pi po值持續(xù)保持較高的值,代表系統(tǒng)以及存在內(nèi)存緊缺的問題2 2、處理方法、處理方法方法 1控制應(yīng)用使用的內(nèi)存量,減小系
21、統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行內(nèi)存緊急擴(kuò)容。使用LPAR動(dòng)態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的內(nèi)存總量,保證有足夠的內(nèi)存使用。方法 3調(diào)整vmo參數(shù),平衡系統(tǒng)內(nèi)部?jī)?nèi)存的分配情況,首先保證關(guān)鍵和繁忙的應(yīng)用擁有足夠的內(nèi)存。信息收集時(shí),需要收集perfpmr的信息。系統(tǒng)系統(tǒng) ping 不通不通1、現(xiàn)象描述、現(xiàn)象描述Ping 時(shí),發(fā)生ping不通的現(xiàn)象2、處理方法、處理方法由hmc登錄主機(jī),檢查系統(tǒng)的ip設(shè)置。重點(diǎn)檢查系統(tǒng)與網(wǎng)關(guān)之間的通訊是否正常。遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時(shí),需要收集snap ac的信息。系統(tǒng)可以系統(tǒng)可以 ping 通,但是無法通,但是無法 telnet1、現(xiàn)象描
22、述、現(xiàn)象描述telnet 時(shí),發(fā)生telnet不通現(xiàn)象,但是這個(gè)系統(tǒng)可以被ping通2、處理方法、處理方法方法 1由hmc登錄主機(jī),檢查inetd進(jìn)程是否正常方法 2檢查所有的系統(tǒng)文件系統(tǒng)包括/ /tmp /var 是否有足夠空間方法 3檢查網(wǎng)絡(luò)設(shè)備是否存在防火墻或者telnet的限制遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時(shí),需要收集snap ac的信息。局部主機(jī)不能訪問某臺(tái)主機(jī)局部主機(jī)不能訪問某臺(tái)主機(jī)1 1、現(xiàn)象描述、現(xiàn)象描述從某個(gè)或某些主機(jī)可以telnet到這臺(tái)主機(jī),但從另一個(gè)或另一些主機(jī)不能telnet到這臺(tái)主機(jī)2 2、處理方法、處理方法方法 1檢查主機(jī)的路由信息nets
23、tat rn,確定主機(jī)的路由表是否正常方法 2檢查不同網(wǎng)絡(luò)設(shè)備之間的通訊是否存在問題遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時(shí),需要收集snap ac的信息。HA 無法切換,或切換不正常無法切換,或切換不正常1 1、現(xiàn)象描述、現(xiàn)象描述HA切換異常,表現(xiàn)為備機(jī)不能完全接管主機(jī)的資源。觀察應(yīng)用是否運(yùn)行正常;觀察 HA相關(guān)地址是否正確boot、standby、service 。2 2、處理方法、處理方法方法 1如果主機(jī)仍然可以訪問,依次手動(dòng)關(guān)閉主機(jī)的應(yīng)用,數(shù)據(jù)庫(kù),文件系統(tǒng),vg。殺死HA進(jìn)程。在備機(jī)端關(guān)閉HA進(jìn)程,并確認(rèn)所有IP和資源正常。重起備機(jī)HA,拉起資源。方法 2如果主機(jī)已經(jīng)無
24、法訪問,關(guān)閉主機(jī)系統(tǒng)。在備機(jī)端重復(fù)方法 1 中的拉起資源的步驟。方法 3如果主備機(jī)都無法使用,HA拉起資源和應(yīng)用,采取手動(dòng)方式恢復(fù)業(yè)務(wù)。依次手動(dòng)開啟vg,文件系統(tǒng),數(shù)據(jù)庫(kù)和應(yīng)用。信息收集時(shí),需要在兩個(gè)節(jié)點(diǎn)上分別收集snap ac的信息,并在其中任意一個(gè)節(jié)點(diǎn)上收集snap ec信息。文件系統(tǒng)滿文件系統(tǒng)滿1 1、現(xiàn)象描述、現(xiàn)象描述df k發(fā)現(xiàn)文件系統(tǒng)使用率超過 702 2、處理方法、處理方法方法 1采取緊急擴(kuò)容,擴(kuò)充文件系統(tǒng)的大小。方法 2如果已經(jīng)影響到主機(jī)的正常使用,由HMC登錄主機(jī)。方法 3如果HMC也無法登錄主機(jī),使用光盤引導(dǎo)進(jìn)入系統(tǒng),在maintenance的模式下擴(kuò)充文件系統(tǒng)。這種情況一
25、般不需要收集信息。如果一定要收,請(qǐng)收snap ac信息。文件系統(tǒng)無法進(jìn)行正常讀寫文件系統(tǒng)無法進(jìn)行正常讀寫1 1、現(xiàn)象描述、現(xiàn)象描述任何讀寫操作都會(huì)發(fā)生I/O 的報(bào)錯(cuò)2 2、處理方法、處理方法首先備份文件系統(tǒng)所在的數(shù)據(jù)。將所有仍然可以訪問的數(shù)據(jù)全部備份方法 1關(guān)閉文件系統(tǒng),進(jìn)行fsck的檢查。試圖修復(fù)文件系統(tǒng)的邏輯錯(cuò)誤。方法 2如果文件系統(tǒng)無法修復(fù),那么必須重建一個(gè)新的文件系統(tǒng),由備份數(shù)據(jù)恢復(fù)。如果之前的備份數(shù)據(jù)完整,那么可以使用事先準(zhǔn)備的備份數(shù)據(jù),不然那么需要客戶提供完整的數(shù)據(jù)備份信息收集時(shí),需要收集snap ac的信息。鏡像不同步鏡像不同步1 1、現(xiàn)象描述、現(xiàn)象描述lsvg l 發(fā)現(xiàn)有局部l
26、v的狀態(tài)是stale2 2、處理方法、處理方法檢查是否存在硬件故障。如果是,請(qǐng)解除鏡像、修復(fù)硬件、重做鏡像。如果不是硬件問題導(dǎo)致的不同步,那么需要在系統(tǒng)中重新建立同步關(guān)系。syncvg l 做完后檢查是否狀態(tài)都是syncd。這種情況一般不需要收集信息。信息收集時(shí),需要收集snap ac的信息。Dump 設(shè)備太小設(shè)備太小1 1、現(xiàn)象描述、現(xiàn)象描述系統(tǒng)errpt會(huì)提示當(dāng)前的dump文件已經(jīng)超出了存放dump的空間2 2、處理方法、處理方法尋找dump 存放的位置sysdumpdev l檢查dump 需要的空間sysudmpdev e擴(kuò)大dump 設(shè)備,到達(dá)預(yù)計(jì)的大小extendlv這種情況一般不需
27、要收集信息。信息收集時(shí),需要收集snap ac的信息。密碼喪失密碼喪失1 1、現(xiàn)象描述、現(xiàn)象描述Root或其他用戶密碼喪失2 2、處理方法、處理方法如果普通用戶密碼喪失,使用root 用戶登錄,su到普通用戶,然后執(zhí)行passwd命令修改密碼如果root用戶密碼喪失,停系統(tǒng),使用光盤引導(dǎo)進(jìn)入maintenance模式,執(zhí)行passwd命令修改密碼這種情況不需要收集信息。系統(tǒng)有報(bào)錯(cuò)信息系統(tǒng)有報(bào)錯(cuò)信息1 1、現(xiàn)象描述、現(xiàn)象描述使用errpt命令發(fā)現(xiàn)有報(bào)錯(cuò)信息。2 2、處理方法、處理方法如果是小型機(jī)硬件設(shè)備報(bào)錯(cuò)例如sysplanner0 的錯(cuò)誤,fcs的H類錯(cuò)誤,網(wǎng)卡的H類錯(cuò)誤,內(nèi)置磁盤的H類報(bào)錯(cuò)等
28、 ,請(qǐng)聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理;如果是外置存儲(chǔ)磁盤和鏈路報(bào)錯(cuò)例如hdisk的報(bào)錯(cuò) ,請(qǐng)聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理;如果是軟件類報(bào)錯(cuò),請(qǐng)聯(lián)系IBM工程師進(jìn)行分析。info類的信息可以忽略不計(jì)。在這種情況下,需要收集snap gc的信息。telnet 的響應(yīng)的響應(yīng)很慢很慢1 1、現(xiàn)象描述、現(xiàn)象描述在終端上使用telnet命令登錄AIX系統(tǒng)時(shí),終端會(huì)過很久1,2 分鐘左右才顯示出登錄提示字符。2 2、處理方法、處理方法這種情況一般是設(shè)置了域名解析造成的。處理方法:和應(yīng)用溝通,問是否可以刪除/etc/resolv.conf文件。如果可以,就刪除它。如果不可以,編輯文件,加
29、參數(shù)c在telnet最后,如下 telnet stream tcp6 nowait root /usr/sbin/telnetd telnetd -a -c 刷新inetd效勞: # refresh -s inetd在這種情況下,不需要收集信息文件系統(tǒng)不能文件系統(tǒng)不能 umount1 1、現(xiàn)象描述、現(xiàn)象描述在umount某一文件系統(tǒng)時(shí),終端上報(bào)文件系統(tǒng)busy,不能umount。2 2、處理方法、處理方法首先使用fuser xuc ,查看有哪些進(jìn)程占著該文件系統(tǒng)。然后使用fuser kuxc ,強(qiáng)制關(guān)閉占用該文件系統(tǒng)的進(jìn)程。注意:這步風(fēng)險(xiǎn)很大。如果沒調(diào)查清楚,可能會(huì)導(dǎo)致誤殺應(yīng)用和系統(tǒng)進(jìn)程,從而
30、導(dǎo)致系統(tǒng)或應(yīng)用crash。在這種情況下,不需要收集信息TCP 網(wǎng)絡(luò)的網(wǎng)絡(luò)的 socket 端口端口不能不能釋放,始終處于釋放,始終處于 close_wait 狀態(tài)狀態(tài)1 1、現(xiàn)象描述、現(xiàn)象描述應(yīng)用已經(jīng)停止,但它所在的端口一直得不到釋放。2 2、處理方法、處理方法查看端口PCB的值:netstat An |grep 端口號(hào)去除tcpcb地址所在的socket:rmsock tcpcb 在這種情況下,不需要收集信息系統(tǒng)中包含大量的僵尸進(jìn)程系統(tǒng)中包含大量的僵尸進(jìn)程1 1、現(xiàn)象描述、現(xiàn)象描述ps Af查看到系統(tǒng)中有很多defunct進(jìn)程2 2、處理方法、處理方法用ps Af查看defunct進(jìn)程的父進(jìn)
31、程。如果父進(jìn)程是應(yīng)用進(jìn)程,那么停止該應(yīng)用進(jìn)程即可去除僵尸進(jìn)程;如果父進(jìn)程是系統(tǒng)進(jìn)程,只有重啟系統(tǒng)才能去除僵尸進(jìn)程。在這種情況下,不需要收集信息第五章第五章 突發(fā)情況信息收集突發(fā)情況信息收集對(duì)于開放平臺(tái)如發(fā)生突發(fā)事件,如果現(xiàn)場(chǎng)不能確定問題的根本原因,在進(jìn)行應(yīng)急預(yù)案的同時(shí),應(yīng)收集相關(guān)信息,包括故障現(xiàn)場(chǎng)的環(huán)境、描述、日志、診斷文件等等,以進(jìn)行事后原因分析。對(duì)于宕機(jī),hang等問題,考慮收集trace文件。如果收集信息需要的時(shí)間較長(zhǎng),影響應(yīng)急生產(chǎn)恢復(fù),那么應(yīng)保證后者的更高優(yōu)先級(jí)。5.1 DB2 需要收集的信息1.任何故障都應(yīng)收集db2pd -file -everything2.數(shù)據(jù)庫(kù) hangdb2p
32、d -db -stack all -repeat 3db2trc on -l 128Mrecreate the problem db2trc offdb2service.perf1 ( Performance/hang data collection scripts) 本命令將用到的 script: db2service.perf13.數(shù)據(jù)庫(kù)性能問題db2 update monitor switches using bufferpool on lock on sort on statement on uow ondb2 get snapshot for dbmdb2 get snapshot
33、for all on 4.實(shí)例故障db2support . -s5.數(shù)據(jù)庫(kù)故障db2support . -d -c -s 5.2 WAS 需要收集的信息1.CPU 利用率到達(dá) 100%a)得到所有網(wǎng)絡(luò)連接的信息b)得到 CPU 利用率使用信息tprof_ps.sh tprof_psc)每隔 2 分鐘生成一個(gè) javacorekill -3 java 的進(jìn)程號(hào)d)e)install_root/logs/server_name 的所有信息f)2.系統(tǒng)崩潰a)b)executable is /usr/WebSphere/AppServer/java/jre/bin/javacore_file_nam
34、e is the core filec)d)getlib.sh java_executable_full_path core_filename (系統(tǒng)必須安裝 dbx)e)tar cvf core_file_name core_file_namef)install_root/java/jre/bin/jextract -o core.sdff core_pathg)install_root/logs/server_name 的所有信息h)3.系統(tǒng) hung 或者性能下降a)b)c)svmon -P pid -m -r -I 60 5 svmon.out &d)tprof -k -s -e -x
35、 sleep 60e)每 2 分鐘生成一個(gè) javacorekill -3 PID_of_hung_JVMf)g)h)i)j)k)install_root/logs/server_name,plugin-cfg.xml, _plugin.log, install_root/logs/ffdc 的所有信息4.數(shù)據(jù)庫(kù)連接問題a)檢查數(shù)據(jù)源配置情況,測(cè)試數(shù)據(jù)庫(kù)連接b)TroubleshootingLogging and TracingDiagonstic Trace Enable trace with the following specification is selectedc)Troubles
36、hootingLogging and TracingDiagonstic TraceTrace Specification Connecting to a database in V5.1:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:Transaction=all=enabled Connecting to a database in V5.0:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:com.ibm.ejs.jts.*=all=enabled:com.ib
37、m.ws.LocalTransaction.*=all=enabledd)Restart Application Servere)Collect the resulting trace output file5.3 MQ 需要收集的信息1.2.收集 mqs.ini 3.收集/var/mqm/errors/目錄下的日志4.收集/var/mqm/qmgrs/SYSTEM/errors/目錄下的日志5.收集/var/mqm/qmgrs/QM/errors 目錄下的日志6.MQ TRACE INSTRUCTIONS:Start trace:trace -a -j30D,30E -o /path/to/
38、trace.out -L 50000000End trace:trcstop5.4 SNA 需要收集的信息1.2.3.4.5.SNA TRACE INSTRUCTIONS:snaadmin set_log_file,log_file_type=AUDIT,file_size=20000000 snaadmin set_log_file,log_file_type=ERROR,file_size=20000000 snaadmin set_trace_file,trace_file_type=IPS,trace_file_size=100000000 snaadmin set_global_lo
39、g_type,audit=YES, exception=YES snaadmin set_global_log_type,succinct_audits=YES, succinct_errors=YES snaadmin add_dlc_trace snaadmin set_trace_type,trace_flags=NONE,api_flags=NONE 等待相應(yīng)需要的時(shí)間執(zhí)行:snagetpd -q 收集以下數(shù)據(jù):5.5 AIX 需要收集的信息1.硬件問題導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng) errpt 報(bào)錯(cuò),觀察故障點(diǎn)的報(bào)錯(cuò)信息b)檢查 hmc 上的報(bào)錯(cuò)信息,觀察故障點(diǎn)的報(bào)錯(cuò)信息c)觀察主機(jī)各個(gè)
40、部件的工作狀態(tài)是否正常,是否有黃燈警告2.系統(tǒng)本身損壞而導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng)的完整性 /lppchk vb)檢查操作系統(tǒng)版本是否正確 /oslevelc)觀察 errpt 中有無軟件的 coredump 生成d)如果能定位遭到破壞的文件,嘗試修復(fù)或者從備份中導(dǎo)出e)如果系統(tǒng)已經(jīng)完全無法訪問,嘗試從系統(tǒng)備份中恢復(fù)系統(tǒng)3.性能問題導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng) cpu 使用情況 vmstatb)檢查系統(tǒng)內(nèi)存使用情況 svmon -G; svmon -S; svmon Uc)檢查系統(tǒng)內(nèi)存配置情況 vmo, vmtuned)檢查系統(tǒng) paging 使用情況 topas, vmstate)檢查系統(tǒng)磁盤
41、使用情況 iostat, filemonf)檢查系統(tǒng)網(wǎng)絡(luò)使用情況 netstat, ifconfig, no, /etc/filesystems 4.數(shù)據(jù)收集a)snap -gc 收集詳細(xì)硬件信息b)snap -ac 收集詳細(xì)系統(tǒng)信息,含 dumpc)如果與 HA 相關(guān),收集 ha 信息,snap ecd)如果與 lv 有關(guān),收集 snap gLc;如果與 7133 有關(guān)那么執(zhí)行 snap gbLce)如果與主機(jī)性能有關(guān),收集性能數(shù)據(jù),這里有兩種方式第一種方式:通過 nmon注:這種方式不推薦,IBM 實(shí)驗(yàn)室不支持對(duì) nmon 數(shù)據(jù)的分析nmon 工具是分析 AIX 主機(jī)性能的工具,工具由兩局
42、部組成,一個(gè)是 nmon 采集數(shù)據(jù)的工具,一般名稱為 nmon_版本號(hào),例如,另一個(gè)是分析結(jié)果的工具,為 excel 文件nmon analyser v33A.xls 。數(shù)據(jù)收集方法:新建 nmon 目錄/nmon,在目錄下建兩個(gè)子目錄/nmon/bin 和/nmon/data 目錄,把下載下來的 nmon 程序放到 bin 目錄下,aix 下的 nmon 可執(zhí)行文件名稱可能為:nmon_aix53執(zhí)行命令:$BINPATH/nmon_aix53 -s300 -c288 -f -m /nmon/data-s300 表示每 300 秒采集一次數(shù)據(jù),-c288 表示采集 288 次,300*288
43、=86400 秒,剛好是 1 天的數(shù)據(jù),這樣運(yùn)行一次這個(gè)程序就會(huì)生成一個(gè)一天的數(shù)據(jù)文件,-m $DATAPATH 表示生成的數(shù)據(jù)文件的路徑-f 表示生成的數(shù)據(jù)文件名中有時(shí)間。還可在 crontab 中調(diào)用,便于每日頂峰都搜集數(shù)據(jù),得出一段時(shí)間的性能數(shù)據(jù),便于分析。數(shù)據(jù)使用方法:nmon 生成的文件名為 hostname_時(shí)間.nmon,把生成的數(shù)據(jù)文件傳到 Windows 機(jī)器上,翻開 nmon analyser v33A.xls,允許宏運(yùn)行,導(dǎo)入該nmon 數(shù)據(jù),那么可以進(jìn)行后續(xù)分析。第二種方式:通過 perfpmrIBM 推薦通過 perfpmr,可以獲得分區(qū)詳細(xì)的性能數(shù)據(jù),生成數(shù)據(jù)后需要將數(shù)據(jù)提交到IBM 實(shí)驗(yàn)室進(jìn)行分析。數(shù)據(jù)收集方法:將介質(zhì)傳到生產(chǎn)分區(qū)上,放入/tmp/perf53 目錄,保證該目錄有最少 12 兆空余空間,進(jìn)入該目錄,解壓,執(zhí)行。然后新建目錄/tmp/perf53/data 在該目錄下執(zhí)行600,搜集 10 分鐘數(shù)據(jù),運(yùn)行時(shí)間會(huì)增加 10%的系統(tǒng)開銷,執(zhí)行完成后,將該目錄下所有文件都打包帶上主機(jī)名,移交給 IBM 實(shí)驗(yàn)室。 注意,snap 的 3 個(gè)命令不能同時(shí)執(zhí)行,每次執(zhí)行完以后需要將/tmp/ibmsupt/snap.pax.Z 文件拷貝到本地,并執(zhí)行 snap -r 刪除之前收集的信息方可繼續(xù)執(zhí)行下一次 snap。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 國(guó)際人力資源管理研討從明棋電腦探討課件
- 國(guó)文詩(shī)歌多媒體教學(xué)課件
- 古詩(shī)詞中愁的意象課件
- 十依財(cái)政經(jīng)費(fèi)所產(chǎn)生的弱勢(shì)族群課件
- 六條法律的新解釋發(fā)怒奸淫休妻課件
- 六書理論-大學(xué)古代漢語復(fù)習(xí)資料課件
- 7足太陽膀胱經(jīng)2課件
- 莫內(nèi)和他的朋友們一劇描寫印象派畫家的故事課件
- 海上貨物運(yùn)輸保險(xiǎn)講義ppt課件
- 資訊技術(shù)革命課件
- 北師大版必修二§213兩條直線的位置關(guān)系
- 專案采購(gòu)計(jì)劃之準(zhǔn)則建立課件
- 常見惡性腫瘤的早期診斷和治療對(duì)策課件
- 干部管理職責(zé)與執(zhí)行技巧課件
- 將地方圖案插入此投影片課件