- 網絡故障現場處理實踐(第4版)
- 劉曉輝編著
- 1161字
- 2024-01-05 17:11:58
1.2.2 收集故障相關信息
當處理由用戶報告的問題時,對故障相關信息的收集顯得尤為重要。當網管接到用戶電話,說無法瀏覽Web網站,那么,僅憑這些消息,恐怕任何人都無法做出明確的判斷。這時,就要親自到現場去試著操作一下,運行一下那個程序,并注意出錯信息。例如,在使用Web瀏覽器進行瀏覽時,無論輸入哪個網站都返回“該頁無法顯示”之類的信息;或者使用Ping程序時,無論Ping哪個IP地址都顯示超時連接信息等,諸如此類的出錯消息會為縮小問題范圍提供許多有價值的信息。注意每一個錯誤信息,并在用戶手冊中找到它們,從而得到關于該問題更詳細的解釋,是解決問題的關鍵。另外,親自到故障現場進行操作,也有機會檢查用戶操作系統或應用程序是否運行正常,各種選項和參數是否被正確地設定。如果在操作時沒有任何問題的話,那就可能是操作者的問題了。不妨讓用戶再試一次,并認真監督他的每一步操作,以確保所有的操作和選項都被正確地執行和設置。
當然,在親自操作時,應當對故障現象做出詳細的描述,認真記錄所有的出錯信息,并快速記錄所有有關的故障跡象,制作詳盡的故障筆記。實際上它們究竟表明了什么呢?這些故障現象是否相互聯系呢?在尋找問題答案的過程中,很有可能又導致更多的故障現象產生。所以在開始排除故障之前,應按以下步驟執行。
● 向受影響的用戶、網絡人員或其他關鍵人員提出問題,收集有關故障現象的信息。
● 搜集有助于查找故障原因的詳細信息,注意細節。
● 對問題和故障現象進行詳細的描述。
● 根據故障描述性質,使用各種工具搜集情況,如網絡管理系統、協議分析儀、相關show和debug命令等。
● 測試性能與網絡正常情況下的記錄進行比較。
● 把所有的問題都記下來。
● 不要匆忙下結論。
在故障發生的時候,由于已經影響到了業務,因此很多人急于恢復故障,總是直接將設備重啟。原則上說業務為首要保證,因此并不能說這么做有問題。但是,同時帶來的后果是由于設備重啟,故障現象和故障日志都會隨著重啟而丟失,這對于查找故障原因來說是非常不利的。如果沒有這些數據,就只能憑空猜想故障的可能性。如果不能正確分析出原因,很有可能下次仍然出現同樣問題,反而造成更大的損失。誠然需要盡快恢復業務,但是,最好仍能在最短時間內登錄設備,將最基本的show tech和show log信息保留下來。
Cisco的大部分設備信息都可以通過show tech顯示出來,而show log可以記錄一段時間內的系統日志信息,這兩項數據對于故障診斷來說是最基本的信息來源。
對于設備自動重啟這類故障,Cisco會自動生成一個crashinfo文件,存放在bootflash或Flash中,可以用more命令查看該文件的內容或者用tftp拷貝出來。該文件會記錄在自動重啟前發生過什么,是什么原因導致的系統重啟。但是,該文件并不是每次自動重啟都能生成,有時候來不及生成就已經crash了,有時候是由于bootflash空間不足,無法保存下來。該文件只要生成就不會由于重啟而丟失,是診斷這類故障的一個很有效的記錄。
- 連接未來:從古登堡到谷歌的網絡革命
- Aptana Studio Beginner's Guide
- Web Application Development with R Using Shiny
- 計算機網絡與數據通信
- SSL VPN : Understanding, evaluating and planning secure, web/based remote access
- Mastering Dart
- CCNP TSHOOT(642-832)認證考試指南
- Guide to NoSQL with Azure Cosmos DB
- Professional Scala
- 世界互聯網發展報告2021
- 5G智慧交通
- 想象的互動:網絡人際傳播中的印象形成
- 路由與交換技術
- CDN技術詳解
- OpenShift Cookbook