Sniffer Pro幫網管準確的定位網絡故障

來源:本站原創 網絡技術 超過769 views圍觀 0條評論

當一個網絡出現故障時,需要由網絡管理員查找故障原因并及時修復。但局域網一般都由幾十臺到幾百臺計算機,以及多臺服務器、交換機、路由器等設備組成,一旦出現故障,管理員需要全面檢查這些設備是否正常運行、各個端口的連接是否正常,檢查故障是否是黑客或木馬所為,工作量十分巨大,同時排除故障也非常麻煩。但是有了Sniffer Pro之后,就可以很容易地定位出網絡的故障所在。下面是幾個Sniffer Pro分析應用實例,整理出來和大家一起分享。

外部主機惡意掃描內網

故障現象

使用Sniffer Pro在代理服務器VLAN監控網絡傳輸狀況時,發現有一個IP地址的并發連接數量非常多,如圖1所示。由于局域網的IP地址范圍為211.82.216.0~211.82.223.0,所以顯然該IP地址是來自外網的IP地址。

故障分析

由于網絡采用Microsoft ISA群集作為代理服務器,實現Internet連接共享,因此,沒有更多的對抗惡意掃描的措施,這時最好采用防火墻來保證整個網絡的安全。

故障解決

如果不采用布置防火墻的方式,而是修改核心交換機上創建的、應用于代理服務器VLAN的IP訪問列表的方式,則需要在該IP訪問列表中的“permit ip any any”之前添加相應的規則,從而禁止任何計算機訪問該主機,并禁止該主機訪問任何計算機。

PPLive軟件導致網速變慢

故障現象

最近一段時間,局域網內用戶反應Internet連接速度變慢。據觀察,Internet接入速度在下午4:00左右開始下降,在晚上8:00的上網高峰時,甚至只能使用QQ聊天,而無法打開Web網頁。

故障分析

開始使用Sniffer Pro監控代理服務器VLAN的Internet連接情況。

當Internet連接正常時,傳輸地圖應大致如圖2所示。

然而,在Internet的接入速度忽然變慢后,再查看傳輸地圖時,發現某些計算機的并發連接數量非常多,如圖3所示。

將并發連接數量過多的計算機突出顯示時,發現這些計算機竟然同時有幾百個連接,如圖4所示。

通常情況下,正常的用戶連接地圖應當如圖5所示,只有幾個至幾十個連接,而且這些連接并不會同時并發訪問。

通過查詢相關文檔中的IP地址分配列表,可知這些計算機只是一些的普通計算機,并沒有提供任何網絡服務。因此,如此眾多的并發連接,顯然是安裝并使用了某個P2P軟件,或者是遭遇了網絡攻擊。

根據故障計算機的IP地址找到這些計算機后,在檢查這些計算機時,果然發現安裝有PPLive軟件正在在線使用,且修改了應用程序的默認端口。然而,應用于交換機的IP訪問列表沒有能夠阻止這些連接。

故障解決

鑒于PPLive軟件可以由用戶任意指定端口號的情況,IP訪問列表中只限制默認端口的方式已不再有效。因此,必須改變IP訪問列表的設計策略。于是,我們將只拒絕特定端口的方式,改變為只允許特定端口的方式,從而基本杜絕了PPLive軟件的大量使用。

P2P軟件謀殺網絡連接共享

故障現象

某局域網內有1200個計算機用戶,采用兩臺ISA Server群集實現Internet連接共享。服務器硬件配置均為Intel Xeon 3.0 CPU、2GB內存、SCSI 72GB硬盤。然而,最近幾天Internet接入速度變得非常緩慢,瀏覽普通網頁都要等待很長一段時間,甚至還經常提示超時連接。

故障分析

查看ISA報告后發現,許多用戶的上下行流量都很大。僅流量排名前15位的用戶,每天的總流量就高達38.22GB,其中,輸入流量32.41GB,輸出流量5.81GB。而前3位用戶的總輸入流量為3.05GB,總輸出流量為2.85GB。

由于代理服務器只為普通網絡客戶端提供Internet接入服務,因此,網絡流量不應該如此之大,這說明在局域網中極可能有大量用戶在使用P2P軟件。

使用Sniffer Pro監控代理服務器VLAN時,也發現大量用戶的并發連接數量很大,如圖6所示。

故障解決

在核心交換機上設置IP訪問列表,將其應用于代理服務器群集所在的VLAN,并禁用一些蠕蟲病毒的端口和常見P2P軟件的端口,IP訪問列表內容如表1所示。

開始的一段時間,Internet的訪問速度明顯地得到了提升。然而,過了一周左右時間后,Internet連接速率又慢慢降了下來。使用Sniffer Pro監測時,又發現了大量的并發連接。原來許多P2P用戶修改了默認的TCP端口,因此,原來的IP訪問列表已經不起什么作用了,需要重新修改IP訪問列表。于是,這次只開放一些常見的和必需的Internet端口,而禁用其他所有端口,修改后的IP訪問列表內容如表2所示。

此后,Internet連接就一直保持正常了。

交換機CPU占用率高達99%

故障現象

網絡訪問和Internet連接速率明顯變慢,計算機的反應也較為遲緩。

故障分析

登錄到核心交換機Cisco Catalyst 4006,使用“1show processes cpu”命令查看CPU資源,從系統輸出的信息可以看到(如圖7所示),CPU在5秒、1分鐘、5分鐘內的占用率高達99%、99%和98%。其中,Cat4k Mgmt LoPri進程的CPU占用率分別為82.63%、82.25%和80.68%。這里,我們先簡要說明一下Cat4k Mgmt HiPri和Cat4k Mgmt LoPri兩個進程的原理。當某個進程占用CPU時間沒有超過規定的CPU分配時間時,Cat4k Mgmt HiPri進程便會接管這個進程;而當Cat4k平臺上某項進程占用CPU超出了應分配的CPU時間時,Cat4k Mgmt LoPri進程會接管這項進程,使其他進程能夠得到CPU時間。

從故障的現狀可以看出,Cat4k Mgmt LoPri進程的CPU占用率超過了80%。因此基本可以斷定是某個進程的CPU占用時間大大超過了應該分配的時間,Cat4k Mgmt LoPri進程試圖接管這一進程,從而導致了Cat4k Mgmt LoPri進程的CPU占用率非常高。依據這一思路,只要找到該進程將其關閉,就能夠找出CPU占用率過高的原因并解決這個問題。

故障解決

使用Sniffer Pro查看網絡通信情況,我們發現許多計算機同時與網絡內部的多臺計算機通信(如圖8所示)。經進一步查看,發現它們使用的端口均為TCP 135端口,由此預測,可能是蠕蟲病毒導致了該故障的發生。

于是,設置IP訪問列表阻止TCP 135端口及其他常見蠕蟲端口,并將其應用于所有VLAN,最后有效地解決了CPU資源占用率高的問題。(責任編輯:楊春暉)

文章出自:CCIE那點事 http://www.qdxgqk.live/ 版權所有。本站文章除注明出處外,皆為作者原創文章,可自由引用,但請注明來源。 禁止全文轉載。
本文鏈接:http://www.qdxgqk.live/?p=330轉載請注明轉自CCIE那點事
如果喜歡:點此訂閱本站
  • 相關文章
  • 為您推薦
  • 各種觀點
?
暫時還木有人評論,坐等沙發!
發表評論

您必須 [ 登錄 ] 才能發表留言!

?
?
萌宠夺宝游戏