conn max 思科開case 解決問題思路

來源:本站原創 網絡技術 超過1,440 views圍觀 0條評論

FWSM的最大連接數是100萬,用戶通過show conn count發現,連接數已經達到飽和,以為是內部有病毒,或者有攻擊所到,于是找思科case,遠解決問題,
簡單介紹下cisco tac 工程師解決方法和一些排查命令。 以下是整理過的文檔。,希望對大家有幫助。
———————————
這段時間, 通過思科TAC工程師的分析, 故障的原因可能是因為系統資源消耗殆盡而出現ping包丟失.
從被旁路后的防火墻上抓取的信息顯示并發的連接數曾經達到了999,905個. 如下,

—————— show conn count ——————

0 in use, 999905 most used

而這款防火墻的性能限制是最大支持100萬個并發連接. 所以, 這時會產生系統資源使用過多的情況. 因為這些信息抓取時是在防火墻已經被旁路后, 所以, 這個顯示只是表示防火墻的并發連接數曾經達到過999,905個. 現在, 并沒有當時出現ping丟包時的實時連接數量信息.

而從現有網絡情況來看, 在目前C網用戶數不多的情況下, 一般的, 不太可能出現如此高的并發連接. 所以, 思科TAC的工程師懷疑有類似DDoS攻擊的問題. 現在的防火墻工作在2層透明模式, 其中的ACL對大多所有來自Internet的流量都不做限制. 可能出現類似于DDoS攻擊的流量從Internet撞擊到防火墻上.

另外, 用于網絡監控的ICMP ping包測試, 同樣也會由防火墻的NP3芯片處理, 每個ICMP的ping包都會產生一條connection記錄, 并消耗一定的NP3 處理及buffer資源. 少量的測試ICMP ping包對系統不會有影響. 但是持續不斷的ICMP ping測試, 會占用一定的防火墻資源.

另外, 從已有信息中顯示NP3處理器的buffer使用情況來看, NP3的buffer資源也出現消耗殆盡的情況.

—————— show np blocks ——————

                                MAX   FREE   THRESH_0   THRESH_1   THRESH_2

NP1 (ingress)      32768 32720          0       5160        419

    (egress)        521206 521206          0          0          0

NP2 (ingress)      32768 32768          0       1800        931

    (egress) 521206 521206          0          0          0

NP3 (ingress) 32768 32768       1838 616193020 1515462762

    (egress) 521206 521191          0          0          0

NP3的功能是在防火墻模塊里負責連接建立與拆除的. 所以也符合連接數過多的現象.

如上所述, 由于缺乏防火墻出現丟包時的實時記錄, 所以現有分析都是針對歷史記錄的分析. 故障原因懷疑為因為出現過多的連接, 導致防火墻資源幾乎耗盡, 而對新建連接的請求(如icmp)出現丟包. 但是, 已建立的連接還可以保持正常通信. 所以, 并沒有出現最終使用用戶的申告故障.

3. 下一步處理意見

思科工程師已請省NOC維護人員協助查看出現故障時的端口流量, 并對比平時正常時的端口流量, 作為判斷是否有非法流量存在的可能.

在防火墻重新上線后, 建議以下操作以減少NP3的不必要的功能.

1. 啟動xlate-bypass, 因為2層防火墻的時候, 不需要進行任何的NAT功能, 可以關閉NAT功能

配置命令: xlate-bypass

2. 降低logging信息的等級, 現有的logging信息過于詳細, 對每個連接的建立與拆除都logging相關信息.

配置命令:

logging monitor warnings

logging buffered warnings

logging trap warnings

3. 降低網管ICMP ping測試的頻率.

同時在上線后,加強防火墻的監控。第一天以如下方式檢查:

1. 每隔30秒獲取防火墻當前的并發連接數, 操作3次

監控命令: show local-host | include host|count/limit

2. 每隔30秒獲取防火墻的端口流量信息, 操作3次

監控命令: show interface

監控命令: show firewall module X traffic (在6506上執行)

3. 每隔30秒獲取防火墻的ACL計數器, 操作3次

監控命令: show access-list

4. 每隔1分鐘獲取防火墻的性能狀態. 操作3次

監控命令: show perfmon detail

show console-output

5. 每隔40秒獲取防火墻的丟包信息, 操作3次

監控命令: show asp drop

6. 每隔1分鐘獲取防火墻的服務策略, 操作3次

監控命令: show service-policy

7. 每隔30秒抓取防火墻網絡處理端口信息, 操作3次

監控命令: show nic

8. 每隔30秒獲取防火墻的NP狀態信息, 操作3次,

監控命令: show np blocks

show np <[1-3]> stats

show np 3 semaphore

show np 3 epc pc

show np pc

9. 獲取系統運行信息

監控命令: show tech

show log

show conn detail

10. 必要時在防火墻上進行相應的抓包分析

操作命令:

access-list tac_capture_acl permit ip host <host machine> host <destination machine >

access-list tac_capture_acl permit ip host <destination machine > host <host machine>

capture tac_capture_inside access-list tac_capture_acl buffer 3000000 packet-length 1522 interface inside_A

capture tac_capture_outside access-list tac_capture_acl buffer 3000000 packet-length 1522 interface outside_A

copy /pcap capture:tac_capture_inside tftp:1.1.1.1/tac_capture_inside.pcap

copy /pcap capture:tac_capture_outside tftp:1.1.1.1/tac_capture_outside.pcap

***********************************************************************************
我這邊的操作為:
1 Collect syslog on FWSM
logging on
logging buffered 6
logging buffer-size 1048576
show log
2 "show local-host | include host|count/limit" on FWSM
3 "show xlate debug" on FWSM
4 "show np blocks" on FWSM (3times interval 10 sec)
操作:
1.Tune the TCP&UDP timeout value
#timeout conn 0:10:00 udp 00:01:00
2.#cpu profile activate 5000    這條命令可以查看是什么進程在消耗CPU資源。
    (wait a minute)
   show cpu profile
3.
-no logging monitor
-no logging buffered

文章出自:CCIE那點事 http://www.qdxgqk.live/ 版權所有。本站文章除注明出處外,皆為作者原創文章,可自由引用,但請注明來源。 禁止全文轉載。
本文鏈接:http://www.qdxgqk.live/?p=3348轉載請注明轉自CCIE那點事
如果喜歡:點此訂閱本站
  • 相關文章
  • 為您推薦
  • 各種觀點
?
暫時還木有人評論,坐等沙發!
發表評論

您必須 [ 登錄 ] 才能發表留言!

?
?
萌宠夺宝游戏