CRS-1 路由器8個Plane有1個plane顯示MCAST_DOWN

來源:本站原創 網絡技術 超過1,008 views圍觀 0條評論

 

硬件平臺

CRS

軟件版本

IOS XR

案例簡介

CRS通過”(admin)#show controller fabric plane all” 發現plane 1顯示MCAST_DOWN, 對應在Down Flags一欄顯示m.
正常應該所有均顯示UP。此情況說明該平面的multicast轉發已經停止,不過組播流量仍然可以通過其他7個平面轉發。
此情況沒有業務影響。但請盡快處理。

(admin)#sh contr fabric plane all de
 
Wed Mar 27 08:59:36.956 BeiJing
[K  Flags:  P - plane admin down,       p - plane oper down
            C - card admin down,        c - card  oper down
            L - link port admin down,   l - linkport oper down
            A - asic admin down,        a - asic oper down
            B - bundle port admin Down, b - bundle port oper down
            I - bundle admin down,      i - bundle oper down
            N - node admin down,        n - node down
            o - other end of link down  d - data down
            f - failed component downstream
            m - plane multicast down,   s - link port permanently shutdown
            t - no barrier input        O - Out-Of-Service oper down
            T - topology mismatch down
 
Plane  Admin   Oper   up->dn        Down    Total     Down  
Id     State   State  counter       Flags   Bundles   Bundles
------------------------------------------------------------
0      UP      UP         0                     9         0     
1      UP      MCAST_DOWN 0          m          9         0     
2      UP      UP         0                     9         0     
3      UP      UP         0                     9         0     
4      UP      UP         0                     9         0     
5      UP      UP         0                     9         0     
6      UP      UP         0                     9         0     
7      UP      UP         1                     9         0

故障診斷步驟

1. 檢查fabric的connectivity是否良好。全1代表每塊業務板卡/RP跟所有8個planes的連接都是完好的。如果1換成”.”, 則該板卡/RP跟該平面連接有問題。

(admin)# show controllers fabric connectivity all detail
 
 Card       In  Tx Planes  Rx Planes   Monitored        Total            Percent
 R/S/M      Use 01234567   01234567    For (s)          Uptime (s)       Uptime
-------------------------------------------------------------------------------
0/0/CPU0    1   11111111    11111111   335147           335147           100.0000
0/2/CPU0    1   11111111    11111111   335147           335147           100.0000
0/RP0/CPU0  1   11111111    11111111   335147           335147           100.0000
0/RP1/CPU0  1   11111111    11111111   335147           335147           100.0000

2. 大多數MCAST_DOWN的問題由于S13卡的S3 ASIC 跟業務板卡的Fabricq ASIC的連接down 掉引起,下面我們就此做個檢查。

(admin)#show controllers fabric link port  fabricqr | exclude “UP    UP”
Fri Mar 29 12:51:07.148 BeiJing
0/15/CPU0/0/4            UP    DOWN  l       0/SM1/SP/2/68  
0/15/CPU0/0/5            UP    DOWN  l       0/SM1/SP/3/21  
0/15/CPU0/0/6            UP    DOWN  l       0/SM1/SP/2/69  
0/15/CPU0/0/7            UP    DOWN  l       0/SM1/SP/3/20  
  • 每個S13卡的每個S3 ASIC在一個平面內跟每個業務板卡只有8根links,只要down link大于等于2,就會顯示MCAST_DOWN. 這里我們看到已經有4根links down,所以這兩塊卡:0/15/cpu0和0/SM1/SP都要受到懷疑。

3. 為了分析是業務板卡0/15/cpu0還是S13卡0/SM1/SP 出問題,考慮到該系統為4+2多機框系統,交換0框和1框的plane 1 的S13卡,進而查看問題有否跟隨S13卡而走。該操作只影響一個平面,完全不會給客戶業務帶來影響,但是為慎重起見,請在業務窗口執行。具體步驟如下:

1. 關閉平面1和0框、1框的平面1的S13矩陣卡

Admin
Conf t
controller fabric plane 1 shutdown
commit
Hw-module power disable location 0/sm1/sp
Hw-module power disable location 1/sm1/sp
commit

2. 將兩個矩陣卡的扁平線拔出,然后互換位置,并連接扁平線。

3. 給兩個矩陣卡及平面1加電

no hw shutdown loc 0/sm1/sp
no hw shutdown loc 1/sm1/sp
commit
no controller fabric plane 1 shutdown
commit

4. 收集如下命令查看

show controllers fabric link port fabricqr | inc 0/15/CPU0/ | INC 0/SM1
show controllers fabric link port fabricqr | inc 0/15/CPU0/ | INC 1/SM1
show controllers fabric link port fabricqr
show inventory
show platform  */SM1/SP

4. 結果通過命令看到down links跟著S13卡走。如下所示。RMA 原0/SM1/SP的S13卡。問題解決。

 
(admin)#show controllers fabric link port  fabricqr | inc 0/15/CPU0/ | INC 1/SM1
Fri Mar 29 12:51:07.148 BeiJing
0/15/CPU0/0/4            UP    DOWN  l       1/SM1/SP/2/68  
0/15/CPU0/0/5            UP    DOWN  l       1/SM1/SP/3/21  
0/15/CPU0/0/6            UP    DOWN  l       1/SM1/SP/2/69  
0/15/CPU0/0/7            UP    DOWN  l       1/SM1/SP/3/20  
0/15/CPU0/1/4            UP    UP            1/SM1/SP/2/15  
0/15/CPU0/1/5            UP    UP            1/SM1/SP/3/57  
0/15/CPU0/1/6            UP    UP            1/SM1/SP/2/14  
0/15/CPU0/1/7            UP    UP            1/SM1/SP/3/56  

經驗總結

1個egress LC/RP 有32根 2.5Gbps的links 連接1個S3 ASIC。

1個egress LC有2個fabricq ASICs.

1個RP 有1個fabricq ASIC.

所以

1. 一個平面內,1個egress LC有8根 links連去S13卡。(32/8 + 32/8)

2. 一個平面內,上半框(slot 0 – slot 7)的LC, 4根連接去S3 ASIC 0, 另外4根連接S3 ASIC 1.

下半框的LC,4根連接ASIC 2, 4根連接ASIC 3.

clip_image001

于是,此case中,在1平面, 在0/15/cpu0和0/sm1/sp之間總共有8根links.  已經down了一半,為了讓multicast的traffic不再從PLANE 1送去0/15/cpu0,所以系統把plane 1的multicast給down了。


相關命令

 
show  controllers fabric link port fabricqr | exclude “UP    UP”
 
Admin
Conf t
controller fabric plane 1 shutdown
Hw-module power disable location <>
commit
No hw-module power disable location <>
No controller fabric plane 1 shutdown <>
commit    

相關錯誤信息

RP/0/RP0/CPU0::Mar  5 09:20:44.963 : fsdb_aserver[210]: %FABRIC-FSDB-1-PLANE_UPDOWN : Plane 1 state changed to MCAST_DOWN;

其他相關文檔

原文

http://www.cisco.com/cisco/web/support/CN/111/1117/1117750_McastDownCaseStudy.html

文章出自:CCIE那點事 http://www.qdxgqk.live/ 版權所有。本站文章除注明出處外,皆為作者原創文章,可自由引用,但請注明來源。 禁止全文轉載。
本文鏈接:http://www.qdxgqk.live/?p=3305轉載請注明轉自CCIE那點事
如果喜歡:點此訂閱本站
  • 相關文章
  • 為您推薦
  • 各種觀點
?
暫時還木有人評論,坐等沙發!
發表評論

您必須 [ 登錄 ] 才能發表留言!

?
?
萌宠夺宝游戏