Anh em kỹ sư mạng chắc đều quen với khái niệm dự phòng Supervisor Engine trên các dòng switch Catalyst cao cấp (ví dụ Catalyst 4500, 6500, 9400…). Đây là tính năng cực kỳ quan trọng khi ta triển khai hạ tầng mạng lớn, vì Supervisor chính là “bộ não” điều khiển toàn bộ hoạt động Layer 2/3 của switch.
Khi một Supervisor bị lỗi, nếu không có dự phòng, toàn bộ switch có thể bị gián đoạn trong nhiều phút, gây ảnh hưởng lớn tới hệ thống. Do đó Cisco đã đưa ra các chế độ Redundancy (HA mode) để giúp standby Supervisor có mức độ “sẵn sàng” khác nhau. Mức độ sẵn sàng càng cao thì failover càng nhanh. Các chế độ Redundancy trên Catalyst Switches
Cisco NSF/SSO trong thực tế
Ví dụ: Trên Catalyst 9400, khi Active Supervisor hỏng, Standby sẽ takeover trong vòng ≤150ms, gián đoạn lưu lượng dưới 200ms. Người dùng hầu như không nhận ra có sự cố, các session vẫn tiếp tục bình thường. Đây là tiêu chuẩn “carrier-grade” mà các doanh nghiệp lớn cần để duy trì dịch vụ 24/7.
Câu hỏi ôn tập
Hỏi: Redundancy mode nào cho phép Standby module hoàn tất khởi tạo mà không cần reload lại các module khác?
👉 Đáp án đúng: RPR+
Khi một Supervisor bị lỗi, nếu không có dự phòng, toàn bộ switch có thể bị gián đoạn trong nhiều phút, gây ảnh hưởng lớn tới hệ thống. Do đó Cisco đã đưa ra các chế độ Redundancy (HA mode) để giúp standby Supervisor có mức độ “sẵn sàng” khác nhau. Mức độ sẵn sàng càng cao thì failover càng nhanh. Các chế độ Redundancy trên Catalyst Switches
- RPR (Route Processor Redundancy):
Standby supervisor mới chỉ khởi động một phần, chưa sẵn sàng cho Layer 2/3. Khi Active hỏng, Standby phải reload lại toàn bộ các module khác và khởi tạo toàn bộ dịch vụ. Thời gian failover thường < 2 phút.
👉 Có thể hình dung như bạn có một server dự phòng nhưng nó đang “shutdown”, khi server chính chết thì bạn phải bật máy phụ lên từ đầu. - RPR+ (Route Processor Redundancy Plus):
Standby đã khởi động xong hệ điều hành và Route Engine, nhưng chưa chạy các chức năng Layer 2/3. Khi Active hỏng, Standby chỉ cần hoàn tất phần còn lại, không phải reload các line card. Vì thế failover nhanh hơn nhiều, thường < 30 giây.
👉 Giống như bạn đã bật sẵn server phụ, chỉ còn thiếu load vài dịch vụ, nên chuyển đổi nhanh hơn. - SSO (Stateful Switchover):
Đây là chế độ mạnh nhất. Standby supervisor đã được boot đầy đủ và đồng bộ liên tục với Active cả startup-config, running-config, thông tin Layer 2, trạng thái interface. Khi Active chết, Standby takeover gần như tức thì (failover < 1 giây).
👉 Quan trọng hơn, các port không bị flap và người dùng không bị rớt session TCP.
Khi kết hợp với Cisco NSF (Nonstop Forwarding), ngay cả bảng định tuyến (RIB/FIB) cũng được tái thiết cực nhanh, đảm bảo lưu lượng IP không bị gián đoạn (chỉ khoảng 150ms traffic interruption trên Catalyst 9400).
Cisco NSF/SSO trong thực tế
Ví dụ: Trên Catalyst 9400, khi Active Supervisor hỏng, Standby sẽ takeover trong vòng ≤150ms, gián đoạn lưu lượng dưới 200ms. Người dùng hầu như không nhận ra có sự cố, các session vẫn tiếp tục bình thường. Đây là tiêu chuẩn “carrier-grade” mà các doanh nghiệp lớn cần để duy trì dịch vụ 24/7.
Câu hỏi ôn tập
Hỏi: Redundancy mode nào cho phép Standby module hoàn tất khởi tạo mà không cần reload lại các module khác?
- RPR
- SSO
- VRRP
- RPR+ ✅
- HSRP
👉 Đáp án đúng: RPR+