Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Quản trị hệ thống

    Network Maintenance — Vì sao nhiều kỹ sư mạng luôn bận “chữa cháy” nhưng hệ thống vẫn không ổn định?


    Trong rất nhiều doanh nghiệp, có một nghịch lý khá quen thuộc.

    Network team lúc nào cũng bận. Ngày nào cũng có ticket. Người dùng liên tục báo lỗi:
    • Wi-Fi chập chờn
    • VPN không vào được
    • Voice call bị giật
    • ERP chậm
    • Branch office mất WAN
    • Firewall CPU cao
    • Core switch báo lỗi interface

    Nhìn từ bên ngoài, có vẻ team mạng làm việc rất vất vả. Nhưng kỳ lạ là hệ thống vẫn thiếu ổn định. Vấn đề nằm ở đâu?

    Câu trả lời thường không nằm ở thiết bị.

    Nó nằm ở cách vận hành hệ thống mạng.
    Network Maintenance thực sự là gì?


    Nhiều người nghĩ network maintenance đơn giản là:

    “Thiết bị hỏng thì sửa.”

    Đó chỉ là một phần rất nhỏ.

    Trong môi trường enterprise, network maintenance là toàn bộ hoạt động nhằm giữ cho hạ tầng mạng:
    • Available
    • Stable
    • Predictable
    • Secure
    • Scalable

    Điều này bao gồm:
    • Troubleshooting
    • Monitoring
    • Capacity planning
    • Hardware lifecycle management
    • Software lifecycle management
    • Configuration governance
    • Documentation
    • Security operations
    • Change management
    • Compliance

    Network maintenance không phải sửa mạng.
    Network maintenance là vận hành mạng như một hệ thống sản xuất (production system).

    Hai kiểu kỹ sư mạng


    Quan sát thực tế, có thể chia đội ngũ vận hành thành hai kiểu.

    Kiểu 1: Firefighter Engineer (Chữa cháy)


    Đặc trưng:
    • chỉ phản ứng khi có sự cố
    • không monitoring
    • không baseline
    • không documentation
    • backup không rõ ở đâu
    • thay đổi cấu hình trực tiếp trên production
    • không rollback plan

    Workflow quen thuộc:

    User báo lỗi → SSH vào thiết bị → sửa gì đó → hy vọng hết lỗi.

    Ban đầu cách này có vẻ hiệu quả.

    Nhưng khi hệ thống lớn lên:
    • 50 switch
    • 200 AP
    • nhiều branch
    • firewall cluster
    • MPLS / Internet hybrid WAN
    • cloud connectivity

    thì mô hình này sụp đổ.
    Kiểu 2: Structured Operations Engineer (Hoạt động có cấu trúc bài bản)


    Đặc trưng:
    • giám sát chủ động
    • có maintenance plan
    • có configuration standard
    • có change control
    • có rollback
    • có documentation
    • có capacity planning

    Nguyên tắc:

    Fix problems before users notice them.

    Đây là cách vận hành của mature enterprise.
    Firefighting là dấu hiệu của vận hành yếu


    Interrupt-driven work không thể tránh hoàn toàn.

    Ví dụ:
    • PSU hỏng
    • ISP outage
    • optic module fail
    • routing process crash
    • firmware bug
    • unexpected broadcast storm

    Nhưng nếu phần lớn thời gian của team chỉ để chữa cháy…

    thì đó không phải dấu hiệu của “team chăm chỉ”.

    Đó là dấu hiệu của: trưởng thành trong công tác vận hành mạng.

    operational immaturity.
    FCAPS — Framework kinh điển của vận hành mạng


    Một trong những framework kinh điển nhất là FCAPS.

    Nhiều người học certification có nghe qua, nhưng ít người áp dụng thực sự.

    FCAPS gồm:
    • Fault
    • Configuration
    • Accounting
    • Performance
    • Security

    Điều thú vị là framework này vẫn cực kỳ phù hợp trong enterprise hiện đại.
    F — Fault Management


    Mục tiêu:

    Phát hiện lỗi sớm nhất có thể.

    Nếu user là người đầu tiên phát hiện lỗi…

    thì monitoring của bạn thất bại.

    Ví dụ enterprise cần giám sát:
    • interface up/down
    • BGP adjacency loss
    • OSPF neighbor down
    • VPN tunnel drop
    • AP disconnect
    • switch stack member failure
    • PSU failure
    • fan failure
    • high CPU
    • high memory
    • packet drop

    Công cụ:
    • Syslog
    • SNMP
    • Telemetry
    • NetFlow
    • ThousandEyes
    • Catalyst Center
    • SolarWinds
    • PRTG
    • LibreNMS

    Best practice:

    Không chỉ thu thập log.

    Phải có:
    • alerting
    • escalation
    • correlation
    • threshold tuning

    Nếu không, bạn chỉ tạo ra log noise.
    C — Configuration Management


    Enterprise network không chết vì packet.

    Nó thường chết vì con người.

    Ví dụ:
    • xóa nhầm route
    • apply ACL sai
    • NAT rule shadow
    • trunk VLAN mismatch
    • STP config inconsistency
    • QoS policy typo

    Configuration management giúp kiểm soát thay đổi.

    Nguyên tắc:

    Mọi thay đổi đều phải:
    • documented
    • approved
    • traceable
    • reversible

    Câu hỏi quan trọng:

    Ai đã thay đổi cái gì? Khi nào? Vì sao?

    Nếu không trả lời được…

    bạn đang vận hành bằng niềm tin.
    A — Accounting Management


    Phần này thường ít được nhắc trong enterprise.

    Nhưng rất quan trọng trong:
    • ISP
    • MSP
    • Guest network
    • chargeback model
    • cloud consumption tracking

    Ví dụ:
    • guest Wi-Fi billing
    • department usage reporting
    • WAN bandwidth chargeback

    Modern equivalent:

    Cloud FinOps cũng chính là một dạng accounting mindset.
    P — Performance Management


    Một mạng “đang chạy” chưa chắc là mạng “đang tốt”.

    Ví dụ:

    BGP up.

    Nhưng:
    • latency tăng
    • packet loss tăng
    • jitter tăng
    • voice quality giảm

    Performance management giúp thấy vấn đề trước khi outage xảy ra.

    Metrics nên theo dõi:

    Layer 2:
    • interface utilization
    • CRC
    • drops
    • STP events

    Layer 3:
    • routing churn
    • ARP anomalies
    • ICMP latency

    WAN:
    • packet loss
    • MOS
    • jitter
    • SLA compliance

    Wireless:
    • channel utilization
    • retry rate
    • roaming performance
    • SNR
    • interference

    S — Security Management


    Một network ổn định nhưng không an toàn vẫn là thất bại.

    Security maintenance gồm:
    • firewall policy review
    • VPN health
    • AAA validation
    • certificate lifecycle
    • patching
    • IDS/IPS monitoring
    • segmentation audit
    • access control review

    Ví dụ:

    Một expired certificate có thể làm VPN outage.

    Một AAA misconfiguration có thể lockout admin.

    Security không phải dự án một lần.

    Nó là maintenance liên tục.
    Change Management — thứ cứu bạn khỏi thảm họa


    Đây là phần rất nhiều kỹ sư trẻ xem nhẹ.

    Ví dụ:

    “Em chỉ đổi có một ACL thôi.”

    Ba tiếng sau:
    • ERP chết
    • VoIP lỗi
    • branch mất kết nối

    Tại sao?

    Vì thay đổi nhỏ có thể có blast radius lớn.

    Change management yêu cầu trả lời: Ai phê duyệt?


    Network lead?

    Security?

    CAB?
    Khi nào thay đổi?


    Production giờ làm việc?

    Hay maintenance window?
    Rollback là gì?


    Nếu fail:
    • restore config?
    • remove policy?
    • fail back ISP?
    • revert software?

    Rollback mất bao lâu?


    5 phút?

    30 phút?

    2 tiếng?
    Ai cập nhật documentation?


    Nếu không update docs:

    tài liệu chết ngay sau lần change đầu tiên.
    Backup — thứ bạn chỉ nhớ khi disaster xảy ra


    Rất nhiều team “có backup”.

    Nhưng hỏi:

    “restore thử chưa?”

    => im lặng.

    Backup thực sự phải:
    • automated
    • versioned
    • tested
    • recoverable

    Ví dụ:

    Không chỉ backup:
    show running-config

    Mà phải có:
    • archived configs
    • golden configs
    • firmware images
    • license info
    • inventory metadata

    Documentation — dấu hiệu của đội ngũ trưởng thành


    Network documentation tốt thường gồm: Physical topology


    Cho biết:

    thiết bị nào cắm với thiết bị nào.
    Logical topology


    Cho biết:
    • VLAN
    • subnet
    • routing domain
    • VRF
    • WAN topology

    IP addressing plan


    Nếu không có:

    rất nhanh sẽ thành địa ngục subnet.
    Inventory


    Phải biết:
    • model
    • serial
    • software version
    • EOL status
    • contract info

    Design decision records


    Cực kỳ quan trọng.

    Ví dụ:

    “Tại sao WAN dùng dual hub?”
    “Tại sao OSPF area thiết kế kiểu này?”

    Nếu architect nghỉ việc và không ai biết…

    đó là technical debt.
    Configuration Templates — tiêu chuẩn hóa để giảm lỗi


    Một enterprise tốt không cấu hình “theo cảm hứng”.

    Ví dụ access port template:
    • portfast
    • bpduguard
    • port security
    • description standard

    Nếu 10 engineer cấu hình 10 kiểu khác nhau:

    troubleshooting sẽ là cơn ác mộng.

    Template mang lại:
    • consistency
    • auditability
    • speed
    • predictability

    Modern evolution:
    • Ansible templates
    • Terraform
    • Cisco NSO
    • model-driven automation

    Góc nhìn thực chiến


    Nếu team của bạn luôn bận chữa cháy…

    hãy hỏi:
    • monitoring đủ chưa?
    • baseline có chưa?
    • config standard có chưa?
    • backup test chưa?
    • documentation sống hay chết?
    • change control có thật không?

    Mạng hoạt động ổn định không đến từ may mắn, nó đến từ viêc tuân thủ nguyên tắc quản lý!
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X