Quản trị hệ thống - Vietnamese Professional

dangquangminh

Super Moderator

Brainiac

Join Date: Oct 2005

Posts: 11497
- Share
- Tweet
#1

Quản trị hệ thống

09-05-2026, 03:16 PM

Network Maintenance — Vì sao nhiều kỹ sư mạng luôn bận “chữa cháy” nhưng hệ thống vẫn không ổn định?

Trong rất nhiều doanh nghiệp, có một nghịch lý khá quen thuộc.

Network team lúc nào cũng bận. Ngày nào cũng có ticket. Người dùng liên tục báo lỗi:
Wi-Fi chập chờn

VPN không vào được

Voice call bị giật

ERP chậm

Branch office mất WAN

Firewall CPU cao

Core switch báo lỗi interface

Nhìn từ bên ngoài, có vẻ team mạng làm việc rất vất vả. Nhưng kỳ lạ là hệ thống vẫn thiếu ổn định. Vấn đề nằm ở đâu?

Câu trả lời thường không nằm ở thiết bị.

Nó nằm ở cách vận hành hệ thống mạng.
Network Maintenance thực sự là gì?

Nhiều người nghĩ network maintenance đơn giản là:

“Thiết bị hỏng thì sửa.”

Đó chỉ là một phần rất nhỏ.

Trong môi trường enterprise, network maintenance là toàn bộ hoạt động nhằm giữ cho hạ tầng mạng:
Available

Stable

Predictable

Secure

Scalable

Điều này bao gồm:
Troubleshooting

Monitoring

Capacity planning

Hardware lifecycle management

Software lifecycle management

Configuration governance

Documentation

Security operations

Change management

Compliance

Network maintenance không phải sửa mạng.
Network maintenance là vận hành mạng như một hệ thống sản xuất (production system).
Hai kiểu kỹ sư mạng

Quan sát thực tế, có thể chia đội ngũ vận hành thành hai kiểu.

Kiểu 1: Firefighter Engineer (Chữa cháy)

Đặc trưng:
chỉ phản ứng khi có sự cố

không monitoring

không baseline

không documentation

backup không rõ ở đâu

thay đổi cấu hình trực tiếp trên production

không rollback plan

Workflow quen thuộc:

User báo lỗi → SSH vào thiết bị → sửa gì đó → hy vọng hết lỗi.

Ban đầu cách này có vẻ hiệu quả.

Nhưng khi hệ thống lớn lên:
50 switch

200 AP

nhiều branch

firewall cluster

MPLS / Internet hybrid WAN

cloud connectivity

thì mô hình này sụp đổ.
Kiểu 2: Structured Operations Engineer (Hoạt động có cấu trúc bài bản)

Đặc trưng:
giám sát chủ động

có maintenance plan

có configuration standard

có change control

có rollback

có documentation

có capacity planning

Nguyên tắc:

Fix problems before users notice them.

Đây là cách vận hành của mature enterprise.
Firefighting là dấu hiệu của vận hành yếu

Interrupt-driven work không thể tránh hoàn toàn.

Ví dụ:
PSU hỏng

ISP outage

optic module fail

routing process crash

firmware bug

unexpected broadcast storm

Nhưng nếu phần lớn thời gian của team chỉ để chữa cháy…

thì đó không phải dấu hiệu của “team chăm chỉ”.

Đó là dấu hiệu của: trưởng thành trong công tác vận hành mạng.

operational immaturity.
FCAPS — Framework kinh điển của vận hành mạng

Một trong những framework kinh điển nhất là FCAPS.

Nhiều người học certification có nghe qua, nhưng ít người áp dụng thực sự.

FCAPS gồm:
Fault

Configuration

Accounting

Performance

Security

Điều thú vị là framework này vẫn cực kỳ phù hợp trong enterprise hiện đại.
F — Fault Management

Mục tiêu:

Phát hiện lỗi sớm nhất có thể.

Nếu user là người đầu tiên phát hiện lỗi…

thì monitoring của bạn thất bại.

Ví dụ enterprise cần giám sát:
interface up/down

BGP adjacency loss

OSPF neighbor down

VPN tunnel drop

AP disconnect

switch stack member failure

PSU failure

fan failure

high CPU

high memory

packet drop

Công cụ:
Syslog

SNMP

Telemetry

NetFlow

ThousandEyes

Catalyst Center

SolarWinds

PRTG

LibreNMS

Best practice:

Không chỉ thu thập log.

Phải có:
alerting

escalation

correlation

threshold tuning

Nếu không, bạn chỉ tạo ra log noise.
C — Configuration Management

Enterprise network không chết vì packet.

Nó thường chết vì con người.

Ví dụ:
xóa nhầm route

apply ACL sai

NAT rule shadow

trunk VLAN mismatch

STP config inconsistency

QoS policy typo

Configuration management giúp kiểm soát thay đổi.

Nguyên tắc:

Mọi thay đổi đều phải:
documented

approved

traceable

reversible

Câu hỏi quan trọng:

Ai đã thay đổi cái gì? Khi nào? Vì sao?

Nếu không trả lời được…

bạn đang vận hành bằng niềm tin.
A — Accounting Management

Phần này thường ít được nhắc trong enterprise.

Nhưng rất quan trọng trong:
ISP

MSP

Guest network

chargeback model

cloud consumption tracking

Ví dụ:
guest Wi-Fi billing

department usage reporting

WAN bandwidth chargeback

Modern equivalent:

Cloud FinOps cũng chính là một dạng accounting mindset.
P — Performance Management

Một mạng “đang chạy” chưa chắc là mạng “đang tốt”.

Ví dụ:

BGP up.

Nhưng:
latency tăng

packet loss tăng

jitter tăng

voice quality giảm

Performance management giúp thấy vấn đề trước khi outage xảy ra.

Metrics nên theo dõi:

Layer 2:
interface utilization

CRC

drops

STP events

Layer 3:
routing churn

ARP anomalies

ICMP latency

WAN:
packet loss

MOS

jitter

SLA compliance

Wireless:
channel utilization

retry rate

roaming performance

SNR

interference

S — Security Management

Một network ổn định nhưng không an toàn vẫn là thất bại.

Security maintenance gồm:
firewall policy review

VPN health

AAA validation

certificate lifecycle

patching

IDS/IPS monitoring

segmentation audit

access control review

Ví dụ:

Một expired certificate có thể làm VPN outage.

Một AAA misconfiguration có thể lockout admin.

Security không phải dự án một lần.

Nó là maintenance liên tục.
Change Management — thứ cứu bạn khỏi thảm họa

Đây là phần rất nhiều kỹ sư trẻ xem nhẹ.

Ví dụ:

“Em chỉ đổi có một ACL thôi.”

Ba tiếng sau:
ERP chết

VoIP lỗi

branch mất kết nối

Tại sao?

Vì thay đổi nhỏ có thể có blast radius lớn.

Change management yêu cầu trả lời: Ai phê duyệt?

Network lead?

Security?

CAB?
Khi nào thay đổi?

Production giờ làm việc?

Hay maintenance window?
Rollback là gì?

Nếu fail:
restore config?

remove policy?

fail back ISP?

revert software?

Rollback mất bao lâu?

5 phút?

30 phút?

2 tiếng?
Ai cập nhật documentation?

Nếu không update docs:

tài liệu chết ngay sau lần change đầu tiên.
Backup — thứ bạn chỉ nhớ khi disaster xảy ra

Rất nhiều team “có backup”.

Nhưng hỏi:

“restore thử chưa?”

=> im lặng.

Backup thực sự phải:
automated

versioned

tested

recoverable

Ví dụ:

Không chỉ backup:
show running-config

Mà phải có:
archived configs

golden configs

firmware images

license info

inventory metadata

Documentation — dấu hiệu của đội ngũ trưởng thành

Network documentation tốt thường gồm: Physical topology

Cho biết:

thiết bị nào cắm với thiết bị nào.
Logical topology

Cho biết:
VLAN

subnet

routing domain

VRF

WAN topology

IP addressing plan

Nếu không có:

rất nhanh sẽ thành địa ngục subnet.
Inventory

Phải biết:
model

serial

software version

EOL status

contract info

Design decision records

Cực kỳ quan trọng.

Ví dụ:

“Tại sao WAN dùng dual hub?”
“Tại sao OSPF area thiết kế kiểu này?”

Nếu architect nghỉ việc và không ai biết…

đó là technical debt.
Configuration Templates — tiêu chuẩn hóa để giảm lỗi

Một enterprise tốt không cấu hình “theo cảm hứng”.

Ví dụ access port template:
portfast

bpduguard

port security

description standard

Nếu 10 engineer cấu hình 10 kiểu khác nhau:

troubleshooting sẽ là cơn ác mộng.

Template mang lại:
consistency

auditability

speed

predictability

Modern evolution:
Ansible templates

Terraform

Cisco NSO

model-driven automation

Góc nhìn thực chiến

Nếu team của bạn luôn bận chữa cháy…

hãy hỏi:
monitoring đủ chưa?

baseline có chưa?

config standard có chưa?

backup test chưa?

documentation sống hay chết?

change control có thật không?

Mạng hoạt động ổn định không đến từ may mắn, nó đến từ viêc tuân thủ nguyên tắc quản lý!

Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

Email : dangquangminh@vnpro.org
https://www.facebook.com/groups/vietprofessional/
Tags: None

Likes 1

Previous template Next