🔧 Troubleshooting là gì? – Kỹ năng “sống còn” của kỹ sư IT
Trong networking hay bất kỳ hệ thống IT nào, lỗi không phải là ngoại lệ — mà là điều chắc chắn sẽ xảy ra.
Vấn đề không nằm ở việc có lỗi hay không, mà nằm ở câu hỏi:
👉 Bạn xử lý lỗi nhanh và đúng đến mức nào?
🚗 Một ví dụ rất đời thường
Hãy tưởng tượng bạn đang lái xe 🚗 và xe đột nhiên dừng giữa đường.
Quy trình sẽ như sau:
👉 Problem (Vấn đề): Xe không chạy
👉 Diagnosis (Chẩn đoán): Nhìn đồng hồ xăng → hết nhiên liệu
👉 Solution (Giải pháp): Đi đổ xăng ⛽
Đây chính là troubleshooting.
🧠 Định nghĩa chuẩn kỹ thuật
Troubleshooting = Quá trình:
👉 Trong thực tế:
🧪 Diagnostic (Chẩn đoán) – Trái tim của Troubleshooting
Chẩn đoán không phải là “đoán”, mà là một quy trình logic. Các nguyên tắc cốt lõi:
1. 📥 Thu thập thông tin (Gather Information)
👉 Ví dụ:
2. 🔍 Phân tích (Analysis)
👉 Ví dụ:
3. ❌ Loại trừ (Elimination)
👉 Ví dụ:
4. 💡 Đưa ra giả thuyết (Proposed Hypotheses)
👉 Đây là bước rất quan trọng:
5. 🧪 Kiểm tra (Testing)
👉 Ví dụ:
show access-list
debug ip packet
tcpdump
✔ Nếu đúng → fix
❌ Nếu sai → quay lại bước trước
🧠 Sai lầm phổ biến của người mới
❌ Fix ngay khi chưa hiểu vấn đề
❌ Thử random (restart, clear config…)
❌ Không ghi lại → lỗi lặp lại vẫn “ngơ ngác”
👉 Đây là lý do:
🔥 Góc nhìn CCIE – Troubleshooting thực sự là gì?
Troubleshooting không phải là:
👉 “Biết nhiều lệnh”
Mà là:
👉 Khả năng suy luận hệ thống (system thinking)
Một CCIE sẽ:
🧩 Ví dụ thực tế (Network)
User báo:
👉 “Không truy cập được website”
Người mới:
CCIE:
⏱ Thời gian: vài phút
📌 Kết luận
👉 Troubleshooting = Logic + Kinh nghiệm + Phương pháp
Nếu bạn muốn giỏi nhanh:
✔ Luôn đi theo quy trình
✔ Luôn đặt giả thuyết trước khi test
✔ Luôn document lại
🚀 Một câu rất đáng nhớ
Trong networking hay bất kỳ hệ thống IT nào, lỗi không phải là ngoại lệ — mà là điều chắc chắn sẽ xảy ra.
Vấn đề không nằm ở việc có lỗi hay không, mà nằm ở câu hỏi:
👉 Bạn xử lý lỗi nhanh và đúng đến mức nào?
🚗 Một ví dụ rất đời thường
Hãy tưởng tượng bạn đang lái xe 🚗 và xe đột nhiên dừng giữa đường.
Quy trình sẽ như sau:
👉 Problem (Vấn đề): Xe không chạy
👉 Diagnosis (Chẩn đoán): Nhìn đồng hồ xăng → hết nhiên liệu
👉 Solution (Giải pháp): Đi đổ xăng ⛽
Đây chính là troubleshooting.
🧠 Định nghĩa chuẩn kỹ thuật
Troubleshooting = Quá trình:
- Xác định vấn đề
- Chẩn đoán nguyên nhân
- Đưa ra giải pháp
- Và QUAN TRỌNG: Document lại
👉 Trong thực tế:
- User báo lỗi
- Engineer xử lý
- Sau đó phải ghi lại → để lần sau không “đoán mò” lại từ đầu
🧪 Diagnostic (Chẩn đoán) – Trái tim của Troubleshooting
Chẩn đoán không phải là “đoán”, mà là một quy trình logic. Các nguyên tắc cốt lõi:
1. 📥 Thu thập thông tin (Gather Information)
- Log (syslog, debug, packet capture)
- User report
- Monitoring system
👉 Ví dụ:
- Ping không được?
- Interface down?
- CPU spike?
2. 🔍 Phân tích (Analysis)
- So sánh trạng thái hiện tại vs bình thường
- Xác định điểm bất thường
👉 Ví dụ:
- Bình thường latency 10ms → giờ 200ms → có vấn đề
3. ❌ Loại trừ (Elimination)
- Không thể kiểm tra tất cả → phải loại dần
👉 Ví dụ:
- Không phải DNS
- Không phải routing
→ còn lại là firewall hoặc application
4. 💡 Đưa ra giả thuyết (Proposed Hypotheses)
- “Có thể do NAT sai”
- “Có thể do ACL block”
👉 Đây là bước rất quan trọng:
- Kỹ sư giỏi không test bừa
- Mà test có giả thuyết
5. 🧪 Kiểm tra (Testing)
- Thực hiện test để xác nhận giả thuyết
👉 Ví dụ:
show access-list
debug ip packet
tcpdump
✔ Nếu đúng → fix
❌ Nếu sai → quay lại bước trước
🧠 Sai lầm phổ biến của người mới
❌ Fix ngay khi chưa hiểu vấn đề
❌ Thử random (restart, clear config…)
❌ Không ghi lại → lỗi lặp lại vẫn “ngơ ngác”
👉 Đây là lý do:
- Junior mất 2 tiếng
- Senior mất 10 phút
🔥 Góc nhìn CCIE – Troubleshooting thực sự là gì?
Troubleshooting không phải là:
👉 “Biết nhiều lệnh”
Mà là:
👉 Khả năng suy luận hệ thống (system thinking)
Một CCIE sẽ:
- Nhìn topology → đoán được điểm lỗi
- Hiểu flow packet → biết lỗi nằm ở layer nào
- Không “đi mò”, mà đi thẳng vào vấn đề
🧩 Ví dụ thực tế (Network)
User báo:
👉 “Không truy cập được website”
Người mới:
- Ping thử
- Restart browser
- Check lung tung
CCIE:
- Xác định scope:
- 1 user hay toàn bộ?
- Kiểm tra layer:
- DNS → OK?
- Routing → OK?
- Firewall → DROP?
- Xác định nhanh:
👉 Lỗi do NAT thiếu rule return traffic
⏱ Thời gian: vài phút
📌 Kết luận
👉 Troubleshooting = Logic + Kinh nghiệm + Phương pháp
Nếu bạn muốn giỏi nhanh:
✔ Luôn đi theo quy trình
✔ Luôn đặt giả thuyết trước khi test
✔ Luôn document lại
🚀 Một câu rất đáng nhớ
“Amateurs guess. Professionals diagnose.”