Dịch vụ Data Deduplication trên Windows Server: Công nghệ giúp tiết kiệm hàng chục TB lưu trữ như thế nào?
Trong môi trường mạng doanh nghiệp hiện đại, dữ liệu thường bị trùng lặp rất nhiều. Ví dụ, hàng trăm máy người dùng lưu cùng một bộ cài Office, các anh kỹ sư IT thì lưu VM template giống nhau, File backup chứa nhiều block dữ liệu trùng lặp, File server lưu nhiều phiên bản tài liệu gần giống nhau....Hậu quả là dung lượng storage bị tiêu tốn cực lớn để chứa các dữ liệu trùng lắp. Đó là lý do Microsoft đưa vào Windows Server tính năng Data Deduplication. Trong bài này, các bạn hãy cùng VnPro tìm hiểu bài bản về chức năng này của Windows server nhé!
VẬY, Data Deduplication là gì?
Data Deduplication là công nghệ giúp người quản trị:
Windows Server Dedup hoạt động như thế nào?
Cơ chế chính gồm:
1. Phần mềm driver Deduplication Filter Driver
Đây là thành phần nằm giữa File I/O và NTFS/ReFS storage. Driver này giúp giám sát việc đọc/ghi dữ liệu. Khi phát hiện dữ liệu trùng lặp nó sẽ hành động theo hai qui tắc. Một là dữ liệu sẽ được chia thành các chunk. Hài là, các chunk giống nhau chỉ lưu một lần
2. Lưu trữ Chunk Store
Đây là nơi chứa các block dữ liệu duy nhất. Các file sau khi bị loại trừ dedup sẽ không còn chứa toàn bộ dữ liệu thật nữa mà chỉ chứa:
Giả sử trước khi có dedup dữ liệu chiếm 10 TB. Các bạn xem hình minh họa nhé. Saau khi dedup chỉ còn 2 TB physical storage. Lúc này, chúng ta đã tiết kiệm 8 TB dung lượng ổ cứng. Đây chính là lý do Dedup cực kỳ nổi tiếng trong các hoạt động backup storage, VDI, file server, Hyper-V library.
Các loại Deduplication Job trong Windows Server
Dedup Service quản lý nhiều job khác nhau.
1. Optimization
Đây là Job chính. Có nhiệm vụ tìm dữ liệu trùng lặp, tạo chunk, tối ưu dung lượng
2. Garbage Collection
Dọn dẹp chunk không còn được tham chiếu. Giống cơ chế garbage collection trong programming language. (Môn Cấu trúc dữ liệu - Ghi chú của tác giả)
3. Scrubbing
Kiểm tra tính toàn vẹn integrity của dữ liệu dedup. Nếu thuật toán phát hiện dữ liệu có corruption, hệ thống cố gắng sẽ cố gắng tự khôi phục. Đây là lý do Microsoft khuyến nghị kết hợp Dedup, ReFS, Storage Spaces.
4. Unoptimization
Khôi phục dữ liệu về trạng thái bình thường. Chúng ta sẽ dùng khi disable dedup, migrate storage, troubleshooting...
Những môi trường nào nên dùng Dedup?
File Server
Đây là use case phổ biến nhất. Đặc biệt ISO, tài liệu Office, software repository.
Backup Repository
Dedup cực kỳ hiệu quả với Veeam, DPM, backup chain. Vì backup chứa lượng block lặp rất lớn.
VDI (Virtual Desktop Infrastructure)
Hàng trăm desktop VM thường giống nhau Windows OS, ứng dụng, patch. Dedup giúp giảm dung lượng lưu trữ storage rất mạnh.
Hyper-V Library
Lưu template, VHDX, golden image
Khi nào KHÔNG nên dùng Dedup?
Không phải workload nào cũng phù hợp. Ví dụ SQL Database active, Exchange Database, workload IOPS cực cao, dữ liệu đã compressed/encrypted... Lý do là vì dữ liệu dạng này ít trùng lặp, overhead CPU có thể tăng.
Góc nhìn thực chiến cho System Engineer
Deduplication là một trong những tính năng bị đánh giá thấp underrated nhất của Windows Server. Rất nhiều doanh nghiệp đang mua thêm storage nhưng chưa bật Dedup. Trong khi có thể tiết kiệm hàng TB thậm chí hàng chục TB chỉ bằng vài thao tác cấu hình. Nếu máy chủ Win đang làm File Server hay Backup Infrastructure, Hyper-V, VDI, Storage Administration thì đây là công nghệ rất đáng để tham khảo và triển khai.
Trong môi trường mạng doanh nghiệp hiện đại, dữ liệu thường bị trùng lặp rất nhiều. Ví dụ, hàng trăm máy người dùng lưu cùng một bộ cài Office, các anh kỹ sư IT thì lưu VM template giống nhau, File backup chứa nhiều block dữ liệu trùng lặp, File server lưu nhiều phiên bản tài liệu gần giống nhau....Hậu quả là dung lượng storage bị tiêu tốn cực lớn để chứa các dữ liệu trùng lắp. Đó là lý do Microsoft đưa vào Windows Server tính năng Data Deduplication. Trong bài này, các bạn hãy cùng VnPro tìm hiểu bài bản về chức năng này của Windows server nhé!
VẬY, Data Deduplication là gì?
Data Deduplication là công nghệ giúp người quản trị:
- Phát hiện các dữ liệu trùng lặp
- Chỉ lưu một bản duy nhất của block dữ liệu
- Các file còn lại sẽ tham chiếu tới block đó
Windows Server Dedup hoạt động như thế nào?
Cơ chế chính gồm:
1. Phần mềm driver Deduplication Filter Driver
Đây là thành phần nằm giữa File I/O và NTFS/ReFS storage. Driver này giúp giám sát việc đọc/ghi dữ liệu. Khi phát hiện dữ liệu trùng lặp nó sẽ hành động theo hai qui tắc. Một là dữ liệu sẽ được chia thành các chunk. Hài là, các chunk giống nhau chỉ lưu một lần
2. Lưu trữ Chunk Store
Đây là nơi chứa các block dữ liệu duy nhất. Các file sau khi bị loại trừ dedup sẽ không còn chứa toàn bộ dữ liệu thật nữa mà chỉ chứa:
- metadata (là data để mô tả data)
- pointer
- file stub
Giả sử trước khi có dedup dữ liệu chiếm 10 TB. Các bạn xem hình minh họa nhé. Saau khi dedup chỉ còn 2 TB physical storage. Lúc này, chúng ta đã tiết kiệm 8 TB dung lượng ổ cứng. Đây chính là lý do Dedup cực kỳ nổi tiếng trong các hoạt động backup storage, VDI, file server, Hyper-V library.
Các loại Deduplication Job trong Windows Server
Dedup Service quản lý nhiều job khác nhau.
1. Optimization
Đây là Job chính. Có nhiệm vụ tìm dữ liệu trùng lặp, tạo chunk, tối ưu dung lượng
2. Garbage Collection
Dọn dẹp chunk không còn được tham chiếu. Giống cơ chế garbage collection trong programming language. (Môn Cấu trúc dữ liệu - Ghi chú của tác giả)
3. Scrubbing
Kiểm tra tính toàn vẹn integrity của dữ liệu dedup. Nếu thuật toán phát hiện dữ liệu có corruption, hệ thống cố gắng sẽ cố gắng tự khôi phục. Đây là lý do Microsoft khuyến nghị kết hợp Dedup, ReFS, Storage Spaces.
4. Unoptimization
Khôi phục dữ liệu về trạng thái bình thường. Chúng ta sẽ dùng khi disable dedup, migrate storage, troubleshooting...
Những môi trường nào nên dùng Dedup?
File Server
Đây là use case phổ biến nhất. Đặc biệt ISO, tài liệu Office, software repository.
Backup Repository
Dedup cực kỳ hiệu quả với Veeam, DPM, backup chain. Vì backup chứa lượng block lặp rất lớn.
VDI (Virtual Desktop Infrastructure)
Hàng trăm desktop VM thường giống nhau Windows OS, ứng dụng, patch. Dedup giúp giảm dung lượng lưu trữ storage rất mạnh.
Hyper-V Library
Lưu template, VHDX, golden image
Khi nào KHÔNG nên dùng Dedup?
Không phải workload nào cũng phù hợp. Ví dụ SQL Database active, Exchange Database, workload IOPS cực cao, dữ liệu đã compressed/encrypted... Lý do là vì dữ liệu dạng này ít trùng lặp, overhead CPU có thể tăng.
Góc nhìn thực chiến cho System Engineer
Deduplication là một trong những tính năng bị đánh giá thấp underrated nhất của Windows Server. Rất nhiều doanh nghiệp đang mua thêm storage nhưng chưa bật Dedup. Trong khi có thể tiết kiệm hàng TB thậm chí hàng chục TB chỉ bằng vài thao tác cấu hình. Nếu máy chủ Win đang làm File Server hay Backup Infrastructure, Hyper-V, VDI, Storage Administration thì đây là công nghệ rất đáng để tham khảo và triển khai.