Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • ccna 2.0 Làm Thế Nào RAG Hiểu "Ý Nghĩa" Thay Vì Chỉ Tìm Theo Từ Khóa?

    Embedding và Semantic Search – Làm Thế Nào RAG Hiểu "Ý Nghĩa" Thay Vì Chỉ Tìm Theo Từ Khóa?


    Một trong những công nghệ quan trọng nhất đứng sau Retrieval-Augmented Generation (RAG)EmbeddingSemantic Search. Chính hai kỹ thuật này giúp AI không chỉ tìm kiếm theo từ khóa giống như công cụ tìm kiếm truyền thống, mà còn hiểu được ý nghĩa của câu hỏi để truy xuất đúng thông tin. Embedding Là Gì?


    Sau khi tài liệu đã được chia thành các chunk, mỗi chunk sẽ được chuyển thành một vector.

    Vector là một dãy gồm rất nhiều giá trị số biểu diễn ý nghĩa của đoạn văn bản trong không gian nhiều chiều (Multidimensional Vector Space).

    Điểm quan trọng là:
    Những đoạn văn có ý nghĩa giống nhau sẽ có vector nằm gần nhau, ngay cả khi cách diễn đạt hoàn toàn khác nhau.

    Đây là điểm khác biệt lớn giữa AI hiện đại và các hệ thống tìm kiếm truyền thống.

    Ví dụ:
    interface GigabitEthernet0/1 is down


    link down on Gi0/1

    sử dụng từ ngữ khác nhau nhưng đều mô tả cùng một sự kiện:
    Interface GigabitEthernet0/1 bị mất kết nối.

    Sau khi được Embedding, hai câu này sẽ có vector rất gần nhau.

    Ngược lại:
    CPU utilization exceeded 90%


    NTP synchronization complete

    mô tả hai chủ đề hoàn toàn khác nhau nên các vector của chúng sẽ nằm cách xa nhau.
    Semantic Search – Tìm Theo Ý Nghĩa


    Sau khi tất cả các chunk đã được chuyển thành vector và lưu trong Vector Database, hệ thống đã sẵn sàng cho việc tìm kiếm.

    Giả sử người dùng hỏi:
    "Is SSH enabled?"

    Quy trình sẽ diễn ra như sau:

    Bước 1


    Câu hỏi cũng được đưa qua cùng một Embedding Model để chuyển thành một vector.

    Bước 2


    Hệ thống so sánh vector của câu hỏi với hàng triệu vector đã lưu trong cơ sở dữ liệu.

    Bước 3


    Những vector có khoảng cách gần nhất sẽ được chọn.

    Điều này có nghĩa là AI đang tìm:
    Những đoạn tài liệu có cùng ý nghĩa, không phải những đoạn chứa đúng từ "SSH".

    Ví dụ, hệ thống hoàn toàn có thể tìm thấy các cấu hình như:
    line vty 0 4
    transport input ssh

    hoặc
    ip ssh version 2

    mặc dù trong câu hỏi không hề xuất hiện cụm từ "transport input ssh" hay "ip ssh version 2".
    Minh Họa Bằng Ví Dụ


    Giả sử Vector Database đang chứa bốn thông báo sau:
    interface GigabitEthernet0/1 is downlink down on Gi0/1CPU utilization exceeded 90%Network Time Protocol (NTP) synchronization complete

    Nếu biểu diễn các vector này trên một mặt phẳng hai chiều để dễ hình dung:
    • Hai thông báo đầu sẽ nằm rất gần nhau vì cùng mô tả trạng thái của một interface.
    • Thông báo về CPU sẽ nằm ở một vị trí khác vì liên quan đến hiệu năng thiết bị.
    • Thông báo về NTP sẽ nằm ở một vùng khác vì liên quan đến đồng bộ thời gian.

    Trong thực tế, các vector không nằm trên mặt phẳng hai chiều mà trong không gian có hàng trăm hoặc hàng nghìn chiều, cho phép mô hình biểu diễn ý nghĩa của văn bản rất chính xác.
    So Sánh Keyword Search Và Semantic Search


    Hãy xem một ví dụ đơn giản.

    Một kỹ sư mạng tìm kiếm:
    "Why did Gi0/1 go offline?"

    Trong tài liệu nội bộ chỉ có dòng:
    Interface GigabitEthernet0/1 changed state to down Keyword Search


    Nếu chỉ tìm theo từ khóa, hệ thống có thể không trả về kết quả vì:
    • "offline" khác với "down".
    • "Gi0/1" khác với "GigabitEthernet0/1".
    Semantic Search


    Semantic Search hiểu rằng:
    • offline ≈ down
    • Gi0/1 ≈ GigabitEthernet0/1

    nên vẫn tìm đúng đoạn log liên quan.

    Đây chính là ưu điểm lớn nhất của Embedding.
    Ứng Dụng Trong Network Operations


    Embedding và Semantic Search giúp AI xử lý hiệu quả nhiều loại dữ liệu trong doanh nghiệp như:
    • Running Configuration.
    • Startup Configuration.
    • Syslog.
    • SNMP Trap.
    • NetFlow.
    • Telemetry.
    • Security Playbook.
    • RCA Report.
    • SOP.
    • Ticket Incident.

    Ví dụ, khi kỹ sư hỏi:
    "Tại sao VPN của chi nhánh Hà Nội bị mất kết nối tối qua?"

    Hệ thống có thể truy xuất đồng thời:
    • Log IPsec.
    • Syslog của Firewall.
    • Kết quả BFD.
    • Ticket Incident.
    • Báo cáo RCA của sự cố tương tự.
    • Playbook xử lý VPN.

    Mặc dù các tài liệu này có thể sử dụng những cách diễn đạt khác nhau, Embedding và Semantic Search vẫn xác định được chúng đều liên quan đến cùng một chủ đề.
    Vì Sao Điều Này Quan Trọng?


    Trong môi trường doanh nghiệp, dữ liệu thường được tạo ra bởi nhiều nhóm khác nhau.

    Ví dụ:
    • Một kỹ sư viết:
    Interface Down
    • Người khác ghi:
    Link Failure
    • Hệ thống Syslog ghi:
    %LINK-3-UPDOWN
    • Ticket Helpdesk ghi:
    User reports network outage

    Tuy cách diễn đạt khác nhau, tất cả đều có thể phản ánh cùng một sự cố.

    Semantic Search giúp AI nhận ra mối liên hệ này thay vì chỉ so khớp từng từ khóa.
    Kết Luận


    Embedding chuyển các đoạn văn bản thành vector số học biểu diễn ý nghĩa ngữ nghĩa của nội dung. Sau đó, Semantic Search sử dụng các vector này để tìm kiếm những tài liệu có nội dung gần giống nhất với câu hỏi, thay vì chỉ so khớp từ khóa.

    Nhờ hai công nghệ này, các hệ thống RAG có thể truy xuất chính xác các đoạn cấu hình, log hay tài liệu nội bộ liên quan đến câu hỏi, ngay cả khi chúng được diễn đạt bằng những từ khác nhau. Đây là nền tảng giúp các AI Assistant trong Network Operations và Security Operations cung cấp câu trả lời có ngữ cảnh, chính xác và sát với thực tế hơn nhiều so với các phương pháp tìm kiếm truyền thống.
    zz0.3vwzmkp3ip9zz
    Attached Files
    Last edited by dangquangminh; 5 hours ago.
    Đặng Quang Minh, CCIE#11897 (Enterprise Infrastructure, Wireless, Automation, AI), CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X