Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Nạp kiến thức cho SiteSpeakAI: Tận dụng tối đa nguồn dữ liệu để chatbot “thông minh” hơn

    Chatbot của VnPro có thể xử lý tới 1000 source, nhưng hiện tại mới chỉ “ăn” được 104 source. Nghĩa là còn 896 slot trống đang bị bỏ phí! Hãy thử tưởng tượng: một chiến binh AI đang đói kiến thức, mà bạn lại để cả kho dữ liệu ngủ yên. Không lẽ để chatbot của bạn thành “mọt sách nửa mùa”?
    Bài viết này sẽ giới thiệu về các cách nạp kiến thức cho chatbot SiteSpeakAI một cách đa dạng (từ file PDF, Word, website, sitemap, đến cả YouTube) sao cho đúng, đủ và chất, thay vì nhồi nhét bừa bãi.

    📦 Source trong SiteSpeakAI là gì?
    • Mỗi file (Word, PDF, PPTX, CSV…),
    • Mỗi URL (site, link, sitemap),
    • Mỗi video YouTube hay file audio
    ➡️ Tất cả đều được tính là 1 source.

    Dù nội dung ngắn hay dài, chỉ cần bạn nạp vào, chatbot coi đó là một source riêng biệt.

    👉 Vì vậy, để tối ưu số lượng source, thì không nên “ném bừa” tất cả file lên. Hãy:
    • Gộp những tài liệu liên quan (ví dụ: 5 file Word về CCNA → gom lại thành 1 PDF).
    • Xử lý sitemap thành một file tổng hợp thay vì để nó crawl cả ngàn URL lặt vặt.

    Click image for larger version

Name:	Screenshot 2025-10-01 at 14.34.26.png
Views:	29
Size:	24.5 KB
ID:	437205


    🔑 Các cách nạp kiến thức cho chatbot

    1. File Upload / File Audio​:
    • Các định dạng được hỗ trợ: Word (.doc, .docx), PDF, PPTX, CSV, TXT.
    • Không được hỗ trợ: hình ảnh (.png, .jpg), Excel (.xlsx), file scan ảnh.
    • Nạp file audio→ chatbot sẽ tự động lấy transcript.
    👉 Lưu ý: nếu bạn không muốn chatbot trả file cho khách, hãy ràng buộc trong prompt để nó chỉ trả lời nội dung chứ không gửi file.

    2. Website / Link:
    • Website: bạn đưa 1 URL, hệ thống sẽ crawl theo các link trong đó → dễ bị “rác” (lấy cả site login, register, contact form, policy…).
    • Links: chọn từng URL cụ thể, ít rác nhưng nhập tay nhiều.
    👉 Lưu ý: Nếu link cần mật khẩu hoặc quyền truy cập (ví dụ: Facebook group, Google Drive private) thì chatbot không thể học.

    3. Sitemap URL (khuyến nghị 💡):
    • Sitemap (sitemap.xml) chứa danh sách các trang web có tổ chức → crawl sạch và đầy đủ.
    Vì sao nên dùng Sitemap hơn Website?
    • Có cấu trúc rõ ràng, ít rác.
    • Kiểm soát tốt hơn nguồn dữ liệu.
    • Không tốn source cho những trang “vô nghĩa”.
    👉 Nếu sitemap quá lớn (ví dụ forum VnPro khoảng 300.000 site mà mỗi trang chỉ có vài đoạn kiến thức), thì nên xử lý lại dữ liệu trong sitemap → Crawl dữ liệu → chuyển thành Word/PDF rồi upload flie, sẽ tiết kiệm source hơn.

    4. Text Source:
    • Nhập thẳng nội dung vào ô.
    • Dùng khi bạn muốn “feed” nhanh một đoạn kiến thức, không cần file.
    5. Video YouTube
    • Nạp link YouTube cho từng video ( mỗi video là một source)
    • Nạp link YouTube của kênh chatbot tự động truy xuất tất cả video trong kênh đó
    vd: https://www.youtube.com/watch?v=... or https://www.youtube.com/@channelname

    6. Các công cụ note tích hợp

    SiteSpeakAI hỗ trợ một số công cụ ghi chú (Notion, OneNote…) → bạn có thể kết nối trực tiếp. Đây là cách hay để biến ghi chú nội bộ thành kiến thức chatbot.

    ⚠️ Lưu ý:
    ❝ Garbage in, garbage out ❞
    – dữ liệu rác đưa vào, chatbot sẽ trả ra rác.

    Vậy nên:
    • Chọn lọc kỹ lưỡng: cập nhật tài liệu mới nhất, tránh trùng lặp hoặc nội dung đã “lỗi thời từ thời Napoléon”.
    • Đừng tham số lượng: nhiều source không đồng nghĩa với thông minh hơn, mà đôi khi chỉ làm chatbot “loạn trí”.
    • Test trước khi tin: sau khi nạp dữ liệu, hãy thử hỏi chatbot vài câu “xoáy” để chắc rằng nó hiểu đúng.
    • Quyền truy cập: link nào cần mật khẩu (ví dụ Facebook Group, Drive private) thì SiteSpeakAI… bó tay.
Working...
X