Chatbot của VnPro có thể xử lý tới 1000 source, nhưng hiện tại mới chỉ “ăn” được 104 source. Nghĩa là còn 896 slot trống đang bị bỏ phí! Hãy thử tưởng tượng: một chiến binh AI đang đói kiến thức, mà bạn lại để cả kho dữ liệu ngủ yên. Không lẽ để chatbot của bạn thành “mọt sách nửa mùa”?
Bài viết này sẽ giới thiệu về các cách nạp kiến thức cho chatbot SiteSpeakAI một cách đa dạng (từ file PDF, Word, website, sitemap, đến cả YouTube) sao cho đúng, đủ và chất, thay vì nhồi nhét bừa bãi.
📦 Source trong SiteSpeakAI là gì?
Dù nội dung ngắn hay dài, chỉ cần bạn nạp vào, chatbot coi đó là một source riêng biệt.
👉 Vì vậy, để tối ưu số lượng source, thì không nên “ném bừa” tất cả file lên. Hãy:

🔑 Các cách nạp kiến thức cho chatbot
1. File Upload / File Audio:
2. Website / Link:
3. Sitemap URL (khuyến nghị 💡):
4. Text Source:
6. Các công cụ note tích hợp
SiteSpeakAI hỗ trợ một số công cụ ghi chú (Notion, OneNote…) → bạn có thể kết nối trực tiếp. Đây là cách hay để biến ghi chú nội bộ thành kiến thức chatbot.
⚠️ Lưu ý:
Vậy nên:
Bài viết này sẽ giới thiệu về các cách nạp kiến thức cho chatbot SiteSpeakAI một cách đa dạng (từ file PDF, Word, website, sitemap, đến cả YouTube) sao cho đúng, đủ và chất, thay vì nhồi nhét bừa bãi.
📦 Source trong SiteSpeakAI là gì?
- Mỗi file (Word, PDF, PPTX, CSV…),
- Mỗi URL (site, link, sitemap),
- Mỗi video YouTube hay file audio…
Dù nội dung ngắn hay dài, chỉ cần bạn nạp vào, chatbot coi đó là một source riêng biệt.
👉 Vì vậy, để tối ưu số lượng source, thì không nên “ném bừa” tất cả file lên. Hãy:
- Gộp những tài liệu liên quan (ví dụ: 5 file Word về CCNA → gom lại thành 1 PDF).
- Xử lý sitemap thành một file tổng hợp thay vì để nó crawl cả ngàn URL lặt vặt.
🔑 Các cách nạp kiến thức cho chatbot
1. File Upload / File Audio:
- Các định dạng được hỗ trợ: Word (.doc, .docx), PDF, PPTX, CSV, TXT.
- Không được hỗ trợ: hình ảnh (.png, .jpg), Excel (.xlsx), file scan ảnh.
- Nạp file audio→ chatbot sẽ tự động lấy transcript.
2. Website / Link:
- Website: bạn đưa 1 URL, hệ thống sẽ crawl theo các link trong đó → dễ bị “rác” (lấy cả site login, register, contact form, policy…).
- Links: chọn từng URL cụ thể, ít rác nhưng nhập tay nhiều.
3. Sitemap URL (khuyến nghị 💡):
- Sitemap (sitemap.xml) chứa danh sách các trang web có tổ chức → crawl sạch và đầy đủ.
- Có cấu trúc rõ ràng, ít rác.
- Kiểm soát tốt hơn nguồn dữ liệu.
- Không tốn source cho những trang “vô nghĩa”.
4. Text Source:
- Nhập thẳng nội dung vào ô.
- Dùng khi bạn muốn “feed” nhanh một đoạn kiến thức, không cần file.
- Nạp link YouTube cho từng video ( mỗi video là một source)
- Nạp link YouTube của kênh chatbot tự động truy xuất tất cả video trong kênh đó
6. Các công cụ note tích hợp
SiteSpeakAI hỗ trợ một số công cụ ghi chú (Notion, OneNote…) → bạn có thể kết nối trực tiếp. Đây là cách hay để biến ghi chú nội bộ thành kiến thức chatbot.
⚠️ Lưu ý:
❝ Garbage in, garbage out ❞
– dữ liệu rác đưa vào, chatbot sẽ trả ra rác.
– dữ liệu rác đưa vào, chatbot sẽ trả ra rác.
Vậy nên:
- Chọn lọc kỹ lưỡng: cập nhật tài liệu mới nhất, tránh trùng lặp hoặc nội dung đã “lỗi thời từ thời Napoléon”.
- Đừng tham số lượng: nhiều source không đồng nghĩa với thông minh hơn, mà đôi khi chỉ làm chatbot “loạn trí”.
- Test trước khi tin: sau khi nạp dữ liệu, hãy thử hỏi chatbot vài câu “xoáy” để chắc rằng nó hiểu đúng.
- Quyền truy cập: link nào cần mật khẩu (ví dụ Facebook Group, Drive private) thì SiteSpeakAI… bó tay.