Xin chào ! Nếu đây là lần đầu tiên bạn đến với diễn đàn, xin vui lòng danh ra một phút bấm vào đây để đăng kí và tham gia thảo luận cùng VnPro.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Tiền xử lý văn bản

    🎯 Tiền xử lý văn bản (Text Pre-Processing) – Là bước đầu tiên cực kỳ quan trọng để máy tính "hiểu" được ngôn ngữ con người. Dưới đây là 3 kỹ thuật phổ biến nhất:

    🔹 1. Tokenization – Tách từ

    👉 Tách một câu hoặc đoạn văn thành các đơn vị nhỏ hơn như từ, cụm từ hoặc câu.
    🧠 Ví dụ:
    Câu: "I love programming"
    Sau khi token hóa: ["I", "love", "programming"]

    ⛏️ Dễ hiểu: Tokenization giống như việc cắt bánh mì thành từng lát để ăn dễ hơn!

    🔹 2. Stemming – Gốc từ (thô)

    👉 Cắt bỏ hậu tố, tiền tố để đưa từ về dạng gốc thô, không cần đúng ngữ pháp.
    🧠 Ví dụ:
    • "eating""eat"
    • "rewrite""write"

    ⚠️ Lưu ý: Stemming có thể tạo ra những từ không có nghĩa thật trong tiếng Anh, vì nó chỉ quan tâm đến hình thức, không quan tâm ngữ pháp.

    🔹 3. Lemmatization – Gốc từ (chuẩn)

    👉 Đưa từ về gốc đúng về mặt ngữ pháp, dựa trên ngữ cảnh và loại từ (danh từ, động từ...).
    🧠 Ví dụ:
    • "is""be"
    • "ran""run"

    🧠 Lemmatization chính xác hơn Stemming nhưng đòi hỏi xử lý ngôn ngữ nâng cao hơn.

    💡 Ví dụ minh họa dễ hiểu hơn nữa:

    Câu: "The children are running."
    • Tokenization → ["The", "children", "are", "running"]
    • Stemming → ["the", "children", "are", "run"] (thô)
    • Lemmatization → ["the", "child", "be", "run"] (chính xác về ngữ pháp)


    👉 Nếu bạn đang học AI, NLP, hoặc viết ứng dụng chatbot, hiểu rõ các bước này sẽ giúp bạn làm sạch và chuẩn hóa dữ liệu văn bản đầu vào, để huấn luyện mô hình tốt hơn. Click image for larger version

Name:	TienXuLyVanBan.png
Views:	10
Size:	23.6 KB
ID:	430977
    Đặng Quang Minh, CCIEx2#11897 (Enterprise Infrastructure, Wireless), DEVNET, CCSI#31417

    Email : dangquangminh@vnpro.org
    https://www.facebook.com/groups/vietprofessional/
Working...
X