Chia Sẻ Khóa Học Natural Language Processing Trong Python (Mới Cho 2025!) [Khóa 6008 A]
Học NLP trong Python - text preprocessing, machine learning, transformer & LLM sử dụng scikit-learn, spaCy & Hugging Face.
Những gì bạn sẽ học được:
- ✓ Review lịch sử và sự phát triển của các kỹ thuật và ứng dụng NLP, từ các mô hình machine learning truyền thống đến các phương pháp LLM hiện đại
- ✓ Đi qua NLP text preprocessing pipeline, bao gồm lcleaning, normalization, linguistic analysis và vectorization.
- ✓ Sử dụng các kỹ thuật machine learning truyền thống để thực hiện sentiment analysis, text classification và topic modeling.
- ✓ Hiểu được lý thuyết đằng sau neural network và deep learning, các building block của các kỹ thuật NLP hiện đại.
- ✓ Phân tích các phần chính của kiến trúc Transformers, bao gồm embeddings, attention và feedforward neural networks (FFN).
- ✓ Sử dụng các pretrained LLM với Hugging Face để thực hiện sentiment analysis, NER, zero-shot classification, document similarity và text summarization & generation.
Đây là khóa học thực hành, thiết thực được thiết kế để cung cấp cho bạn cái nhìn tổng quan toàn diện về tất cả các khái niệm cần thiết cho Natural Language Processing (NLP) hiện đại trong Python.
Chúng ta sẽ bắt đầu bằng cách review lịch sử và sự phát triển của NLP trong 70 năm qua, bao gồm kiến trúc phổ biến nhất hiện nay, Transformers. Chúng tôi cũng sẽ đi qua các bước tiền xử lý văn bản ban đầu cần thiết cho modeling, nơi bạn sẽ học cách làm sạch và chuẩn hóa dữ liệu với pandas và spaCy, sau đó vectorize dữ liệu đó thành một Document-Term Matrix bằng cách sử dụng cả word counts và TF-IDF scores.
Sau đó, khóa học được chia thành hai phần:
- ✓ Nửa đầu bao gồm các kỹ thuật machine learning truyền thống.
- ✓ Phần thứ hai bao gồm các phương pháp deep learning hiện đại và LLM (large language model).
Đối với các ứng dụng NLP truyền thống, chúng ta sẽ bắt đầu với Sentiment Analysis để xác định tính tích cực hay tiêu cực của văn bản bằng thư viện VADER. Sau đó, chúng ta sẽ đề cập đến Text Classification trên labeled data bằng Naïve Bayes, cũng như Topic Modeling trên unlabeled data bằng Non-Negative Matrix Factorization, tất cả đều sử dụng thư viện scikit-learn.
Khi bạn đã hiểu rõ các khái niệm nền tảng về NLP, chúng ta sẽ chuyển sang nửa sau của khóa học về các kỹ thuật NLP hiện đại, bao gồm những tiến bộ chính trong NLP và sự thay đổi tư duy về khoa học dữ liệu trong thập kỷ qua.
Chúng ta sẽ bắt đầu với các building block cơ bản của các kỹ thuật NLP hiện đại, đó là neural networks. Bạn sẽ tìm hiểu cách neural network được đào tạo, làm quen với các thuật ngữ chính như layers, nodes, weights và activation functions, sau đó được giới thiệu về các kiến trúc deep learning phổ biến và các ứng dụng thực tế của chúng.
Sau đó, chúng ta sẽ nói về Transformers, kiến trúc đằng sau các LLM phổ biến như ChatGPT, Gemini và Claude. Chúng ta sẽ đề cập đến cách các main layer hoạt động và chức năng của chúng, bao gồm embeddings, attention và feedforward neural networks. Chúng ta cũng sẽ review sự khác biệt giữa các mô hình encoder-only, decoder-only và encoder-decoder model, và các loại LLM thuộc từng loại.
Cuối cùng nhưng không kém phần quan trọng, chúng ta sẽ áp dụng những gì đã học với Python. Chúng ta sẽ sử dụng thư viện Transformers của Hugging Face và Model Hub của chúng để demo sáu ứng dụng NLP thực tế, bao gồm Sentiment Analysis, Named Entity Recognition, Zero-Shot Classification, Text Summarization, Text Generation và Document Similarity.
ĐỀ CƯƠNG KHÓA HỌC:
1. Cài đặt & Setup:
Cài đặt Anaconda, bắt đầu viết code Python trong một Jupyter Notebook và tìm hiểu cách tạo một conda environment mới để thiết lập cho khóa học này.
2. Natural Language Processing 101:
Review những kiến thức cơ bản về natural language processing (NLP), bao gồm các khái niệm chính, sự phát triển của NLP qua nhiều năm và các ứng dụng & thư viện Python của nó.
3. Text Preprocessing:
Đi qua các bước tiền xử lý văn bản cần thiết trước khi áp dụng các thuật toán học máy, bao gồm cleaning, normalization, vectorization, v.v.
4. NLP với Machine Learning:
Thực hiện sentiment analysis, text classification và topic modeling bằng các phương pháp NLP truyền thống, bao gồm các kỹ thuật rules-based, supervised và unsupervised machine learning.
5. Neural Networks & Deep Learning:
Phân tích trực quan các khái niệm đằng sau neural networks và deep learning, các building block của các kỹ thuật NLP hiện đại.
6. Transformers & LLM:
Khám phá các phần chính của kiến trúc transformer , bao gồm embeddings, attention và FFN, cũng như các LLM phổ biến cho các tác vụ NLP như BERT, GPT, v.v.
7. Hugging Face Transformers:
Giới thiệu thư viện Hugging Face Transformers trong Python và đi qua các ví dụ về cách bạn có thể sử dụng các pretrained LLM để thực hiện các tác vụ NLP, bao gồm entiment analysis, named entity recognition (NER), zero-shot classification, text summarization, text generation và document similarity.
8. NLP Review & Các bước tiếp theo:
Xem lại các kỹ thuật NLP được đề cập trong khóa học này, thời điểm sử dụng chúng và cách đi sâu hơn cũng như cập nhật thông tin.
Bạn đã sẵn sàng tham gia chưa? Hãy tham gia ngay hôm nay và nhận quyền truy cập ngay lập tức vào những nội dung sau:
- ✓ 12,5 giờ video chất lượng cao.
- ✓ 13 bài tập về nhà.
- ✓ 4 ví dụ tương tác.
- ✓ Sách điện tử Natural Language Processing trong Python (hơn 200 trang).
- ✓ Các project file và giải pháp có thể tải xuống.
- ✓ Diễn đàn hỗ trợ chuyên gia và Q&A.
Nếu bạn là một nhà khoa học dữ liệu đầy tham vọng hoặc dày dạn kinh nghiệm đang tìm kiếm cái nhìn tổng quan thực tế về cả các kỹ thuật NLP truyền thống và hiện đại trong Python, thì đây chính là khóa học dành cho bạn .
Chúc bạn học vui vẻ!
Khóa học này dành cho ai:
- ✓ Các Data Scientist muốn có cái nhìn tổng quan thực tế về các kỹ thuật natural language processing trong Python.
- ✓ Các Data Scientist dày dạn kinh nghiệm muốn tìm hiểu các kỹ thuật NLP mới nhất, chẳng hạn như Transformers, LLM và Hugging Face.