Chia Sẻ Khóa Học Fine-Tune & Deploy Các LLM Với QLoRA Trên Sagemaker + Streamlit [Khóa 5263 A]
Làm chủ QLoRA Math, Mixed Precision Training, Double Quantization, Lambda function, API Gateway & Streamlit deployment.
Những điều bạn sẽ học:
- ✓ Train/Fine Tune các LLM trong AWS Sagemaker bằng QLoRA và 4-bit quantization nâng cao trên dataset của riêng bạn.
- ✓ Tạo một ứng dụng Streamlit tương tác để deploy LLM đã được tinh chỉnh của bạn với Sagemaker, Lambda Function và API Gateway.
- ✓ Làm chủ QLoRA fine-tuning - bao gồm adapter injection, memory optimization, parameter freezing và các nguyên lý toán học đằng sau nó.
- ✓ Tận dụng các bfloat16 compute type để training nhanh hơn và hiệu quả hơn trên các GPU hiện đại.
- ✓ Tìm hiểu về mixed precision training với qLoRA trong Sagemaker.
- ✓ Sử dụng Parameter Efficient Fine Tuning(PEFT) để find & inject động các LoRA layer.
- ✓ Hiểu rõ toàn bộ low-level fine-tuning pipeline - từ tập dữ liệu thô đến mô hình đã được huấn luyện.
- ✓ Sử dụng double quantization & nf4 precision để nén các mô hình mà không làm giảm hiệu suất.
- ✓ Khám phá cách tính năng gradient checkpointing giúp giảm đáng kể mức sử dụng VRAM trong quá trình training.
- ✓ Fine-tune các large model như Mixtral trên Amazon SageMaker bằng cách sử dụng khả năng tăng tốc GPU tiên tiến.
- ✓ Hiểu custom chunking code cho LLM.
- ✓ Merge các LoRA weight và unload adapter cho final model export - sẵn sàng để triển khai.
- ✓ Deploy trained model của bạn lên SageMaker Endpoints bằng cách sử dụng production infrastructure của Amazon.
- ✓ Xây dựng real-time LLM API sử dụng Lambda function & API Gateway.
- ✓ Setup Training Jobs một cách an toàn với các IAM role.
- ✓ AWS Budgeting, Server Management & Pricing.
- ✓ Tìm hiểu cách sử dụng AWS Quotas để tận dụng sức mạnh của GPU.
Các Large Language Model (LLM) đang định nghĩa lại những gì có thể đạt được với AI - từ chatbot đến code generation - nhưng rào cản trong training & deploying chúng vẫn còn cao. Phần cứng đắt tiền, yêu cầu bộ nhớ khổng lồ và chuỗi công cụ phức tạp thường cản trở các cá nhân và team nhỏ. Khóa học này được xây dựng để thay đổi điều đó.
Trong khóa đào tạo thực hành, tập trung vào code này, bạn sẽ học cách fine-tune các model như Mixtral-8x7B bằng QLoRA - một phương pháp tiên tiến cho phép training hiệu quả bằng cách kết hợp 4-bit quantization, LoRA adapter & double quantization. Bạn cũng sẽ hiểu sâu về quantized arithmetic, các floating-point format (như bfloat16 và INT8) và cách chúng ảnh hưởng đến model size, memory bandwidth và các matrix multiplication operation.
Bạn sẽ viết code Python nâng cao để tiền xử lý các tập dữ liệu bằng các chiến lược token-aware chunking tùy chỉnh, xác định động các quantizable layer và inject các adapter module bằng thư viện PEFT (Parameter-Efficient Fine-Tuning). Bạn sẽ cấu hình và khởi chạy các distributed fine-tuning job trên AWS SageMaker, tận dụng các multi-GPU instance mạnh mẽ và tối ưu hóa chúng bằng cách sử dụng gradient checkpointing, mixed-precision training và bitsandbytes quantization.
Sau quá trình training, Bạn sẽ trải qua toàn bộ quy trình cho đến khi triển khai: hợp nhất các adapter weight, lưu model để suy luận và deploy nó thông qua SageMaker Endpoints. Sau đó, bạn sẽ hiển thị mô hình của mình thông qua một AWS Lambda function và một API Gateway, và cuối cùng, xây dựng một ứng dụng Streamlit để tạo một giao diện frontend clean và responsive.
Cho dù bạn là một machine learning engineer, backend developer, hay AI practitioner muốn nâng cao kỹ năng - khóa học này sẽ dạy bạn cách chuyển từ các mô hình thử nghiệm học thuật sang các LLM thực tế, có khả năng mở rộng và sẵn sàng cho sản xuất, sử dụng các công cụ mà các công ty hàng đầu hiện nay đang tin dùng.
Mục lục:
- ✓ 01. Tổng quan khóa học.
- ✓ 02. Thiết lập AWS Account.
- ✓ 03. Thiết lập AWS Sagemaker Environment.
- ✓ 04. Tài nguyên khóa học.
- ✓ 05. Gathering, Chunking, Tokenizing & Upload Dataset.
- ✓ 06. Tìm hiểu về LoRA và thiết lập HuggingFace Estimator.
- ✓ 07. Cải thiện tốc độ Training với Bfloat 16.
- ✓ 08. Thiết lập QLoRA Training Script với Mixed Precision & Double Quantization.
- ✓ 09. Chạy Fine Tuning Script cho LLM.
- ✓ 10. Deploy Fine Tuned LLM.
- ✓ 11. CleaningUp Resources.
Khóa học này dành cho:
- ✓ Machine Learning Engineer.
- ✓ Backend & MLOps Engineer.
- ✓ AI Researcher & Student.
- ✓ Bất cứ ai muốn vượt ra ngoài "prompt engineering" và bắt đầu xây dựng, training và deploy các LLM sẵn sàng cho production của riêng mình.
