Ebook Distributed AI System - Hướng Dẫn Thực Tế Để Xây Dựng Các Hệ Thống Training, Inference & Serving Có Khả Năng Mở Rộng Cho Production AI [Ấn Bản Lần 1, 6/2026] [PDF, EPUB] [8968E]
Tìm hiểu về Distributed AI thông qua trải nghiệm thực hành với các training framework, inference engine và orchestration tool để xây dựng các hệ thống training, inference và serving sẵn sàng cho production cho các môi trường AI quy mô lớn hiện đại.
1. Các tính năng chính:
- ✓ Hiểu rõ về GPU hardware, các high-speed interconnect và các chiến lược parallelism.
- ✓ Các bài tập thực hành ở cuối mỗi chương.
- ✓ Tìm hiểu về distributed training với các kỹ thuật resource-optimized.
- ✓ Deploy high-performance inference với tối ưu hóa nâng cao và memory management.
- ✓ Xây dựng các production serving stack với job scheduler, orchestration và observability.
Mô tả sách
Khi các mô hình AI phát triển với hàng tỷ và hàng nghìn tỷ tham số, các hệ thống phân tán trở nên thiết yếu để training và serving chúng. Nhiều tài liệu đề cập đến các phần rời rạc của lĩnh vực này, nhưng không có tài liệu nào cung cấp một lộ trình hoàn chỉnh từ distributed training đến inference & production deployment. Cuốn sách này lấp đầy khoảng trống đó bằng các ví dụ thực tiễn, tập trung vào sản xuất.
Nó bắt đầu với việc ước tính GPU và memory, chuẩn bị dữ liệu, và tổng quan về kiến trúc GPU, các interconnect và các chiến lược parallelism cốt lõi. Bạn sẽ học các kỹ thuật training bao gồm data parallelism cho single & multi-node setup, parameter sharding để scaling hiệu quả memory, và các phương pháp giảm mức sử dụng bộ nhớ trong các mô hình lớn.
Phần tiếp theo sẽ đề cập đến distributed inference & deployment. Bạn sẽ xây dựng các hệ thống hiệu suất cao bằng cách sử dụng optimized attention, caching, operator fusion và router-based design. Bạn sẽ deploy trên các scheduler & container platform với GPU-aware orchestration và lắp ráp các production stack nhấn mạnh reliability, scalability và observability..
Phần cuối cùng đề cập đến benchmarking, performance tuning và các các xu hướng như MoE model, edge-cloud coordination và parallelism nâng cao. Mỗi chương đều bao gồm tested code và hướng dẫn debugging.
Sau khi hoàn thành cuốn sách, bạn sẽ có khả năng xây dựng các hệ thống AI phân tán có thể mở rộng từ một GPU đơn đến các cluster lớn.
3. Những điều bạn sẽ học được:
- ✓ Ước tính yêu cầu về memory & compute cho training và inference.
- ✓ Hiểu rõ về GPU hardware, các interconnect và các chiến lược parallelism.
- ✓ Triển khai distributed training với các kỹ thuật parallel & sharded.
- ✓ Xây dựng các production inference system với batching & memory management.
- ✓ Deploy thông qua cluster orchestration với GPU scheduling được tối ưu hóa.
- ✓ Tạo các production serving stack với routing & observability.
- ✓ Benchmark các distributed system bằng cách sử dụng các phương pháp tiêu chuẩn ngành.
- ✓ Khám phá các xu hướng mô hình mới nổi, các chiến lược scaling và hướng đi tương lai.
4. Cuốn sách này dành cho ai?
Cuốn sách này được thiết kế dành cho các ML engineer, AI researcher và chuyên gia DevOps cần train hoặc serve các mô hình AI quy mô lớn. Các platform engineer, HPC cluster administrator và cloud architect cũng sẽ thấy cuốn sách này hữu ích trong việc nâng cao kỹ năng của mình.
Để bắt đầu, bạn cần có kiến thức cơ bản về Python và PyTorch. Kinh nghiệm trước đây về distributed system, cluster scheduler hoặc container orchestration sẽ hữu ích nhưng không bắt buộc - cuốn sách giới thiệu các khái niệm này từ những kiến thức cơ bản nhất, bắt đầu từ resource estimation, data preparation và hardware fundamentals.
5. Mục lục:
- ✓ Chương 01. Giới thiệu về Modern Distributed AI.
- ✓ Chương 02. GPU Hardware, Networking & Parallelism Strategy.
- ✓ Chương 03. Distributed Training với PyTorch DDP.
- ✓ Chương 04. Scaling với Fully Sharded Data Parallel (FSDP).
- ✓ Chương 05. Vượt xa State Sharding với DeepSpeed và Megatron.
- ✓ Chương 06. Distributed Inference & vLLM.
- ✓ Chương 07. Cross-Request Optimization với SGLang.
- ✓ Chương 08. Chạy Distributed Training với SLURM.
- ✓ Chương 09. Production LLM Serving Stack.
- ✓ Chương 10. Distributed Benchmarking & Performance Optimization.
- ✓ Chương 11. Bức tranh đang phát triển của Distributed AI.
