Tin mới nhất

Menu

Bài Viết mới

Khóa Học Mới Cập Nhật

IT/Software

LẬP TRÌNH DI ĐỘNG

Học Tiếng anh

MÃ NGUỒN - SOURCE CODE

TIN HỌC VĂN PHÒNG

MARKETING

Recent Posts

Ebook Distributed AI System - Hướng Dẫn Thực Tế Để Xây Dựng Các Hệ Thống Training, Inference & Serving Có Khả Năng Mở Rộng Cho Production AI [Ấn Bản Lần 1, 6/2026] [PDF, EPUB] [8968E]

02 tháng 7 2026 / No Comments

Tìm hiểu về Distributed AI thông qua trải nghiệm thực hành với các training framework, inference engine và orchestration tool để xây dựng các hệ thống training, inference và serving sẵn sàng cho production cho các môi trường AI quy mô lớn hiện đại.

1. Các tính năng chính:

  • ✓ Hiểu rõ về GPU hardware, các high-speed interconnect và các chiến lược parallelism.
  • ✓ Các bài tập thực hành ở cuối mỗi chương.
  • ✓ Tìm hiểu về distributed training với các kỹ thuật resource-optimized.
  • ✓ Deploy high-performance inference với tối ưu hóa nâng cao và memory management.
  • ✓ Xây dựng các production serving stack với job scheduler, orchestration và observability.

Mô tả sách

Khi các mô hình AI phát triển với hàng tỷ và hàng nghìn tỷ tham số, các hệ thống phân tán trở nên thiết yếu để training và serving chúng. Nhiều tài liệu đề cập đến các phần rời rạc của lĩnh vực này, nhưng không có tài liệu nào cung cấp một lộ trình hoàn chỉnh từ distributed training đến inference & production deployment. Cuốn sách này lấp đầy khoảng trống đó bằng các ví dụ thực tiễn, tập trung vào sản xuất.

Nó bắt đầu với việc ước tính GPU và memory, chuẩn bị dữ liệu, và tổng quan về kiến ​​trúc GPU, các interconnect và các chiến lược parallelism cốt lõi. Bạn sẽ học các kỹ thuật training bao gồm data parallelism cho single & multi-node setup, parameter sharding để scaling hiệu quả memory, và các phương pháp giảm mức sử dụng bộ nhớ trong các mô hình lớn.

Phần tiếp theo sẽ đề cập đến distributed inference & deployment. Bạn sẽ xây dựng các hệ thống hiệu suất cao bằng cách sử dụng optimized attention, caching, operator fusion và router-based design. Bạn sẽ deploy trên các scheduler & container platform với GPU-aware orchestration và lắp ráp các production stack nhấn mạnh reliability, scalability và observability..

Phần cuối cùng đề cập đến benchmarking, performance tuning và các các xu hướng như MoE model, edge-cloud coordination và parallelism nâng cao. Mỗi chương đều bao gồm tested code và hướng dẫn debugging.

Sau khi hoàn thành cuốn sách, bạn sẽ có khả năng xây dựng các hệ thống AI phân tán có thể mở rộng từ một GPU đơn đến các cluster lớn.

3. Những điều bạn sẽ học được:

  • ✓ Ước tính yêu cầu về memory & compute cho training và inference.
  • ✓ Hiểu rõ về GPU hardware, các interconnect và các chiến lược parallelism.
  • ✓ Triển khai distributed training với các kỹ thuật parallel & sharded.
  • ✓ Xây dựng các production inference system với batching & memory management.
  • ✓ Deploy thông qua cluster orchestration với GPU scheduling được tối ưu hóa.
  • ✓ Tạo các production serving stack với routing & observability.
  • ✓ Benchmark các distributed system bằng cách sử dụng các phương pháp tiêu chuẩn ngành.
  • ✓ Khám phá các xu hướng mô hình mới nổi, các chiến lược scaling và hướng đi tương lai.

4. Cuốn sách này dành cho ai?

Cuốn sách này được thiết kế dành cho các ML engineer, AI researcher và chuyên gia DevOps cần train hoặc serve các mô hình AI quy mô lớn. Các platform engineer, HPC cluster administrator và cloud architect cũng sẽ thấy cuốn sách này hữu ích trong việc nâng cao kỹ năng của mình.

Để bắt đầu, bạn cần có kiến ​​thức cơ bản về Python và PyTorch. Kinh nghiệm trước đây về distributed system, cluster scheduler hoặc container orchestration sẽ hữu ích nhưng không bắt buộc - cuốn sách giới thiệu các khái niệm này từ những kiến ​​thức cơ bản nhất, bắt đầu từ resource estimation, data preparation và hardware fundamentals.

5. Mục lục:

  • ✓ Chương 01. Giới thiệu về Modern Distributed AI.
  • ✓ Chương 02. GPU Hardware, Networking & Parallelism Strategy.
  • ✓ Chương 03. Distributed Training với PyTorch DDP.
  • ✓ Chương 04. Scaling với Fully Sharded Data Parallel (FSDP).
  • ✓ Chương 05. Vượt xa State Sharding với DeepSpeed ​​và Megatron.
  • ✓ Chương 06. Distributed Inference & vLLM.
  • ✓ Chương 07. Cross-Request Optimization với SGLang.
  • ✓ Chương 08. Chạy Distributed Training với SLURM.
  • ✓ Chương 09. Production LLM Serving Stack.
  • ✓ Chương 10. Distributed Benchmarking & Performance Optimization.
  • ✓ Chương 11. Bức tranh đang phát triển của Distributed AI.


NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU




Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.