Ebook Build Một Text-to-Image Generator (Từ Đầu) - Với Transformer & Diffusion [Ấn Bản Lần 1, Tháng 12/2025] [PDF + CODE] [9141E]
Xây dựng vision transformer & diffusion models của riêng bạn cho text-to-image generation – hoàn toàn từ đầu!
Cuốn sách này sẽ hướng dẫn bạn từng bước tạo ra các AI model của riêng mình có khả năng generate hình ảnh từ văn bản. Bạn sẽ khám phá hai phương pháp image generation: vision transformers & diffusion models, và học các kỹ thuật AI development quan trọng trong suốt quá trình.
Hãy cùng tìm hiểu sức mạnh của các mô hình đằng sau các AI image generator. Cách tốt nhất để học là xây dựng mọi thứ từ đầu, và trong cuốn sách này, bạn sẽ xây dựng diffusion model và vision transformer của riêng mình. Khi bạn trải qua từng giai đoạn phát triển, bạn sẽ hiểu được cách các mô hình này có thể được tùy chỉnh, áp dụng và tích hợp để tạo ra multimodal AI ấn tượng.
Trong "Build Một Text-to-Image Generator (Từ Đầu)" sẽ hướng dẫn bạn cách:
- ✓ Build & train các model để generate hình ảnh với độ phân giải cao dựa trên các mô tả văn bản.
- ✓ Chỉnh sửa một hình ảnh hiện có dựa trên các text prompt.
- ✓ Build & train một model để thêm chú thích vào hình ảnh.
- ✓ Build & train một vision transformer để phân loại hình ảnh.
- ✓ Fine-tune các LLM cho các tác vụ tiếp theo classification, text hoặc image generation.
- ✓ Phân biệt tốt hơn hình ảnh thật với hình ảnh giả mạo (deepfake).
Về công nghệ:
Hình ảnh do AI tạo ra xuất hiện ở khắp mọi nơi, từ quảng cáo cao cấp đến các bài đăng thông thường trên mạng xã hội. Các công cụ Text-to-Image như Dall-e, Midjourney và Flux giúp dễ dàng tạo ra AI art, nhưng chúng hoạt động như thế nào? Trong cuốn sách này, bạn sẽ tìm hiểu bằng cách xây dựng text-to-image generator của riêng mình!
Về cuốn sách:
"Build Một Text-to-Image Generator (Từ Đầu)" khám phá cả image generation dựa trên transformer và các diffusion model. Bạn sẽ thực hành xây dựng một cặp các generation model đơn giản có thể phân loại hình ảnh, tự động thêm chú thích, tái tạo hình ảnh và nâng cao đồ họa hiện có. Tác giả sẽ hướng dẫn bạn từng bước một với những giải thích rõ ràng, sơ đồ minh họa và các ví dụ thú vị mà bạn có thể tự xây dựng trên laptop của mình.
Nội dung bên trong:
- ✓ Build một vision transformer để phân loại ảnh.
- ✓ Chỉnh sửa ảnh bằng các text prompt.
- ✓ Fine-tune các image model.
Về người đọc:
Yêu cầu kiến thức cơ bản về các mô hình generative AI và kỹ năng Python trung cấp.
Mục lục:
- ✓ Phần 1: Hiểu về Attention:
- ✓ Chương 01. Câu chuyện về hai model: Transformer & Diffusion
- ✓ Chương 02. Build một Transformer.
- ✓ Chương 03. Phân loại hình ảnh với một vision transformer.
- ✓ Chương 04. Thêm caption vào hình ảnh.
- ✓ Phần 2. Giới thiệu về Diffusion Model:
- ✓ Chương 05. Generate image với diffusion model.
- ✓ Chương 06. Kiểm soát những hình ảnh nào cần generate trong diffusion model.
- ✓ Chương 07. Generate hình ảnh độ phân giải cao với diffusion model.
- ✓ Phần 3. Text-to-image generation với Diffusion Model:
- ✓ Chương 08. CLIP: Một mô hình để đo lường sự tương đồng giữa hình ảnh và văn bản.
- ✓ Chương 09. Text-to-image generation với latent diffusion
- ✓ Chương 10. Tìm hiểu sâu về Stable Diffusion.
- ✓ Phần 4. Text-to-image generation với Transformer:
- ✓ Chương 11. VQGAN: Chuyển đổi hình ảnh thành chuỗi số nguyên.
- ✓ Chương 12. Một triển khai tối thiểu của DALL-E.
- ✓ Phần 5. Những phát triển và thách thức mới:
- ✓ Chương 13. Những phát triển và thách thức mới trong text-to-image generation.
- ✓ Phụ lục. Cài đặt PyTorch và bật GPU training local và trong Colab.
LƯU Ý: Pass mở file pdf là mật khẩu giải nén chung của tài liệu !
