Ebook Vision Language Model - Xây Dựng Các VLM Với Hugging Face [Ấn Bản Lần 1, 6/2026] [PDF, EPUB] [8985E]
Vision language model (VLM) kết hợp computer vision và natural language processing để tạo ra các hệ thống mạnh mẽ có khả năng interpret, generate và respond trong các multimodal context. "Vision Language Model" là một hướng dẫn thực hành về việc xây dựng các VLM thực tế bằng cách sử dụng bộ công cụ machine learning hiện đại nhất từ Hugging Face, Meta (PyTorch), NVIDIA (Cuda) và các công cụ khác, được viết bởi các researcher & practitioner hàng đầu. Từ image captioning & document understanding đến zero-shot inference nâng cao và zero-shot inference, cuốn sách này bao gồm full VLM application & development lifecycle.
Được thiết kế dành cho các ML engineer, data scientist và developer, cuốn sách hướng dẫn này chắt lọc những nghiên cứu VLM tiên tiến nhất thành các kỹ thuật thực tiễn. Người đọc sẽ học cách chuẩn bị các tập dữ liệu, lựa chọn kiến trúc phù hợp, fine-tune & deploy các model, cũng như áp dụng chúng vào các nhiệm vụ thực tế trong nhiều ngành công nghiệp khác nhau.
- ✓ Khám phá các core model architecture và các kỹ thuật alignment.
- ✓ Train & fine-tune các VLM với Hugging Face, PyTorch và các công cụ khác.
- ✓ Deploy các model cho các ứng dụng như image search & captioning.
- ✓ Triển khai các chiến lược inference nâng cao, từ zero-shot đến các agentic system.
- ✓ Xây dựng các hệ thống VLM có khả năng mở rộng, sẵn sàng cho việc sử dụng trong môi trường sản xuất.
Mục lục:
- ✓ Chương 01. Giới thiệu về Vision & Language.
- ✓ Chương 02. Vision Language Model Application.
- ✓ Chương 03. Vision Language Model Training.
- ✓ Chương 04. Training Data & Preprocessing cho các VLM.
- ✓ Chương 05. Post-Training Vision Language Model.
- ✓ Chương 06. Core Architectures of Vision Language Model.
- ✓ Chương 07. Deploy các Model cho Inference ở quy mô lớn.
- ✓ Chương 08. Document AI.
- ✓ Chương 09. Video-Language Model.
- ✓ Chương 10. Any-to-Any Model.
- ✓ Chương 11. Các chủ đề nâng cao và nghiên cứu tiên tiến.
