Ebook 50 Project Machine Learning Để Hiểu Rõ Về Các LLM - Nghiên Cứu Các Cơ Chế Transformer Thông Qua Phân Tích Dữ Liệu, Trực Quan Hóa Và Thử Nghiệm [Ấn Bản Lần 1, Tháng 2/2026] [PDF, EPUB] [9008E]
Hầu hết các sách về LLM đều hướng dẫn bạn cách xây dựng các language model từ đầu hoặc deploy chúng thông qua API. Cuốn sách này làm điều khác biệt: nó sử dụng các project machine-learning có hướng dẫn để dạy bạn cách hiểu, hình dung và nghiên cứu các LLM, bao gồm cả GPT và BERT.
Thông qua 50 project thực hành có hướng dẫn được giải quyết bằng Python, bạn sẽ nghiên cứu các cơ chế bên trong của các large language model bằng cách treating các hidden state, attention pattern & embedding của chúng như dữ liệu để phân tích. Thay vì chấp nhận các LLM như những black box, bạn sẽ mở chúng ra, kiểm tra những gì bên trong và chạy các thí nghiệm để hiểu tại sao chúng hoạt động theo cách đó. Tất cả các project đều dựa trên Python (sử dụng các thư viện như NumPy, PyTorch, statsmodels, scikit-learn, Matplotlib, Pandas và Seaborn) và đi kèm với các giải pháp đầy đủ và các notebook file giải pháp một phần, để bạn có thể thực hành và nâng cao kỹ năng của mình trong data science, deep learning, data visualization và scientific & statistical coding.
Điều gì làm cho cuốn sách này trở nên độc đáo:
Mỗi project được xây dựng xoay quanh ba mục tiêu học tập: các kỹ thuật machine learning, các cơ chế LLM và Python coding với data visualization. Đây không phải là một cuốn sách giáo khoa lý thuyết chuyên sâu; mà là một cuốn sách thực hành, thiết thực và hướng đến dự án. Bạn sẽ học cách đo lường, trực quan hóa và thao tác trực tiếp các internal component của LLM (bao gồm cả các embedding, transformer output, hidden-states, attention & MLP layer). Các project đa dạng từ việc phân tích tokenization & embedding geometry đến việc mổ xẻ các attention head, probing các MLP neuron và chạy các thí nghiệm causal để tiết lộ cách thông tin truyền qua một mô hình trong quá trình suy luận.
Các chủ đề được đề cập bao gồm:
- ✓ Các tokenization scheme và các statistical property của chúng.
- ✓ Embedding space: cosine similarity, semantic axes & analogy vector.
- ✓ Output logits, softmax distributions, perplexity & language biases.
- ✓ Layer-by-layer transformer dynamics & dimensionality.
- ✓ Attention mechanism: QKV weights, attention scores, head ablation & activation patching.
- ✓ MLP subblock: neuron tuning, mutual information, subspace analysis & statistics-based causal manipulation.
- ✓ Logit lens, indirect object identification & causal tracing.
Cuốn sách này dành cho ai:
Cuốn sách này dành cho các data scientist, ML engineer và researcher muốn hiểu sâu hơn về các LLM. Cần có kinh nghiệm lập trình Python trước đó. Kiến thức về machine learning hoặc deep learning rất hữu ích nhưng không bắt buộc - các kỹ thuật sẽ được giới thiệu khi chúng xuất hiện trong suốt các dự án.
Thực tế và dễ tiếp cận:
Tất cả code đều chạy trên Google Colab, vì vậy không cần cài đặt gì và không cần cấu hình local. Mỗi trong số 50 project đều đi kèm với hai Jupyter notebook: một có gợi ý và code chưa hoàn chỉnh để thực hành có theo dẫn, và một có lời giải hoàn chỉnh hoạt động được. Tất cả code đều có sẵn miễn phí kèm theo sách.
Mục lục:
- ✓ Chương 1. Giới thiệu:
- + 1.1 Tại sao cần nghiên cứu về các cơ chế LLM?
- + 1.2 Tại sao cần sử dụng Machine learning để tìm hiểu về LLM?
- + 1.3 Điều kiện tiên quyết.
- + 1.4 Yêu cầu phần cứng và phần mềm.
- + 1.5 Cách giải quyết các project.
- + 1.6 Nhận và sử dụng book code.
- + 1.7 AI Assistance.
- ✓ Chương 2. Tokenization:
- + 2.1 Project 1: Ba tokenization scheme.
- + 2.2 Project 2: Độ dài sách tính bằng ký tự, từ và token.
- + 2.3 Project 3: Pandas frequency table của token length.
- + 2.4 Project 4: Độ dài token tính bằng ký tự và byte.
- + 2.5 Project 5: Tokenization có phải là compression?
- + 2.6 Project 6: Tokenization & compression trong các ngôn ngữ khác nhau.
- + 2.7 Project 7: Translating giữa các tokenizer.
- ✓ Chương 3. Embeddings:
- + 3.8 Project 8: Phân bố độ tương đồng cosine.
- + 3.9 Project 9: Sequential cosine similarity.
- + 3.10 Project 10: Sequential number cosine similarity.
- + 3.11 Project 11: Network graph của các cosine similarity.
- + 3.12 Project 12: RSA RSA để so sánh GPT-2 & BERT embedding.
- + 3.13 Project 13: Word similarity thông qua khoảng cách và cosine.
- + 3.14 Project 14: Linear semantic axes.
- + 3.15 Project 15: Analogy vectors.
- ✓ Chương 4. Output logits:
- + 4.16 Project 16: Softmax probability distribution.
- + 4.17 Project 17: Probabilistic token selection.
- + 4.18 Project 18: Token prediction accuracy.
- + 4.19 Project 19: LLM loss function.
- + 4.20 Project 20: Perplexity trên các sequence, text & model.
- + 4.21 Project 21: Predict token position với linear & logistic regression.
- + 4.22 Project 22: Evaluating model với HellaSwag.
- + 4.23 Project 23: Measuring language biases.
- ✓ Chương 5. Transformer output:
- + 5.24 Project 24: Cosine similarity bên trong và giữa các layer.
- + 5.25 Project 25: Category selectivity thông qua cosine similarity.
- + 5.26 Project 26: Current layer = previous layer + adjustments.
- + 5.27 Project 27: Tác động của layer-specific noise & scaling.
- + 5.28 Project 28: Kích thước hiệu quả của các hidden layer.
- + 5.29 Project 29: Hidden state dimensionality reduction.
- + 5.30 Project 30: Sentiment analysis với decision trees.
- + 5.31 Project 31: Logit lens.
- + 5.32 Project 32: Patching hidden states trong indirect object identification.
- ✓ Chương 6. Attention:
- + 6.33 Project 33: QKV weights characteristic.
- + 6.34 Project 34: QKV activation characteristic.
- + 6.35 Project 35: Raw & softmax attention score.
- + 6.36 Project 36: Characteristics of attention adjustment magnitudes.
- + 6.37 Project 37: Token prediction & attention KL divergences.
- + 6.38 Project 38: Laminar profile của RSA & category selectivity.
- + 6.39 Project 39: Token frequency, attention adjustments, QK⊤.
- + 6.40 Project 40: Downstream impacts of head silencing.
- + 6.41 Project 41: Patching heads trong IOI.
- ✓ Chương 7. MLP:
- + 7.42 Project 42: MLP weights & activations characteristics.
- + 7.43 Project 43: Characterizing MLP progression.
- + 7.44 Project 44: Grammar tuning trong MLP projection.
- + 7.45 Project 45: Minkowski distance, mutual information & token position.
- + 7.46 Project 46: Statistics-based lesioning trong MLP neuron.
- + 7.47 Project 47: Supervised probing với XGBoost.
- + 7.48 Project 48: “Can” vs. “can’t” classification thông qua logistic regression.
- + 7.49 Project 49: Successive median-replacement of MLP activation.
- + 7.50 Project 50: Recommender system với MLP projection.
