Chia Sẻ Khóa Học Big Data Engineering Với Claude Code (2026) [Khóa 5300 A]
Xây dựng một data platform đạt chuẩn production trong 12 tuần, với Claude Code là pair engineer của bạn.
Những điều bạn sẽ học:
- ✓ Xây dựng một data platform 7-layer đạt chuẩn production, hoàn chỉnh từ đầu đến cuối, bao gồmstorage, compute, transform, stream, orchestrate, validate và serve, sử dụng các công cụ mã nguồn mở.
- ✓ Xử lý hàng triệu dòng dữ liệu với PySpark, viết các distributed batch pipeline, đọc các Spark execution plan và tune slow join với broadcast hints & AQE.
- ✓ Build một Lakehouse với Apache Iceberg, ACID transaction, time-travel query, snapshot management và painless schema evolution trên object storage.
- ✓ Model analytical data với dbt, layered staging→marts project, automated test, generated docs và lineage DAG mà các nhà phân tích có thể tin tưởng.
- ✓ Stream events với Kafka và Flink, build một real-time fraud detection consumer và stateful tumbling & sliding window aggregation bằng PyFlink.
- ✓ Orchestrate pipeline với Airflow, author DAG, quản lý các dependency, pass data với XCom và add retry/alert logic vào một ETL đầu cuối hàng đêm.
- ✓ Đảm bảo chất lượng dữ liệu với Great Expectations và ship self-service dashboard trong Apache Superset trên top của một DuckDB analytical mart được tuyển chọn kỹ lưỡng.
- ✓ Build một RAG pipeline trên warehouse của bạn, nhúng các policy doc với SentenceTransformers, index trong ChromaDB và chuyển đổi các OpenAI API answer thành ngữ nghĩa.
- ✓ Làm chủ Claude Code như một pair engineer, thiết kế các chiến lược prompting, tìm hiểu các file-context pattern, dựa trên nguyên tắc trust-but-verify.
- ✓ Bạn sẽ có được một portfolio project hoàn chỉnh từ đầu đến cuối, một GitHub repo có thể chạy được của toàn bộ data platform để demo trong các cuộc phỏng vấn và liên kết trong resume của mình.
Data engineering là lĩnh vực phát triển nhanh nhất trong ngành công nghệ, và khóa học này là cẩm nang thực tiễn toàn diện giúp bạn nắm vững lĩnh vực này.
Hầu hết các khóa học data engineering đều dạy các công cụ một cách riêng lẻ. Bạn học Spark trong một khóa học, Kafka trong một khóa khác, và dbt ở một nơi khác nữa. Đến cuối khóa học, bạn có một tập hợp các kỹ năng rời rạc nhưng không biết cách kết nối chúng lại với nhau thành một platform thực sự. Khóa học này thì khác.
Trong suốt 12 tuần học có cấu trúc, bạn sẽ xây dựng một data platform hoàn chỉnh, đạt chuẩn production cho DataShop, một công ty thương mại điện tử toàn cầu hư cấu xử lý 2 triệu đơn hàng mỗi ngày. Mỗi tuần, bạn sẽ thêm một layer mới vào cùng một platform: đầu tiên là nền tảng storage, sau đó là batch processing engine, tiếp theo là Lakehouse, rồi đến real-time streaming, tiếp theo là orchestration & data quality, và cuối cùng là analytics dashboard và một AI-powered assistant. Đến tuần thứ 12, bạn không chỉ học được các công cụ mà còn xây dựng được một hệ thống hoạt động hoàn chỉnh từ đầu đến cuối.
Khóa học bao gồm toàn bộ data stack hiện đại: Apache Spark cho distributed batch processing, Apache Kafka và Apache Flink cho real-time event streaming, Apache Iceberg cho Data Lakehouse, dbt cho version-controlled SQL transformation, Apache Airflow cho pipeline orchestration, Great Expectations cho data quality, Apache Superset cho dashboard và ChromaDB cho các Retrieval-Augmented Generation (RAG) AI pipeline.
Mỗi chương đều đi kèm với một Practice Lab lập, một bài tập thực tế, thực tế dựa trên kịch bản DataShop. Bạn sẽ không sao chép code hướng dẫn; bạn sẽ giải quyết các vấn đề kỹ thuật. Tất cả các lab đều chạy local bằng Docker, vì vậy không phát sinh chi phí cloud.
Điều làm cho khóa học này khác biệt so với bất kỳ khóa học nào khác: Claude Code, mặc dù không bắt buộc, có thể được sử dụng như một pair engineer trong toàn bộ quá trình. Bạn sẽ học các prompting pattern, các chiến lược file-context và trust-but-verify workflow giúp biến một phiên debugging sáu giờ thành một phiên bốn mươi phút. Bạn sẽ cùng nhau đọc các Spark execution plan, cùng nhau refactor các DAG dễ bị lỗi và triển khai các tính năng nhanh hơn bạn tưởng tượng, mà không bỏ qua các nguyên tắc cơ bản làm nên một senior engineer senior.
Cho dù bạn là một software engineer đang chuyển hướng sang lĩnh vực dữ liệu, một data analyst sẵn sàng xây dựng các pipeline của riêng mình, hay một data engineer đầy tham vọng muốn có một nền tảng giáo dục bài bản, khóa học này sẽ cung cấp cho bạn kiến trúc, code và sự tự tin để xây dựng data platform hiện đại.
Khóa học này dành cho:
- ✓ Software engineer & backend developer đang chuyển hướng sang data engineering, muốn tìm hiểu về distributed systems, streaming và thế giới analytical-data.
- ✓ Data analyst & data scientist muốn tự xây dựng các pipeline của riêng mình và không phải chờ đợi bộ phận kỹ thuật mỗi khi có bộ dữ liệu mới hoặc dashboard được cập nhật.
- ✓ Những người muốn trở thành data engineer, có kiến thức cơ bản về Python và SQL, muốn có một lộ trình học tập bài bản, dựa trên dự án, thay vì 47 video hướng dẫn rời rạc trên YouTube.
- ✓ Tech lead, staff engineer và architect đang đánh giá những sự đánh đổi trong kiến trúc hệ thống hiện đại: batch vs. streaming, Lakehouse vs. warehouse, ELT vs. ETL, và vị trí của AI.
- ✓ ML engineer & AI builder muốn có một warehouse đúng chuẩn, data quality thực và một RAG pattern hoạt động hiệu quả mà họ có thể áp dụng cho các ứng dụng LLM của riêng mình.
- ✓ Những người muốn chuyển đổi nghề nghiệp từ lĩnh vực phân tích, tài chính hoặc vận hành, có kiến thức cơ bản về Python và SQL, và muốn có một lộ trình bài bản, từ đầu đến cuối để bước vào vai trò liên quan đến dữ liệu.
- ✓ Senior engineer đang khám phá các AI-paired workflow, các prompting pattern, chiến lược file-context và thói quen trust-but-verify sẽ được áp dụng vào công việc hàng ngày của bạn.
