Chia Sẻ Khóa Học CI/CD Với Databricks Asset Bundles (DAB) [Khóa 6017 A]
Xây dựng các deployment pipeline cấp sản xuất với Databricks Asset Bundles. Package Project của bạn dưới dạng Code!
Những gì bạn sẽ học được:
- ✓ Package notebooks, jobs và các cấu hình dưới dạng mã có version với Databricks Asset Bundles.
- ✓ Tạo các CI/CD pipeline được tự động deploy đáng tin cậy từ development đến production.
- ✓ Xây dựng và phân phối các Python package tùy chỉnh để sử dụng trong môi trường Databricks của bạn.
- ✓ Triển khai unit testing và validation cho Databricks code.
- ✓ Thiết lập các GitHub Actions workflow để build, test và deployment tự động.
- ✓ Áp dụng các DevOps best practice vào Databricks.
Bạn đã sẵn sàng đưa DevOps và CI/CD vào các triển khai Databricks của mình chưa?
Trong khóa học này, bạn sẽ trở thành một chuyên gia về Databricks Asset Bundles, framework “workspace-as-code” chính thức mang DevOps thực sự vào nền tảng phân tích của bạn. Bạn sẽ học cách đóng gói notebooks, jobs, pipelines, cluster specs, infrastructure và các cấu hình workspace thành một package duy nhất, có version, và sau đó tự động hóa validation, testing và multi-stage deployment thông qua các CI/CD pipeline. Không còn những one-off click hay hidden drift, chỉ cần các repeatable, reliable release.
Tổng quan về chương trình giảng dạy cấp cao:
Giới thiệu & Các khái niệm cốt lõi:
Định hướng với Databricks Asset Bundles và các khái niệm CI/CD. Xem lại các mục tiêu của khóa học, ““infinite delivery loop,” và nơi tìm các code sample cho từng module thực hành.
Environment & Setup:
Cung cấp Azure Databricks workspaces của bạn, cấu hình VS Code, cài đặt Databricks CLI và chuẩn bị Databricks Connect cho quá trình phát triển theo hướng IDE.
Asset Bundles Fundamentals:
Tìm hiểu các core databricks bundles command: init, validate, deploy, run và destroy, và cách define, version và quản lý analytics project của bạn trong databricks.yml.
Local Development & Unit Testing:
Tích hợp PyTest cho các unit và integration test, run test thông qua CI hoặc Databricks Connect và generate các coverage report để thực thi các quality gate.
Hiểu cách chuyển đổi giữa local PySpark để unit testing nhanh chóng và Databricks Connect để thực thi và debug code trên các cluster thực, đảm bảo tính đồng nhất giữa IDE và cloud.
Các Project thực hành:
Áp dụng kiến thức của bạn vào ba dự án thực hành:
- ✓ Notebook ETL pipelines (Bronze→Silver→Gold).
- ✓ Python script task và .whl-packaged jobs.
- ✓ Delta Live Tables streaming pipelines.
Tích hợp Git & CI/CD Pipeline:
Đưa project của bạn lên Git, adopt branch-based workflow và author GitHub Actions hoặc Azure Pipelines để tự động hóa builds, tests, staging (sau khi được chấp thuận) và production rollouts.
Đến cuối khóa học này, bạn sẽ có một quy trình CI/CD tự động từ đầu đến cuối cho toàn bộ môi trường Databricks của mình.
Mục lục:
- ✓ 01. Giới thiệu và các khái niệm cốt lõi.
- ✓ 02. Thiết lập môi trường.
- ✓ 03. Databricks CLI.
- ✓ 04. Bắt đầu với Databricks Asset Bundles.
- ✓ 05. Thiết lập cho Local Development.
- ✓ 06. SetUp Project Citibike.
- ✓ 07. Notebook Tasks & Variables với DAB.
- ✓ 08. Python Script Tasks với DAB.
- ✓ 09. Distributing Reusable Code as a Wheel.
- ✓ 10. Delta Live Table Pipelines với DAB.
- ✓ 11. Databricks Asset Bundles - Tóm tắt về phương pháp cấu hình YAML.
- ✓ 12. Local SparkSession Development & Unit Testing.
- ✓ 13. End to End CI/CD Workflows với DAB & GitHub.
- ✓ 14. Xin chúc mừng!
Khóa học này dành cho ai:
- ✓ Data Engineer làm việc trong môi trường Databricks.
- ✓ DevOps engineer hỗ trợ team data.
- ✓ Team lead muốn triển khai các deployment best practice trong Databricks.