Tin mới nhất

Menu

Browsing "Older Posts"

Bài Viết Về Chủ Đề " DP203 "

Chia Sẻ Khóa Học Azure Databricks & Spark Cho Data Engineer (PySpark/SQL) [Update Tháng 3-2023] [Khóa 7427 A]

26 tháng 3 2023 / No Comments

Project Thực tế về Đua xe Công thức 1 dành cho các Data Engineer sử dụng Azure Databricks, Delta Lake, Azure Data Factory [DP203].

Bạn sẽ học được gì:

  • ✓ Bạn sẽ học cách xây dựng một dự án dữ liệu trong thế giới thực bằng Azure Databricks và Spark Core. Khóa học này đã được giảng dạy bằng cách sử dụng dữ liệu trong thế giới thực từ giải đua xe Công thức 1.
  • ✓ Bạn sẽ có được các kỹ năng data engineering ở cấp độ chuyên nghiệp trong Azure Databricks, Delta Lake, Spark Core, Azure Data Lake Gen2 và Azure Data Factory (ADF).
  • ✓ Bạn sẽ tìm hiểu cách tạo notebooks, dashboards, clusters, cluster pools và jobs trong Azure Databricks.
  • ✓ Bạn sẽ tìm hiểu cách nhập và chuyển đổi dữ liệu bằng PySpark trong Azure Databricks.
  • ✓ Bạn sẽ học cách chuyển đổi và phân tích dữ liệu bằng Spark SQL trong Azure Databricks.
  • ✓ Bạn sẽ tìm hiểu về kiến ​​trúc Data Lake và kiến ​​trúc Lakehouse. Ngoài ra, bạn sẽ học cách triển khai một giải pháp cho kiến ​​trúc Lakehouse bằng cách sử dụng Delta Lake.
  • ✓ Bạn sẽ tìm hiểu cách tạo Azure Data Factory pipelines để thực thi Databricks notebooks.
  • ✓ Bạn sẽ tìm hiểu cách tạo Azure Data Factory triggers để schedule pipelines cũng như giám sát chúng.
  • ✓ Bạn sẽ đạt được các kỹ năng cần thiết xung quanh Azure Databricks và Data Factory để vượt qua kỳ thi chứng chỉ Azure Data Engineer Associate DP203, nhưng mục tiêu chính của khóa học không phải là dạy bạn vượt qua kỳ thi.
  • ✓ Bạn sẽ học cách kết nối với Azure Databricks từ PowerBI để tạo báo cáo.

Cập nhật chính cho khóa học kể từ khi ra mắt:

  • ✓ Tháng 3 năm 2023 - Đã thêm phần 6 và 7 mới. Phần 8 Đã cập nhật. Những thay đổi này nhằm phản ánh các khuyến nghị mới nhất của Databricks xung quanh việc truy cập Azure Data Lake. Ngoài ra, điều này cung cấp một giải pháp tốt hơn để hoàn thành dự án khóa học cho sinh viên sử dụng Azure Student Subscription hoặc Corporate Subscriptions với quyền truy cập hạn chế vào Azure Active Directory.
  • ✓ Tháng 12 năm 2022 - Phần 3, 4 & 5 được cập nhật để phản ánh các thay đổi UI gần đây đối với Azure Databricks. Cũng bao gồm các bài học về chức năng bổ sung được Databricks đưa vào gần đây cho các Databricks cluster.

Welcome!

Tôi rất mong được giúp bạn tìm hiểu một trong những công cụ data engineering theo yêu cầu trên đám mây, Azure Databricks! Khóa học này đã được giảng dạy với việc triển khai một giải pháp data engineering bằng Azure Databricks và Spark core cho một dự án trong thế giới thực về phân tích và báo cáo về dữ liệu cuộc đua mô tô Công thức 1.

Đây không giống như bất kỳ khóa học nào khác dành cho Azure Databricks. Khi bạn đã hoàn thành khóa học bao gồm tất cả các bài tập, tôi thực sự tin tưởng rằng bạn sẽ có thể tự mình bắt đầu một dự án kỹ thuật dữ liệu trong thế giới thực và cũng thành thạo trên Azure Databricks. Tôi cũng đã đưa vào các bài học về Azure Data Lake Storage Gen2, Azure Data Factory cũng như PowerBI. Trọng tâm chính của khóa học là Azure Databricks và Spark core, nhưng nó cũng bao gồm các khái niệm liên quan và khả năng kết nối với các công nghệ khác được đề cập. Xin lưu ý rằng khóa học không bao gồm các khía cạnh khác của Spark như Spark streaming và Spark ML. Ngoài ra, khóa học đã được dạy bằng PySpark cũng như Spark SQL; Nó không bao gồm Scala hoặc Java.

Khóa học tuân theo tiến trình hợp lý của việc triển khai một dự án trong thế giới thực với các khái niệm kỹ thuật được giải thích và Databricks notebooks được xây dựng cùng một lúc. Mặc dù khóa học này không được thiết kế đặc biệt để dạy cho bạn các kỹ năng cần thiết để vượt qua Kỳ thi Azure Data Engineer Associate Certification DP203, nhưng nó có thể giúp bạn rất nhiều để đạt được hầu hết các kỹ năng cần thiết cho kỳ thi.

Tôi coi trọng thời gian của bạn nhiều như tôi làm. Vì vậy, tôi đã thiết kế khóa học này có nhịp độ nhanh và đi thẳng vào vấn đề. Tôi bắt đầu khóa học từ những điều cơ bản và khi kết thúc khóa học, bạn sẽ thành thạo các công nghệ được sử dụng.

Hiện tại khóa học dạy bạn những điều sau:

1. Azure Databricks:

  • ✓ Xây dựng một kiến ​​trúc giải pháp cho một data engineering solution bằng Azure Databricks, Azure Data Lake Gen2, Azure Data Factory và Power BI.
  • ✓ Tạo và sử dụng Azure Databricks service và kiến ​​trúc của Databricks trong Azure.
  • ✓ Làm việc với Databricks notebooks cũng như sử dụng các tiện ích Databricks, magic command, v.v.
  • ✓ Truyền tham số giữa các notebook cũng như tạo notebook workflow.
  • ✓ Tạo, định cấu hình và giám sát Databricks clusters, cluster pools và jobs.
  • ✓ Mounting Azure Storage trong Databricks bằng cách sử dụng secrets stored trong Azure Key Vault.
  • ✓ Làm việc với Databricks Tables, Databricks File System (DBFS), v.v.
  • ✓ Sử dụng Delta Lake để triển khai một giải pháp sử dụng kiến ​​trúc Lakehouse.
  • ✓ Tạo dashboards để trực quan hóa kết quả đầu ra.
  • ✓ Kết nối với Azure Databricks tables từ PowerBI.

2. Spark (Chỉ PySpark và SQL):

  • ✓ Spark architecture, Data Sources API và Dataframe API.
  • ✓ PySpark - Nhập tệp CSV, tệp JSON đơn giản và phức tạp vào data lake as parquet files/ tables.
  • ✓ PySpark - Transformations như Filter, Join, Simple Aggregations, GroupBy, Window functions, v.v.
  • ✓ PySpark - Tạo local và temporary views.
  • ✓ Spark SQL - Tạo databases, tables và views.
  • ✓ Spark SQL - Transformations như Filter, Join, Simple Aggregations, GroupBy, Window functions, v.v.
  • ✓ Spark SQL - Tạo local và temporary views.
  • ✓ Triển khai full refresh và incremental load patterns bằng cách sử dụng partitions.

3. Delta Lake:

  • ✓ Emergence of Data Lakehouse architecture và vai trò của delta lake.
  • ✓ Đọc, Viết, Cập nhật, Xóa và Hợp nhất vào delta lake bằng cả PySpark cũng như SQL .
  • ✓ History, Time Travel và Vacuum.
  • ✓ Chuyển đổi Parquet files thành Delta files.
  • ✓ Triển khai incremental load pattern bằng cách sử dụng delta lake.

4. Azure Data Factory:

  • ✓ Tạo pipelines để thực thi Databricks notebooks.
  • ✓ Thiết kế các pipeline mạnh mẽ để xử lý các tình huống không mong muốn như missing file.
  • ✓ Tạo dependency giữa activities cũng như pipelines.
  • ✓ Lập lịch trình cho pipelines bằng cách sử dụng data factory triggers để thực thi theo các khoảng thời gian đều đặn.
  • ✓ Monitor triggers/ pipelines để kiểm tra lỗi/output.

Khóa học này dành cho ai:

  • ✓ Sinh viên đại học đang tìm kiếm một nghề nghiệp trong Data Engineering.
  • ✓ Các IT developer làm việc trong các lĩnh vực khác đang cố gắng chuyển sang Data Engineering.
  • ✓ Data Engineer/ Data Warehouse Developer hiện đang làm việc trên các công nghệ tại chỗ hoặc các nền tảng đám mây khác như AWS hoặc GCP muốn tìm hiểu Azure Data Technologies.
  • ✓ Data Architect đang tìm cách hiểu về Azure Data Engineering stack.


NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU




Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.