Tin mới nhất

Menu

Chia Sẻ Khóa Học Azure Databricks & Spark Core Cho Data Engineer(Python & SQL) [Khóa 8390 A]

Dự án thực tế về Đua xe Công thức 1 dành cho các Data Engineer sử dụng Azure Databricks, Delta Lake, Azure Data Factory [DP203].

Bạn sẽ học được gì:

  • ✓ Bạn sẽ học cách xây dựng một dự án dữ liệu trong thực tế bằng cách sử dụng Azure Databricks và Spark Core. Khóa học này được giảng dạy bằng cách sử dụng dữ liệu thực tế từ giải đua xe Công thức 1.
  • ✓ Bạn sẽ có được các kỹ năng kỹ thuật dữ liệu cấp độ chuyên nghiệp trong Azure Databricks, Delta Lake, Spark Core, Azure Data Lake Gen2 và Azure Data Factory (ADF).
  • ✓ Bạn sẽ học cách tạo notebooks, dashboards, clusters, cluster pools và jobs trong Azure Databricks.
  • ✓ Bạn sẽ học cách ingest và transform data bằng PySpark trong Azure Databricks.
  • ✓ Bạn sẽ học cách chuyển đổi và phân tích dữ liệu bằng Spark SQL trong Azure Databricks.
  • ✓ Bạn sẽ tìm hiểu về Data Lake architecture và Lakehouse architecture. Ngoài ra, bạn sẽ học cách triển khai một giải pháp cho Lakehouse architecture bằng cách sử dụng Delta Lake.
  • ✓ Bạn sẽ học cách tạo các Azure Data Factory pipeline để thực thi các Databricks notebook.
  • ✓ Bạn sẽ tìm hiểu cách tạo các Azure Data Factory trigger để schedule pipeline cũng như giám sát chúng.
  • ✓ Bạn sẽ đạt được các kỹ năng cần thiết về Azure Databricks và Data Factory để vượt qua kỳ thi lấy chứng chỉ Azure Data Engineer Associate DP203, nhưng mục tiêu chính của khóa học không phải là dạy bạn vượt qua các kỳ thi.
  • ✓ Bạn sẽ học cách kết nối với Azure Databricks từ PowerBI để tạo các báo cáo.

Khóa học này sẽ giúp bạn tìm hiểu một trong những công cụ kỹ thuật dữ liệu có nhu cầu cao trên đám mây, Azure Databricks! Khóa học này được giảng dạy với việc triển khai giải pháp kỹ thuật dữ liệu sử dụng Azure Databricks và Spark core cho một dự án thực tế về phân tích và báo cáo dữ liệu đua xe motor Công thức 1.

Khi bạn hoàn thành khóa học bao gồm tất cả các bài tập, bạn sẽ có thể tự mình bắt đầu một dự án kỹ thuật dữ liệu trong thế giới thực và cũng thành thạo về Azure Databricks. Khóa học cũng đã bao gồm các bài học về Azure Data Lake Storage Gen2, Azure Data Factory cũng như PowerBI. Trọng tâm chính của khóa học là Azure Databricks và Spark core, nhưng nó cũng bao gồm các khái niệm liên quan và khả năng kết nối với các công nghệ khác được đề cập. Xin lưu ý rằng khóa học không bao gồm các khía cạnh khác của Spark như Spark streaming và Spark ML. Ngoài ra, khóa học đã được giảng dạy bằng cách sử dụng PySpark cũng như Spark SQL; Nó không bao gồm Scala hoặc Java.

Khóa học theo một tiến trình hợp lý của việc thực hiện một dự án trong thế giới thực với các khái niệm kỹ thuật được giải thích và các Databricks notebook được xây dựng cùng một lúc. Mặc dù khóa học này không được thiết kế đặc biệt để dạy bạn các kỹ năng cần thiết để vượt qua kỳ thi DP203-Azure Data Engineer Associate Certification, nhưng nó rất có thể giúp bạn có được hầu hết các kỹ năng cần thiết cho kỳ thi.

Hiện tại khóa học dạy cho bạn những điều sau:

1. Azure Databricks:

  • ✓ Xây dựng một kiến ​​trúc giải pháp cho giải pháp kỹ thuật dữ liệu sử dụng Azure Databricks, Azure Data Lake Gen2, Azure Data Factory và Power BI.
  • ✓ Tạo và sử dụng Azure Databricks service và kiến ​​trúc của Databricks trong Azure.
  • ✓ Làm việc với Databricks notebooks cũng như sử dụng các tiện ích Databricks, magic command, v.v.
  • ✓ Chuyển các tham số giữa các notebook cũng như tạo quy trình làm việc của notebook.
  • ✓ Tạo, cấu hình và giám sát các Databricks cluster, cluster pool và job.
  • ✓ Gắn Azure Storage trong Databricks bằng cách sử dụng các bí mật được lưu trữ trong Azure Key Vault.
  • ✓ Làm việc với Databricks Tables, Databricks File System (DBFS), v.v.
  • ✓ Sử dụng Delta Lake để triển khai giải pháp sử dụng Lakehouse architecture.
  • ✓ Tạo dashboard để trực quan hóa kết quả đầu ra.
  • ✓ Kết nối với các Azure Databricks table từ PowerBI.

2. Spark (Chỉ PySpark và SQL):

  • ✓ Spark architecture, Data Sources API và Dataframe API.
  • ✓ PySpark - Nhập các tệp CSV, JSON đơn giản và phức tạp vào data lake dưới dạng các parquet file/ table.
  • ✓ PySpark - Các Transformation như Filter, Join, Simple Aggregations, GroupBy, Window functions, v.v.
  • ✓ PySpark - Tạo các local và temporary view.
  • ✓ Spark SQL - Tạo database, table và views.
  • ✓ Spark SQL - Các Transformation như Filter, Join, Simple Aggregations, GroupBy, Window functions, v.v.
  • ✓ Spark SQL - Tạo các local và temporary view..
  • ✓ Thực hiện full refresh và các incremental load pattern bằng cách sử dụng partition.

3. Delta Lake:

  • ✓ Sự xuất hiện của Data Lakehouse architecture và vai trò của delta lake.
  • ✓ Read, Write, Update, Delete và Merge vào delta lake bằng cách sử dụng cả PySpark cũng như SQL .
  • ✓ History, Time Travel và Vacuum.
  • ✓ Chuyển đổi Parquet file thành Delta file.
  • ✓ Triển khai incremental load pattern bằng cách sử dụng delta lake.

4. Azure Data Factory:

  • ✓ Tạo các pipeline để thực thi các Databricks notebook.
  • ✓ Thiết kế các robust pipeline để đối phó với các tình huống không mong muốn chẳng hạn như tệp bị thiếu.
  • ✓ Tạo các dependency giữa các activitie cũng như các pipeline.
  • ✓ Lập lịch các đường ống bằng cách sử dụng các data factory trigger để thực thi theo các khoảng thời gian đều đặn.
  • ✓ Monitor các trigger/ pipeline để kiểm tra lỗi / đầu ra.


NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU




Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Chia sẽ bài viết lên:

Nhà Sách Tin Học

Chào mừng các bạn đến với Blog Nhà Sách Tin Học. Thông qua Blog này mình muốn chia sẻ đến các bạn những kiến thức về tin học, các tài liệu hay giáo trình mà mình có hoặc siêu tầm được... Mình rất mong được sự ủng hộ nhiệt tình của các bạn bằng cách comment bài viết, chia sẻ bài viết hoặc liên hệ với mình qua blog này! Mình xin cảm ơn!

No Comment to " Chia Sẻ Khóa Học Azure Databricks & Spark Core Cho Data Engineer(Python & SQL) [Khóa 8390 A] "

  • To add an Emoticons Show Icons
  • To add code Use [pre]code here[/pre]
  • To add an Image Use [img]IMAGE-URL-HERE[/img]
  • To add Youtube video just paste a video link like http://www.youtube.com/watch?v=0x_gnfpL3RM