Chia Sẻ Khóa Học Apache Spark Và Databricks - Stream Processing Trong Lakehouse [Update Tháng 10-2023] [Khóa 6972 A]
Làm chủ Stream processing sử dụng Apache Spark (PySpark) và Azure Databricks (Azure) với một Capstone Project từ đầu đến cuối.
Bạn sẽ học được gì:
- ✓ Các khái niệm về Real-time Stream Processing.
- ✓ Spark Structured Streaming API và Architecture.
- ✓ Làm việc với Streaming Sources và Sinks.
- ✓ Kafka for Data Engineer.
- ✓ Làm việc với Kafka Source và tích hợp Spark với Kafka.
- ✓ State-less và State-full Streaming Transformation.
- ✓ Windowing Aggregates sử dụng Spark Stream.
- ✓ Watermarking và State Cleanup.
- ✓ Streaming Joins và Aggregation.
- ✓ Handling Memory Problems với Streaming Joins.
- ✓ Làm việc với Azure Databricks.
- ✓ Capstone Project - Ứng dụng streaming trong Lakehouse.
Giới thiệu về khóa học:
Khóa học Apache Spark và Databricks - Stream Processing trong Lakehouse bằng Ngôn ngữ Python và PySpark API. Khóa học này sẽ giúp bạn hiểu về Real-time Stream processing bằng cách sử dụng Apache Spark và Databricks Cloud, đồng thời áp dụng kiến thức đó để xây dựng các giải pháp real-time stream processing. Khóa học này dựa trên ví dụ và tuân theo cách tiếp cận giống như phiên làm việc. Chúng tôi sẽ thực hiện phương pháp live coding và giải thích tất cả các khái niệm cần thiết.
Capstone Project:
Khóa học này cũng bao gồm một Capstone project End-To-End. Dự án sẽ giúp bạn hiểu cách tiếp cận thiết kế, coding, triển khai, thử nghiệm và CI/CD của dự án thực tế.
Ai nên tham gia khóa học này?
Tôi đã thiết kế khóa học này cho các kỹ sư phần mềm sẵn sàng phát triển một Real-time Stream Processing Pipeline và ứng dụng bằng cách sử dụng Apache Spark. Tôi cũng tạo khóa học này cho các data architect và data engineer, những người chịu trách nhiệm thiết kế và xây dựng cơ sở hạ tầng lấy dữ liệu làm trung tâm của tổ chức. Một nhóm người khác là các manager và architect không trực tiếp làm việc triển khai Spark. Tuy nhiên, họ vẫn làm việc với những người triển khai Apache Spark ở cấp độ cơ bản.
Phiên bản Spark được sử dụng trong Khóa học:
Khóa học này sử dụng Apache Spark 3.5 . Tôi đã test tất cả source code và ví dụ được sử dụng trong khóa học này trên Azure Databricks Cloud bằng cách sử dụng Databricks Runtime 14.1 .
Mục lục:
- ✓ 01 - Trước khi bạn bắt đầu.
- ✓ 02 - Thiết lập môi trường của bạn.
- ✓ 03 - Bắt đầu với Spark Streaming.
- ✓ 04 - Kafka for Data Engineer.
- ✓ 05 - Làm việc với Databricks Platform.
- ✓ 06 - Capstone Project - Triển khai Real-time Project trong Lakehouse.
- ✓ 07 - Lời cuối cùng.
- ✓ 08 - Lưu trữ - Nội dung khóa học cũ.
Khóa học này dành cho ai:
- ✓ Software Engineer và Architect sẵn sàng thiết kế và phát triển Bigdata Engineering Project bằng cách sử dụng Apache Spark và Databricks Cloud.
- ✓ Các lập trình viên và nhà phát triển đang mong muốn phát triển và học hỏi Data Engineering bằng cách sử dụng Apache Spark và Databricks Cloud.
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU