Chia Sẻ Khóa Học Data Engineering Design Pattern [Khóa 5320 A]
Đi từ việc xây dựng các portfolio project sang thiết kế các data product sẵn sàng cho sản xuất.
Làm thế nào để chuyển từ chỉ biết SQL sang xây dựng các pipeline từ đầu?
Trong môi trường production, bạn cần xử lý các truy vấn phức tạp, thực hiện tối ưu hiệu suất và đưa ra các quyết định thiết kế mơ hồ. Không có video nào trên YouTube có thể dạy bạn cách suy nghĩ về những sự đánh đổi này.
Bất cứ ai cũng có thể xây dựng một pipeline hoạt động được, nhưng để nó tạo ra bộ dữ liệu phù hợp và đảm bảo tính bền vững thì cần phải biết chính xác cách xây dựng pipeline đó cho trường hợp sử dụng của mình.
Bạn biết mình có thể nỗ lực để kiếm được một công việc liên quan đến dữ liệu với mức lương cao. Nhưng bạn lại không có một hướng dẫn từng bước cụ thể để đạt được điều đó.
Tự tin xây dựng các data product làm hài lòng các bên liên quan:
- ✓ Giải quyết các vấn đề kinh doanh bằng công nghệ. Giúp mọi tổ chức đưa ra quyết định dựa trên dữ liệu.
- ✓ Thể hiện năng lực chuyên môn bằng cách tập trung vào các kết quả kinh doanh.
- ✓ Hướng dẫn các stakeholder từ câu hỏi "Tôi có thể lấy dữ liệu doanh thu không?" hướng đến các data product trực quan, hỗ trợ việc ra quyết định.
- ✓ Làm cho cuộc sống của các stakeholder trở nên dễ dàng hơn, và bạn sẽ tiến xa trong sự nghiệp.
Áp dụng các nguyên tắc thiết kế dữ liệu phù hợp với use case của bạn:
Tìm hiểu các data engineering design pattern quan trọng và cách chúng kết hợp với nhau:
- ✓ Data Warehousing: Xây dựng các table mà các nhà phân tích thực sự muốn sử dụng.
- ✓ Pipeline Design: Xử lý các late event, backfill và failure một cách khéo léo.
- ✓ Data Flow (Medallion): Chuẩn hóa cách dữ liệu luân chuyển trong hệ thống của bạn.
- ✓ Data Quality: Hãy đảm bảo rằng dữ liệu bạn trình bày cho các stakeholder của bạn là chính xác.
- ✓ Scheduling & Orchestration pattern: Tạo các pipeline có thể tạo ra output data đúng thời hạn.
- ✓ Data Storage Pattern: Chọn chiến lược lưu trữ phù hợp để phân tích dữ liệu nhanh chóng và tiết kiệm chi phí.
- ✓ Distributed Data Processing Pattern: Scale pipeline của bạn một cách tự tin khi data volume tăng lên.
Các công cụ bạn sẽ sử dụng:
Thực hành xây dựng các data product thực tế thông qua hai project cuối khóa.
- ✓ 1. Data Warehouse for advertisement analytics..
- ✓ 2. Data Warehouse được xây dựng với hơn 50GB dữ liệu StackOverflow thực .
Bạn sẽ học cách trình bày kết quả dựa trên dữ liệu thực tế (ví dụ: Xu hướng người dùng StackOverflow).
Hãy tìm hiểu cách xây dựng một project hoàn chỉnh từ đầu đến cuối bằng cách làm theo từng bước một.
Đăng ký khóa học và bắt đầu học các khái niệm quan trọng về data engineering cũng như cách áp dụng chúng vào thực tế.
Tự tin xây dựng các data product từ đầu đến cuối.
Những điều bạn sẽ học:
- ✓ Data Warehouse design & Medallion Architecture.
- ✓ Pipeline Design Patterns & Data Quality checks.
- ✓ Orchestration & Scheduling Patterns.
- ✓ Spark API & Data Storage Optimization.
- ✓ Distributed Data Processing & Optimization.
- ✓ Chuẩn bị phỏng vấn và hai dự án cuối khóa.
Chương trình học:
- ✓ Phần 1: Các Data Engineering Design Pattern:
- ✓ Data Warehousing.
- ✓ Data Pipeline Design.
- ✓ Medallion Data Flow Architecture.
- ✓ Data Quality.
- ✓ Scheduling & Orchestration Pattern.
- ✓ Testing Codecủa bạn.
- ✓ Data Contract.
- ✓ Capstone Project.
- ✓ Chuẩn bị phỏng vấn.
- ✓ Phần 2: Distributed Data Processing với Apache Spark:
- ✓ Processing Data với Apache Spark.
- ✓ Các Data Storage Pattern để tối ưu hóa các Pipeline của bạn.
- ✓ Data Process Optimization trong Apache Spark.
- ✓ Capstone Project.
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU
