Ebook Data Engineering Cho Machine Learning Pipelines - Từ Các Thư Viện Python Đến Các ML Pipeline Và Các Nền Tảng Đám Mây [Ấn Bản Lần 1, Tháng 9/2024] [PDF] [9569E]
Cuốn sách này đề cập đến các chức năng data engineering hiện đại và các thư viện Python quan trọng, giúp bạn phát triển các ML pipeline và code tích hợp tiên tiến nhất.
Cuốn sách bắt đầu bằng cách giải thích về phân tích và chuyển đổi dữ liệu, đi sâu vào thư viện Pandas, khả năng và sắc thái của nó. Sau đó, cuốn sách khám phá các thư viện mới nổi như Polars và CuDF, cung cấp những thông tin chi tiết về điện toán dựa trên GPU và các kỹ thuật thao tác dữ liệu tiên tiến. Cuốn sách cũng sẽ thảo luận về tầm quan trọng của xác thực dữ liệu trong các quy trình engineering, giới thiệu các công cụ như Great Expectations và Pandera để đảm bảo chất lượng và độ tin cậy của dữ liệu.
Cuốn sách đi sâu vào API design và development, tập trung cụ thể vào việc tận dụng sức mạnh của FastAPI. Nó đề cập đến authentication, authorization và các ứng dụng trong thế giới thực, cho phép bạn xây dựng các API hiệu quả và an toàn bằng FastAPI. Đồng thời cũng khám phá concurrency trong data engineering, kiểm tra các khả năng của Dask từ thiết lập cơ bản đến chế tạo các machine learning pipeline tiên tiến.
Cuốn sách bao gồm phát triển và cung cấp các data engineering pipeline bằng các nền tảng đám mây hàng đầu như AWS, Google Cloud và Microsoft Azure. Các chương kết thúc tập trung vào các real-time và streaming data engineering pipeline, nhấn mạnh vào Apache Kafka và workflow orchestration trong data engineering. Các Workflow tool như Airflow và Prefect được giới thiệu để quản lý và tự động hóa liền mạch các data workflow phức tạp.
Điều làm cho cuốn sách này trở nên khác biệt là sự kết hợp giữa kiến thức lý thuyết và ứng dụng thực tế, một lộ trình có cấu trúc từ các khái niệm cơ bản đến nâng cao và những insight về việc sử dụng các công cụ hiện đại. Với cuốn sách này, bạn có thể tiếp cận các kỹ thuật và hiểu biết tiên tiến đang định hình lại ngành. Cuốn sách này không chỉ là một công cụ giáo dục. Nó là chất xúc tác nghề nghiệp và là khoản đầu tư cho tương lai của bạn với tư cách là một chuyên gia data engineering, sẵn sàng đáp ứng những thách thức của thế giới dữ liệu ngày nay.
Bạn sẽ học được gì:
- ✓ Nâng cao công việc xử lý dữ liệu của bạn bằng cách sử dụng sức mạnh của cả CPU và GPU, đồng thời học cách xử lý dữ liệu bằng Pandas 2.0, Polars và CuDF với tốc độ chưa từng có.
- ✓ Design các data validation pipeline, xây dựng các data service API hiệu quả, phát triển các real-time streaming pipeline và nắm vững nghệ thuật workflow orchestration để hợp lý hóa các engineering project của bạn.
- ✓ Tận dụng concurrent programming để phát triển các machine learning pipeline và có được kinh nghiệm thực tế trong việc phát triển và triển khai các machine learning pipeline trên AWS, GCP và Azure.
Cuốn sách này dành cho ai:
Các Data analyst, data engineer, data scientist, machine learning engineer, và MLOps specialist.
Mục lục:
- ✓ Chương 01. Các công nghệ cốt lõi trong Data Engineering.
- ✓ Chương 02. Data Wrangling sử dụng Pandas.
- ✓ Chương 03. Data Wrangling sử dụng Polars của Rust.
- ✓ Chương 04. GPU Driven Data Wrangling sử dụng CuDF.
- ✓ Chương 05. Bắt đầu với Data Validation sử dụng Pydantic và Pandera.
- ✓ Chương 06. Data Validation sử dụng Great Expectations.
- ✓ Chương 07. Giới thiệu về Concurrency Programming và Dask.
- ✓ Chương 08. Engineering Machine Learning Pipelines sử dụng DaskML.
- ✓ Chương 09. Engineering Real-time Data Pipelines sử dụng Apache Kafka.
- ✓ Chương 10. Engineering Machine Learning và Data REST API sử dụng FastAPI.
- ✓ Chương 11. Bắt đầu với Workflow Management và Orchestration.
- ✓ Chương 12. Orchestrating Data Engineering Pipelines sử dụng Apache Airflow.
- ✓ Chương 13. Orchestrating Data Engineering Pipelines sử dụng Prefect.
- ✓ Chương 14. Bắt đầu với Big Data và Cloud Computing.
- ✓ Chương 15. Engineering Data Pipelines sử dụng Amazon Web Services.
- ✓ Chương 16. Engineering Data Pipelines sử dụng Google Cloud Platform.
- ✓ Chương 17. Engineering Data Pipelines sử dụng Microsoft Azure.
LƯU Ý: Pass mở file pdf là mật khẩu giải nén chung của tài liệu !