Ebook Data Analysis Với Python Và PySpark [PDF, EPUB] [9495E]
PySpark mang Spark big data processing engine mạnh mẽ vào hệ sinh thái Python, cho phép bạn mở rộng quy mô các tác vụ dữ liệu của mình một cách liền mạch và tạo các pipeline cực nhanh.
Trong Data Analysis với Python và PySpark, bạn sẽ học cách:
- ✓ Quản lý dữ liệu của bạn khi nó mở rộng trên nhiều máy.
- ✓ Mở rộng các chương trình dữ liệu của bạn một cách tự tin.
- ✓ Đọc và ghi dữ liệu đến và đi từ nhiều nguồn và định dạng khác nhau.
- ✓ Xử lý messy data với chức năng thao tác dữ liệu của PySpark.
- ✓ Khám phá các tập dữ liệu mới và thực hiện exploratory data analysis.
- ✓ Xây dựng các data pipeline tự động chuyển đổi, tóm tắt và có được thông tin chi tiết từ dữ liệu.
- ✓ Khắc phục lỗi PySpark thường gặp.
- ✓ Tạo ra các long-running job đáng tin cậy.
Data Analysis với Python và PySpark là hướng dẫn của bạn để triển khai các Python-driven data project thành công. Được đóng gói với các ví dụ liên quan và các kỹ thuật thiết yếu, cuốn sách thực tế này hướng dẫn bạn cách xây dựng các pipeline cho reporting, machine learning và các tác vụ tập trung vào dữ liệu khác. Các bài tập nhanh trong mỗi chương giúp bạn thực hành những gì đã học và nhanh chóng bắt đầu triển khai PySpark vào hệ thống dữ liệu của mình. Không yêu cầu kiến thức trước về Spark.
Về công nghệ:
Spark data processing engine là một analytics factory tuyệt vời: dữ liệu thô đi vào, thông tin chi tiết sẽ được đưa ra. PySpark bao bọc core engine của Spark với một API dựa trên Python. Nó giúp đơn giản hóa đường cong học tập dốc của Spark và giúp công cụ mạnh mẽ này có sẵn cho bất kỳ ai làm việc trong hệ sinh thái dữ liệu Python.
Về cuốn sách:
Data Analysis với Python và PySpark giúp bạn giải quyết những thách thức hàng ngày của khoa học dữ liệu với PySpark. Bạn sẽ học cách mở rộng khả năng xử lý của mình trên nhiều máy trong khi thu thập dữ liệu từ bất kỳ nguồn nào, cho dù đó là Hadoop cluster, cloud data storage hay local data file. Sau khi đã nắm được những kiến thức cơ bản, bạn sẽ khám phá toàn bộ tính linh hoạt của PySpark bằng cách xây dựng các machine learning pipeline và kết hợp Python, pandas và PySpark code.
Bên trong sách có gì:
- ✓ Tổ chức code PySpark của bạn.
- ✓ Quản lý dữ liệu của bạn, bất kể kích thước.
- ✓ Mở rộng các chương trình dữ liệu của bạn một cách tự tin.
- ✓ Xử lý các sự cố đường data pipeline phổ biến.
- ✓ Tạo ra các long-running job đáng tin cậy.
Về người đọc:
Được viết cho các nhà khoa học dữ liệu và kỹ sư dữ liệu thành thạo Python.
Mục lục:
- ✓ Phần 1. Làm quen: Các bước đầu tiên trong PySpark:
- ✓ Chương 01. Chương trình dữ liệu đầu tiên của bạn trong PySpark.
- ✓ Chương 02. Submitting và scaling chương trình PySpark đầu tiên của bạn.
- ✓ Chương 03. Phân tích tabular data với pyspark.sql.
- ✓ Chương 04. Data frame gymnastics: Joining & grouping.
- ✓ Phần 2. Thành thạo: Translate ý tưởng của bạn thành code:
- ✓ Chương 05. Multidimensional data frames: Sử dụng PySpark với JSON data.
- ✓ Chương 06. Bilingual PySpark: Kết hợp Python và SQL code.
- ✓ Chương 07. Mở rộng PySpark PySpark cới Python: RDD & UDF.
- ✓ Chương 08. Big data chỉ là một lượng lớn dữ liệu nhỏ: Sử dụng pandas UDF.
- ✓ Chương 09. Dữ liệu của bạn dưới một góc nhìn khác: Window functions.
- ✓ Chương 10. Faster PySpark: Hiểu về query planning của Spark.
- ✓ Phần 3. Tự tin: Sử dụng Machine learning với PySpark:
- ✓ Chương 11. Thiết lập giai đoạn: Chuẩn bị các tính năng cho Machine learning.
- ✓ Chương 12. Robust Machine learning với ML Pipelines.
- ✓ Chương 13. Xây dựng custom ML transformer & estimator.
- ✓ Phụ lục A. Giải pháp cho các bài tập.
- ✓ Phụ lục B. Cài đặt PySpark.
- ✓ Phụ lục C. Một số khái niệm Python hữu ích.
LƯU Ý: Pass mở file pdf là mật khẩu giải nén chung của tài liệu !