Ebook Data Analysis Với Python Và PySpark [PDF, EPUB] [9495E]

By Nhà Sách Tin Học - 06 tháng 1 2025 - No Comments

PySpark mang Spark big data processing engine mạnh mẽ vào hệ sinh thái Python, cho phép bạn mở rộng quy mô các tác vụ dữ liệu của mình một cách liền mạch và tạo các pipeline cực nhanh.

Trong Data Analysis với Python và PySpark, bạn sẽ học cách:

✓ Quản lý dữ liệu của bạn khi nó mở rộng trên nhiều máy.
✓ Mở rộng các chương trình dữ liệu của bạn một cách tự tin.
✓ Đọc và ghi dữ liệu đến và đi từ nhiều nguồn và định dạng khác nhau.
✓ Xử lý messy data với chức năng thao tác dữ liệu của PySpark.
✓ Khám phá các tập dữ liệu mới và thực hiện exploratory data analysis.
✓ Xây dựng các data pipeline tự động chuyển đổi, tóm tắt và có được thông tin chi tiết từ dữ liệu.
✓ Khắc phục lỗi PySpark thường gặp.
✓ Tạo ra các long-running job đáng tin cậy.

Data Analysis với Python và PySpark là hướng dẫn của bạn để triển khai các Python-driven data project thành công. Được đóng gói với các ví dụ liên quan và các kỹ thuật thiết yếu, cuốn sách thực tế này hướng dẫn bạn cách xây dựng các pipeline cho reporting, machine learning và các tác vụ tập trung vào dữ liệu khác. Các bài tập nhanh trong mỗi chương giúp bạn thực hành những gì đã học và nhanh chóng bắt đầu triển khai PySpark vào hệ thống dữ liệu của mình. Không yêu cầu kiến thức trước về Spark.

Về công nghệ:

Spark data processing engine là một analytics factory tuyệt vời: dữ liệu thô đi vào, thông tin chi tiết sẽ được đưa ra. PySpark bao bọc core engine của Spark với một API dựa trên Python. Nó giúp đơn giản hóa đường cong học tập dốc của Spark và giúp công cụ mạnh mẽ này có sẵn cho bất kỳ ai làm việc trong hệ sinh thái dữ liệu Python.

Về cuốn sách:

Data Analysis với Python và PySpark giúp bạn giải quyết những thách thức hàng ngày của khoa học dữ liệu với PySpark. Bạn sẽ học cách mở rộng khả năng xử lý của mình trên nhiều máy trong khi thu thập dữ liệu từ bất kỳ nguồn nào, cho dù đó là Hadoop cluster, cloud data storage hay local data file. Sau khi đã nắm được những kiến thức cơ bản, bạn sẽ khám phá toàn bộ tính linh hoạt của PySpark bằng cách xây dựng các machine learning pipeline và kết hợp Python, pandas và PySpark code.

Bên trong sách có gì:

✓ Tổ chức code PySpark của bạn.
✓ Quản lý dữ liệu của bạn, bất kể kích thước.
✓ Mở rộng các chương trình dữ liệu của bạn một cách tự tin.
✓ Xử lý các sự cố đường data pipeline phổ biến.
✓ Tạo ra các long-running job đáng tin cậy.

Về người đọc:

Được viết cho các nhà khoa học dữ liệu và kỹ sư dữ liệu thành thạo Python.

Mục lục:

✓ Phần 1. Làm quen: Các bước đầu tiên trong PySpark:
✓ Chương 01. Chương trình dữ liệu đầu tiên của bạn trong PySpark.
✓ Chương 02. Submitting và scaling chương trình PySpark đầu tiên của bạn.
✓ Chương 03. Phân tích tabular data với pyspark.sql.
✓ Chương 04. Data frame gymnastics: Joining & grouping.
✓ Phần 2. Thành thạo: Translate ý tưởng của bạn thành code:
✓ Chương 05. Multidimensional data frames: Sử dụng PySpark với JSON data.
✓ Chương 06. Bilingual PySpark: Kết hợp Python và SQL code.
✓ Chương 07. Mở rộng PySpark PySpark cới Python: RDD & UDF.
✓ Chương 08. Big data chỉ là một lượng lớn dữ liệu nhỏ: Sử dụng pandas UDF.
✓ Chương 09. Dữ liệu của bạn dưới một góc nhìn khác: Window functions.
✓ Chương 10. Faster PySpark: Hiểu về query planning của Spark.
✓ Phần 3. Tự tin: Sử dụng Machine learning với PySpark:
✓ Chương 11. Thiết lập giai đoạn: Chuẩn bị các tính năng cho Machine learning.
✓ Chương 12. Robust Machine learning với ML Pipelines.
✓ Chương 13. Xây dựng custom ML transformer & estimator.
✓ Phụ lục A. Giải pháp cho các bài tập.
✓ Phụ lục B. Cài đặt PySpark.
✓ Phụ lục C. Một số khái niệm Python hữu ích.

LƯU Ý: Pass mở file pdf là mật khẩu giải nén chung của tài liệu !

NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU

XEM HƯỚNG DẪN TRUY CẬP VÀ DOWNLOAD EBOOK TẠI ĐÂY

LIKE FAN PAGE ĐỂ NHẬN KHÓA HỌC MỚI NHẤT TẠI ĐÂY

MỜI BẠN THAM GIA GROUP CÙNG TRAO ĐỔI TẠI ĐÂY

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Chia sẽ bài viết lên:

Thẻ bài viết:

Data Analysis EBOOK Phân Tích Dữ Liệu PySpark PYTHON

Nhà Sách Tin Học

Chào mừng các bạn đến với Blog Nhà Sách Tin Học. Thông qua Blog này mình muốn chia sẻ đến các bạn những kiến thức về tin học, các tài liệu hay giáo trình mà mình có hoặc siêu tầm được... Mình rất mong được sự ủng hộ nhiệt tình của các bạn bằng cách comment bài viết, chia sẻ bài viết hoặc liên hệ với mình qua blog này! Mình xin cảm ơn!

Tin mới nhất