Ebook Python Data Cleaning - Chuẩn Bị Dữ Liệu Của Bạn Để Phân Tích Với Pandas, NumPy, Matplotlib, Scikit-learn Và OpenAI [Ấn Bản Lần 2, Tháng 5-2024] [PDF, EPUB + CODE] [9621E]
Tìm hiểu sự phức tạp của data description, issue identification và giải quyết vấn đề thực tế, được trang bị các kỹ thuật thiết yếu và mẹo của chuyên gia.
1. Các tính năng chính:
- ✓ Nắm bắt các kỹ thuật mới cho data preprocessing và cleaning cho các mô hình machine learning và NLP.
- ✓ Sử dụng các công cụ và kỹ thuật AI mới và được cập nhật để thực hiện các tác vụ data cleaning.
- ✓ Clean, monitor, và validate các large data volume để chẩn đoán các sự cố bằng các phương pháp tiên tiến bao gồm Machine learning và AI.
2. Mô tả cuốn sách:
Việc lao vào phân tích dữ liệu mà không làm sạch dữ liệu đúng cách chắc chắn sẽ dẫn đến kết quả không chính xác. Python Data Cleaning - Phiên bản thứ hai sẽ chỉ cho bạn các công cụ và kỹ thuật để cleaning và handling data bằng Python để có kết quả tốt hơn.
Được cập nhật đầy đủ lên phiên bản Python mới nhất và tất cả các công cụ liên quan, cuốn sách này sẽ hướng dẫn bạn cách manipulate và clean data để đưa dữ liệu vào dạng hữu ích. Phiên bản hiện tại tập trung vào các kỹ thuật nâng cao như machine learning và các phương pháp và công cụ dành riêng cho AI cho data cleaning cùng với các phương pháp thông thường. Cuốn sách cũng đi sâu vào các mẹo và kỹ thuật để process và clean data cho các mô hình ML, AI và NLP. Bạn sẽ học cách filter và summarize data để có được insight và hiểu rõ hơn điều gì có ý nghĩa và điều gì không, cùng với việc khám phá cách vận hành dữ liệu để giải quyết các vấn đề bạn đã xác định. Tiếp theo, bạn sẽ được trình bày các công thức sử dụng supervised learning và Naive Bayes analysis để xác định các giá trị không mong muốn và các classification error và generate visualization cho exploratory data analysis (EDA) để xác định các giá trị không mong muốn. Cuối cùng, bạn sẽ xây dựng các function và class mà bạn có thể sử dụng lại mà không cần sửa đổi khi có dữ liệu mới.
Đến cuối cuốn sách Data Cleaning này, bạn sẽ biết cách clean data và chẩn đoán các vấn đề trong dữ liệu.
3. Bạn sẽ học được gì:
- ✓ Sử dụng các công cụ OpenAI cho nhiều tác vụ data cleaning khác nhau.
- ✓ Tạo tóm tắt các thuộc tính của datasets, columns, và rows.
- ✓ Dự đoán các vấn đề về data-cleaning khi import dữ liệu dạng bảng vào pandas.
- ✓ Áp dụng các kỹ thuật validation cho dữ liệu dạng bảng được import.
- ✓ Cải thiện năng suất của bạn trong pandas bằng cách sử dụng method chaining.
- ✓ Nhận biết và giải quyết các vấn đề phổ biến như date và ID.
- ✓ Thiết lập index để hợp lý hóa data issue identification.
- ✓ Sử dụng data cleaning để chuẩn bị dữ liệu cho các mô hình ML và AI.
4. Cuốn sách này dành cho ai:
Cuốn sách này dành cho bất kỳ ai đang tìm cách xử lý dữ liệu lộn xộn, trùng lặp và kém bằng các công cụ và kỹ thuật Python khác nhau. Cuốn sách áp dụng phương pháp tiếp cận dựa trên công thức để giúp bạn học cách clean và manage data bằng các ví dụ thực tế.
Kiến thức cơ bản về lập trình Python là tất cả những gì bạn cần để tận dụng tối đa cuốn sách này.
5. Mục lục:
- ✓ Chương 01. Dự đoán các Data Cleaning Issue khi Import dữ liệu dạng bảng với pandas.
- ✓ Chương 02. Dự đoán các Data Cleaning Issue khi làm việc với HTML, JSON và Spark Data.
- ✓ Chương 03. Đo lường dữ liệu của bạn.
- ✓ Chương 04. Xác định các Outlier trong Subsets of Data.
- ✓ Chương 05. Sử dụng Visualization để nhận biết các Unexpected Value.
- ✓ Chương 06. Cleaning và Exploring Data với Series Operations.
- ✓ Chương 07. Identifying & Fixing Missing Values.
- ✓ Chương 08. Encoding, Transforming, & Scaling Features.
- ✓ Chương 09. Fixing Messy Data khi Aggregating.
- ✓ Chương 10. Giải quyết các vấn đề về dữ liệu khi kết hợp các DataFrame.
- ✓ Chương 11. Tidying & Reshaping Data.
- ✓ Chương 12. Automate Data Cleaning với cácUser-Defined Functions, Classes, & Pipelines.
LƯU Ý: Pass mở file pdf là mật khẩu giải nén chung của tài liệu !