Ebook Web Scraping Với Python [Ấn Bản Lần 3, Tháng 3-2024] [PDF, EPUB] [9680E]
Nếu lập trình là một phép thuật thì web scraping chắc chắn là một dạng ma thuật. Bằng cách viết một chương trình tự động đơn giản, bạn có thể truy vấn các web server, request data và phân tích cú pháp để trích xuất thông tin bạn cần. Phiên bản thứ ba được cập nhật kỹ lưỡng này không chỉ giới thiệu cho bạn về web scraping mà còn đóng vai trò là hướng dẫn toàn diện để scraping hầu hết mọi loại dữ liệu từ web hiện đại.
Phần I tập trung vào cơ chế web scraping: sử dụng Python để request thông tin từ một web server, thực hiện xử lý cơ bản phản hồi của server và tương tác với các trang web theo cách tự động. Phần II khám phá nhiều công cụ và ứng dụng cụ thể hơn để phù hợp với bất kỳ tình huống web scraping nào mà bạn có thể gặp phải.
- ✓ Phân tích các các trang HTML phức tạp.
- ✓ Phát triển các crawler với Scrapy framework.
- ✓ Tìm hiểu các phương pháp lưu trữ dữ liệu bạn scrape.
- ✓ Đọc và trích xuất dữ liệu từ document.
- ✓ Làm sạch và chuẩn hóa dữ liệu bị định dạng sai.
- ✓ Đọc và viết các natural language.
- ✓ Crawl qua các form và login.
- ✓ Scrape JavaScript và crawl qua API.
- ✓ Sử dụng và viết phần mềm image-to-text.
- ✓ Tránh scraping traps và bot blockers.
- ✓ Sử dụng các scraper để test website của bạn.
Mục lục:
Phần I. xây dựng Scraper:
- ✓ Chương 01. Internet hoạt động như thế nào.
- ✓ Chương 02. Tính hợp pháp và đạo đức của Web Scraping.
- ✓ Chương 03. Các ứng dụng của Web Scraping.
- ✓ Chương 04. Viết Web Scraper đầu tiên của bạn.
- ✓ Chương 05. Phân tích cú pháp HTML nâng cao.
- ✓ Chương 06. Viết Web Crawler.
- ✓ Chương 07. Web Crawling Model.
- ✓ Chương 08. Scrapy.
- ✓ Chương 09. Lưu trữ dữ liệu.
Phần II. Scraping nâng cao:
- ✓ Chương 10. Đọc Document.
- ✓ Chương 11. Làm việc với Dirty Data.
- ✓ Chương 12. Read & Write Natural Language.
- ✓ Chương 13. Crawling Through Forms and Logins.
- ✓ Chương 14. Scraping JavaScript.
- ✓ Chương 15. Crawling qua các API.
- ✓ Chương 16. Image Processing và Text Recognition.
- ✓ Chương 17. Avoid Scraping Traps.
- ✓ Chương 18. Testing Website của bạn với Scraper.
- ✓ Chương 19. Web Scraping in Parallel.
- ✓ Chương 20. Web Scraping Proxies.
LƯU Ý: Pass mở file pdf là mật khẩu giải nén chung của tài liệu !
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU