Chia Sẻ Khóa Học Web Scraping Với Python 2024 [Update Tháng 10/2024] [Khóa 6388 A]
Học cách trích xuất dữ liệu từ web với Python chỉ với một khóa học, bao gồm Selectolax, Playwright, Scrapy và nhiều hơn nữa.
Những gì bạn sẽ học được:
- ✓ Hiểu những kiến thức nền tảng về web scraping bằng Python từ đầu.
- ✓ Scrape thông tin từ các website tĩnh và động và trích xuất thành nhiều định dạng khác nhau.
- ✓ Intercept và emulate các API ẩn để xác định các giải pháp thay thế có hiệu quả cao để get dữ liệu của bạn.
- ✓ Làm chủ requests library để làm việc với HTTP.
- ✓ Phân tích và trích xuất nội dung từ HTML bằng beautifulsoup, selectolax và Microsoft Playwright.
- ✓ Làm chủ các CSS selector phức tạp bao gồm các descendant, child, sibling combinator.
- ✓ Hiểu cách thức hoạt động của web, bao gồm HTTP, HTML, CSS và JavaScript.
- ✓ Tạo các scrapy crawler và thực hành items, itemloaders và custom pipelines.
- ✓ Tích hợp scrapy với playwright để crawling dữ liệu website động hiệu suất cao, được tinh chỉnh tốt.
- ✓ Thực hành xử lý và trích xuất dữ liệu sang nhiều định dạng khác nhau bao gồm csv, json, xml và SQL.
Chào mừng đến với khóa học Web Scraping với Python 2024, khóa học duy nhất bạn cần để chuyển từ người mới bắt đầu học Python thành một web scraper rất thành thạo.
Web scraping là quá trình trích xuất dữ liệu theo chương trình từ web. Các Scraping agent sẽ truy cập một tài nguyên web, trích xuất nội dung từ đó, sau đó xử lý dữ liệu thu được để phân tích một số thông tin cụ thể cần quan tâm.
Scraping là loại kỹ năng lập trình cung cấp phản hồi ngay lập tức và có thể được sử dụng để tự động hóa nhiều tác vụ thu thập và xử lý dữ liệu khác nhau.
Trong hơn 17 giờ tiếp theo, chúng tôi sẽ trình bày một cách có phương pháp mọi thứ bạn cần biết để viết các web scraping agent bằng Python.
Khóa học này được tổ chức thành ba phần với độ khó tăng dần, được thiết kế để giúp bạn nâng cao kỹ năng của mình một cách dần dần.
Phần I - Begin:
Chúng ta sẽ bắt đầu bằng cách tìm hiểu cách thức hoạt động của web bằng cách xem xét kỹ hơn HTTP, application layer communication protocol chính của web hiện đại. Tiếp theo, chúng ta sẽ khám phá HTML , CSS và JavaScript từ những nguyên tắc đầu tiên để hiểu sâu hơn về cách website được xây dựng. Cuối cùng, chúng ta sẽ học cách sử dụng Python để gửi các HTTP request và phân tích cú pháp kết quả HTML, CSS và JavaScript để trích xuất dữ liệu chúng ta cần. Mục tiêu của chúng ta trong phần đầu tiên của khóa học là xây dựng một nền tảng vững chắc về cả web scraping và Python, và đưa các kỹ năng đó vào thực hành bằng cách xây dựng các chức năng web scraper từ đầu. Các chủ đề được chọn bao gồm:
- ✓ Tổng quan chi tiết về request-response cycle.
- ✓ Hiểu về user-agents, HTTP verbs, headers và status.
- ✓ Hiểu lý do tại sao các custom header thường có thể được sử dụng để bypass paywalls.
- ✓ Làm chủ thư viện requests để làm việc với HTTP trong Python.
- ✓ Stateless có nghĩa là gì và cookies hoạt động như thế nào.
- ✓ Khám phá vai trò của proxy trong kiến trúc web hiện đại.
- ✓ Làm chủ beautifulsoup để phân tích cú pháp và trích xuất dữ liệu.
Phần II - Refine:
Trong phần thứ hai của khóa học, chúng ta sẽ xây dựng trên nền tảng đã xây dựng để khám phá các chủ đề nâng cao hơn về web scraping. Chúng ta sẽ tìm hiểu cách scraping các trang web động sử dụng JavaScript để render nội dung của chúng, bằng cách thiết lập Microsoft Playwright làm một headless browser để tự động hóa quy trình này. Chúng ta cũng sẽ tìm hiểu cách xác định và mô phỏng các API call để scrape data từ các website không có các public API chính thức. Các dự án của chúng ta trong phần này sẽ bao gồm một image scraper có thể tải xuống một số lượng hình ảnh có độ phân giải cao nhất định với một số từ khóa, cũng như một scraping agent khác trích xuất giá và nội dung của các video game giảm giá từ một website được render động. Các chủ đề bao gồm:
- ✓ Xác định và sử dụng các hidden API và hiểu được những lợi ích mà chúng mang lại.
- ✓ Emulating headers, cookies, và body content một cách dễ dàng.
- ✓ Tự động generating code Python từ các API request bị chặn bằng cách sử dụng Postman và httpie.
- ✓ Làm việc với thư viện phân tích selectolax có hiệu suất cao.
- ✓ Làm chủ CSS selector.
- ✓ Giới thiệu Microsoft Playwright cho headless browsing và dynamic rendering.
Phần III - Master:
Trong phần cuối của khóa học, chúng tôi sẽ giới thiệu về Scrapy. Điều này sẽ cung cấp cho chúng ta một framework tuyệt vời, đã được kiểm tra theo thời gian để xây dựng các web scraper phức tạp và mạnh mẽ hơn. Chúng ta sẽ tìm hiểu cách thiết lập scrapy trong môi trường ảo và cách tạo ra các spider và pipeline để trích xuất dữ liệu từ các trang web ở nhiều định dạng khác nhau . Sau khi tìm hiểu cách sử dụng scrapy, chúng ta sẽ khám phá cách tích hợp nó với Playwright để giải quyết thách thức trong scraping các dynamic website ngay trong scrapy. Chúng ta sẽ kết thúc phần này bằng cách xây dựng một scraping agent thực thi code JavaScript tùy chỉnh trước khi trả về kết quả HTML cho scrapy. Một số chủ đề từ phần này:
- ✓ Học cách thiết lập scrapy và khám phá giao diện dòng lệnh của nó ("scrapy tool").
- ✓ Khám phá các response object bằng cách sử dụng scrapy shell.
- ✓ Hiểu và định nghĩa item schemas và load data bằng itemloaders và input/output processor.
- ✓ Tích hợp Playwright vào scrapy để xử lý các trang web JavaScript được render động.
- ✓ Viết PageMethods để chỉ định các hướng dẫn rất cụ thể cho headless browser ngay trong scrapy.
- ✓ Define các custom pipeline để lưu vào SQL database và các output format được tùy chỉnh cao.
Trong khóa học này, tôi sẽ hướng dẫn bạn từng bước thông qua các bài giảng video hấp dẫn và dạy bạn mọi thứ bạn cần biết để bắt đầu với web scraping bằng Python.
Đến cuối khóa học này, bạn sẽ có bộ công cụ hoàn chỉnh để hình thành khái niệm và triển khai các scraping agent cho bất kỳ website nào bạn có thể tưởng tượng.
Mục lục:
- ✓ 01. Giới thiệu.
- ✓ 02. HTTP Protocol.
- ✓ 03. HTML, CSS và JavaScript.
- ✓ 04. Web Requests trong Python.
- ✓ 05. Parsing & Extraction.
- ✓ 06. Project 1 - Portfolio Valuation với Google Finance.
- ✓ 07. API: Hidden Gems.
- ✓ 08. Selectolax và CSS Selector nâng cao.
- ✓ 09. Project 2 - Image Scraper.
- ✓ 10. Tackling JavaScript với Microsoft PlayWright.
- ✓ 11. Project 3 - Xây dựng một Configurable Scraping Pipeline.
- ✓ 12. Scrapy Framework.
- ✓ 13. Boosting Scrapy với scrapy-playwright.
- ✓ 14. Project 4 - Scraping các trang web động với Scrapy và PlayWright.
- ✓ 15. Kết thúc khóa học.
- ✓ 16. Phụ lục - Python Fundamentals.
Khóa học này dành cho ai:
- ✓ Bất kỳ ai muốn tìm hiểu cách thu thập dữ liệu từ web theo chương trình.
- ✓ Học viên có hoặc không có kinh nghiệm web scraping đang tìm cách nâng cao trình độ.
- ✓ Người mới bắt đầu hoàn toàn không có kinh nghiệm.
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU