Tin mới nhất

Menu

Chia Sẻ Khóa Học Chinh Phục Big Data Với Apache Spark 4 & Python - Thực Hành! [Update 4/2026] [Khóa 5287 A]

Hướng dẫn PySpark với hơn 40 ví dụ thực hành về phân tích các tập dữ liệu lớn trên desktop của bạn hoặc trên Hadoop với Python!

Những điều bạn sẽ học:

  • ✓ Sử dụng DataFrame và Structured Streaming trong Spark 4.
  • ✓ Sử dụng thư viện machine learning MLLib để trả lời các câu hỏi thường gặp về data mining.
  • ✓ Tìm hiểu cách Spark Streaming cho phép bạn xử lý các luồng dữ liệu liên tục trong thời gian thực.
  • ✓ Sử dụng Elastic MapReduce service của Amazon để chạy job của bạn trên một cluster với Hadoop YARN.
  • ✓ Cài đặt và chạy Apache Spark trên máy tính desktop hoặc trên một cluster.
  • ✓ Sử dụng Resilient Distributed Datasets của Spark để xử lý và phân tích các tập dữ liệu lớn trên nhiều CPU.
  • ✓ Triển khai các thuật toán lặp như breadth-first-search bằng Spark.
  • ✓ Tìm hiểu cách Spark SQL giúp bạn làm việc với dữ liệu có cấu trúc.
  • ✓ Tinh chỉnh và khắc phục sự cố các large job đang chạy trên một cluster.
  • ✓ Chia sẻ thông tin giữa các node trên một Spark cluster bằng cách sử dụng các broadcast variable và accumulator.
  • ✓ Tìm hiểu cách thư viện GraphX ​​hỗ trợ giải quyết các bài toán về network analysis.

Mới!  Đã cập nhật cho các tính năng mới nhất của Spark 4.

“Big data" analysis là một kỹ năng rất được ưa chuộng và có giá trị cao – và khóa học này sẽ dạy bạn công nghệ tiên tiến nhất trong lĩnh vực big data: Apache Spark và cụ thể là PySpark. Các nhà tuyển dụng như Amazon, EBay, NASA JPL và Yahoo đều sử dụng Spark để nhanh chóng trích xuất thông tin có ý nghĩa từ các tập dữ liệu khổng lồ trên một Hadoop cluster có khả năng chịu lỗi. Bạn sẽ học được những kỹ thuật tương tự, sử dụng hệ thống Windows của riêng bạn ngay tại nhà. Điều đó dễ hơn bạn nghĩ đấy.

Khóa học này sẽ giúp bạn học và làm chủ nghệ thuật định hình các bài toán phân tích dữ liệu thành các bài toán Spark thông qua hơn 20 ví dụ thực hành, sau đó mở rộng quy mô để chạy trên các cloud computing service. 

  • ✓ Tìm hiểu các khái niệm về DataFrame và Resilient Distributed Datastore của Spark.
  • ✓ Phát triển và chạy các Spark job một cách nhanh chóng bằng Python và pyspark.
  • ✓ Chuyển đổi các bài toán phân tích phức tạp thành các Spark script lặp đi lặp lại hoặc nhiều giai đoạn.
  • ✓ Scale lên các tập dữ liệu lớn hơn bằng Elastic MapReduce service của Amazon.
  • ✓ Tìm hiểu cách Hadoop YARN phân phối Spark trên các computing cluster.
  • ✓ Tìm hiểu thêm về các công nghệ khác của Spark, như Spark SQL, Spark Streaming và GraphX.
  • ✓ Thực hành sử dụng các tính năng mới nhất của Spark, bao gồm Pandas-On-Spark , Spark Connect và các User-Defined Table Function (UDTF).

Sau khi hoàn thành khóa học này, bạn sẽ có thể chạy code để phân tích hàng gigabyte dữ liệu - trên cloud - chỉ trong vài phút. 

Khóa học này sử dụng ngôn ngữ lập trình Python quen thuộc; nếu bạn muốn sử dụng Scala để đạt hiệu suất tốt nhất với Spark, hãy xem khóa học "Apache Spark Với Scala - Thực Hành Với Big Data".

Chúng ta sẽ có những giây phút thú vị trên hành trình này. Bạn sẽ được làm quen với một số ví dụ đơn giản về việc sử dụng Spark để phân tích dữ liệu xếp hạng phim và văn bản trong một cuốn sách. Khi bạn đã nắm vững những kiến ​​thức cơ bản, chúng ta sẽ chuyển sang một số nhiệm vụ phức tạp và thú vị hơn. Chúng ta sẽ sử dụng một triệu xếp hạng phim để tìm ra những bộ phim tương tự nhau, và bạn thậm chí có thể khám phá ra một số bộ phim mới mà bạn có thể thích trong quá trình này! Chúng ta sẽ phân tích một social graph của các superhero, và tìm hiểu xem siêu superhero nào "nổi tiếng" nhất - và phát triển một hệ thống để tìm ra "degrees of separation" giữa các superhero. Liệu tất cả các Marvel superhero đều có mối liên hệ gián tiếp với Incredible Hulk không? Bạn sẽ tìm ra câu trả lời.

Khóa học này rất chú trọng thực hành; bạn sẽ dành phần lớn thời gian để làm theo hướng dẫn của giảng viên khi chúng ta cùng nhau viết, phân tích và chạy code thực tế – cả trên hệ thống của riêng bạn và trên cloud bằng Elastic MapReduce service của Amazon. Khóa học bao gồm 8 giờ video với hơn 40 ví dụ thực tế. có độ phức tạp tăng dần mà bạn có thể tự xây dựng, chạy và nghiên cứu. Bạn có thể học theo tốc độ và lịch trình của riêng mình. Khóa học kết thúc với tổng quan về các công nghệ dựa trên Spark khác, bao gồm Spark SQL, Spark Structured Streaming và GraphX.

Xử lý dữ liệu lớn bằng Apache Spark là một kỹ năng quan trọng trong thế giới công nghệ hiện nay. Đăng ký ngay!

Mục lục:

  • ✓ 1. Bắt đầu với Spark.
  • ✓ 2. Spark Basic & Legacy RDD Interface.
  • ✓ 3. SparkSQL, DataFrames & Dataset.
  • ✓ 4. Các ví dụ nâng cao về các chương trình Spark.
  • ✓ 5. Chạy Spark trên một Cluster.
  • ✓ 6. Machine Learning với Spark ML.
  • ✓ 7. Spark Streaming, Structured Streaming & GraphX.
  • ✓ 8. Bạn đã hoàn thành! Bước tiếp theo.

Khóa học này dành cho:

  • ✓ Những người có nền tảng về software development và muốn học công nghệ mới nhất trong big data analysis. Khóa học tập trung vào Spark từ góc độ software development; chúng tôi sẽ giới thiệu một số khái niệm về machine learning & data mining trong quá trình học, nhưng đó không phải là trọng tâm. Nếu bạn muốn học cách sử dụng Spark để phân chia các tập dữ liệu khổng lồ và trích xuất ý nghĩa từ chúng, thì khóa học này dành cho bạn.
  • ✓ Nếu bạn chưa từng viết một chương trình máy tính hay script nào trước đây, khóa học này không dành cho bạn - ít nhất là hiện tại. Tôi khuyên bạn nên bắt đầu với một khóa học Python trước nếu lập trình là lĩnh vực mới mẻ đối với bạn.
  • ✓ Nếu công việc software development của bạn liên quan đến, hoặc sẽ liên quan đến, việc xử lý lượng lớn dữ liệu, bạn cần phải biết về Spark.
  • ✓ Nếu bạn đang theo học để có một sự nghiệp mới trong lĩnh vực data science hoặc big data, Spark là một phần quan trọng trong quá trình đó.


NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU




Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Chia sẽ bài viết lên:

Nhà Sách Tin Học

Chào mừng các bạn đến với Blog Nhà Sách Tin Học. Thông qua Blog này mình muốn chia sẻ đến các bạn những kiến thức về tin học, các tài liệu hay giáo trình mà mình có hoặc siêu tầm được... Mình rất mong được sự ủng hộ nhiệt tình của các bạn bằng cách comment bài viết, chia sẻ bài viết hoặc liên hệ với mình qua blog này! Mình xin cảm ơn!

No Comment to " Chia Sẻ Khóa Học Chinh Phục Big Data Với Apache Spark 4 & Python - Thực Hành! [Update 4/2026] [Khóa 5287 A] "

  • To add an Emoticons Show Icons
  • To add code Use [pre]code here[/pre]
  • To add an Image Use [img]IMAGE-URL-HERE[/img]
  • To add Youtube video just paste a video link like http://www.youtube.com/watch?v=0x_gnfpL3RM