Chia Sẻ Khóa Học Taming Big Data Với MapReduce Và Hadoop - Thực Hành [Khóa 7163 A]
Tìm hiểu MapReduce nhanh chóng bằng cách xây dựng hơn 10 ví dụ thực tế, sử dụng Python, MRJob và Elastic MapReduce Service của Amazon.
Những gì bạn sẽ học:
- ✓ Hiểu cách sử dụng MapReduce để phân tích các tập dữ liệu lớn.
- ✓ Viết MapReduce jobs của riêng bạn bằng Python và MRJob.
- ✓ Run MapReduce jobs trên các Hadoop cluster bằng Amazon Elastic MapReduce.
- ✓ Chain MapReduce jobs lại với nhau để phân tích các bài toán phức tạp hơn.
- ✓ Phân tích dữ liệu mạng xã hội bằng MapReduce.
- ✓ Phân tích dữ liệu xếp hạng phim bằng MapReduce và đưa ra các đề xuất phim với nó.
- ✓ Hiểu các công nghệ dựa trên Hadoop khác, bao gồm Hive, Pig và Spark.
- ✓ Hiểu Hadoop dùng để làm gì và nó hoạt động như thế nào.
“Big data" analysis là một kỹ năng hấp dẫn và có giá trị cao - và khóa học này sẽ dạy cho bạn hai công nghệ cơ bản để tạo ra dữ liệu lớn một cách nhanh chóng: MapReduce và Hadoop. Bạn có bao giờ thắc mắc cách Google quản lý để phân tích toàn bộ Internet trên cơ sở liên tục không? Bạn sẽ tìm hiểu những kỹ thuật tương tự, sử dụng hệ thống Windows của riêng bạn ngay tại nhà.
Tìm hiểu và nắm vững nghệ thuật định hình các bài toán phân tích dữ liệu dưới dạng các bài toán MapReduce thông qua hơn 10 ví dụ thực hành và sau đó mở rộng chúng để chạy trên các dịch vụ điện toán đám mây trong khóa học này. Bạn sẽ học hỏi từ một cựu kỹ sư và quản lý cấp cao từ Amazon và IMDb.
- ✓ Tìm hiểu các khái niệm về MapReduce.
- ✓ Chạy nhanh các MapReduce job bằng Python và MRJob.
- ✓ Dịch các bài toán phân tích phức tạp thành các multi-stage MapReduce job.
- ✓ Mở rộng quy mô lên các tập dữ liệu lớn hơn bằng cách sử dụng Elastic MapReduce service của Amazon.
- ✓ Hiểu cách Hadoop phân phối MapReduce trên các computing cluster.
- ✓ Tìm hiểu về các công nghệ Hadoop khác, như Hive, Pig và Spark.
Khi kết thúc khóa học này, bạn sẽ chạy code phân tích giá trị hàng gigabyte thông tin - trên đám mây - chỉ trong vài phút.
Chúng tôi sẽ có một số niềm vui trên hành trình của khóa học. Bạn sẽ được làm nóng với một số ví dụ đơn giản về cách sử dụng MapReduce để phân tích dữ liệu xếp hạng phim và văn bản trong sách. Khi bạn đã nắm được những kiến thức cơ bản, chúng ta sẽ chuyển sang một số nhiệm vụ phức tạp và thú vị hơn. Chúng tôi sẽ sử dụng một triệu xếp hạng phim để tìm các phim tương tự nhau và thậm chí bạn có thể khám phá một số phim mới mà bạn có thể thích trong quá trình này! Chúng ta sẽ phân tích một social graph của các superhero và tìm hiểu xem ai là siêu anh hùng “nổi tiếng” nhất - đồng thời phát triển một hệ thống để tìm ra “mức độ khác biệt" giữa các siêu anh hùng. Có phải tất cả các siêu anh hùng Marvel trong một vài mức độ được kết nối với The Incredible Hulk? Bạn sẽ tìm thấy câu trả lời.
Khóa học này rất thực hành; bạn sẽ dành phần lớn thời gian của mình để theo dõi người hướng dẫn khi chúng tôi viết, phân tích và chạy code thực cùng nhau – cả trên hệ thống của riêng bạn và trên đám mây bằng cách sử dụng Elastic MapReduce service của Amazon. Hơn 5 giờ nội dung video được bao gồm, với hơn 10 ví dụ thực tế về mức độ phức tạp ngày càng tăng mà bạn có thể tự xây dựng, chạy và nghiên cứu. Di chuyển qua chúng theo tốc độ của riêng bạn, theo lịch trình của riêng bạn. Khóa học kết thúc với phần tổng quan về các công nghệ dựa trên Hadoop khác, bao gồm Hive, Pig và Spark framework rất hấp dẫn - hoàn chỉnh với một ví dụ hoạt động trong Spark.
Mục lục:
- ✓ 1. Giới thiệu và Bắt đầu.
- ✓ 2. Tìm hiểu về MapReduce.
- ✓ 3. Các ví dụ về MapReduce nâng cao.
- ✓ 4. Sử dụng Hadoop và Elastic MapReduce.
- ✓ 5. Hadoop và EMR nâng cao.
- ✓ 6. Các công nghệ Hadoop khác.
- ✓ 7. Đi đâu từ đây.
Khóa học này dành cho ai:
- ✓ Khóa học này là tốt nhất cho sinh viên với một số khả năng lập trình hoặc viết kịch bản trước đó. Chúng tôi sẽ coi bạn là người mới bắt đầu khi nói đến MapReduce và thiết lập mọi thứ để viết các MapReduce job bằng Python, MRJob và Elastic MapReduce service của Amazon - nhưng chúng tôi sẽ không dành nhiều thời gian để dạy bạn cách viết code. Trọng tâm là đóng khung các vấn đề phân tích dữ liệu dưới dạng các bài toán MapReduce và chạy chúng cục bộ hoặc trên Hadoop cluster. Nếu bạn không biết Python, bạn sẽ cần phải học nó dựa trên các ví dụ mà chúng tôi đưa ra. Nếu bạn là người mới lập trình, bạn sẽ muốn học một ngôn ngữ lập trình hoặc scripting trước khi tham gia khóa học này.
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU