Chia Sẻ Khóa Học Học Qua Ví Dụ - Hadoop, MapReduce Cho Các Vấn Đề Big Data [Khóa 8477 A]
Một khóa học thực hành trong Hadoop, MapReduce và nghệ thuật tư duy "song song".
Bạn sẽ học được gì:
- ✓ Phát triển các ứng dụng MapReduce nâng cao để xử lý BigData.
- ✓ Nắm vững nghệ thuật "thinking parallel" - cách chia một nhiệm vụ thành Map/Reduce các phép biến đổi.
- ✓ Tự thiết lập mini-Hadoop cluster của riêng bạn cho dù đó là một node đơn, một physical cluster hay trong đám mây.
- ✓ Sử dụng Hadoop + MapReduce để giải quyết nhiều vấn đề khác nhau: từ NLP đến Inverted Indices đến Recommendation.
- ✓ Hiểu HDFS, MapReduce và YARN và cách chúng tương tác với nhau.
- ✓ Hiểu những điều cơ bản về điều chỉnh hiệu suất và quản lý cluster của riêng bạn.
Được giảng dạy bởi một nhóm 4 người bao gồm 2 cựu nhân viên Google được đào tạo tại Stanford và 2 cựu phân tích viên chính của Flipkart. Đội ngũ này có nhiều thập kỷ kinh nghiệm thực tế trong việc làm việc với Java và với hàng tỷ hàng dữ liệu.
Khóa học này là một bài tập phóng to, thu nhỏ, thực hành liên quan đến Hadoop, MapReduce và the art of thinking parallel.
Zoom-in, Zoom-Out: Khóa học này vừa rộng vừa sâu. Nó bao gồm các thành phần riêng lẻ của Hadoop rất chi tiết và cũng cung cấp cho bạn bức tranh cấp cao hơn về cách chúng tương tác với nhau.
Bài tập thực hành liên quan đến Hadoop, MapReduce: Khóa học này sẽ giúp bạn thực hành với Hadoop từ rất sớm. Bạn sẽ học cách thiết lập cluster của riêng mình bằng cách sử dụng cả VM và Đám mây. Tất cả các tính năng chính của MapReduce đều được đề cập - bao gồm các chủ đề nâng cao như Total Sort và Secondary Sort.
Nghệ thuật tư duy song song: MapReduce đã thay đổi hoàn toàn cách mọi người nghĩ về việc xử lý Dữ liệu lớn. Chia nhỏ bất kỳ vấn đề nào thành các đơn vị có thể song song hóa là một nghệ thuật. Các ví dụ trong khóa học này sẽ rèn luyện cho bạn cách "think parallel".
Sử dụng MapReduce để :
- ✓ Đề xuất bạn bè trên trang Mạng xã hội: Tạo 10 đề xuất bạn bè hàng đầu bằng cách sử dụng thuật toán Collaborative filtering.
- ✓ Xây dựng Inverted Index cho Công cụ Tìm kiếm: Sử dụng MapReduce để thực hiện song song nhiệm vụ khổng lồ của việc xây dựng một inverted index cho một công cụ tìm kiếm.
- ✓ Generate Bigrams từ text: Generate bigrams và tính toán phân bố tần số của chúng trong một kho văn bản.
Xây dựng Hadoop cluster của bạn:
- ✓ Cài đặt Hadoop ở Standalone, Pseudo-Distributed và Fully Distributed mode.
- ✓ Thiết lập một hadoop cluster bằng máy ảo Linux.
- ✓ Thiết lập một cloud Hadoop cluster trên AWS với Cloudera Manager.
- ✓ Hiểu HDFS, MapReduce và YARN và sự tương tác của chúng.
Tùy chỉnh MapReduce Jobs của bạn:
- ✓ Chain multiple MR jobs together.
- ✓ Viết Partitioner tùy chỉnh của riêng bạn.
- ✓ Total Sort: Globally sort một lượng lớn dữ liệu bằng cách lấy mẫu các input file.
- ✓ Secondary sorting.
- ✓ Unit test với MR Unit.
- ✓ Tích hợp với Python bằng Hadoop Streaming API.
.. và tất nhiên tất cả những điều cơ bản:
- ✓ MapReduce: Mapper, Reducer, Sort/Merge, Partitioning, Shuffle và Sort.
- ✓ HDFS & YARN: Namenode, Datanode, Resource manager, Node manager, cấu trúc của ứng dụng MapReduce, YARN Scheduling, Configuring HDFS và YARN để điều chỉnh hiệu suất cluster của bạn.
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU