Chia Sẻ Khóa Học Data Engineering Essentials Sử Dụng SQL, Python Và PySpark [Khóa 7508 A]

By Nhà Sách Tin Học - 17 tháng 2 2023 - No Comments

Tìm hiểu các kỹ năng Data Engineering quan trọng như SQL, Python, Apache Spark (Spark SQL và Pyspark) với các bài tập và dự án.

Bạn sẽ học được gì:

✓ Setup Development Environment để học xây dựng các ứng dụng Data Engineering trên GCP.
✓ Database Essentials cho Data Engineering sử dụng Postgres như tạo table, index, chạy các Truy vấn SQL, sử dụng các hàm quan trọng được định nghĩa trước, v.v.
✓ Data Engineering Programming Essentials sử dụng Python như cấu trúc lập trình cơ bản, collection, Pandas, Lập trình cơ sở dữ liệu, v.v.
✓ Data Engineering sử dụng Spark Dataframe API (PySpark). Tìm hiểu tất cả các Spark Data Frame API quan trọng như select, filter, groupBy, orderBy, v.v.
✓ Data Engineering sử dụng Spark SQL (PySpark và Spark SQL). Tìm hiểu cách viết các truy vấn Spark SQL chất lượng cao bằng cách sử dụng SELECT, WHERE, GROUP BY, ORDER BY, v.v.
✓ Mức độ liên quan của Spark Metastore và tích hợp Dataframes và Spark SQL.
✓ Khả năng xây dựng Data Engineering Pipeline bằng Spark tận dụng Python làm ngôn ngữ lập trình.
✓ Sử dụng các định dạng tệp khác nhau như Parquet, JSON, CSV, v.v. trong việc xây dựng các Data Engineering Pipeline.
✓ Thiết lập node đơn Hadoop và Spark Cluster tự hỗ trợ để có đủ thực hành về HDFS và YARN.
✓ Tìm hiểu về Spark Application Development Life Cycle hoàn chỉnh để xây dựng các ứng dụng Spark bằng Pyspark. Review các ứng dụng bằng Spark UI.

Là một phần của khóa học này, bạn sẽ tìm hiểu tất cả Data Engineering Essentials liên quan đến việc xây dựng các Data Pipeline bằng cách sử dụng SQL, Python dưới dạng Hadoop, Hive hoặc Spark SQL cũng như PySpark Data Frame API. Bạn cũng sẽ hiểu vòng đời phát triển và triển khai của các ứng dụng Python sử dụng Docker cũng như PySpark trên các multinode cluster. Bạn cũng sẽ có được kiến thức cơ bản về việc xem xét Spark Jobs bằng Spark UI.

Giới thiệu về Data Engineering:

Data Engineering không là gì ngoài việc xử lý dữ liệu tùy thuộc vào nhu cầu tiếp theo của chúng ta. Chúng ta cần xây dựng các pipeline khác nhau, chẳng hạn như Batch Pipelines, Streaming Pipelines, v.v. như một phần của Data Engineering. Tất cả các vai trò liên quan đến Data Processing được hợp nhất trong Data Engineering. Thông thường, chúng được gọi là ETL Development, Data Warehouse Development, v.v.

Dưới đây là một số thách thức mà người học phải đối mặt để học các kỹ năng ETL Development, Data Warehouse Development chính như Python, SQL, PySpark, v.v.

✓ Có một môi trường thích hợp với Apache Hadoop, Apache Spark, Apache Hive, v.v. làm việc cùng nhau.
✓ Nội dung chất lượng tốt với sự hỗ trợ phù hợp.
✓ Đủ nhiệm vụ và bài tập để thực hành.

Khóa học này được thiết kế để giải quyết những thách thức chính này đối với các chuyên gia ở mọi cấp độ nhằm đạt được các kỹ năng Data Engineering cần thiết (Python, SQL và Apache Spark).

Để đảm bảo bạn dành thời gian học hỏi thay vì vật lộn với những thách thức kỹ thuật, đây là những gì chúng tôi đã làm:

✓ Đào tạo sử dụng một môi trường tương tác. Bạn sẽ có 2 tuần truy cập phòng thí nghiệm, để bắt đầu. Nếu bạn thích môi trường và thừa nhận nó bằng cách cung cấp xếp hạng và phản hồi, quyền truy cập vào phòng thí nghiệm sẽ được kéo dài thêm 6 tuần (2 tháng). Vui lòng gửi email đến support@itversity.com để nhận quyền truy cập phòng thí nghiệm bổ sung. Ngoài ra, nếu nhà tuyển dụng của bạn cung cấp một môi trường multi-node, chúng tôi sẽ giúp bạn thiết lập tài liệu để thực hành như một phần của live session. Ngoài Hỗ trợ hỏi đáp, chúng tôi cũng cung cấp hỗ trợ cần thiết thông qua các live session.
✓ Đảm bảo rằng chúng tôi có một hệ thống với cấu hình phù hợp và nhanh chóng thiết lập phòng thí nghiệm bằng Docker với tất cả tài liệu Python, SQL, Pyspark cũng như Spark SQL cần thiết. Nó sẽ giải quyết rất nhiều điểm khó khăn liên quan đến kết nối mạng, tích hợp cơ sở dữ liệu, v.v. Vui lòng liên hệ với chúng tôi qua Q&A, trong trường hợp bạn gặp khó khăn khi thiết lập môi trường.
✓ Bạn sẽ bắt đầu với các kỹ năng cơ bản như Python cũng như SQL bằng môi trường dựa trên Jupyter. Hầu hết các giảng viên đều giao khá nhiều nhiệm vụ và cuối mỗi học phần cũng có đủ bài tập hoặc bài kiểm tra thực hành để đánh giá các kỹ năng đã dạy.
✓ Sau khi bạn cảm thấy thoải mái với việc lập trình bằng Python và SQL, thì bạn sẽ đảm bảo rằng bạn hiểu cách thiết lập nhanh và truy cập Single Node Hadoop và Spark Cluster.
✓ Nội dung được sắp xếp hợp lý theo cách mà bạn sử dụng các giao diện thân thiện với người học như Jupyter Lab để thực hành chúng.

Điểm nổi bật của khóa học này:

Dưới đây là một số điểm nổi bật của khóa học Data Engineering này sử dụng các công nghệ như Python, SQL, Hadoop, Spark, v.v.

✓ Khóa học được thiết kế bởi hơn 20 năm kinh nghiệm với hầu hết kinh nghiệm về dữ liệu. Anh ấy có hơn một thập kỷ về Data Engineering cũng như kinh nghiệm về Big Data với một số chứng chỉ. Ông có lịch sử đào tạo hàng trăm nghìn chuyên gia CNTT về Data Engineering cũng như Big Data.
✓ Thiết lập đơn giản hóa tất cả các công cụ chính để học Data Engineering hoặc Big Data như Hadoop, Spark, Hive, v.v.
✓ Hỗ trợ tận tình, nơi giải đáp 100% thắc mắc trong vài tháng qua.
✓ Hàng tấn tài liệu với các tập dữ liệu và trải nghiệm trong thế giới thực. Tài liệu được cung cấp cả trong Git repository cũng như trong phòng thí nghiệm mà bạn sắp thiết lập.
✓ Quyền truy cập Phòng thí nghiệm bổ sung trong 2 tuần, có thể kéo dài đến 8 tuần.

Nội dung chi tiết:

Là một phần của khóa học này, bạn sẽ học Data Engineering Essentials như SQL và Lập trình bằng Python và Apache Spark. Sau đây là chương trình chi tiết của khóa học:

1. Data Engineering Lab - Python và SQL:

Bạn sẽ bắt đầu với việc thiết lập Data Engineering Lab tự hỗ trợ trên Cloud9 hoặc trên máy Mac hoặc PC để bạn có thể học các kỹ năng chính liên quan đến Data Engineering với rất nhiều bài thực hành tận dụng các nhiệm vụ và bài tập do chúng tôi cung cấp. Khi vượt qua các phần liên quan đến SQL và Python, bạn cũng sẽ được hướng dẫn thiết lập Hadoop và Spark Lab.

✓ Cung cấp AWS Cloud9 Instance (trong trường hợp máy Mac hoặc PC của bạn không đủ dung lượng).
✓ Setup Docker Compose để bắt đầu các container để tìm hiểu Python và SQL (sử dụng Postgresql).
✓ Truy cập tài liệu thông qua Jupyter Lab environment setup bằng Docker và tìm hiểu thông qua thực hành thực tế.

Sau khi môi trường được thiết lập, tài liệu sẽ có thể truy cập trực tiếp.

2. Database Essentials - SQL sử dụng Postgres:

Điều quan trọng là một người phải thành thạo SQL để đảm nhận việc xây dựng các data engineering pipeline. SQL được sử dụng để hiểu dữ liệu, thực hiện ad-hoc analysis và cả trong việc xây dựng các data engineering pipeline.

✓ Bắt đầu với Postgres.
✓ Thao tác cơ sở dữ liệu cơ bản (CRUD hoặc Insert, Update, Delete).
✓ Viết các truy vấn SQL cơ bản (Filtering, Joins, và Aggregation).
✓ Tạo Table và Index bằng các lệnh Postgres DDL.
✓ Partitioning Table và Index bằng các lệnh Postgres DDL.
✓ Các hàm được định nghĩa trước bằng SQL (Thao tác chuỗi, Thao tác ngày tháng và các hàm khác).
✓ Viết các truy vấn SQL nâng cao bằng Postgresql.

3. Programming Essentials sử dụng Python:

Python là ngôn ngữ lập trình được ưa thích nhất để phát triển các ứng dụng data engineering. Là một phần của một số phần liên quan đến Python, bạn sẽ học hầu hết các khía cạnh quan trọng của Python để xây dựng các ứng dụng data engineering một cách hiệu quả.

✓ Thực hiện thao tác cơ sở dữ liệu.
✓ Bắt đầu với Python.
✓ Các cấu trúc lập trình cơ bản trong Python (vòng lặp for, điều kiện if).
✓ Các hàm được định nghĩa trước trong Python (thao tác chuỗi, thao tác ngày tháng và các hàm tiêu chuẩn khác).
✓ Tổng quan về Collection như list và set trong Python.
✓ Tổng quan về Collection như dict và tuple trong Python.
✓ Thao tác với Collection bằng vòng lặp trong Python. Điều này chủ yếu được thiết kế để có đủ thực hành với Lập trình Python xung quanh Python Collection.
✓ Hiểu các Map Reduce Librar trong Python. Bạn sẽ tìm hiểu các chức năng như map, filter, v.v. Bạn cũng sẽ hiểu chi tiết về itertools.
✓ Tổng quan về thư viện Python Pandas. Bạn sẽ tìm hiểu về cách đọc từ file và xử lý dữ liệu trong Pandas Data Frame bằng cách áp dụng Standard Transformation như filtering, joins, sorting, v.v. Ngoài ra, bạn sẽ học cách ghi dữ liệu vào file.
✓ Lập trình cơ sở dữ liệu bằng Python - Các thao tác CRUD.
✓ Lập trình cơ sở dữ liệu bằng Python - Batch Operations. Sẽ có đủ sự nhấn mạnh vào các phương pháp hay nhất để tải dữ liệu vào Cơ sở dữ liệu với số lượng lớn hoặc theo đợt.

4. Thiết lập Single Node Data Engineering Cluster để thực hành:

Cách tiếp cận phổ biến nhất để xây dựng các ứng dụng data engineering ở quy mô lớn là sử dụng Apache Spark được tích hợp với HDFS và YARN. Trước khi tham gia vào data engineering bằng Apache Spark và Hadoop, chúng ta cần thiết lập một môi trường để thực hành data engineering bằng Apache Spark. Là một phần của phần này, chúng tôi sẽ chủ yếu tập trung vào việc thiết lập một node cluster duy nhất để tìm hiểu các kỹ năng chính liên quan đến data engineering bằng cách sử dụng các distributed framework như Apache Spark và Apache Hadoop.

Chúng tôi đã đơn giản hóa các tác vụ phức tạp trong việc thiết lập Apache Hadoop, Apache Hive và Apache Spark tận dụng Docker. Trong vòng một giờ mà không gặp phải quá nhiều vấn đề kỹ thuật, bạn sẽ có thể thiết lập cluster. Tuy nhiên, nếu bạn gặp phải bất kỳ vấn đề nào, vui lòng liên hệ với chúng tôi và chúng tôi sẽ giúp bạn vượt qua các thử thách.

5. Nắm vững các kỹ năng Hadoop cần thiết để xây dựng các ứng dụng Data Engineering:

Là một phần của phần này, bạn sẽ chủ yếu tập trung vào các lệnh HDFS để chúng tôi có thể sao chép tệp vào HDFS. Dữ liệu được sao chép vào HDFS sẽ được sử dụng như một phần của việc xây dựng các data engineering pipeline bằng Spark và Hadoop với Python làm ngôn ngữ lập trình.

✓ Tổng quan về các lệnh HDFS.
✓ Copy File vào HDFS bằng lệnh put hoặc copyFromLocal bằng HDFS Command.
✓ Review xem các tệp có được sao chép đúng cách hay không sang HDFS bằng Lệnh HDFS.
✓ Nhận kích thước của các tệp bằng các lệnh HDFS như du, df, v.v.
✓ Một số khái niệm cơ bản liên quan đến HDFS như block size, replication factor, v.v.

6. Data Engineering sử dụng Spark SQL:

Hãy để chúng tôi tìm hiểu sâu về Spark SQL để hiểu cách sử dụng nó để xây dựng Data Engineering Pipeline. Spark với SQL sẽ cung cấp cho chúng tôi khả năng tận dụng khả năng distributed computing của Spark cùng với cú pháp SQL-style thân thiện với developer, dễ sử dụng.

✓ Bắt đầu với Spark SQL.
✓ Basic Transformation bằng Spark SQL.
✓ Quản lý Table - DDL và DML cơ bản trong Spark SQL.
✓ Quản lý Table - DML và tạo Partitioned Table bằng Spark SQL.
✓ Tổng quan về các Hàm Spark SQL để thao tác chuỗi, ngày tháng, giá trị null , v.v.
✓ Windowing Functions sử dụng Spark SQL để xếp hạng, tổng hợp nâng cao, v.v.

7. Data Engineering sử dụng Spark Data Frame API:

Spark Data Frame API là một cách khác để xây dựng các ứng dụng Data Engineering ở quy mô tận dụng khả năng distributed computing của Apache Spark. Data Engineer từ nền tảng phát triển ứng dụng có thể thích Data Frame API hơn Spark SQL để xây dựng các ứng dụng Data Engineering.

✓ Tổng quan về Data Processing bằng Spark hoặc Pyspark Data Frame API.
✓ Chiếu hoặc Chọn dữ liệu từ Spark Data Frames, đổi tên columns, cung cấp bí danh, xóa columns khỏi Data Frames, v.v. bằng cách sử dụng Pyspark Data Frame API.
✓ Xử lý Column Data bằng Spark hoặc Pyspark Data Frame API - Bạn sẽ học các hàm để thao tác chuỗi, ngày tháng, giá trị null , v.v.
✓ Các Transformation cơ bản trên Spark Data Frames bằng cách sử dụng Pyspark Data Frame API như Filtering, Aggregation, và Sorting bằng các hàm như filter/where, groupBy với agg, sort hoặc orderBy, v.v.
✓ Joining Data Set trên Spark Data Frames bằng Pyspark Data Frame API, chẳng hạn như join. Bạn sẽ học inner join, outer join, v.v. bằng cách sử dụng các ví dụ phù hợp.
✓ Windowing Functions trên Spark Data Frames bằng cách sử dụng Pyspark Data Frame API để thực hiện tổng hợp, xếp hạng và các hàm phân tích nâng cao.
✓ Spark Metastore Database avà Table và tích hợp giữa Spark SQL và Data Frame API.

8. Development, Deployment cũng như Execution Life Cycle của các ứng dụng Spark:

Sau khi bạn xem qua nội dung liên quan đến Apache Spark bằng môi trường dựa trên Jupyter, chúng tôi cũng sẽ hướng dẫn bạn thông tin chi tiết về cách các ứng dụng Spark thường được phát triển bằng Python, được triển khai cũng như được review.

✓ Thiết lập dự án và môi trường ảo Python để phát triển ứng dụng Spark bằng Pycharm.
✓ Hiểu hoàn chỉnh Spark Application Development Lifecycle bằng Pycharm và Python.
✓ Tạo tệp zip cho Ứng dụng Spark, sao chép tệp đó vào môi trường mà nó được cho là sẽ chạy và chạy.
✓ Hiểu cách review Spark Application Execution Life Cycle.

Đối tượng mong muốn cho khóa học Data Engineering Essentials này:

Những người từ các nền tảng khác nhau có thể đặt mục tiêu trở thành Kỹ sư dữ liệu. Chúng tôi đề cập đến hầu hết các kiến thức nền tảng về Data Engineering dành cho những người mong muốn tham gia vào lĩnh vực IT với tư cách là Data Engineer cũng như các chuyên gia muốn thúc đẩy sự nghiệp của họ đối với Data Engineering từ các công nghệ cũ.

✓ Sinh viên đại học và các chuyên gia mới bắt đầu có kiến thức chuyên môn thực hành liên quan đến Data Engineering. Khóa học này sẽ cung cấp đủ kỹ năng để đối mặt với các cuộc phỏng vấn dành cho kỹ sư dữ liệu cấp đầu vào.
✓ Các nhà phát triển ứng dụng có kinh nghiệm để đạt được chuyên môn liên quan đến Kỹ thuật dữ liệu.
✓ Conventional Data Warehouse Developer, NETL Developer, Database Developer, và PL/SQL Developer để có đủ kỹ năng chuyển đổi thành Data Engineer thành công.
✓ Tester để cải thiện khả năng testing của họ liên quan đến các ứng dụng Data Engineering.
✓ Chuyên gia IT thực hành khác muốn tìm hiểu kiến thức về Data Engineering với Thực hành thực tế.

Khóa học này dành cho ai:

✓ Computer Science hoặc Sinh viên IT hoặc sinh viên tốt nghiệp khác có niềm đam mê với IT.
✓ Data Warehouse Developer muốn chuyển sang vai trò Data Engineering.
✓ ETL Developer muốn chuyển sang vai trò Data Engineering.
✓ Database hoặc PL/SQL Developer muốn chuyển sang vai trò Data Engineering.
✓ BI Developer muốn chuyển sang vai trò Data Engineering.
✓ QA Engineer tìm hiểu về Data Engineering.
✓ Application Developer để đạt được các kỹ năng Data Engineering.

NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU

XEM HƯỚNG DẪN TRUY CẬP VÀ DOWNLOAD KHÓA HỌC TẠI ĐÂY

LIKE FAN PAGE ĐỂ NHẬN KHÓA HỌC MỚI NHẤT TẠI ĐÂY

MỜI BẠN THAM GIA GROUP CÙNG TRAO ĐỔI TẠI ĐÂY

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Chia sẽ bài viết lên:

Thẻ bài viết:

Data Engineer Data Engineering Khóa Học PostgreSQL PySpark PYTHON SQL UDEMY

Nhà Sách Tin Học

Chào mừng các bạn đến với Blog Nhà Sách Tin Học. Thông qua Blog này mình muốn chia sẻ đến các bạn những kiến thức về tin học, các tài liệu hay giáo trình mà mình có hoặc siêu tầm được... Mình rất mong được sự ủng hộ nhiệt tình của các bạn bằng cách comment bài viết, chia sẻ bài viết hoặc liên hệ với mình qua blog này! Mình xin cảm ơn!

Tin mới nhất