Giới Thiệu Khóa Học PySpark & AWS - Làm Chủ Big Data Với PySpark Và AWS [Mã - 7638 A]

khoa-hoc-pyspark-aws-lam-chu-big-data-voi-pyspark-aws-ma-7638a


Giới thiệu khóa học:

Các từ thông dụng nhất trong ngành Big Data analytics là Python và Apache Spark. PySpark hỗ trợ sự cộng tác của Python và Apache Spark. Trong khóa học này, bạn sẽ bắt đầu ngay từ những điều cơ bản và tiến tới các cấp độ phân tích dữ liệu nâng cao. Từ làm sạch dữ liệu đến xây dựng các tính năng và triển khai các mô hình machine learning (ML), bạn sẽ tìm hiểu cách thực hiện workflow từ đầu đến cuối bằng PySpark.

Trong suốt khóa học, bạn sẽ sử dụng PySpark để thực hiện phân tích dữ liệu. Bạn sẽ khám phá Spark RDD, Dataframes và một chút truy vấn Spark SQL. Ngoài ra, bạn sẽ khám phá transformations và actions có thể được thực hiện trên dữ liệu bằng cách sử dụng Spark RDD và dataframes. Bạn cũng sẽ khám phá hệ sinh thái của Spark và Hadoop và kiến ​​trúc cơ bản của chúng. Bạn sẽ sử dụng môi trường Databricks để chạy các tập lệnh Spark và khám phá nó.

Cuối cùng, bạn sẽ được trải nghiệm Spark với AWS cloud. Bạn sẽ thấy cách chúng tôi có thể tận dụng AWS storages, databases, computations và cách Spark có thể giao tiếp với các dịch vụ AWS khác nhau cũng như nhận dữ liệu cần thiết.

Khóa học này khác biệt như thế nào?

Trong khóa học Vừa học vừa làm này, mọi giải thích lý thuyết đều được tuân theo bằng cách triển khai thực tế.

Khóa học này được tạo ra để phản ánh các kỹ năng cần thiết nhất tại nơi làm việc. Khóa học này sẽ giúp bạn hiểu tất cả các khái niệm và phương pháp thiết yếu liên quan đến PySpark. Khóa học là:

✓ Dễ hiểu.

✓ Biểu cảm.

✓ Toàn diện.

✓ Thực tế với live coding.

✓ Phong phú với công nghệ và kiến ​​thức mới nhất về lĩnh vực này.

Vì khóa học này là một biên soạn chi tiết về tất cả những điều cơ bản nên nó sẽ thúc đẩy bạn tiến bộ nhanh chóng và trải nghiệm nhiều hơn những gì bạn đã học. Ở cuối mỗi khái niệm, bạn sẽ được giao Bài tập về nhà/nhiệm vụ/hoạt động/trắc nghiệm cùng với lời giải. Điều này là để đánh giá và thúc đẩy việc học của bạn dựa trên các khái niệm và phương pháp trước đó bạn đã học. Hầu hết các hoạt động này sẽ dựa trên coding, vì mục đích là giúp bạn bắt đầu và chạy các triển khai.

Các hướng dẫn của khóa học được chia thành hơn 140 video ngắn. Bạn sẽ tìm hiểu các khái niệm và phương pháp luận của PySpark và AWS cùng với rất nhiều triển khai thực tế. Tổng thời gian chạy của các video HD là khoảng 16 giờ.

Tại sao bạn nên học PySpark và AWS?

PySpark là thư viện Python làm nên điều kỳ diệu.

PySpark đáng để học hỏi vì nhu cầu rất lớn đối với các chuyên gia Spark và mức lương cao mà họ yêu cầu. Việc sử dụng PySpark trong xử lý Big Data đang tăng với tốc độ nhanh so với các công cụ Big Data khác.

AWS, ra mắt năm 2006, là đám mây công cộng phát triển nhanh nhất. Thời điểm thích hợp để kiếm tiền từ các kỹ năng điện toán đám mây - chính xác là các kỹ năng AWS - chính là bây giờ.

Nội dung khóa học:

1. Giới thiệu:

a. Tại sao lại là Big Data?

b. Các ứng dụng của PySpark

c. Giới thiệu về Giảng viên

d. Giới thiệu về khóa học.

e. Tổng quan dự án.

2. Giới thiệu về Hadoop, Spark EcoSystems, và Architectures:

a. Hadoop EcoSystem.

b. Spark EcoSystem.

c. Hadoop Architecture.

d. Spark Architecture.

e. PySpark Databricks setup.

f. PySpark local setup.

3. Spark RDD:

a. Giới thiệu về PySpark RDD.

b. Hiểu Partitions cơ bản.

c. RDD transformations.

d. RDD actions.

e. Tạo Spark RDD.

f. Chạy Spark Code Locally.

g. RDD Map (Lambda).

h. RDD Map (Simple Function).

i. RDD FlatMap.

j. RDD Filter.

k. RDD Distinct.

l. RDD GroupByKey.

m. RDD ReduceByKey.

n. RDD (Count và CountByValue).

o. RDD (saveAsTextFile).

p. RDD (Partition).

q. Finding Average.

r. Finding Min và Max.

s. Mini project về phân tích tập dữ liệu sinh viên.

t. Tổng số điểm của học sinh nam và nữ.

u. Tổng số học sinh đạt và không đạt.

v. Tổng số đăng ký mỗi khóa học.

w. Tổng số điểm mỗi khóa học.

x. Điểm trung bình mỗi khóa học

y. Tìm điểm tối thiểu và tối đa.

z. Tuổi trung bình của học sinh nam và nữ.

4. Spark DF:

a. Giới thiệu về PySpark DF.

b. Hiểu RDD cơ bản.

c. DF transformations.

d. DF actions.

e. Tạo Spark DF.

f. Spark Infer Schema.

g. Spark Provide Schema.

h. Tạo DF từ RDD.

i. Select DF Columns.

j. Spark DF với Column.

k. Spark DF với Column Renamed và Alias.

l. Spark DF Filter rows.

m. Spark DF (Count, Distinct, Duplicate).

n. Spark DF (sort, order By).

o. Spark DF (Group By).

p. Spark DF (UDF).

q. Spark DF (DF to RDD).

r. Spark DF (Spark SQL).

s. Spark DF (Write DF).

t. Mini project về Phân tích tập dữ liệu nhân viên.

u. Project Overview.

v. Project (Count và Select).

w. Project (Group By).

x. Project (Group By, Aggregations, và Order By).

y. Project (Filtering).

z. Project (UDF và With Column).

aa. Project (Write).

5. Collaborative filtering:

a. Hiểu về collaborative filtering.

b. Phát triển recommendation system sử dụng ALS model.

c. Utility Matrix

d. Explicit và Implicit Ratings.

e. Expected Results.

f. Dataset.

g. Joining Dataframes.

h. Train and Test Data.

i. ALS model.

j. Hyperparameter tuning và cross-validation.

k. Best model và evaluate predictions.

l. Recommendations.

6. Spark Streaming:

a. Hiểu sự khác biệt giữa batch và streaming analysis.

b. Thực hành với spark streaming thông qua ví dụ đếm từ.

c. Spark Streaming với RDD.

d. Spark Streaming Context.

e. Spark Streaming Reading Data.

f. Spark Streaming Cluster Restart.

g. Spark Streaming RDD Transformations.

h. Spark Streaming DF.

i. Spark Streaming Display.

j. Spark Streaming DF Aggregations.

7. ETL Pipeline:

a. Hiểu về ETL.

b. ETL pipeline Flow.

c. Data set.

d. Extracting Data.

e. Transforming Data.

f. Loading data (Creating RDS).

g. Load data (Creating RDS).

h. RDS Networking.

i. Tải xuống Postgres.

j. Cài đặt Postgres.

k. Kết nối với RDS thông qua PGAdmin.

l. Loading Data.

8. Project – Change Data Capture / Replication On Going:

a. Giới thiệu về Project.

b. Kiến trúc Project.

c. Tạo RDS MySql Instance.

d. Tạo S3 Bucket.

e. Tạo DMS Source Endpoint.

f. Tạo DMS Destination Endpoint.

g. Tạo DMS Instance.

h. MySql WorkBench.

i. Kết nối với RDS và Dumping Data.

j. Truy vấn RDS.

k. DMS Full Load.

l. DMS Replication Ongoing.

m. Stoping Instances.

n. Glue Job (Full Load).

o. Glue Job (Change Capture).

p. Glue Job (CDC).

q. Tạo Lambda Function và thêm Trigger.

r. Checking Trigger.

s. Getting S3 file name trong Lambda.

t. Tạo Glue Job.

u. Thêm Invoke cho Glue Job.

v. Testing Invoke.

w. Writing Glue Shell Job.

x. Full Load Pipeline.

y. Change Data Capture Pipeline.

Sau khi hoàn thành thành công khóa học này, bạn sẽ có thể:

✓ Liên kết các khái niệm và thực tế của Spark và AWS với các vấn đề trong thế giới thực.

✓ Thực hiện bất kỳ dự án nào yêu cầu kiến ​​thức về PySpark từ đầu.

✓ Biết lý thuyết và các khía cạnh thực tế của PySpark và AWS.

Bạn sẽ học được gì:

✓ Giới thiệu và tầm quan trọng của Big Data.

✓ Giải thích thực tế và live coding với PySpark.

✓ Các ứng dụng Spark.

✓ Spark EcoSystem.

✓ Spark Architecture.

✓ Hadoop EcoSystem.

✓ Hadoop Architecture.

✓ PySpark RDD.

✓ PySpark RDD transformations.

✓ PySpark RDD actions.

✓ PySpark DataFrames.

✓ PySpark DataFrames transformations.

✓ PySpark DataFrames actions.

✓ Collaborative filtering trong PySpark.

✓ Spark Streaming.

✓ ETL Pipeline.

✓ CDC và Replication on Going.

Khóa học này dành cho ai:

✓ Những người mới bắt đầu và hoàn toàn không biết gì về PySpark và AWS.

✓ Những người muốn phát triển các giải pháp thông minh.

✓ Những người muốn tìm hiểu PySpark và AWS.

✓ Những người thích tìm hiểu các khái niệm lý thuyết trước khi triển khai chúng bằng Python.

✓ Những người muốn tìm hiểu PySpark cùng với việc triển khai nó trong các dự án thực tế.

✓ Các Big Data Scientist.

✓ Big Data Engineer.

Tham Gia Tổng Kho Khóa Học Online Miễn Phí Trọn Đời - Truy cập hơn 4.000 khóa học ở nhiều chủ đề như Đầu Tư, Kinh doanh, Marketing, Lập trình, Thiết Kế, Tin học văn phòng, Ngôn ngữ,... 
- Học trọn đời, học mọi lúc, mọi nơi.
- Khóa học mới lên kho mỗi ngày.
Tham Gia Group FacebookFanpage Weekly Study
Thông Cáo DMCACopyright Disclaimer:This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Read Also
Đăng nhận xét