Giới Thiệu Khóa Học Apache Spark Và Databricks - Stream Processing Trong Lakehouse [Update Tháng 10-2023] [Mã - 6972 A]
Làm chủ Stream processing sử dụng Apache Spark (PySpark) và Azure Databricks (Azure) với một Capstone Project từ đầu đến cuối.
Giới thiệu về khóa học
Khóa học Apache Spark và Databricks - Stream Processing trong Lakehouse bằng Ngôn ngữ Python và PySpark API. Khóa học này sẽ giúp bạn hiểu về Real-time Stream processing bằng cách sử dụng Apache Spark và Databricks Cloud, đồng thời áp dụng kiến thức đó để xây dựng các giải pháp real-time stream processing. Khóa học này dựa trên ví dụ và tuân theo cách tiếp cận giống như phiên làm việc. Chúng tôi sẽ thực hiện phương pháp live coding và giải thích tất cả các khái niệm cần thiết.
Capstone Project:
Khóa học này cũng bao gồm một Capstone project End-To-End. Dự án sẽ giúp bạn hiểu cách tiếp cận thiết kế, coding, triển khai, thử nghiệm và CI/CD của dự án thực tế.
Mục lục:
✓ 01 - Trước khi bạn bắt đầu.
✓ 02 - Thiết lập môi trường của bạn.
✓ 03 - Bắt đầu với Spark Streaming.
✓ 04 - Kafka for Data Engineer.
✓ 05 - Làm việc với Databricks Platform.
✓ 06 - Capstone Project - Triển khai Real-time Project trong Lakehouse.
✓ 07 - Lời cuối cùng.
✓ 08 - Lưu trữ - Nội dung khóa học cũ.
Bạn sẽ học được gì?
✓ Các khái niệm về Real-time Stream Processing.
✓ Spark Structured Streaming API và Architecture.
✓ Làm việc với Streaming Sources và Sinks.
✓ Kafka for Data Engineer.
✓ Làm việc với Kafka Source và tích hợp Spark với Kafka.
✓ State-less và State-full Streaming Transformation.
✓ Windowing Aggregates sử dụng Spark Stream.
✓ Watermarking và State Cleanup.
✓ Streaming Joins và Aggregation.
✓ Handling Memory Problems với Streaming Joins.
✓ Làm việc với Azure Databricks.
✓ Capstone Project - Ứng dụng streaming trong Lakehouse.
Khóa học này dành cho ai?
✓ Software Engineer và Architect sẵn sàng thiết kế và phát triển Bigdata Engineering Project bằng cách sử dụng Apache Spark và Databricks Cloud.
✓ Các lập trình viên và nhà phát triển đang mong muốn phát triển và học hỏi Data Engineering bằng cách sử dụng Apache Spark và Databricks Cloud.