Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy học | Học Rẻ Hơn Cùng EduMalls | Mã: 9029

EduMalls.net

03 tháng 11

Published 11 tháng 8

Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy học | Học Rẻ Hơn Cùng EduMalls | Mã: 9029

Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy học | Học Rẻ Hơn Cùng EduMalls sẽ bao gồm:

Các công nghệ trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp
Làm việc với Spark, Big Data Technology mới nhất
Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark DataFrame, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX
Áp dụng Machine Learning với Big Data
Triển khai dự án Machine Learning với Big Data trên hệ thống Master-Workers.

Big Data in Machine Learning

Khóa học trang bị cho học viên (HV) những kiến thức nền tảng về đặc điểm và các thành phần của Big Data
Giúp HV hiểu được giá trị mà Big Data mang lại doanh nghiệp
Cung cấp cho HV các phương pháp làm việc với Big Data trong Machine Learning, Data Science
Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDDs, PySpark DataFrames, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX…
Giúp HV nắm bắt được các công nghệ sử dụng trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp.
Là khóa học thứ chín trong chương trình “Data Science and Machine Learning Certificate”

SẼ RẤT HỮU ÍCH NẾU BẠN LÀ:

HV học qua lớp Machine Learning with Python hoặc có kiến thức tương đương
Sinh viên các trường Đại học, Cao đẳng
HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science

HÌNH THỨC HỌC

Khóa học là video + Kèm tài liệu (nếu có)
Học trọn đời, mọi lúc, mọi nơi.

BẠN SẼ NHẬN ĐƯỢC GÌ QUA KHÓA HỌC?

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

Nắm vững các đặc điểm và thành phần của Big Data
Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn
Làm việc với Spark, Big Data Technology mới nhất
Làm việc với các thư viện của PySpark như PySpark RDD’s, PySpark DataFrames, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX…
Áp dụng Machine Learning với Big Data
Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp
Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong và ngoài nước.

KHOẢN ĐẦU TƯ DÀNH CHO KHÓA HỌC:

Thời gian học: 5 tuần
Thời lượng: 64 tiết, học trực tiếp trên máy

BẠN SẼ HỌC NHỮNG GÌ?

Overview of Big Data

What is Big Data?
History of Big Data
The Vs’ of Big Data (3Vs’, 4Vs’, 5Vs’)
Batch processing vs Stream processing
Introduction to Apache Spark
Apache Spark Components: Spark RDD API, Spark SQL, Spark MLlib, Spark GraphX, Spark Streaming

Overview of PySpark

Introduction to PySpark: Spark with Python (Python API)
Why PySpark?
Installing and configuration PySpark
Spark context, Spark Session

PySpark RDDs

Introduction to PySpark RDDs (Resilient Distributed Dataset)
RDDs operations

Transformation
Action

Working with PySpark RDDs

Create RDD: parallelize(), textFile()
RDD Transformations: map(), filter(), flatMap(), RDD1.union(RDD2)
RDD Actions: collect(), take(), count(), first(), reduce(), saveAsTextFile(),…
Pair RDDs:

Create Pair RDDs from key-value tuple/ regular RDD
Transformations: reduceByKey(), groupByKey(), sortByKey(), join()
Actions: countByKey(), collectAsMap()

PySpark DataFrame

Introduction to PySpark DataFrame
Features and Advantages
Working with PySpark DataFrame

Create DataFrame: createDataFrame(), spark.read.csv(), spark.read.json()
printSchema(), show()
count()
describe()
crosstab()
groupby()
select(), select() và agg, count, max, mean, min, sum..., select().distinct(),
orderby().asc()/desc()
withColumn(), withColumnRenamed()
drop(), dropDuplicates(), dropna()
filter(), where()
Column string transformation
Conditional clauses: .when(<if condition>, <then x>), .otherwise()
User defined functions (UDF)

Data Visualization in PySpark using DataFrames

hist(), distplot()
pandas_histogram()

PySpark SQL

Introduction to PySpark SQL
Running SQL Queries Programmatically

select()
when()
like()
startswith(), endswith()
substr(), between()

Manipulating data

Group by
Filtering
Sorting
Missing and replacing value
Joining Data
Repartitioning
Registering DataFrames as Views

Data Preprocessing & Analysis

Wrangling with Spark Functions

Dropping, Filtering, Joining
Working with missing data
Using lazy processing
Parquet
Removing, Splitting rows/columns
Data validation

Feature Engineering

Feature Generation
Differences, Ratios
Deeper Features, Time Features
Time Components, Joining On Time Components
Date Math
Extracting Features/ Text to New Features
Splitting & Exploding
Scaling data
Pivoting & Joining
Binarizing, Bucketing & Encoding

Data Analysis

Exploratory Data Analysis (EDA), Corr
Visualization: distplot, implot…

Overview of PySpark MLlib

Introduction to PySpark MLlib
PySpark MLlib algorithms
Building a Model
Estimator and evaluator
Cross-validation, Grid Search
Interpreting Results

Machine Learning with PySpark MLlib

Supervised Learning (Classification & Regression)

Linear Regression (pyspark.ml.regression)
Logistic Regression (pyspark.mllib.classification)
Decision Tree (pyspark.mllib.classification)
Random forest (pyspark.mllib.classification)
Gradient-Boosted Tree

Pipeline

Introduction to Pipeline
Working with Pipeline (pyspark.ml import Pipeline)

Unsupervised Learning (Clustering & Recommender System)

Clustering with KMeans
Recommender System - ALS
Association rules – FPGrowth (pyspark.ml.fpm.FPGrowth)

PySpark Streaming

Introduction to PySpark Streaming
Why PySpark Streaming?
Features and Advantages
Streaming Context
DStream
Streaming Transformation Operations
Streaming Checkpoint

Natural Language Processing - NLP

Tools for NLP

Tokenizer
StopWordsRemover
NGram
CountVectorizer
TF-IDF

Apache Spark standalone cluster

Running Master Server
Connecting from Slave computers to Master Server
Deployment project in Mater – Slave computers system

GraphX

Introduction to GraphX
Working with GraphX

Creating graph
Vertex and edge
Visualization Graph
Filtering
Connecting
Motif finding
Triangle count
Page rank

Mua Khóa Học Này Giá Hời

Nền Tảng Tri Thức Việt

Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy học | Học Rẻ Hơn Cùng EduMalls | Mã: 9029

Big Data in Machine Learning

SẼ RẤT HỮU ÍCH NẾU BẠN LÀ:

HÌNH THỨC HỌC

Khóa học là video + Kèm tài liệu (nếu có)
Học trọn đời, mọi lúc, mọi nơi.

BẠN SẼ NHẬN ĐƯỢC GÌ QUA KHÓA HỌC?

KHOẢN ĐẦU TƯ DÀNH CHO KHÓA HỌC:

BẠN SẼ HỌC NHỮNG GÌ?

Đề Thi Thử Đại Học Môn Giáo Dục Công Dân: Bộ Đề Và Đáp Án

Khóa Học Thiết Kế Web 18tr (Adobe Dreamweaver CC - HTML - CSS - Bootstrap 4.0 - Figma Adobe XD) Với ARENA | Học Rẻ Hơn Cùng EduMalls | Mã: 9193

Giới Thiệu Khóa Học Làm Chủ .NET Core MVC - Xây Dựng Market Management System Trong .NET 8 [Mã - 6933 A]

Khóa Học Python Và Thị Giác Máy Tính | Mã: 8053

Khóa Học Khám Phá Thế Giới Ngầm Của Các Hacker | Mã: 8056

Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy học | Học Rẻ Hơn Cùng EduMalls | Mã: 9029

Big Data in Machine Learning

SẼ RẤT HỮU ÍCH NẾU BẠN LÀ:

HÌNH THỨC HỌC

Khóa học là video + Kèm tài liệu (nếu có)Học trọn đời, mọi lúc, mọi nơi.

BẠN SẼ NHẬN ĐƯỢC GÌ QUA KHÓA HỌC?

KHOẢN ĐẦU TƯ DÀNH CHO KHÓA HỌC:

BẠN SẼ HỌC NHỮNG GÌ?

Khóa học là video + Kèm tài liệu (nếu có)
Học trọn đời, mọi lúc, mọi nơi.