Giới Thiệu Khóa Học Online Data Pre-Processing And Analysis: Tiền Xử Lý Và Phân Tích Dữ Liệu

EduMalls.net

06 tháng 9

Published 09 tháng 1

Giới Thiệu Khóa Học Online Data Pre-Processing And Analysis: Tiền Xử Lý Và Phân Tích Dữ Liệu

👉 NHẤN ĐỂ NHẬN ƯU ĐÃI SỐC KHI MUA KHÓA HỌC

Khóa học cung cấp cho học viên (HV) các kiến thức và kỹ năng cần thiết khi thực hiện việc tiền xử lý và phân tích dữ liệu. Trang bị cho HV những kỹ thuật khai thác dữ liệu, chuyển đổi dữ liệu thô thành dữ liệu có định dạng dễ hiểu. Hướng dẫn HV cách chuẩn bị dữ liệu để phân tích, thực hiện phân tích thống kê, tạo trực quan hóa dữ liệu có ý nghĩa. Cung cấp cho HV các thư viện tiền xử lý và phân tích dữ liệu mạnh mẽ và ưu việt của Python như Numpy, Scipy, Pandas, Matplotlib, Seaborn, pandas profiling, dataprep… Hướng dẫn cách tiền xử lý dữ liệu tiếng Anh, tiếng Việt. Cung cấp cho HV quy trình quản lý phân tích dữ liệu hiệu quả. Hướng dẫn HV sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning giúp xây dựng các mô hình dự đoán thông minh.

Khóa học này dành cho ai?

HV đã tham gia khóa Fundamentals of Python; Python for Machine Learning, Data Science and Data Visualization; Mathematics and Statistics for Data Science hoặc có kiến thức tương đương
Sinh viên các trường Đại học, Cao đẳng
HV có định hướng sẽ làm việc trong lĩnh vực Data Science, Machine Learning

Bạn sẽ nhận được gì qua khóa học?

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

Hiểu và vận dụng các bước trong quy trình tiền xử lý dữ liệu (Data Pre-processing) khi triển khai dự án Data Science
Nắm được quy trình và kỹ thuật phân tích dữ liệu (Data Analysis)
Phân tích dữ liệu khám phá (Exploratory Data Analysis - EDA) để có cái nhìn ban đầu về dữ liệu, xác định các yếu tố quan trọng trong bộ dữ liệu
Thực hiện các thao tác làm sạch dữ liệu (Data Cleaning)
Áp dụng linh hoạt các kỹ thuật chuẩn hóa dữ liệu (Data Standardization) khác nhau tùy vào các bộ dữ liệu và yêu cầu của dự án
Tạo các tính năng cần thiết (Feature Engineering)
Tiền xử lý dữ liệu tiếng Anh, tiếng Việt
Phân tích, triển khai và đánh giá mô hình phân tích dữ liệu
Giải thích kết quả từ các phân tích dữ liệu
Quy trình quản lý phân tích dữ liệu hiệu quả
Sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning
Kết hợp trực quan hóa dữ liệu, kết quả thống kê để tạo các báo cáo phân tích dữ liệu mạch lạc, thuyết phục

Thời lượng: 40 giờ - 53 tiết (5 tuần), học trực tiếp qua video.

Bạn sẽ học những gì?

Giới thiệu quy trình phân tích dữ liệu (Data Analysis)

Business Understanding
Data Requirements
Data Collection
Data Pre-processing
Exploratory Data Analysis
Modeling & Algorithms
Data Product
Communication

Quy trình tiền xử lý dữ liệu (Data Pre-processing)

Tích hợp dữ liệu (Data Intergration)
Làm sạch dữ liệu (Data Cleaning)
Kỹ thuật tạo tính năng (Feature Engineering)
Chuyển đổi dữ liệu (Data Transformation)

Phân tích dữ liệu khám phá (Exploratory Data Analysis - EDA)

Xác định các thuộc tính/ biến (Variable Identification)
Xử lý dữ liệu trùng (Duplicate values)
Xử lý dữ liệu thiếu (Missing values)
Xử lý dữ liệu ngoại lệ (Outlier values)
Phân tích đơn biến (Univariate Analysis)
Phân tích hai biến (Bi-variate Analysis)
Các package EDA hữu ích: pandas-profiling, dataprep, ttth-mds5-analyzer

Làm sạch dữ liệu (Data Cleaning)

Thu dọn dữ liệu (Tidying data)

Tidy data: pd.melt()
Pivoting data: pivot(), pivot_table()

Kết hợp dữ liệu (Combining data)

Merge
Join
Concat
Combine
Append
Nối dữ liệu từ nhiều tập tin

Làm sạch dữ liệu (Data Cleaning)
Loại bỏ các mẫu trùng
Xử lý dữ liệu ngoại lệ
Xử lý dữ liệu thiếu
Chuyển đổi kiểu dữ liệu phù hợp
Làm sạch dữ liệu chuỗi
Loại bỏ các mẫu không liên quan

Chuẩn hóa dữ liệu (Data Standardization)

Log normalization
Feauture Scaling

Standard scaler
MinMax scaler
Robust scaler

Tạo thuộc tính (Feature Engineering)

Mã hóa thuộc tính phân loại (Encoding categorical feature)

Integer/ Label Encoder
One hot/ Dummy Encoder

Xử lý các danh mục không phổ biến (Uncommon category)

Binary Encoder
Binning

Xử lý dữ liệu văn bản (Text)

Loại bỏ ký tự không mong muốn
Chuẩn hóa loại chữ
CountVectorizer
TF-IDF
N-gram

Tiền xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP)

Giới thiệu, nhiệm vụ của NLP
Các công cụ hỗ trợ NLP thông dụng
Kỹ năng làm việc với ngôn ngữ tiếng Anh
Kỹ năng làm việc với ngôn ngữ tiếng Việt

Xử lý dữ liệu mất cân bằng (Imbalanced Dataset)

Các chiến thuật làm việc với dữ liệu mất cân bằng

Thu thập thêm dữ liệu
Thay đổi performance metric
Lấy mẫu lại dữ liệu (Resampling Dataset): under-sampling, over-sampling

Model deployment (triển khai model) - Linear Regression

Linear Regression (Symple Linear Regression, Multiple Linear Regression)
Lựa chọn thuộc tính (Feature selection)

Tầm quan trọng, lợi ích
Xác định/ lựa chọn các feature cần thiết bằng SelectKBest, Correlation matrix & Heatmap

Polynomial Regression
Pipelines
Đa cộng tuyến

Logistic Regression

Giới thiệu, ứng dụng
Thuật toán
Triển khai & đánh giá model
Phát hiện gian lận (Fraud detection).

Lưu Ý Khóa học này được Weekly Study dẫn thông tin từ các nguồn cung cấp khác, nhằm giới thiệu cho độc giả các khóa học chất lượng, giá hợp lý. Chúng tôi không có trách nhiệm pháp lý về khóa học này.

Thông Cáo DMCA Copyright Disclaimer: This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền: Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Nền Tảng Tri Thức Việt