6 Sai Lầm Phổ Biến Trong Khoa Học Dữ Liệu Và Cách Tránh Chúng
Là một nhà khoa học dữ liệu mới hoặc dày dạn kinh nghiệm, công việc của bạn phụ thuộc vào dữ liệu, điều này hiếm khi hoàn hảo. Xử lý đúng cách các vấn đề điển hình về chất lượng và tính đầy đủ của dữ liệu là rất quan trọng và chúng tôi xem xét cách tránh sáu trong số các tình huống phổ biến này.
Giới thiệu
Trong khoa học dữ liệu hoặc máy học, chúng tôi sử dụng dữ liệu để phân tích mô tả nhằm rút ra kết luận có ý nghĩa từ dữ liệu hoặc chúng tôi có thể sử dụng dữ liệu cho mục đích dự đoán để xây dựng các mô hình có thể đưa ra dự đoán về dữ liệu chưa nhìn thấy. Độ tin cậy của bất kỳ mô hình nào phụ thuộc vào trình độ chuyên môn của nhà khoa học dữ liệu. Xây dựng một mô hình học máy là một chuyện. Đó là một điều khác để đảm bảo mô hình là tối ưu và có chất lượng cao nhất. Bài viết này sẽ thảo luận về sáu sai lầm phổ biến có thể ảnh hưởng xấu đến chất lượng hoặc khả năng dự đoán của một mô hình học máy với một số nghiên cứu điển hình.
6 sai lầm phổ biến trong khoa học dữ liệu
Trong phần này, chúng tôi thảo luận về sáu lỗi phổ biến có thể ảnh hưởng nghiêm trọng đến chất lượng của mô hình khoa học dữ liệu. Liên kết đến một số ứng dụng thực được bao gồm.
1. Chúng ta thường cho rằng tập dữ liệu của mình có chất lượng tốt và đáng tin cậy
Dữ liệu là chìa khóa cho bất kỳ nhiệm vụ học máy và khoa học dữ liệu nào. Dữ liệu có nhiều dạng khác nhau như dữ liệu số, dữ liệu phân loại, dữ liệu văn bản, dữ liệu hình ảnh, dữ liệu giọng nói và dữ liệu video. Sức mạnh dự đoán của một mô hình phụ thuộc vào chất lượng của dữ liệu được sử dụng trong việc xây dựng mô hình . Do đó, điều cực kỳ quan trọng là trước khi thực hiện bất kỳ nhiệm vụ khoa học dữ liệu nào như phân tích dữ liệu khám phá hoặc xây dựng mô hình, bạn phải kiểm tra nguồn và độ tin cậy của dữ liệu vì ngay cả các bộ dữ liệu có vẻ hoàn hảo cũng có thể chứa lỗi. Có một số yếu tố có thể làm giảm chất lượng dữ liệu của bạn:
- Dữ liệu sai
- Dữ liệu bị mất
- Ngoại lệ trong dữ liệu
- Dự phòng trong dữ liệu
- Dữ liệu không cân bằng
- Thiếu sự thay đổi trong dữ liệu
- Dữ liệu động
- Kích thước của dữ liệu
Để biết thêm thông tin, vui lòng xem bài viết sau: Dữ liệu luôn không hoàn hảo.
Từ kinh nghiệm cá nhân của tôi khi làm việc trong một dự án khoa học dữ liệu công nghiệp, nhóm của tôi đã phải làm việc với các kỹ sư hệ thống, kỹ sư điện, kỹ sư cơ khí, kỹ sư hiện trường và kỹ thuật viên trong khoảng thời gian 3 tháng chỉ để hiểu tập dữ liệu có sẵn và cách chúng tôi có thể sử dụng nó để đóng khung các câu hỏi phù hợp sẽ được trả lời bằng cách sử dụng dữ liệu. Đảm bảo rằng dữ liệu của bạn không có lỗi và có chất lượng cao sẽ giúp cải thiện độ chính xác và độ tin cậy của mô hình của bạn.
2. Đừng tập trung vào việc sử dụng toàn bộ tập dữ liệu
Đôi khi, với tư cách là một người khao khát khoa học dữ liệu, khi bạn phải làm việc trong một dự án khoa học dữ liệu, bạn có thể muốn sử dụng toàn bộ tập dữ liệu được cung cấp. Tuy nhiên, như đã đề cập ở trên, một bộ dữ liệu có thể có một số điểm không hoàn hảo, chẳng hạn như sự hiện diện của các giá trị ngoại lai, giá trị bị thiếu và các tính năng dư thừa. Nếu phần tập dữ liệu của bạn chứa các điểm không hoàn hảo thực sự nhỏ, thì bạn có thể chỉ cần loại bỏ tập hợp con dữ liệu không hoàn hảo khỏi tập dữ liệu của mình. Tuy nhiên, nếu tỷ lệ dữ liệu không phù hợp là đáng kể thì có thể sử dụng các phương pháp như kỹ thuật loại bỏ dữ liệu để ước lượng dữ liệu bị thiếu.
Trước khi triển khai thuật toán học máy, chỉ cần chọn các tính năng có liên quan trong tập dữ liệu huấn luyện. Quá trình chuyển đổi tập dữ liệu để chỉ chọn các tính năng có liên quan cần thiết cho đào tạo được gọi là giảm kích thước. Lựa chọn tính năng và giảm kích thước rất quan trọng vì ba lý do chính:
a) Ngăn chặn trang bị quá mức: Tập dữ liệu nhiều chiều có quá nhiều tính năng đôi khi có thể dẫn đến trang bị quá mức (mô hình ghi lại cả hiệu ứng thực và hiệu ứng ngẫu nhiên).
b) Tính đơn giản: Một mô hình quá phức tạp có quá nhiều tính năng có thể khó diễn giải, đặc biệt khi các tính năng có tương quan với nhau.
c) Hiệu quả tính toán: Một mô hình được đào tạo trên tập dữ liệu chiều thấp hơn có hiệu quả tính toán (việc thực hiện thuật toán cần ít thời gian tính toán hơn).
Để biết thêm thông tin về các kỹ thuật giảm kích thước, vui lòng xem các bài viết sau:
- Lựa chọn tính năng và giảm kích thước bằng sơ đồ ma trận hiệp phương sai
- Học máy: Giảm kích thước thông qua phân tích thành phần chính
Sử dụng các kỹ thuật giảm kích thước để loại bỏ mối tương quan không cần thiết giữa các tính năng có thể giúp cải thiện chất lượng và khả năng dự đoán của mô hình máy học của bạn.
3. Chia tỷ lệ dữ liệu của bạn trước khi sử dụng dữ liệu đó để xây dựng mô hình
Mở rộng quy mô các tính năng của bạn sẽ giúp cải thiện chất lượng và sức mạnh dự đoán của mô hình của bạn. Ví dụ: Giả sử bạn muốn xây dựng một mô hình để dự đoán độ tin cậy của biến mục tiêu dựa trên các biến dự đoán như thu nhập và điểm tín dụng. Bởi vì điểm tín dụng nằm trong khoảng từ 0 đến 850 trong khi thu nhập hàng năm có thể nằm trong khoảng từ 25.000 đến 500.000 USD, nếu không mở rộng các đặc điểm của bạn, mô hình sẽ thiên về đặc điểm thu nhập. Điều này có nghĩa là hệ số trọng số liên quan đến tham số thu nhập sẽ rất nhỏ, điều này sẽ khiến mô hình dự đoán dự đoán mức độ tín nhiệm chỉ dựa trên tham số thu nhập.
Để đưa các tính năng về cùng một tỷ lệ, chúng tôi có thể quyết định sử dụng chuẩn hóa hoặc tiêu chuẩn hóa các tính năng. Thông thường, chúng tôi cho rằng dữ liệu được phân phối bình thường và mặc định theo tiêu chuẩn hóa, nhưng điều đó không phải lúc nào cũng đúng. Điều quan trọng là trước khi quyết định nên sử dụng chuẩn hóa hay chuẩn hóa, trước tiên bạn hãy xem các tính năng của bạn được phân phối theo thống kê như thế nào. Nếu tính năng có xu hướng được phân phối đồng đều, thì chúng tôi có thể sử dụng chuẩn hóa ( MinMaxScale r). Nếu tính năng xấp xỉ Gaussian, thì chúng ta có thể sử dụng tiêu chuẩn hóa ( StandardScaler ). Một lần nữa, lưu ý rằng cho dù bạn sử dụng chuẩn hóa hay tiêu chuẩn hóa, đây cũng là những phương pháp gần đúng và chắc chắn sẽ góp phần vào sai số chung của mô hình.
4. Điều chỉnh siêu tham số trong mô hình của bạn
Sử dụng sai giá trị siêu tham số trong mô hình của bạn có thể dẫn đến mô hình không tối ưu và chất lượng thấp. Điều quan trọng là bạn phải đào tạo mô hình của mình dựa trên tất cả các siêu tham số để xác định mô hình có hiệu suất tối ưu. Có thể tìm thấy một ví dụ điển hình về khả năng dự đoán của một mô hình phụ thuộc vào siêu tham số như thế nào trong hình bên dưới (nguồn: Phân tích hồi quy xấu và tốt ).
Hình 1. Phân tích hồi quy sử dụng các giá trị khác nhau của tham số tỷ lệ học tập. Nguồn: Phân tích hồi quy xấu và tốt, được xuất bản trong Hướng tới AI, tháng 2 năm 2019, bởi Benjamin O. Tayo.
Hãy nhớ rằng việc sử dụng các siêu tham số mặc định không phải lúc nào cũng dẫn đến một mô hình tối ưu. Để biết thêm thông tin về siêu tham số, vui lòng xem bài viết này: Tham số mô hình và siêu tham số trong học máy - Sự khác biệt là gì.
5. So sánh các thuật toán khác nhau
Điều quan trọng là phải so sánh khả năng dự đoán của một số thuật toán khác nhau trước khi chọn mô hình cuối cùng của bạn. Ví dụ: Nếu bạn đang xây dựng mô hình phân loại, bạn có thể thử các thuật toán sau:
- Phân loại hồi quy logistic
- Máy véc tơ hỗ trợ (SVM)
- Phân loại cây quyết định
- Bộ phận phân loại K-nearest
- Bộ phân loại Naive Bayes
Nếu bạn đang xây dựng mô hình hồi quy tuyến tính, bạn có thể so sánh các thuật toán sau:
- Hồi quy tuyến tính
- Hồi quy K-neighbors (KNR)
- Hỗ trợ hồi quy véc tơ (SVR)
Để biết thêm thông tin về việc so sánh các thuật toán khác nhau, vui lòng xem các bài viết sau:
6. Định lượng lỗi ngẫu nhiên và độ không đảm bảo trong mô hình của bạn
Mọi mô hình học máy đều có lỗi ngẫu nhiên cố hữu. Lỗi này phát sinh từ bản chất ngẫu nhiên vốn có của tập dữ liệu, từ bản chất ngẫu nhiên trong đó tập dữ liệu được phân chia thành các tập huấn luyện và kiểm tra trong quá trình xây dựng mô hình; hoặc từ việc ngẫu nhiên hóa cột mục tiêu (một phương pháp được sử dụng để phát hiện quá khớp). Điều quan trọng là phải luôn định lượng mức độ sai số ngẫu nhiên ảnh hưởng đến khả năng dự đoán của mô hình của bạn. Điều này sẽ giúp cải thiện độ tin cậy và chất lượng của mô hình của bạn. Để biết thêm thông tin về định lượng lỗi ngẫu nhiên, vui lòng xem bài viết sau: Định lượng lỗi ngẫu nhiên trong học máy.
Tóm tắt
Tóm lại, chúng ta đã thảo luận về sáu sai lầm phổ biến có thể ảnh hưởng đến chất lượng hoặc khả năng dự đoán của một mô hình máy học. Điều hữu ích là luôn đảm bảo rằng mô hình của bạn là tối ưu và có chất lượng cao nhất. Tránh những sai lầm được thảo luận ở trên có thể cho phép một người khao khát khoa học dữ liệu xây dựng các mô hình đáng tin cậy và đáng tin cậy.
Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.
Tham khảo các bài viết cùng chủ đề:
1. Khoa Học Dữ Liệu Có Phải Là Một Nghề Sắp Chết?
2. 8 Cộng Đồng Slack Khoa Học Dữ Liệu Hàng Đầu Sẽ Tham Gia Vào Năm 2023
3. Khai Thác Tiềm Năng Của Sản Phẩm Dữ Liệu Vào Năm 2023
4. Kỹ Thuật Giảm Kích Thước Trong Khoa Học Dữ Liệu
5. Làm Thế Nào Để Trở Thành Một Nhà Khoa Học Dữ Liệu 10x