Làm Thế Nào Để Trở Thành Một Nhà Khoa Học Dữ Liệu 10x
Nếu bạn là một Nhà khoa học dữ liệu đang tìm cách vươn lên một tầm cao mới, thì có rất nhiều cơ hội để nâng cao trò chơi của bạn và hiệu quả của bạn để trở nên nổi bật so với những người khác. Một số khuyến nghị mà bạn có thể làm theo rất đơn giản và những khuyến nghị khác hiếm khi được tuân theo, nhưng tất cả chúng sẽ mang lại lợi ích về thời gian và hiệu quả cho sự nghiệp của bạn.
Tôi sẽ cho bạn biết những điều cần thiết để trở thành một nhà khoa học dữ liệu 10x. Nhà khoa học dữ liệu 10x là gì? Một người thực hiện số thí nghiệm gấp mười lần so với một nhà khoa học dữ liệu bình thường.
Tại sao thí nghiệm? Các nhà khoa học dữ liệu cũng làm những việc khác: trộn dữ liệu, phân tích và viết triển khai các thuật toán học máy cho sản xuất. Nhưng các thí nghiệm là những gì xác định một nhà khoa học dữ liệu. Đó là nơi khoa học tồn tại và đó là điều phân biệt họ với nhà phân tích dữ liệu hoặc kỹ sư máy học.
Vì vậy, để trở thành một nhà khoa học dữ liệu giỏi, bạn phải giỏi thực hiện các thí nghiệm.
Tại sao thử nghiệm gấp 10 lần? Bạn không bao giờ có thể đảm bảo rằng bạn sẽ nhận được kết quả tốt hơn gấp mười lần bằng cách thông minh hơn hoặc nhanh hơn. Nhưng bạn có thể chạy nhiều thử nghiệm hơn. Và bạn càng chạy nhiều thử nghiệm, bạn càng có nhiều khả năng nhận được kết quả tốt hơn, bạn sẽ lặp lại nhanh hơn và bạn sẽ học hỏi nhanh hơn.
Tại sao bạn muốn trở thành một nhà khoa học dữ liệu 10x? Tôi không biết. Có lẽ bởi vì nó nghe có vẻ mát mẻ. Có lẽ vì nó vui. Có thể vì bạn sẽ có nhiều thời gian hơn để ăn bánh ngọt. Tùy bạn.
Tôi sẽ cho rằng bạn có thể chạy thử nghiệm một cách chính xác. Bạn là một nhà khoa học dữ liệu, phải không? Tuy nhiên, có một điều mà tôi đã thấy nhiều nhà khoa học dữ liệu mắc sai lầm. Đây là:
1. Đo lường sự không chắc chắn của bạn
Điểm cải thiện 5% so với đường cơ sở là gì nếu bạn không biết liệu kết quả có ý nghĩa thống kê hay không? Các nhà khoa học dữ liệu biết (hoặc nên biết) số liệu thống kê, nhưng họ thường quá lười biếng để áp dụng nó vào công việc của mình.
Không thiếu các lựa chọn cho việc này. Phương pháp yêu thích của tôi là phương pháp tôi đã học được trong văn bằng vật lý của mình: Ước tính độ không đảm bảo là sai số chuẩn trong giá trị trung bình. Tất nhiên, điều này có nghĩa là giá trị bạn báo cáo phải là giá trị trung bình của một thứ gì đó, cho dù đó là điểm F1 trung bình trên năm lần xác thực chéo hay đó là độ chính xác trung bình ở mức 10 trên xếp hạng cho 1.000 truy vấn khác nhau.
Bạn không cần thực hiện các kiểm tra ý nghĩa thống kê giữa tất cả các kết quả của mình. Nhưng bạn cần phải kiểm soát mức độ không chắc chắn của kết quả. Sai số chuẩn theo giá trị trung bình cho bạn biết rằng - nếu kết quả của bạn cách nhau hơn ba lần so với sai số chuẩn, thì rất có thể sự khác biệt là đáng kể.
Bạn có thể cũng muốn xem xét kích thước hiệu ứng mà bạn đang tìm kiếm. Nếu cải tiến 0,1% không hữu ích cho bạn, thì không ích gì khi chạy các thử nghiệm có thể phát hiện loại thay đổi này.
2. Dữ liệu lớn không thú vị
Dữ liệu lớn là chậm. Bạn không muốn bị chậm. Vì vậy, sử dụng dữ liệu nhỏ. Hầu hết thời gian, bạn không cần dữ liệu lớn. Nếu bạn nghĩ rằng bạn cần nó, hãy dành một chút thời gian suy nghĩ lại để chắc chắn rằng bạn thực sự cần.
Bạn muốn tập dữ liệu của mình đủ lớn sao cho độ không chắc chắn trong kết quả của bạn đủ nhỏ để phân biệt giữa những khác biệt mà bạn quan tâm. Bạn không muốn nó lớn hơn nữa: Đó chỉ là sự lãng phí thời gian.
Bạn không cần phải sử dụng tất cả dữ liệu bạn có sẵn. Tùy thuộc vào thử nghiệm của mình, bạn có thể ước tính lượng dữ liệu bạn cần. Mặt khác, hãy xem số liệu bạn quan tâm thay đổi như thế nào với kích thước tập huấn luyện. Nếu nó chững lại khá nhanh, thì bạn sẽ biết rằng mình có thể thoát khỏi việc loại bỏ rất nhiều dữ liệu. Thực hiện nhiều thử nghiệm hơn để tìm hiểu xem bạn cần bao nhiêu dữ liệu để giảm thiểu độ không đảm bảo cho thông tin chi tiết mà bạn đang tìm kiếm.
Nguyên nhân số một của các thử nghiệm chậm là do sử dụng quá nhiều dữ liệu. Chỉ cần không làm điều đó.
3. Không sử dụng các công cụ dữ liệu lớn
Nếu bạn có dữ liệu nhỏ, bạn không cần các công cụ dữ liệu lớn. Đừng sử dụng Spark, nó sẽ rất chậm và kết quả sẽ kém so với những thứ như Pandas và Scikit-learning. Sử dụng cái đó để thay thế.
4. Sử dụng một IDE tốt
Sử dụng một môi trường phát triển tích hợp phù hợp như PyCharm — thực ra, chỉ cần sử dụng PyCharm, vì không có gì thực sự có thể so sánh được. Tìm hiểu làm thế nào để sử dụng nó đúng cách.
Đây là những điều mà tôi thấy hữu ích nhất:
- Tự động hoàn thành, đặc biệt là kết hợp với mã đã nhập.
- Xem các tham số và tài liệu cho một hàm hoặc lớp.
- Nhanh chóng tìm kiếm toàn bộ cơ sở mã cho một tệp, lớp hoặc chức năng.
- Tái cấu trúc để trích xuất một biến, hàm hoặc phương thức và các biến nội tuyến.
Tôi không thể chịu được khi nhìn mọi người vật lộn với trình soạn thảo văn bản vì những thứ như thế này. Làm ơn dừng lại.
Sổ ghi chép Jupyter phù hợp cho công việc khám phá, nhưng nếu muốn trở thành nhà khoa học dữ liệu 10x, bạn cần sử dụng IDE cho các thử nghiệm.
5. Lưu trữ các bước trung gian
Một thử nghiệm có thể bao gồm tiền xử lý dữ liệu, trích xuất các tính năng, lựa chọn tính năng,... Mỗi bước này cần có thời gian để chạy. Rất có thể, khi bạn đã tìm thấy một tập hợp các tính năng tốt, ít nhiều bạn sẽ giữ chúng cố định trong khi thử nghiệm các mô hình. Nếu bước tiền xử lý mất nhiều thời gian, bạn nên lưu vào bộ nhớ cache các bước trung gian để bạn thực hiện các tính toán tốn kém này chỉ một lần. Điều này có thể tạo ra sự khác biệt lớn về thời gian chạy thử nghiệm.
Thông thường, tôi sẽ thực hiện việc này với một hoặc nhiều tập lệnh tiền xử lý để tạo các tệp được sử dụng trong các giai đoạn sau. Đảm bảo rằng bạn theo dõi cách các tệp này liên quan đến dữ liệu nguồn để bạn có thể theo dõi kết quả thử nghiệm của mình trở lại dữ liệu gốc, thông qua quy ước đặt tên tệp hoặc công cụ được thiết kế cho công việc như Pachyderm.
6. Tối ưu hóa mã của bạn
Nếu thử nghiệm của bạn vẫn chậm khi bạn đã giảm kích thước tập dữ liệu, thì bạn có thể hưởng lợi từ việc tối ưu hóa mã của mình. Cân bằng việc chạy thử nghiệm với việc tối ưu hóa mã của bạn trong khi thử nghiệm đang chạy.
Bạn nên biết những điều cơ bản về cách tối ưu hóa mã. Đây là những điều cơ bản: sử dụng một hồ sơ. Trình lược tả sẽ cho bạn biết bit nào chậm. Thay đổi các bit đó cho đến khi chúng không còn chậm nữa. Sau đó chạy trình lược tả và tìm các bit khác chậm. Lặp lại.
Chạy trình cấu hình trên một mẫu nhỏ để bạn có thể nhanh chóng tìm ra bit nào chậm. (Bạn cũng cần tối ưu hóa việc tối ưu hóa.)
7. Theo dõi kết quả của bạn
Nếu bạn làm mất kết quả của các thí nghiệm của mình, thì thật lãng phí. Vì vậy, hãy theo dõi cẩn thận. Sử dụng công cụ được thiết kế cho công việc như MLFlow, Sacred hoặc dự án thú cưng của riêng tôi, PyPastry. Nếu bạn sao chép kết quả lung tung, thì bạn đang lãng phí thời gian và có khả năng mắc lỗi. Đừng.
Nếu bạn làm tất cả những điều trên, thì việc chạy thử nghiệm có thể sẽ mất ít hơn năm phút, lý tưởng là ít hơn hai phút. Khoảng thời gian đó đủ dài để nghĩ xem thí nghiệm tiếp theo sẽ là gì.
Điều này có nghĩa là bạn có thể chạy hàng trăm thử nghiệm trong một ngày. Khi bạn đang chạy nhiều thử nghiệm như vậy, bạn cần một cách tốt để theo dõi.
7a. Ăn nhiều bánh ngọt
Đây không phải là một lời khuyên thực sự tốt. Bộ não của bạn cần lượng glucose trị giá 400 calo mỗi ngày, nhưng ăn bánh ngọt có thể không phải là lựa chọn lành mạnh nhất để đạt được điều này. Nhưng nó sẽ rất ngon.
Thay vào đó, bạn có thể cân nhắc liên hệ với DataPastry , công ty tư vấn khoa học dữ liệu mà tôi điều hành cùng với người đồng sáng lập Iskander. Nếu bạn muốn có bất kỳ lời khuyên nào hoặc cần trợ giúp về một dự án khoa học dữ liệu, chúng tôi rất muốn nghe ý kiến của bạn và chúng tôi không cắn (ngoại trừ bánh ngọt).
Phần kết luận
Nếu bạn làm tất cả những điều trên, thì tôi khá chắc chắn rằng bạn sẽ thực hiện ít nhất mười lần số thử nghiệm so với nhà khoa học dữ liệu ngồi cạnh bạn (trừ khi bạn ngồi cạnh tôi). Hầu hết các nhà khoa học dữ liệu không làm bất cứ điều gì trong số họ. Vì vậy, nếu bạn thực hiện tất cả, có thể bạn sẽ chạy thử nghiệm gấp năm mươi lần. Điều này có làm cho bạn có giá trị hơn gấp năm mươi lần không?
Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.