Kiến Thức Miền Có Quan Trọng Đối Với Machine Learning Không?
Phát triển các mô hình học máy bao gồm rất nhiều bước. Cho dù bạn đang làm việc với dữ liệu được gắn nhãn hay không được gắn nhãn, bạn có thể nghĩ rằng các con số chỉ là những con số và việc mỗi tính năng của tập dữ liệu có ý nghĩa gì khi đưa ra những hiểu biết sâu sắc có khả năng tác động thực sự không quan trọng. Đúng là có rất nhiều thư viện máy học tuyệt vời như scikit-learning giúp bạn dễ dàng thu thập một số dữ liệu và đưa chúng vào một mô hình cắt cookie. Khá nhanh chóng, bạn có thể bắt đầu nghĩ rằng không có vấn đề gì mà bạn không thể giải quyết bằng máy học.
Thành thật mà nói, đó là suy nghĩ của người mới bắt đầu. Bạn chưa nhận thức được mọi thứ bạn không biết. Bộ dữ liệu được cung cấp trong các khóa học về máy học hoặc những bộ miễn phí mà bạn tìm thấy trên mạng thường đã được chuẩn bị sẵn và thuận tiện để sử dụng khi áp dụng các mô hình máy học, nhưng một khi bạn sử dụng các kỹ năng và kiến thức của mình ra khỏi vở kịch và bước vào thế giới thực, bạn sẽ phải đối mặt với một số thách thức bổ sung.
Nhiều người tin rằng kiến thức miền, hoặc kiến thức bổ sung về ngành hoặc lĩnh vực mà dữ liệu liên quan đến, là không cần thiết. Và đó là sự thật. Bạn CẦN kiến thức về lĩnh vực bạn đang phát triển mô hình? Không. Bạn vẫn có thể tạo ra các mô hình khá chính xác mà không cần nó. Về mặt lý thuyết, học sâu và học máy là những cách tiếp cận hộp đen. Điều này có nghĩa là bạn có thể đưa dữ liệu đã dán nhãn vào một mô hình mà không cần có kiến thức sâu về lĩnh vực đó và thậm chí không cần xem xét dữ liệu kỹ càng.
Tuy nhiên, nếu bạn đi theo con đường này, bạn sẽ phải giải quyết hậu quả. Đây là một cách rất kém hiệu quả để đào tạo các bộ phân loại và để hoạt động đúng chức năng, bạn sẽ cần một lượng lớn bộ dữ liệu được gắn nhãn và rất nhiều sức mạnh tính toán để tạo ra các mô hình chính xác.
Nếu bạn kết hợp kiến thức miền vào kiến trúc và mô hình của mình, thì việc giải thích kết quả cho chính bạn và người xem bên ngoài có thể dễ dàng hơn rất nhiều. Mỗi bit kiến thức miền có thể đóng vai trò là bước đệm thông qua hộp đen của mô hình máy học.
Rất dễ nghĩ rằng kiến thức về miền là không cần thiết vì đối với nhiều bộ dữ liệu hiển thị như COCO, kiến thức về miền hạn chế được yêu cầu là một phần của việc trở thành một con người có thể nhìn thấy. Ngay cả những bộ dữ liệu phức tạp hơn có chứa các tế bào ung thư cũng rõ ràng tương tự đối với mắt người, mặc dù thiếu kiến thức ở cấp độ chuyên gia. Bạn có thể đánh giá cơ bản về sự giống hoặc khác nhau giữa các tế bào mà không cần bất kỳ kiến thức y học cụ thể nào.
Xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính là những ví dụ điển hình về các lĩnh vực mà chúng ta dễ dàng nghĩ rằng kiến thức về miền là hoàn toàn không cần thiết, nhưng hơn thế nữa vì chúng là những nhiệm vụ bình thường đối với chúng ta nên chúng ta thậm chí có thể không nhận thấy mình đang áp dụng miền của mình như thế nào kiến thức.
Nếu bạn bắt đầu làm việc trong các lĩnh vực như phát hiện ngoại lệ, vốn không phải là nhiệm vụ hàng ngày của con người, thì tầm quan trọng của kiến thức miền sẽ nhanh chóng trở nên rõ ràng.
Kiến thức miền để xử lý trước dữ liệu
Hãy tìm hiểu xem kiến thức miền có thể được tận dụng như thế nào trong bước tiền xử lý dữ liệu của chu trình phát triển mô hình máy học.
Trong một tập dữ liệu, không phải mọi điểm dữ liệu đều có cùng giá trị. Nếu bạn thu thập 100 mẫu mới giống hệt nhau, chúng sẽ không giúp mô hình tìm hiểu thêm bất kỳ thông tin nào. Họ thực sự có thể tập trung mô hình theo một hướng cụ thể không quan trọng.
Nếu bạn đang xem 100 bức ảnh về ô và bạn biết mô hình này được dùng để phân loại tất cả các loại phụ kiện, thì rõ ràng tập dữ liệu mẫu của bạn không đại diện cho toàn bộ dân số. Nếu không có kiến thức về miền, có thể rất khó để biết điểm dữ liệu nào làm tăng giá trị hoặc liệu chúng đã được trình bày trong tập dữ liệu hay chưa.
Nếu bạn đang làm việc trong một lĩnh vực không dễ dàng tiếp thu kiến thức chung hiện tại của mình, thì bạn có thể xây dựng các thành kiến thông qua dữ liệu đào tạo, điều này có thể ảnh hưởng đến độ chính xác và mạnh mẽ của mô hình của bạn.
Một cách khác mà kiến thức miền có thể đóng vai trò quan trọng trong bước tiền xử lý dữ liệu là xác định tầm quan trọng của tính năng. Nếu bạn có cảm giác tốt về tầm quan trọng của từng tính năng, bạn có thể phát triển các chiến lược tốt hơn để xử lý dữ liệu phù hợp. Điều thực sự quan trọng là phải hiểu các tính năng thực tế là gì để làm như vậy. Điều này có ảnh hưởng lớn đến cách bạn xử lý các tính năng trong tương lai.
Kiến thức miền để chọn đúng mô hình
Có nhiều mô hình học máy khác nhau và một số có thể phù hợp hơn những mô hình khác do nhiều yếu tố. Dữ liệu có được dán nhãn hay không? Bạn có bao nhiêu dữ liệu? Các loại dữ liệu là các tính năng? Các kiểu dữ liệu của các tính năng có đồng nhất không? Đầu ra mục tiêu của bạn là giá trị liên tục hay phân loại? Việc chọn đúng mô hình là rất quan trọng, nhưng rất hiếm khi có thể áp dụng trực tiếp mô hình đã chọn của bạn mà không thực hiện các điều chỉnh đối với mô hình đó. Ví dụ, rừng ngẫu nhiên có thể xử lý các loại dữ liệu không đồng nhất ngay lập tức.
Việc chọn mô hình phù hợp đòi hỏi kiến thức chuyên sâu về máy học, nhưng có rất nhiều tài nguyên giúp bạn lựa chọn nếu bạn không phải là một chuyên gia máy học. Tôi đã thu thập ba bảng hàng đầu của mình từ các bảng gian lận học máy từ Hướng tới Khoa học Dữ liệu, trại dữ liệu và Microsoft.
Kiến thức miền để điều chỉnh mô hình và kiến trúc
Kiến thức miền cho phép bạn điều chỉnh mô hình tốt hơn để phù hợp với tình huống. Tối ưu hóa toán học chỉ tiến xa đến mức này và thường để đạt được những bước cải tiến vượt bậc, điều quan trọng là phải có kiến thức đáng kể về lĩnh vực này.
Một cách quan trọng để áp dụng kiến thức miền của bạn nhằm thúc đẩy sự cải thiện về độ chính xác và mạnh mẽ của mô hình của bạn là kết hợp kiến thức miền vào kiến trúc của mô hình mà bạn đang phát triển.
Như tôi đã đề cập trước đây, xử lý ngôn ngữ tự nhiên là một trong những lĩnh vực của máy học, điều này cho thấy rõ kiến thức miền có thể hữu ích như thế nào. Hãy nói về nhúng từ và chú ý để cho thấy việc nói ngôn ngữ của con người là một trợ giúp lớn như thế nào, nhưng suy nghĩ như một nhà ngôn ngữ học thực sự có thể nâng cao hiệu suất của mô hình xử lý ngôn ngữ tự nhiên.
Kiến thức miền để xử lý ngôn ngữ tự nhiên
Kiến thức miền đã được áp dụng cho tất cả các ứng dụng của máy học. Những điều chỉnh nhỏ đã được thực hiện trong vài thập kỷ qua để áp dụng tốt hơn các mô hình học máy trong nhiều lĩnh vực. Kiến thức miền chắc chắn đã được áp dụng cho các mô hình được sử dụng trong xử lý ngôn ngữ tự nhiên. Hãy xem qua một số ví dụ về cách những sự phát triển này diễn ra.
Nhúng từ
Nếu bạn nghĩ về những con số và từ ngữ, sẽ có một sự khác biệt khá lớn trong cách chúng ta nghĩ về chúng. Nếu bạn có chiều cao của tất cả mọi người trong một nhóm, bạn có thể dễ dàng đưa ra một số thống kê liên quan đến giá trị trung bình, giá trị ngoại lệ, v.v., tất cả đều dựa trên chiều cao. Nếu mọi người trong nhóm đưa cho bạn một từ để diễn tả cảm giác của họ ngày hôm nay, bạn sẽ chuyển đổi từ đó thành bất kỳ loại tổng hợp có ý nghĩa nào?
Bạn nên xem xét những gì bạn có thể làm để tạo một biểu diễn kỹ thuật số của một từ. Bạn chỉ nên sử dụng các chữ cái? Điều đó có ý nghĩa? Là một người nói ngôn ngữ, chúng tôi ngay lập tức có ý nghĩa đằng sau từ này. Chúng tôi không lưu trữ các từ bằng chữ cái của họ. Hãy nghĩ về một cái cây. Bạn đã hình dung ra một cái cây hay tâm trí của bạn hướng về cái cây? Lưu trữ biểu diễn của một từ dưới dạng các chữ cái không thực sự mang lại cho chúng ta bất kỳ lợi thế nào khi hiểu ý nghĩa hoặc tầm quan trọng.
Nhúng từ là “một kiểu biểu diễn từ cho phép các từ có nghĩa tương tự có cách biểu diễn [số] tương tự”. Các biểu diễn số được học bằng cách sử dụng các mô hình học tập không giám sát.
Các biểu diễn số này là các vectơ biểu thị cách một từ được sử dụng. Biểu diễn số này đi xa đến mức cho phép bạn sử dụng khoảng cách Euclide giữa các biểu diễn hai từ để định lượng mức độ tương tự của hai từ được sử dụng trong văn bản đào tạo.
Các vectơ cho “Adidas” và “Nike” có thể sẽ khá giống nhau. Chính xác những gì mỗi trường của vectơ đại diện chắc chắn là không rõ ràng vì chúng được phát triển bằng cách sử dụng phương pháp học không giám sát, nhưng điều hợp lý là một từ đại diện cho một khái niệm tương tự sẽ có cách biểu diễn tương tự theo như mô hình hiểu được.
Hãy xem bài đăng của chúng tôi “Học có giám sát so với học không giám sát” nếu bạn muốn biết học có giám sát và không giám sát thực sự là gì và các thuật toán sử dụng các phương pháp học này.
Chú ý
Chú ý là một khái niệm rất có giá trị và hữu ích. Sự chú ý đã được đưa vào xử lý ngôn ngữ tự nhiên và nhận dạng hình ảnh trong thế giới của các mô hình học máy vì một lý do rất chính đáng.
Xử lý ngôn ngữ tự nhiên để dịch đã là một mô hình học sâu từ đầu những năm 2000. Khoảng năm 2013, trí nhớ ngắn hạn dài (LSTM) ra mắt trong lĩnh vực này và thống trị trong một vài năm. Mô hình LTSM đọc câu, tạo biểu diễn ẩn, sau đó sử dụng biểu diễn ẩn để tạo câu đầu ra.
Là con người, nếu chúng ta dịch, chúng ta không chỉ đọc câu văn và phun ra bản dịch. Chúng ta có xu hướng xem đi xem lại toàn bộ câu hoặc chúng ta sẽ tập trung vào một số phần nhất định khi muốn xem lại ngữ cảnh của từ mục tiêu.
Ví dụ từ “đọc”. Nó đại diện cho hiện tại hay quá khứ? Bạn tập trung vào những phần nào khác của câu để xác định điều đó? Bạn có cần thông tin từ các câu xung quanh không? “Tôi đọc sách hàng năm” tự nó có nghĩa là một điều, nhưng nếu tôi nói, “Tôi đã làm nhiều việc trước khi vào đại học. Tôi đọc sách mỗi năm. Tôi đã ăn tối với bố mẹ tôi mỗi ngày,” câu mang một ý nghĩa khác và “đọc” đại diện cho một hành động diễn ra ở hiện tại trong ví dụ đầu tiên và trong quá khứ cho ví dụ thứ hai.
Chú ý xây dựng các mối quan hệ giữa các từ khác nhau trong câu hoặc nhiều câu. Đối với mỗi từ chúng tôi muốn dịch, nó làm nổi bật các từ khác nhau trong câu gốc tùy theo tầm quan trọng của các từ được liên kết này với từ mục tiêu. Một số người không phải là dịch giả chuyên nghiệp hoặc có kinh nghiệm có thể chỉ dịch từng từ một và trong khi thông tin chung vẫn được truyền tải, thì việc tính đến tầm quan trọng của các từ liên quan khi dịch từ mục tiêu sẽ tạo ra bản dịch chính xác hơn nhiều. Sự chú ý cho phép chúng tôi xây dựng mẫu dịch thuật chuyên nghiệp đó thành kiến trúc của mô hình học sâu.
Tại sao kiến thức miền lại quan trọng đối với học máy
Nếu không có kiến thức về miền, bạn có thể đánh dấu vào tất cả các ô để tạo ra một mô hình có thể chấp nhận được để đưa ra một số con số. Với kiến thức về miền, bạn sẽ biết nên sử dụng dữ liệu nào là tốt nhất để huấn luyện và kiểm tra mô hình của mình. Bạn cũng sẽ nhận ra cách bạn có thể điều chỉnh mô hình mà bạn sử dụng để thể hiện tốt hơn tập dữ liệu và vấn đề bạn đang cố gắng giải quyết cũng như cách tận dụng tốt nhất thông tin chuyên sâu mà mô hình của bạn tạo ra.
Học máy là một hộp công cụ. Nếu bạn dùng cưa điện, có thể bạn sẽ cắt được một ít gỗ, nhưng có thể bạn sẽ không thể đóng một loạt tủ nếu không có kiến thức chuyên môn của một người thợ mộc. Kiến thức miền sẽ cho phép bạn nâng tác động của các kỹ năng máy học của mình lên một tầm quan trọng cao hơn nhiều.
Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.
Tham khảo các bài viết cùng chủ đề:
1. Học Máy Dành Tất Cả Cho Mọi Người!
2. Khai Thác Tiềm Năng Của Sản Phẩm Dữ Liệu Vào Năm 2023
3. 5 Cách Để Đối Phó Với Việc Thiếu Dữ liệu Trong Học Máy
3. Lộ Trình Học Machine Learning Dành Cho Người Mới Bắt Đầu
4. 3 Khóa Học Học Máy Machine Learning Cho Người Mới Bắt Đầu Tốt Nhất