Niềm Tin Vào AI Là Vô Giá
Bắt kịp nhanh
10 năm trước, trong thời đại AI lấy mô hình làm trung tâm, AI giống như chúng ta phải vật lộn với mô hình. Chúng ta thiếu cơ sở hạ tầng, công cụ, bộ công cụ hoặc khung để giúp chúng ta tạo và đào tạo các mô hình ML.
Ngày nay, các gói cứu sinh như Tensorflow và PyTorch đã tồn tại. Bây giờ chúng ta phải tập trung vào dữ liệu, từ việc tìm kiếm và sắp xếp đến chú thích của nó.
Nhưng nó đáng giá. Trong nhiều trường hợp, việc cải thiện chất lượng dữ liệu sẽ có tác động đáng kể đến hiệu suất của nó hơn bất kỳ sự điều chỉnh nào của siêu đường kính hoặc kiến trúc mạng thần kinh.
Bạn chỉ cần 2 điều trong AI tập trung vào dữ liệu :
- Dữ liệu chất lượng, bao gồm dữ liệu sạch và đa dạng
- Đủ khối lượng dữ liệu huấn luyện.
Lớn hơn không phải lúc nào cũng tốt hơn
Khối lượng dữ liệu lớn là chìa khóa dẫn đến nhiều thành công trong deep learning. Nhưng khối lượng dữ liệu lớn đi kèm với những thách thức:
- Nó cồng kềnh và tốn kém về phần cứng và tài nguyên máy tính của con người;
- Nó đặt ra các vấn đề: Sai lệch, nợ kỹ thuật và khả năng tương thích với mô hình mô hình nền tảng mới.
Xu hướng mô hình
Nếu bạn tập trung vào năng suất ghi nhãn và áp dụng chú thích trước cho tài liệu quá sớm, điều đó sẽ khuyến khích người chú thích đưa các lỗi từ mô hình của bạn vào dữ liệu.
Nếu bạn muốn giảm thiểu sự thiên vị, không có bữa trưa miễn phí. Đây là cách tiến hành:
- Bắt đầu với tự động hóa dựa trên quy tắc nếu bạn có một số kiến thức tiên nghiệm về nhiệm vụ. Chẳng hạn, các biểu thức thông thường và từ điển rất hữu ích cho NLP.
- Sau đó đi dán nhãn thủ công. Đây là nơi bạn thực sự tạo ra giá trị cho mô hình của mình vì bạn chú thích phần cứng được tạo từ các ví dụ không tầm thường và các trường hợp cạnh. Quản lý chất lượng rất quan trọng cho giai đoạn này vì nó đòi hỏi nhiều sự đồng bộ giữa các máy dán nhãn để nhất quán.
- Cuối cùng, mô hình gắn nhãn trước để chuyển từ tập dữ liệu tốt sang tập dữ liệu tuyệt vời. Nó chỉ nên được sử dụng khi kết thúc; nếu không, bạn sẽ tạo ra những thành kiến.
Nợ kỹ thuật
Trong phát triển phần mềm, nhân đôi số lượng mã có nghĩa là nhân đôi nhiều thứ:
- Số lượng hành vi mà hệ thống của chúng tôi tạo ra
- Số lượng bài kiểm tra đơn vị cần thiết.
Đối với AI, mã = dữ liệu. Nhân đôi lượng dữ liệu có nghĩa là nhân đôi:
- Số lượng hành vi mà hệ thống ML của chúng tôi tạo ra
- Số lượng bài kiểm tra đơn vị ML cần thiết
- Khoản nợ kỹ thuật khác.
Không tương thích với các mô hình nền tảng
Ngày nay, chúng ta có các mô hình nền tảng khổng lồ (GPT-3, BERT hoặc DALL-E 2) đã được đào tạo trước trên tất cả văn bản hoặc hình ảnh trên Internet; họ hiểu các quy tắc ngôn ngữ. Vì mô hình của bạn cần khả năng tổng quát hóa rất lớn nên nó cần rất ít dữ liệu. Kết quả là, mọi dữ liệu sẽ có tác động mạnh mẽ hơn. Do đó, thay vì chú thích một khối lượng lớn dữ liệu với các lỗi tiềm ẩn, bạn cần chú thích ít hơn và chính xác hơn về các ví dụ mà bạn cung cấp cho mô hình của mình, vì dữ liệu xấu có thể dễ dàng ảnh hưởng đến chúng.
Tại sao có được dữ liệu chất lượng lại đầy thách thức?
Để giảm lượng dữ liệu mà các mô hình ML của chúng tôi cần, chúng tôi phải cải thiện chất lượng của nó. Tuy nhiên, đây là một thách thức vì chúng ta phải giải quyết đồng thời 2 điểm này:
- Tính đại diện của dữ liệu (Dữ liệu có khách quan không? Dữ liệu có bao gồm các trường hợp biên không?)
- Nhất quán ghi nhãn (Người ghi nhãn có chú thích theo cùng một cách không? Họ đã hiểu nhiệm vụ chưa?).
Bộ dữ liệu không dễ gỡ lỗi. Không phải lúc nào cũng dễ dàng đưa ra câu trả lời có hoặc không. Chẳng hạn, trong một nhiệm vụ phân loại hình ảnh, hình ảnh cửa sổ của một ngôi nhà có phải là hình ảnh của một ngôi nhà không?
Câu trả lời sẽ phụ thuộc vào ngữ cảnh, nhiệm vụ, cách sử dụng, v.v. Điều này đúng đối với các nhiệm vụ không phải là chuyên gia. Điều này cũng đúng với các nhiệm vụ chuyên gia.
Ví dụ:
- Viêm khớp dạng thấp và sốt rét đã được điều trị bằng chloroquine trong nhiều thập kỷ. -> điều trị mối quan hệ giữa chloroquine và bệnh sốt rét.
- Trong số 56 đối tượng báo cáo với một phòng khám có triệu chứng sốt rét, 53 (95%) có nồng độ chloroquine trong máu bình thường hiệu quả. -> KHÔNG điều trị mối quan hệ giữa chloroquine và bệnh sốt rét.
Cách quản lý chất lượng theo quy mô
Tại Kili Technology, chúng tôi cam kết chia sẻ các phương pháp hay nhất với những người dùng sẵn sàng quản lý chất lượng và quy mô.
Tính nhất quán của nhãn
Dưới đây là một số lời khuyên:
- Lặp lại trong các bước nhỏ trên chú thích. Đây là quy trình cụ thể để xây dựng bộ dữ liệu chất lượng.
- Chỉ để bạn biết: mỗi lần lặp lại sẽ kéo dài tối đa 3 ngày.
- Kỹ sư chịu trách nhiệm xây dựng mô hình chú thích từ 50 đến 100 ví dụ bằng tay, cho bạn ý tưởng về các lớp khác nhau đang tồn tại.
- Viết các định nghĩa và khái niệm vững chắc về các lớp mà bạn nhắm đến để mô hình của bạn xác định. Điều này nên bao gồm các hướng dẫn về cách xử lý các trường hợp cạnh cụ thể.
- Lặp đi lặp lại các lô tài liệu lớn hơn được chú thích (100 hoặc 200 cùng một lúc) bởi các đối tác bên ngoài hoặc những người khác trong công ty.
- Lặp lại để gỡ lỗi ở bất kỳ bước nào: Hướng dẫn, bản thể học, phạm vi đồng thuận.
- Sử dụng một công cụ thiết kế để tránh cử chỉ chú thích sai theo thiết kế.
- Ngăn chặn các chú thích xấu. Chẳng hạn, trong khai thác quan hệ, cấm các mối quan hệ trong UX không có ý nghĩa.
- Giảm thiểu số lượng và độ phức tạp của các hành động chú thích. Ví dụ, trong một số tác vụ, tốt hơn là vẽ đối tượng trước rồi chọn lớp, trong các tác vụ khác thì ngược lại.
- Đào tạo nhân viên của bạn: việc dán nhãn cần được đào tạo phù hợp để những người gắn nhãn phát triển nhanh chóng.
- Phát hiện các lỗi có thể xảy ra.
- Thực hiện kiểm tra chất lượng dựa trên quy tắc ngay từ đầu dự án. ví dụ, không phải số lượng đốt sống được chú thích lớn hơn số lượng đốt sống của con người sao?
- Sử dụng một mô hình để tính toán khả năng xuất hiện nhãn của bạn và ưu tiên xem xét khi kết thúc dự án của bạn.
- Sử dụng các chỉ số, chẳng hạn như sự đồng thuận ở cấp nội dung và người chú thích để gỡ lỗi quy trình ghi nhãn của bạn và ưu tiên đánh giá của bạn.
- Đặt hệ thống đánh giá hình chóp với các lớp: mô hình chú thích trước, sau đó là người gắn nhãn, sau đó là người đánh giá và kỹ sư ML.
Tính đại diện của dữ liệu
Hai điểm quan trọng ở đây:
- Có dữ liệu khách quan.
- Có đủ dữ liệu phong phú.
Thế giới của chúng ta đầy rẫy những thành kiến cần được loại bỏ khỏi các mô hình. Ví dụ: nếu tôi sử dụng các phần nhúng của GPT-2 để xây dựng mô hình phân tích cảm tính trên tin tức tài chính, chỉ riêng tên của các công ty đã nhuốm màu cảm xúc: Volkswagen tiêu cực vì vụ bê bối vài năm qua, quá- được thể hiện trong dữ liệu huấn luyện GPT-2. Để khắc phục điều này, đây là một số ý tưởng:
- Thay thế các thực thể (công ty) có tên nhạy cảm bằng các trình giữ chỗ trước khi đào tạo một mô hình ngôn ngữ;
- Tạo dữ liệu phản thực tế để cân bằng cảm xúc liên quan đến tên công ty;
- Trực giao hóa không gian nhúng để loại bỏ hiệu ứng sai lệch.
Thế giới của chúng ta đầy rẫy những trường hợp cạnh tranh. Ví dụ, một chiếc ghế bay trên đường cao tốc trong hình ảnh xe tự lái. Để xây dựng tập dữ liệu đa dạng, bạn có thể sử dụng lại phương pháp tăng cường, nổi tiếng trong ML, đối với dữ liệu. Từ một hồ chứa các ứng cử viên dữ liệu:
- Huấn luyện một mô hình ban đầu và dự đoán trên bộ xác thực.
- Sử dụng một mô hình được đào tạo trước khác để trích xuất các nội dung nhúng.
- Đối với mỗi hình ảnh xác thực bị phân loại sai, hãy truy xuất các hình ảnh lân cận gần nhất bằng cách sử dụng các phần nhúng. Thêm những hình ảnh hàng xóm gần nhất này vào tập huấn luyện.
- Đào tạo lại mô hình với các hình ảnh đã thêm và dự đoán trên bộ xác thực.
- Lặp lại cho đến khi bạn giỏi.
Phần kết luận
Cho đến nay, cộng đồng ML đã tập trung vào số lượng dữ liệu. Bây giờ, chúng ta cần chất lượng. Có nhiều mẹo khác để đạt được chất lượng này trên quy mô lớn.
Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.
Tham khảo các bài viết cùng chủ đề:
2. 8 Cộng Đồng Slack Khoa Học Dữ Liệu Hàng Đầu Sẽ Tham Gia Vào Năm 2023
3. Khai Thác Tiềm Năng Của Sản Phẩm Dữ Liệu Vào Năm 2023
4. Kỹ Thuật Giảm Kích Thước Trong Khoa Học Dữ Liệu
5. Làm Thế Nào Để Trở Thành Một Nhà Khoa Học Dữ Liệu 10x
6. 6 Sai Lầm Phổ Biến Trong Khoa Học Dữ Liệu Và Cách Tránh Chúng