Phương pháp thu thập

Đánh giá đầu ra: Mọi người đánh giá nội dung do AI tạo ra (tốt/xấu, hữu ích/có hại, được ưu tiên/ít được ưu tiên).
So sánh cặp đôi: Khi cho hai đầu ra, con người chọn cái nào tốt hơn.
Chỉnh sửa hoặc gợi ý trực tiếp: Người chú thích hoặc người dùng cải thiện đầu ra của AI (ví dụ: viết lại văn bản hoặc sửa lỗi).
Phản hồi chuyên môn: Chuyên gia trong lĩnh vực (ví dụ: luật sư, bác sĩ, giáo viên) xem xét nội dung để kiểm tra độ chính xác trong các lĩnh vực chuyên ngành.
Phản hồi được chuyển thành tín hiệu huấn luyện cho các kỹ thuật như Học tăng cường từ phản hồi con người (RLHF) hoặc Tối ưu hóa ưu tiên trực tiếp (DPO).

Last updated 12 days ago