수집 방법
출력물 등급 매기기: 사람들은 AI가 생성한 콘텐츠를 평가합니다(좋음/나쁨, 유용함/유해함, 선호됨/덜 선호됨).
쌍별 비교: 두 출력을 제시하고 사람이 더 나은 것을 선택합니다.
직접 편집 또는 제안: 주석자나 사용자가 AI의 출력을 개선합니다(예: 텍스트 재작성 또는 오류 수정).
전문화된 피드백: 도메인 전문가(예: 변호사, 의사, 교사)가 전문 분야의 정확성을 검토합니다.
피드백은 다음과 같은 기법을 위한 학습 신호로 변환됩니다 인간 피드백을 이용한 강화학습(RLHF) 또는 직접 선호 최적화(DPO).

마지막 업데이트