수집 방법

출력 평가: 사람들이 AI 생성 콘텐츠를 평가합니다(좋음/나쁨, 도움이 됨/해로움, 선호/덜 선호).
쌍대 비교: 두 출력이 주어지면 사람이 더 나은 것을 선택합니다.
직접 편집 또는 제안: 주석자나 사용자가 AI의 출력을 개선합니다(예: 텍스트 재작성 또는 오류 수정).
전문적 피드백: 도메인 전문가(예: 변호사, 의사, 교사)가 전문 분야의 정확성을 검토합니다.
피드백은 다음과 같은 기법의 학습 신호로 전환됩니다 인간 피드백을 이용한 강화 학습(RLHF) 또는 직접 선호 최적화(DPO).

이전Reppo 서브넷 다음정렬 문제

마지막 업데이트 4개월 전