对输出进行评分:人们对 AI 生成的内容进行评分(好/坏、有帮助/有害、偏好/不太偏好)。
成对比较:给定两个输出,人类选择哪个更好。
直接编辑或建议:标注者或用户改进 AI 的输出(例如,重写文本或纠正错误)。
专业反馈:领域专家(例如律师、医生、教师)审查特定领域内容的准确性。
反馈被转化为训练信号,用于诸如 来自人类反馈的强化学习(RLHF) 或 直接偏好优化(DPO).
最后更新于12天前