对输出进行评分:人们对 AI 生成的内容进行评分(好/坏、有帮助/有害、更偏好/较不偏好)。
成对比较:给定两个输出,人工选择哪个更好。
直接编辑或建议:标注者或用户改进 AI 的输出(例如,重写文本或纠正错误)。
专业化反馈:领域专家(例如律师、医生、教师)审查内容在专门领域的准确性。
反馈被转化为训练信号用于诸如 来自人类反馈的强化学习(RLHF) 或 直接偏好优化(DPO).
最后更新于4个月前