收集方法

  • 对输出进行评分:人们对 AI 生成的内容进行评分(好/坏、有帮助/有害、更偏好/较不偏好)。

  • 成对比较:给定两个输出,人工选择哪个更好。

  • 直接编辑或建议:标注者或用户改进 AI 的输出(例如,重写文本或纠正错误)。

  • 专业化反馈:领域专家(例如律师、医生、教师)审查内容在专门领域的准确性。

  • 反馈被转化为训练信号用于诸如 来自人类反馈的强化学习(RLHF)直接偏好优化(DPO).

最后更新于