收集方法

对输出进行评分：人们对 AI 生成的内容进行评分（好/坏、有帮助/有害、更偏好/较不偏好）。
成对比较：给定两个输出，人工选择哪个更好。
直接编辑或建议：标注者或用户改进 AI 的输出（例如，重写文本或纠正错误）。
专业化反馈：领域专家（例如律师、医生、教师）审查内容在专门领域的准确性。
反馈被转化为训练信号用于诸如 来自人类反馈的强化学习（RLHF） 或 直接偏好优化（DPO）.

上一页Reppo 子网下一页对齐问题

最后更新于4个月前