Çıktıları değerlendirme: İnsanlar yapay zekâ tarafından üretilen içeriği değerlendirir (iyi/kötü, yardımcı/zararlı, tercih edilen/az tercih edilen).
Çiftli karşılaştırmalar: Verilen iki çıktı arasında insanlar hangisinin daha iyi olduğunu seçer.
Doğrudan düzenlemeler veya öneriler: Etiketleyiciler veya kullanıcılar yapay zekânın çıktısını geliştirir (ör. metni yeniden yazma veya hataları düzeltme).
Uzmanlaşmış geri bildirim: Alan uzmanları (ör. avukatlar, doktorlar, öğretmenler) uzmanlaşmış alanlarda doğruluk açısından içeriği inceler.
Geri bildirim, şu teknikler için eğitim sinyallerine dönüştürülür: İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) veya Doğrudan Tercih Optimizasyonu (DPO).