Toplama Yöntemleri

  • Çıktıları değerlendirme: İnsanlar yapay zekâ tarafından üretilen içeriği değerlendirir (iyi/kötü, yardımcı/zararlı, tercih edilen/az tercih edilen).

  • Çiftli karşılaştırmalar: Verilen iki çıktı arasında insanlar hangisinin daha iyi olduğunu seçer.

  • Doğrudan düzenlemeler veya öneriler: Etiketleyiciler veya kullanıcılar yapay zekânın çıktısını geliştirir (ör. metni yeniden yazma veya hataları düzeltme).

  • Uzmanlaşmış geri bildirim: Alan uzmanları (ör. avukatlar, doktorlar, öğretmenler) uzmanlaşmış alanlarda doğruluk açısından içeriği inceler.

  • Geri bildirim, şu teknikler için eğitim sinyallerine dönüştürülür: İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) veya Doğrudan Tercih Optimizasyonu (DPO).

Last updated