Méthodes de collecte

  • Évaluer les sorties : Les personnes évaluent le contenu généré par l'IA (bon/mauvais, utile/nuisible, préféré/moins préféré).

  • Comparaisons par paires : Étant donné deux sorties, les humains choisissent laquelle est meilleure.

  • Éditions directes ou suggestions : Les annotateurs ou utilisateurs améliorent la sortie de l'IA (par ex., réécrire un texte ou corriger des erreurs).

  • Retour d'information spécialisé : Des experts du domaine (par ex., avocats, médecins, enseignants) examinent le contenu pour vérifier son exactitude dans des domaines spécialisés.

  • Les retours sont transformés en signaux d'entraînement pour des techniques comme Apprentissage par renforcement à partir des retours humains (RLHF) ou Optimisation directe des préférences (DPO).

Mis à jour