DPO réduit les erreurs OCR de 59,4%
DharmaOCR, un modèle OCR spécialisé, a réduit les taux de dégénérescence textuelle de 59,4% en moyenne grâce à l'optimisation directe des préférences (DPO). Cette méthode utilise les échecs du modèle comme signal d'entraînement, contrairement aux approches traditionnelles.
« Average reduction: 59.4%. Best case: 87.6%. » — Hugging Face Blog
Que faut-il retenir ?
- Les taux de dégénérescence textuelle variaient de moins de 1% à plus de 33% parmi les modèles open-source testés.
- L'optimisation directe des préférences (DPO) a réduit la dégénérescence textuelle de 59,4% en moyenne.
- Le meilleur cas de réduction était de 87,6% (Nanonets-OCR2–3B: 1,61% à 0,20%).
- La DPO utilise les échecs du modèle comme signal d'entraînement, contrairement à l'apprentissage supervisé traditionnel.
Pourquoi cette nouvelle compte-t-elle ?
Cette avancée montre comment l'optimisation directe des préférences peut améliorer les modèles OCR en réduisant significativement les erreurs de dégénérescence textuelle. Cela ouvre des possibilités pour d'autres applications objectives en IA générative, au-delà des chatbots.
59,4% de réduction moyenne des taux de dégénérescence textuelle
Public concerné : développeurs, entreprises
Comment l'optimisation directe des préférences améliore-t-elle les modèles OCR ?
La DPO utilise les échecs du modèle comme signal d'entraînement, permettant une réduction significative des erreurs de dégénérescence textuelle. Contrairement à l'apprentissage supervisé, elle traite les sorties complètes comme des succès ou des échecs, pas token par token.