GeneBench-Pro : le nouveau benchmark IA d'OpenAI pour la biologie
OpenAI a créé GeneBench-Pro, un benchmark de 129 problèmes en génomique et biologie quantitative pour tester le raisonnement scientifique des IA. GPT-5.6 Sol obtient 31,5% de réussite, loin devant les autres modèles comme Opus 4.8 (16%) ou Gemini 3.5 Flash (8,1%).
« We’re introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can navigate messy biological data, choose the right analysis path, and make judgment calls that real computational research depends on. » — Le Big Data
Que faut-il retenir ?
- GeneBench-Pro contient 129 problèmes en génomique, biologie quantitative et médecine translationnelle.
- GPT-5.6 Sol atteint 28,7% de réussite en mode standard et 31,5% en mode Pro.
- Opus 4.8 obtient 16%, Gemini 3.5 Flash 8,1%, et Grok 4.3 seulement 1,5%.
- Un problème typique prendrait 20-40 heures à un humain, coûtant plusieurs milliers de dollars.
Pourquoi cette nouvelle compte-t-elle ?
Ce benchmark permet d'évaluer les capacités de raisonnement scientifique des IA, un enjeu clé pour les applications en recherche biomédicale. Les performances actuelles montrent que même les modèles avancés comme GPT-5.6 Sol ont encore des limites, ce qui guide les priorités de R&D. L'open sourcing partiel favorise la transparence et l'évaluation indépendante.
31,5% de réussite pour GPT-5.6 Sol en mode Pro
💬 Alexander Strudwick Young
Public concerné : développeurs, entreprises
Quel est l'objectif de GeneBench-Pro ?
GeneBench-Pro vise à évaluer la capacité des IA à raisonner scientifiquement sur des problèmes complexes de biologie computationnelle, en simulant des scénarios de recherche réels avec des jeux de données et des questions précises.