Rubrique
Classement IA
Comparer les IA sans hype. LLM généralistes, agents code, agents navigateur, agents business, modèles open source. Score indicatif, pondéré à partir de sources publiques.
Classement IA Cloud — Chat
Voir la page détaillée →| # | Modèle | Éditeur | Score Le Recul | Abonnement mensuel | Évaluation |
|---|
Données temporairement indisponibles. Le classement est mis à jour depuis un BENCH Le Recul toutes les 25h. Si le contenu ne s'affiche pas, réessayez dans quelques instants.
Aperçus par catégorie
Systèmes agentiques
Voir le classement →- 01 87.3 OpenClaw Peter steinberger
- 02 87.3 All hands ai
- 03 85.5 Anthropic community
Agents code
Voir le classement →IA locales / open source
Voir le classement →Image
Voir le classement →Vidéo
Voir le classement →Audio
Voir le classement →Coût / performance
Voir le classement →À surveiller
Voir le classement complet →Modèles récents, previews ou challengers avec un signal prometteur, mais pas encore assez documentés pour entrer dans un classement principal.
Aucun modèle sous surveillance pour le moment.
Ouvrir le site officiel ?
—
Vous serez redirigé vers — dans un nouvel onglet.
Sources du classement
Le classement s'appuie sur plusieurs benchmarks publics pour comparer les modèles selon leurs usages : conversation, code, agents, coût et performance. Le Score Le Recul est le score composite final calculé à partir de ces sources — pas une source ajoutée au calcul.
LM Arena (Chatbot Arena)
pendingCompare les modèles sur des évaluations publiques multi-formats (texte, code web, image, vidéo) via votes d'utilisateurs et calcul Bradley-Terry.
Artificial Analysis
pending api keyIndex de qualité, vitesse et latence des modèles via API officielle Artificial Analysis (en attente de clé API gratuite).
SWE-bench
pendingMesure la capacité d'agents et scaffolds à résoudre des bugs réels issus de projets open source.
Aider Polyglot
pendingMesure les performances sur des tâches de code multilingues. Modes classiques alimentent Code, mode architect alimente Agents code.
Open LLM Leaderboard (Hugging Face)
pendingTests internes Le Recul
pendingMéthodologie
Le Score Le Recul est indicatif et composite : il agrège plusieurs sources publiques (LM Arena, SWE-bench, Aider Polyglot, et Artificial Analysis quand l'API est branchée), normalise les valeurs sur 0–100 et applique une pondération documentée par catégorie. Ce score n'est pas une source ajoutée au calcul — c'est le résultat de l'agrégation. Aucune donnée n'est inventée : si une catégorie manque de mesures, l'affichage indique « données insuffisantes ».
La colonne Évaluation reflète la couverture des sources pour chaque modèle : Fiable quand au moins deux sources pertinentes indépendantes ont confirmé le modèle (cross-validation), ou quand une source de référence forte de la catégorie le couvre suffisamment ; Partiel quand une seule source documente le modèle avec une couverture exploitable mais limitée ; Insuffisant quand la donnée ne permet pas un verdict propre.
Score Le Recul. Le score affiché est le Score Le Recul départagé : il combine les scores des sources publiques fiables (LM Arena, SWE-bench, Aider, MMLU-Pro, BBEH, LiveBench, Artificial Analysis quand l'API est branchée) selon une pondération documentée par catégorie. Au calcul interne, une composante de départage minuscule (≤ 0.01) intègre la couverture, le nombre de sources indépendantes, le statut d'évaluation et la récence des données — invisible à deux décimales pour les scores normaux, elle distingue les modèles apparemment équivalents. Le score affiché est donc un Score Le Recul, pas une moyenne brute : les égalités apparentes sont départagées par couverture, stabilité et pertinence des sources. Le score affiché est limité à deux décimales. Aucun modèle n'est supprimé ni caché en cas d'égalité.
La catégorie Coût / performance compare la performance globale au prix de l'abonnement mensuel public (Claude.ai Pro, ChatGPT Plus, Gemini Advanced, Le Chat Pro, interfaces gratuites…). Les prix API et coûts par tokens ne sont pas pris en compte, car ils ne reflètent pas l'usage final pour un utilisateur courant.
La catégorie IA locales / open source regroupe les modèles open-weights ou open-source utilisables localement sans infrastructure lourde. Les très grands modèles (au-delà d'environ 35 milliards de paramètres) sont exclus par choix éditorial du classement principal local. Les modèles propriétaires cloud (Claude, GPT, Gemini, Grok, Mistral cloud…) ne figurent jamais dans cette catégorie.
La catégorie Agents code regroupe les systèmes agentiques (scaffolds + modèles) mesurés sur des tâches de code complètes : SWE-bench (résolution de bugs réels) et Aider mode architect. Les modèles seuls (Aider whole/diff) restent dans la catégorie Code.
Composantes additionnelles intégrées au Score Le Recul : MMLU-Pro (connaissances, dataset officiel TIGER-Lab) et BBEH (raisonnement, leaderboard officiel DeepMind) sont pondérés séparément. Les benchmarks dont aucune source actuelle exploitable n'a été identifiée (IFEval, BBH classique, MATH, GPQA, MuSR) sont activés dès que la connexion Artificial Analysis est disponible.
Score indicatif, pondéré à partir de sources publiques. Méthodologie transparente.
Cadence : MAJ du classement toutes les 9h. Le site n'est pas reconstruit à chaque cycle : seuls les fichiers de données sont mis à jour.