Rubrique

Classement IA

Comparer les IA sans hype. LLM généralistes, agents code, agents navigateur, agents business, modèles open source. Score indicatif, pondéré à partir de sources publiques.

MAJ du classement le 03/05/2026 à 18:45 Statut : à jour

Classement IA Cloud — Chat

#		Modèle	Éditeur	Score Le Recul	Abonnement mensuel	Évaluation

Données temporairement indisponibles. Le classement est mis à jour depuis un BENCH Le Recul toutes les 25h. Si le contenu ne s'affiche pas, réessayez dans quelques instants.

Aperçus par catégorie

Code

Voir le classement →

Systèmes agentiques

Voir le classement →

01 87.3 OpenClaw Peter steinberger
02 87.3 All hands ai
03 85.5 Anthropic community

À surveiller

Voir le classement complet →

Modèles récents, previews ou challengers avec un signal prometteur, mais pas encore assez documentés pour entrer dans un classement principal.

Aucun modèle sous surveillance pour le moment.

Le Score Le Recul est indicatif et composite : il agrège plusieurs sources publiques (LM Arena, SWE-bench, Aider Polyglot, et Artificial Analysis quand l'API est branchée), normalise les valeurs sur 0–100 et applique une pondération documentée par catégorie. Ce score n'est pas une source ajoutée au calcul — c'est le résultat de l'agrégation. Aucune donnée n'est inventée : si une catégorie manque de mesures, l'affichage indique « données insuffisantes ».

La colonne Évaluation reflète la couverture des sources pour chaque modèle : Fiable quand au moins deux sources pertinentes indépendantes ont confirmé le modèle (cross-validation), ou quand une source de référence forte de la catégorie le couvre suffisamment ; Partiel quand une seule source documente le modèle avec une couverture exploitable mais limitée ; Insuffisant quand la donnée ne permet pas un verdict propre.

Score Le Recul. Le score affiché est le Score Le Recul départagé : il combine les scores des sources publiques fiables (LM Arena, SWE-bench, Aider, MMLU-Pro, BBEH, LiveBench, Artificial Analysis quand l'API est branchée) selon une pondération documentée par catégorie. Au calcul interne, une composante de départage minuscule (≤ 0.01) intègre la couverture, le nombre de sources indépendantes, le statut d'évaluation et la récence des données — invisible à deux décimales pour les scores normaux, elle distingue les modèles apparemment équivalents. Le score affiché est donc un Score Le Recul, pas une moyenne brute : les égalités apparentes sont départagées par couverture, stabilité et pertinence des sources. Le score affiché est limité à deux décimales. Aucun modèle n'est supprimé ni caché en cas d'égalité.

La catégorie Coût / performance compare la performance globale au prix de l'abonnement mensuel public (Claude.ai Pro, ChatGPT Plus, Gemini Advanced, Le Chat Pro, interfaces gratuites…). Les prix API et coûts par tokens ne sont pas pris en compte, car ils ne reflètent pas l'usage final pour un utilisateur courant.

La catégorie IA locales / open source regroupe les modèles open-weights ou open-source utilisables localement sans infrastructure lourde. Les très grands modèles (au-delà d'environ 35 milliards de paramètres) sont exclus par choix éditorial du classement principal local. Les modèles propriétaires cloud (Claude, GPT, Gemini, Grok, Mistral cloud…) ne figurent jamais dans cette catégorie.

La catégorie Agents code regroupe les systèmes agentiques (scaffolds + modèles) mesurés sur des tâches de code complètes : SWE-bench (résolution de bugs réels) et Aider mode architect. Les modèles seuls (Aider whole/diff) restent dans la catégorie Code.

Composantes additionnelles intégrées au Score Le Recul : MMLU-Pro (connaissances, dataset officiel TIGER-Lab) et BBEH (raisonnement, leaderboard officiel DeepMind) sont pondérés séparément. Les benchmarks dont aucune source actuelle exploitable n'a été identifiée (IFEval, BBH classique, MATH, GPQA, MuSR) sont activés dès que la connexion Artificial Analysis est disponible.

Score indicatif, pondéré à partir de sources publiques. Méthodologie transparente.

Cadence : MAJ du classement toutes les 9h. Le site n'est pas reconstruit à chaque cycle : seuls les fichiers de données sont mis à jour.