- Le classement “type LMArena” sert de boussole : des duels anonymes, des votes utilisateurs, et un score Elo qui bouge au fil des usages réels.
- Anthropic et Google occupent le haut de l’affiche sur la période observée, tandis qu’OpenAI doit gérer une hiérarchie interne plus chahutée, notamment autour de GPT‑5.
- Les entreprises ne cherchent plus “un” outil, mais un panier de modèles : texte, code, recherche web, image, avec du routage pour maîtriser coûts et performance.
- Les 24 prochains mois se jouent autant dans les réseaux électriques, les GPU et le refroidissement que dans les laboratoires : la technologie a besoin d’infrastructures, comme une ancienne a besoin d’une pompe à essence qui débite.
- La surveillance des usages (gouvernance, sécurité, licences, traçabilité) devient un poste de dépense normal, au même titre que l’hébergement.
- La prospective crédible ne parie pas sur un vainqueur unique : elle suit des marqueurs concrets (ROI, énergie, approvisionnement matériel, fragmentation géopolitique).
| L’essentiel à retenir | Pourquoi ça compte dans les 24 prochains mois |
|---|---|
| Classements par duels (type Arena) | Mesurent la performance perçue en conditions réelles, pas seulement sur des tests de laboratoire. |
| Spécialisation par domaine | Le bon modèle n’est pas le même pour le texte, le code, l’image ou la recherche : la surveillance doit être multi-axes. |
| Économie des jetons et routage | Les agents et chaînes d’outils font grimper la facture : arbitrer entre vitesse, qualité et coût devient structurant. |
| Énergie et GPU | Le mur physique limite l’innovation : sans capacité électrique et puces disponibles, l’évolution ralentit. |
| Modèles ouverts et déploiement local | Accélèrent l’adoption dans les secteurs sensibles, mais compliquent licences et gouvernance. |
Les 20 modèles à surveiller dans les 24 prochains mois : lecture de marché, pas concours de beauté
Dans un atelier, une liste n’est jamais décorative : elle sert à ne pas oublier la rondelle cuivre qui évite la fuite, ou le couple de serrage qui empêche le drame. En intelligence artificielle, le classement joue le même rôle. Il n’attribue pas des médailles, il indique où regarder quand il faut décider, acheter, intégrer, ou simplement comprendre.
Les “Top 20” ont un défaut amusant : ils donnent l’illusion d’un podium figé, comme une vitrine de salon. Or la réalité est un banc d’essai où les paramètres changent : nouveaux jeux de données, nouvelles contraintes de sécurité, nouvelles méthodes de surveillance et, surtout, des utilisateurs qui votent avec leurs usages plutôt qu’avec des intentions.
Pour garder un fil conducteur, imaginons une PME fictive, Morvan & Fils, qui fabrique des pièces mécaniques et tente d’automatiser trois tâches : répondre à des appels d’offres, assister le bureau méthodes en développement web interne, et documenter des procédures qualité. Le dirigeant ne veut pas “l’IA”, il veut du temps rendu aux humains, des erreurs en moins, et un coût prévisible. La prospective commence là : dans le concret.
Pourquoi un “Top 20” vaut plus qu’un slogan d’innovation
Un classement utile n’est pas seulement une photo de l’instant. Il révèle des tendances : qui progresse, qui plafonne, qui se spécialise, qui se disperse. En 2025, les palmarès issus d’évaluations communautaires ont mis en évidence une montée en puissance de certains acteurs, et des repositionnements chez d’autres, avec un effet très bourgeois mais très réel : les acheteurs deviennent plus exigeants.
Le second intérêt, plus discret, tient à la compatibilité avec les contraintes d’entreprise. Les modèles ne se jugent plus uniquement sur la beauté d’une réponse, mais sur la capacité à tenir une cadence, à rester cohérents sur des séries de tâches, et à s’insérer dans une chaîne d’outils. C’est là que la technologie cesse d’être un gadget pour devenir un poste industriel.
À la fin, la seule question valable est simple : quel modèle crée de la valeur mesurable dans un contexte donné, sans transformer le service informatique en équipe de pompiers ?

Classement 2025 des modèles à surveiller : ce que racontent les duels anonymes et les scores Elo
Le principe d’un classement façon LMArena est presque artisanal : deux réponses, un même prompt, aucun logo, et des utilisateurs qui tranchent. C’est le banc de puissance sans l’autocollant du préparateur. La méthode n’est pas parfaite, mais elle a une vertu rare : elle colle à l’usage réel, celui qui ne pardonne pas un modèle brillant un jour et distrait le lendemain.
Dans les données qui ont circulé en fin d’année 2025, la hiérarchie met en avant Anthropic et Google sur plusieurs segments, tandis qu’OpenAI reste très présent mais avec une perception plus contrastée autour de certaines itérations. L’important n’est pas de se moquer d’une “déroute” ou de célébrer une “victoire”. L’important est de comprendre ce que cela implique pour l’avenir des déploiements : si un modèle recule dans les duels, c’est parfois qu’il a changé de comportement, de garde-fous, ou de priorités produit.
Un tableau de repères (octobre 2025) pour organiser la surveillance
Le tableau ci-dessous reprend un extrait de classement tel qu’il a été rapporté sur cette période, en gardant en tête qu’un score Arena évolue en continu. Les doublons observés dans certaines listes publiques rappellent une chose : la donnée “communautaire” circule, se recopie, se corrige. Une bonne analyse consiste aussi à vérifier la source et la date, comme on vérifie un numéro moteur avant d’acheter.
| Rang (repère) | Modèle | Éditeur | Lecture utile |
|---|---|---|---|
| 1 | Claude Opus 4.1 | Anthropic | Très haut niveau perçu sur une variété de tâches ; à surveiller sur les coûts à l’usage. |
| 2 | Claude Sonnet 4.5 | Anthropic | Souvent choisi pour l’équilibre qualité/vitesse ; intéressant en production. |
| 3 | Gemini 2.5 Pro | Très compétitif en génération de texte ; bon candidat pour chaînes outillées. | |
| 4 | GPT-4.5 | OpenAI | Solide polyvalence ; utile en comparaison lors de POC. |
| 5 | ChatGPT-4o | OpenAI | Fort en interaction et multimodalité selon usages ; à cadrer en gouvernance. |
| 8 | GPT-5 | OpenAI | Perception fluctuante selon tâches ; mérite une surveillance serrée sur les mises à jour. |
| 9 | o3 | OpenAI | Souvent cité pour recherche/raisonnement ; utile en “second avis” automatisé. |
| 10 | Qwen3 Preview | Alibaba | Présence notable ; à suivre sur maturité, disponibilité et conditions d’usage. |
Ce que la méthodologie change dans la lecture de performance
Le duel anonyme impose une forme d’équité : même prompt, même fenêtre de jugement. Le score Elo ajuste ensuite la hiérarchie, en tenant compte de l’historique des confrontations. C’est une logique d’échecs, appliquée à des réponses de modèles, avec l’humilité d’accepter que l’évaluation dépend aussi des humains.
Pour une entreprise, la conséquence est directe : un modèle haut classé “en général” ne sera pas forcément le meilleur sur votre tâche. Morvan & Fils l’apprend vite : le modèle qui écrit des textes impeccables ne produit pas toujours le code le plus robuste, et celui qui cherche sur le web peut être pénible à contraindre dans un format qualité.
La phrase-clé, ici, tient en peu de mots : la performance est relative à un usage, et le classement n’est qu’un plan de travail.
Le point suivant, logique, consiste à sortir du général et à regarder les domaines : texte, web, image, recherche. C’est là que les tendances deviennent exploitables.
Modèles spécialisés par domaine : choisir l’outil comme on choisit une clé de 13, pas un couteau suisse
Un mécanicien qui respecte son temps ne démonte pas une culasse avec une pince universelle. En IA, la spécialisation par domaine suit la même sagesse : un modèle peut dominer en génération de texte et rester moyen en recherche web, ou l’inverse. Les classements sectoriels donnent une cartographie plus utile pour la surveillance des 24 prochains mois, car ils collent aux projets réels.
Les repères publiés sur la période 2025 montrent un quatuor de domaines parlants : texte, développement web, images, recherche web. Chaque domaine tire la technologie dans une direction différente : coût de contexte long pour le texte, rigueur syntaxique pour le code, qualité perceptuelle et contraintes de droits pour l’image, et robustesse à l’actualité pour la recherche.
Tableau de performances par domaine : une lecture opérationnelle
| Domaine | Leader (repère) | Second | Tiers | Ce que cela implique |
|---|---|---|---|---|
| Génération de texte | Gemini 2.5 Pro | Claude Opus 4.1 | Claude Sonnet 4.5 | Optimiser la rédaction et la synthèse ; surveiller la fidélité et la traçabilité des sources. |
| Développement web | GPT-5 “high” | Claude Opus 4.1 | Claude Sonnet 4.5 | Accélérer prototypes et scripts ; exiger tests, revues humaines et contrôle des dépendances. |
| Génération d’images | Hunyuan Image 3.0 | Gemini 2.5 Flash Image | Imagen 4.0 Ultra | Créer visuels de catalogues et notices ; surveiller style, droits et cohérence de marque. |
| Recherche web | Grok-4 | Gemini 2.5 Pro | o3 | Appuyer la veille ; imposer citations, horodatage et gestion des hallucinations. |
Exemple concret : Morvan & Fils met en place un routage de modèles
Le responsable informatique décide de ne pas trancher “un modèle pour tout”. Il route : un modèle orienté texte pour les réponses aux appels d’offres, un autre pour le code interne, un troisième pour la recherche documentaire. Ce choix réduit les conflits de priorités et rend les coûts lisibles, car chaque usage est attaché à un budget.
Cette architecture a un effet secondaire : elle oblige à documenter. Qui a le droit d’interroger quel modèle ? Quelles données sortent ? Quelles données restent en interne ? La surveillance n’est plus un audit annuel, mais un geste quotidien, comme un contrôle de niveau d’huile avant de partir.
La phrase-clé pour conclure ce bloc : la spécialisation n’est pas un luxe, c’est une discipline.
Le décor est planté : classement général, classements par domaine. Reste à comprendre ce qui va peser sur l’évolution des modèles dans les prochains trimestres, au-delà des annonces de scène.
Prospective 24 mois : les tensions qui décideront des gagnants (ROI, énergie, GPU, géopolitique)
La prospective sérieuse ressemble moins à une boule de cristal qu’à un carnet d’entretien. On note ce qui chauffe, ce qui vibre, ce qui fuit, et on sait que la panne vient rarement d’un seul organe. Pour l’IA, plusieurs tensions s’additionnent : adoption réelle en entreprise, économie des jetons, contraintes énergétiques, bataille du matériel, diversité des offres, et fragmentation géopolitique.
Adoption en entreprise : du pilote au compte de résultat
Les enquêtes indiquent une adoption large : beaucoup d’organisations utilisent l’IA dans au moins une fonction. Pourtant, la création de valeur mesurable reste concentrée chez une minorité, souvent celles qui ont déjà fait le ménage dans les données, les accès et la gouvernance.
Les 12 à 18 mois à venir sont un point de bascule : soit les études de cas se multiplient et l’IA passe du prototype au système, soit la fatigue s’installe et les budgets deviennent plus durs à défendre. Les conseils d’administration, qui ont augmenté les lignes “IA”, attendent un retour visible. Le mécanisme est vieux comme l’industrie : on n’investit pas longtemps dans une machine qui ne sort pas de pièces conformes.
Économie des jetons et agents : la facture suit la complexité
Le revenu des services d’IA progresse, notamment via les API. La raison est simple : les flux de travail “agentiques” consomment plus. On n’est plus sur une question-réponse, mais sur une série d’étapes : recherche, planification, rédaction, vérification, mise en forme, exécution. Chaque étape mange des jetons, donc du calcul.
Les entreprises répliquent avec des architectures hybrides et du routage, en envoyant les tâches simples vers des modèles moins coûteux et en réservant le haut de gamme aux cas difficiles. La performance ne se paie plus seulement en qualité, mais en discipline d’architecture.
Énergie et centres de données : le mur physique
Construire un centre de données peut aller vite, mais raccorder de grosses puissances au réseau prend du temps. Les files d’attente d’interconnexion, dans plusieurs régions, étirent les projets sur des années. Certains opérateurs envisagent des solutions “derrière le compteur” ou des productions dédiées, parce que le réseau ne suit pas toujours.
Conséquence : la géographie du calcul devient tangible. Les implantations suivent l’énergie disponible, pas seulement la proximité des clients. Là encore, rien de magique : une presse hydraulique sans alimentation stable reste un meuble lourd.
Guerre du matériel : GPU, accélérateurs, refroidissement et chaîne d’approvisionnement
La bataille ne se limite pas aux puces. Les châssis serveurs, le refroidissement, l’intégration, tout compte. Les cycles de remplacement des accélérateurs déterminent la rentabilité : si le matériel garde une durée de vie productive suffisante, l’investissement se stabilise ; si la demande dépasse l’offre, les prix et marges se déplacent, et les petits acteurs se retrouvent coincés.
Pour la surveillance des 24 mois, l’indicateur utile n’est pas une rumeur de laboratoire, mais la capacité des clouds à livrer de l’inférence haute capacité à un coût soutenable.
Diversité des modèles et fragmentation géopolitique : le retour des frontières dans la technologie
Le paysage ne se résume plus à deux acteurs. Entre modèles fermés, poids ouverts, modèles embarqués, et piles “souveraines”, le choix augmente, et la gouvernance se complique. Les licences diffèrent, les contraintes de conformité aussi, et les alignements géopolitiques pèsent sur l’accès au matériel et aux services.
Les pays et blocs traitent le calcul comme une infrastructure stratégique. Pour une entreprise européenne moyenne, cela se traduit par une question très concrète : dépendre d’une pile étrangère, ou payer plus cher pour réduire la dépendance ? Ce n’est pas un débat de salon ; c’est une ligne dans une politique d’achat.
La phrase-clé, ici, est volontairement sobre : les deux prochaines années départageront les organisations prêtes, pas seulement les modèles brillants.
Plan de surveillance pragmatique : comment suivre 20 modèles sans devenir fou (ni pauvre)
Surveiller vingt modèles, c’est comme suivre vingt annonces de coupés italiens des années 80 : si tout est “à voir”, rien n’est vu. La solution tient dans une méthode : définir des critères, les mesurer, et archiver. Morvan & Fils adopte un protocole simple, reproductible, et suffisamment strict pour éviter l’enthousiasme de comptoir.
Une checklist de surveillance pour les 24 prochains mois
- Stabilité des réponses : même prompt, mêmes contraintes, résultats comparables sur 10 à 20 itérations.
- Coût total : coût par tâche, pas seulement par million de jetons ; intégrer correction humaine et supervision.
- Latence : temps de réponse en conditions chargées, aux heures où tout le monde appuie en même temps.
- Gouvernance : journalisation, gestion des accès, séparation des données sensibles, règles de conservation.
- Conformité et licences : droits d’usage, clauses de confidentialité, contraintes sectorielles.
- Interopérabilité : capacité à s’insérer dans une chaîne outillée (recherche, stockage, CRM, ERP).
- Traçabilité : citations, horodatage, provenance des éléments externes, surtout en recherche web.
Exemple d’architecture “raisonnable” : trois niveaux de modèles
Le premier niveau gère les tâches à faible risque : reformulation, mise en forme, brouillons. Le second prend le code et les documents internes, avec des garde-fous et des tests. Le troisième, rare et cher, sert aux cas difficiles : arbitrages, synthèses longues, tâches multi-étapes.
Cette stratification transforme l’IA en outillage, pas en religion. Elle évite aussi une erreur classique : payer du haut de gamme pour résumer une note de service. Même une Porsche 911 SC n’est pas sortie pour aller chercher le pain quand une 205 fait le travail — et le boulanger ne juge pas.
Où regarder chaque mois : signaux faibles et signaux forts
Les signaux forts sont chiffrés : augmentation de capacité d’inférence, baisse de coût à qualité constante, publication de retours sur investissement. Les signaux faibles sont comportementaux : un modèle devient plus prudent, plus verbeux, moins précis ; une mise à jour change le style ou les refus. Ces changements ont un impact immédiat en production.
À la fin, la meilleure règle tient sur une ligne : surveiller, c’est comparer dans le même gabarit, comme on aligne deux pièces sur le même marbre.
Comment choisir parmi 20 modèles sans se tromper de combat ?
En partant des tâches réelles (texte, code, recherche, image), puis en testant 2 à 4 candidats par domaine avec les mêmes prompts et des critères stables (coût par tâche, latence, stabilité, gouvernance). Un ‘Top 20’ sert à cadrer la veille, pas à décider à lui seul.
Pourquoi les classements type Arena (duels anonymes, score Elo) sont-ils utiles en entreprise ?
Parce qu’ils reflètent une performance perçue en conditions d’usage, avec une comparaison directe sur des prompts identiques. Cela complète les benchmarks académiques et aide à détecter les évolutions de comportement après mise à jour.
Quelles tendances vont le plus influencer l’avenir des modèles sur 24 mois ?
Les retours de ROI mesurables, l’économie des jetons (agents et chaînes d’outils), la disponibilité énergétique pour les centres de données, l’approvisionnement en GPU/accélérateurs, et la fragmentation géopolitique qui peut limiter l’accès à certaines piles technologiques.
Faut-il privilégier un seul modèle ‘généraliste’ pour tout faire ?
Souvent non. La pratique la plus robuste consiste à router : un modèle pour le texte, un pour le code, un pour la recherche, éventuellement un pour l’image, avec des règles de gouvernance. Cela améliore la performance utile et rend les coûts maîtrisables.