C’est de nouveau cette période de l’année où chacun y va de ses prédictions sur ce qui va (ou non) se passer au cours de l’année à venir (2026). Je ne fais pas de prédictions. En revanche, je fais des pronostics.
Faire un pronostic, ce n’est pas de la prophétie ; c’est analyser et étayer des preuves. Je ne devine pas ce qui arrive, j’extrapole à partir de ce qui est déjà en mouvement et je mesure à quelle vitesse cela prendra de l’ampleur.
Ceci étant dit, je vous partage ce que je considère comme étant les cinq grandes tendances technologiques à surveiller en 2026.
1 – L’inférence devient le principal centre de coûts, dépassant l’entraînement
Un changement majeur se profile : les entreprises vont dépenser davantage dans l’infrastructure d’inférence (serving, montée en charge, latence) que dans l’entraînement. L’entraînement est épisodique ; l’inférence, elle, fonctionne 24h/24, 7j/7. J’ai déjà signalé cette tendance, et le marché en montre les premiers signes. Nos recherches ont révélé que 80 % des organisations exploitent déjà leurs propres services d’inférence. Cela en fait clairement une charge de travail de premier ordre, ce qui indique un transfert significatif des coûts.
A ce propos, Dell indique publiquement que son activité serveurs/IA est en plein essor. Par exemple, la société affirme que ses ventes de serveurs IA ont été multipliées par environ 6 entre l’exercice 2024 et 2025, et prévoit d’atteindre 20 milliards de dollars de revenus serveurs IA en 2026.
IDC projette quant à elle que les dépenses en serveurs accélérés (c’est-à-dire optimisés pour l’IA/l’inférence) représenteront plus de 75 % des dépenses en infrastructures serveur IA d’ici 2028, avec un taux de croissance annuel moyen de 42 % sur 5 ans.
Pourquoi c’est important :
* Choix techniques : latence, débit, capacité, montée en charge rapide, refroidissement, consommation énergétique, localité.
* Les organisations qui ont conçu leur infrastructure pour l’entraînement vont devoir la réarchitecturer pour optimiser la performance d’inférence.
2 – L’inférence-as-a-service devient incontournable
Les services de « model hosting » évoluent vers de véritables offres Inference-as-a-Service (IaaS), de la même manière que le « compute as a service » l’a fait pour l’infrastructure. Plusieurs sources industrielles estiment qu’environ 78 % des organisations dépendront d’un service d’inférence as-a-service d’ici 2026.
Pourquoi c’est important :
* Les petites équipes et entreprises peuvent rivaliser sans posséder l’intégralité de la pile d’inférence.
* Apparition de places de marché pour des points d’accès à faible latence, des systèmes de versionnage de modèles, des garanties SLA.
* Le déploiement d’IA en temps réel devient plus accessible.
3 – L’inférence s’étend à de nouveaux domaines grâce à l’IA agentique
Avec la montée en puissance de l’IA agentique, l’inférence ne sera plus sollicitée uniquement pour des prédictions ou classifications statiques. Elle sera utilisée en continu dans des boucles d’interaction : gestion d’état, appel d’outils, planification, dialogue, etc. Gartner prévoit que 40 % des applications d’entreprise intégreront des agents spécialisés dans les tâches d’ici 2026. Nos recherches ont révélé bien plus qu’un simple intérêt pour les agents : 5 % sont déjà en production, et beaucoup d’autres sont en phase de préparation.
Pourquoi c’est important :
* L’inférence devient compositionnelle : de nombreux appels à des micro-modèles par tâche.
* Les contraintes de latence se resserrent. Il faudra un routage intelligent, du caching, des garde-fous, et des évaluations partielles.
* La frontière entre l’inférence en périphérie (edge) et dans le cloud s’estompe.
4 – L’inférence en périphérie (edge) devient courante
Parce qu’on ne peut pas toujours tolérer la latence d’un aller-retour ou une dépendance au cloud, de plus en plus d’inférence se fera en mode périphérique ou hybride (edge + cloud). Les charges en temps réel dans la réalité augmentée/virtuelle, les systèmes autonomes, l’IoT et l’industrie l’exigeront. Cette évolution est sous-entendue par la tendance à « l’inférence comme infrastructure », ainsi que par l’essor des « PC IA » et la distribution de l’IA sur des terminaux comme les smartphones.
Pourquoi c’est important :
* Spécialisation matérielle à prévoir : petits accélérateurs, TPU/ASIC en périphérie, quantification et élagage de modèles, adaptation en temps réel.
* Les modèles se dégraderont de manière fluide selon les décisions cloud/périphérie, les reprises ou les « îlots locaux » uniquement.
5 – La gouvernance de l’inférence et les contrôles d’explicabilité deviennent obligatoires
À mesure que l’inférence se généralise, les décisions erronées ou injustes affecteront les marques et la conformité. On peut s’attendre à ce que la réglementation et les politiques internes imposent des décisions d’inférence traçables, une explicabilité causale, la détection de dérive, et la journalisation de chaque inférence. Par exemple, l’analyse des tendances de Deloitte identifie la sécurité, la souveraineté et le contrôle comme des thèmes critiques pour 2026. Nos propres recherches ont montré que les organisations protègent tout, même les journaux de requêtes. 87 % des grandes entreprises utilisent déjà un contrôle d’accès basé sur les rôles (RBAC) pour gérer l’accès aux prompts et logs.
Pourquoi c’est important :
* Votre architecture d’inférence devra intégrer nativement la journalisation, la traçabilité, la gestion de versions et des garde-fous.
* Les vérifications sémantiques et contrôles de cohérence à l’exécution (auxquels vous pensiez déjà) deviendront la norme.
* Les fournisseurs ne rivaliseront plus seulement sur la vitesse ou les coûts, mais aussi sur la confiance et l’explicabilité.
L’inférence n’est ainsi pas juste la prochaine charge de travail. C’est le nouveau runtime, celui qui met à l’épreuve, et brise souvent, toutes les hypothèses architecturales paresseuses du passé et ce, depuis l’essor du cloud. Sécurité, souveraineté et contrôle ne sont pas des mots à la mode ; ce sont les preuves de la confiance dans une entreprise pilotée par l’IA. D’ici 2026, ceux qui considèrent l’inférence comme une infrastructure, et non une inspiration, seront les seuls encore debout lorsque l’effet de mode se dissipera.
Donc oui, un seul mot suffit pour résumer 2026 : inférence.
_____________________________
Par Lori MacVittie, Ingénieur émérite chez F5, Responsable de l’évangélisation technologique





puis