Quand les poids des neurones tombent à 1 bit, l’IA devient soudainement ultra-légère, rapide, et compatible CPU… Tout ceci sans sacrifier sa puissance de frappe sur les tâches complexes et sa pertinence comme viennent de le démontrer les chercheurs de Microsoft Research.

Historiquement, et particulièrement depuis que Google a imaginé les « Tensor » et le framework « TensorFlow », des représentations en virgule flottante (FP32) ont été adoptées pour les calculs complexes au cœur des réseaux de neurones et la représentation des poids des modèles parce qu’elles offraient un maximum de flexibilité et de précision. Ajustés au fil des cycles d’apprentissage (ce qu’on appelle les « époques »), les poids déterminent la capacité d’un modèle ML/IA à faire des prédictions précises. Cette représentation numérique (qui encode la force de connexion entre les neurones au sein d’un réseau de neurones) influe d’un côté sur la précision du modèle mais détermine également la place que le modèle occupera en mémoire, l’énergie nécessaire pour les calculs et la complexité des circuits pour réaliser les calculs.

Réduire la précision des poids c’est réduire l’empreinte mémoire

Aussi, les chercheurs ont-ils très rapidement cherché à réduire la précision de ces représentations numériques pour réduire la taille des modèles et leur consommation de ressources et d’énergie. Très rapidement, ils ont commencé à utiliser des représentations mixtes FP32/FP16. L’arrivée du FP16 (16 bits) a divisé par deux l’empreinte mémoire et dopé le débit des GPU sans compromettre l’entraînement, grâce à un mélange FP16/FP32 géré directement dans les Tensor Cores de NVIDIA ou les AMX d’Intel.

Puis ils se sont aperçus que notamment pour les inférences, des représentations FP8 pouvaient s’avérer suffisantes. Les GPU Hopper, Blackwell et Gaudi 2 ont notamment privilégié les calculs en 8 bits. En ramenant chaque coefficient à huit bits, FP8 économise jusqu’à 75 % de bande passante par rapport au couple FP16/FP32 tout en préservant l’essentiel de la précision pour l’inférence et, dans certains cas, pour l’apprentissage.

Reste que les calculs en virgule flottante restent 50 à 180% plus coûteux en termes de puissance CPU/GPU que des calculs avec des entiers. D’où l’arrivée du principe de quantification INT8 devenue aujourd’hui (et plus encore depuis l’affaire DeepSeek) la référence pour l’inférence en production. Reste que cette quantification réalisée pour l’inférence contribue à dégrader la qualité des modèles surtout sur les tâches particulièrement sensibles aux arrondis (telles que la réflexion sur les problèmes mathématiques, la génération de code, les langues non latines). En effet, les arrondis se propagent d’un token à l’autre, cassent la logique interne des pas de calcul et finissent par rendre la réponse incohérente.

La trouvaille de Microsoft ? Un apprentissage en « Trit »

Plutôt que de prioriser une quantification post-apprentissage (donc a posteriori), les chercheurs de Microsoft Research ont imaginé un LLM « nativement » entraîné dès le départ en… 1 bit ! En réalité, ils utilisent un « trit », une représentation ternaire où chaque poids peut prendre 3 états : -1, 0, +1.

Ainsi est né le modèle BitNet b1.58 2B4T, publié en open source et rendu accessible via Hugging Face. Dans ce modèle de 2 milliards de paramètres, chaque octet utilisé contient 4 « trits ».
Résultat : le modèle complet tient dans 0,4 Go, soit six fois moins qu’un modèle INT8 classique et vingt fois moins qu’un FP16 de taille équivalente (2 milliards de paramètres).

Le modèle devient dès lors exécutable directement depuis n’importe quel CPU.

Derrière cette promesse d’ubiquité se cache une refonte radicale et ultra technique des couches linéaires du Transformer : les classiques « torch.nn.Linear » laissent place aux BitLinear, encodant chaque poids sur trois états (-1, 0, +1) via la quantification « absmean ». Couplée à des activations int8 et à une normalisation SubLN, la recette comprime le modèle complet à 0,4 Go tout en divisant par six la consommation énergétique et par deux la latence de décodage par rapport à des modèles en pleine précision de taille équivalente (29 ms par jeton sur CPU contre 41 à 124 ms pour la concurrence).
L’équipe a d’abord pré-entraîné le réseau sur quatre mille milliards de tokens mêlant web, code et mathématiques, avant de le passer en fine-tuning supervisé, puis en Direct Preference Optimization pour le rendre conforme aux attentes conversationnelles et sécuritaires. Fait notable, la phase SFT a tiré parti d’un taux d’apprentissage plus agressif que sur des modèles FP16, profitant d’une stabilité naturellement supérieure des représentations ternaires.

Le modèle 1bit à l’épreuve des Benchs

Sur quinze benchmarks couvrant compréhension, raisonnement, maths, code et dialogue, BitNet tient tête — voire dépasse — les leaders open-weight en pleine précision : il devance ainsi Llama 3.2-1B sur ARC-Challenge, bat Gemma-3-1B sur BoolQ et surclasse MiniCPM-2B en résolution de problèmes GSM8K, tout en restant à moins de deux points du meilleur score moyen de Qwen 2.5-1.5B. En face des versions INT4 de ce même Qwen, l’approche native 1 bit gagne encore en mémoire et retrouve un niveau de performance équivalent, sans la dégradation habituelle des post-quantifications.

Côté exploitation, Microsoft livre deux briques clés : un noyau CUDA spécialisé pour GPU (encore limité par l’absence d’instructions dédiées) et bitnet.cpp, une bibliothèque C++ permettant une inférence « lossless » sur CPU multithread.

À court terme, les chercheurs entrevoient des modèles 7 et 13 milliards de paramètres, une fenêtre de contexte élargie et l’extension au multilingue et au multimodal.

Au final, on retiendra surtout que l’approche des chercheurs de Microsoft prouve qu’un modèle « 1 bit » peut rivaliser avec les meilleurs modèles LLM pleine précision tout en rendant possible un déploiement sur simple CPU.
Cette recherche ouvre la voie à une IA bien plus frugale et bien plus alignée sur les contraintes de budget et d’empreinte carbone des DSI. Et c’est une excellente nouvelle. Reste désormais à poursuivre les recherches pour rendre cette nouvelle forme de modèles plus multimodale et universelle.

Pour en savoir plus : [2504.12285] BitNet b1.58 2B4T Technical Report

 

À lire également :

Des petits modèles de plus en plus intelligents et doués de raisonnement

OpenAI aussi se met aux modèles « Nano » avec GPT 4.1

Google lance Gemini 2.5 Flash, un modèle qui raisonne à faible coût…

Microsoft Magma : un modèle IA pour l’ère des agents et des robots

Phi-4, le nouveau petit modèle de Microsoft qui raisonne comme un grand

TerraMind : un modèle d’IA open source pour observer la Terre sous toutes les coutures

OpenAI lance ses modèles « o3 » et « o4-mini », des IA douées pour analyser les images, réfléchir et programmer