Avec FunctionGemma, Google mise sur la spécialisation plutôt que l’inflation de paramètres. Ce SLM est dédié au function calling et à l’ère de l’automatisation agentique. Déployé en local, il devient la brique qui agit sous les ordres des grands modèles qui discutent et planifient. , où les gros modèles planifient et les petits exécutent. Un modèle qui comprend une demande et déclenche l’API qui va bien. Un modèle ultra-compact qui vise le déterminisme et la vitesse et peut s’exécuter en local, y compris sur un smartphone.
Si 2025 nous a appris quelque chose en matière d’IA, c’est bien que les petits modèles « SLM » pouvaient se montrer souvent plus pertinents pour les entreprises que les grands modèles « LLM » parce qu’ils peuvent être exécutés localement dans les datacenters des entreprises voire sur les PC, qu’ils sont aisément personnalisables et « fine-tunables » par les entreprises et parce qu’ils sont bien plus économes et économiques.
Ce basculement n’a rien d’un effet de mode. Il reflète une réalité d’architecte de SI. Dès que l’on parle de latence, de maîtrise des coûts d’inférence, de confidentialité des données, d’empreinte énergétique ou d’industrialisation à grande échelle, la promesse des modèles « compacts mais bien entraînés » devient très concrète. Avec au final, des IA d’entreprise plus faciles à passer à l’échelle et à gouverner.
Tout un écosystème de SLM
Pas étonnant dès lors que l’écosystème des SLM se soit tant densifié ces derniers mois. Microsoft structure sa famille Phi comme des « small language models » pensés pour embarquer de l’IA au plus près des usages, y compris sans connexion cloud. Son modèle Phi Silica est train de totalement bouleverser le visage de Windows et des applications Windows.
IBM pousse Granite avec une logique de modèles orientés entreprise et de compromis assumé entre puissance, vitesse et sobriété.
Meta décline Llama en petites tailles, dont des variantes 1B et 3B, explicitement calibrées pour l’edge.
Mistral, de son côté, multiplie les formats « small » et « edge » en open source pour adresser le local et l’embarqué.
Alibaba enfin industrialise Qwen et ses déclinaisons 0.5B, 1.5B, 3B, précisément dans cette zone où l’inférence locale devient praticable.
Dans ce paysage très concurrentiel, Google avance sa propre proposition parallèlement à Gemini avec sa famille de modèles Gemma, une famille de modèles « open weights » construits à partir des mêmes briques de recherche et de technologie que celles mobilisées pour Gemini, avec l’idée d’offrir aux développeurs une base solide, déployable hors du cloud et adaptable.
Gemma n’est pas un modèle unique mais un portefeuille, avec des variantes orientées code, vision, sécurité ou embeddings, et surtout une déclinaison Gemma 3 disponible en plusieurs tailles, du très petit au nettement plus musclé.
Gemma 3 270M : petit, local, puissant
C’est là que Gemma 3 « 270M » se révèle un modèle assez fascinant, à contre-courant total de la course aux milliards de paramètres que Google et OpenAI se livrent sur Gemini et ChatGPT.
Sur le papier, un modèle de 270 millions de paramètres parait bien minuscule à l’échelle actuelle et en regard du millier de milliards de paramètres des modèles frontières.
Google a précisément conçu cette variante dès le départ comme un outil de spécialisation, pour le fine-tuning, avec de bonnes capacités pré-intégrées de suivi d’instructions et de structuration de texte.
Techniquement, le détail le plus intéressant est la manière dont le modèle « dépense » ses paramètres. Une part très importante est consacrée aux embeddings, du fait d’un vocabulaire massif de 256 000 tokens, ce qui aide à mieux gérer des termes rares, des identifiants, des libellés métiers ou des fragments semi-structurés, typiques des systèmes d’information. Autrement dit, on n’est pas face à un mini chatbot généraliste, mais face à une base compacte, pensée pour devenir redoutable une fois entraînée sur les données et les formats d’une entreprise.
Deux autres éléments renforcent l’intérêt du 270M pour les scénarios « terrain ». D’abord, l’efficacité énergétique revendiquée en local. Google évoque des tests internes sur Pixel 9 Pro, où le modèle quantifié en INT4 consommerait une fraction de batterie sur une série de conversations. Ensuite, la disponibilité de checkpoints « quantization-aware trained », autrement dit « prêts pour l’embarqué » grâce à un entraînement qui anticipe les effets de quantification. Cette technique permet de descendre en précision sans s’effondrer en qualité, ce qui est décisif pour tenir dans les contraintes mémoire et accélérer l’inférence. Dans la documentation Gemma 3, Google indique que les versions 270M et 1B restent sur un contexte maximal de 32k tokens, et donne des ordres de grandeur de mémoire particulièrement bas pour le 270M selon la quantification. Au final on obtient un modèle suffisamment petit pour se glisser dans des environnements contraints, mais suffisamment « propre » pour devenir, après tuning, un composant d’automatisation robuste.
FunctionGemma, le modèle de l’automatisation locale
Dérivant de Gemma 3 270M, FunctionGemma est le nouvel entrant de la famille Gemma. Il est une version spécialisée du plus petit des modèles de Google, spécialement « fine-tunée » et optimisée pour traduire une intention en langage naturel en actions exécutables via API, sous forme d’appels structurés.
Dit autrement, FunctionGemma est un modèle spécialisé dans l’automatisation des tâches numériques. Il n’est pas conçu pour briller en conversation libre, mais pour servir de pont entre une interface humaine et un plan d’exécution logiciel. Google parle de déterminisme obtenu par spécialisation : lorsqu’un modèle est spécialisé dès l’entraînement pour une tâche bien déterminée (comme le « function calling » ou l’appel de fonctions et API), son comportement devient plus prévisible et reproductible.
Pour Google, FunctionGemma est une brique idéale dans des systèmes IA à plusieurs étages. On confie au petit modèle, installé sur le PC, le smartphone ou un serveur Edge, toutes les demandes courantes et bien cadrées, celles qui reviennent souvent et se résument à déclencher une action précise. Et quand la demande est plus floue, plus longue, ou nécessite de vraiment analyser et raisonner, on bascule vers un modèle plus gros, plus puissant. Dit autrement, FunctionGemma est un parfait modèle pour animer des agents IA qui exécutent des actions après qu’un « grand modèle » ait préalablement analysé une demande complexe pour la décomposer en plus petites actions ordonnées.
Google a dévoilé plusieurs démonstrations et cas d’usage de son modèle FunctionGemma. Dans « Mobile Action », l’utilisateur exprime une intention simple, comme créer un événement de calendrier pour demain, ajouter un contact, afficher une localisation, activer la lampe torche, et le modèle choisit l’outil adéquat et produit l’appel de fonction correspondant.
Dans l’univers de l’entreprise, cela revient à disposer d’un assistant de proximité sur poste de travail qui peut créer un ticket ITSM dans ServiceNow avec les bons champs, ouvrir une demande d’accès dans l’IAM, lancer une tâche de remédiation sur une flotte de terminaux, ou déclencher une procédure standard d’onboarding RH, le tout sans que la requête quitte le réseau interne.
Dans un environnement industriel, FunctionGemma peut piloter des actions de supervision, ouvrir un incident, annoter une alerte, enrichir un événement avec un identifiant CI, ou pousser un correctif simple via un orchestrateur, tant que l’entreprise a défini les fonctions autorisées et les schémas de paramètres.
Reste la question de l’intégration. « Appeler une fonction » n’est pas qu’un problème de modèle, c’est un problème de gouvernance d’exécution. Définir le périmètre des actions, gérer l’authentification, tracer les appels, imposer des politiques, mettre des garde-fous métier, ce sont des sujets de plateforme, pas uniquement d’IA.
Par ailleurs, l’écosystème compte. Et Google fait bien les choses. FunctionGemma est distribué via Hugging Face et Kaggle, est disponible dans Vertex AI, et l’éditeur propose des parcours de fine-tuning simplifiés et de déploiement à l’edge.
Au fond, Gemma 3 270M et FunctionGemma racontent la même histoire sous deux angles complémentaires. D’un côté, un petit modèle conçu pour devenir très bon après spécialisation, grâce à une architecture et une quantification pensées pour le monde réel. De l’autre, une déclinaison qui assume une finalité opérationnelle, transformer la langue en exécution, avec une promesse de confidentialité, de latence et de fiabilité qui colle aux exigences des SI. Pour les entreprises, l’intérêt n’est pas de remplacer les grands modèles. Il est de construire une chaîne agentique de décision et d’action où le bon modèle est au bon endroit, au bon coût, avec le bon niveau de contrôle.





puis