Lors de la récente Journée IA d’Intel, Intel a présenté une série de produits qu’il a l’intention d’utiliser pour décrocher GPU comme norme de facto pour l’apprentissage automatique démontrant sa volonté d’être un acteur majeur de l’intelligence artificielle.

D’in côté le matériel, de l’autre le logiciel. Tel est ainsi qu’est organisé l’informatique depuis des décennies. « Not so fast » comme on dit Outre-Atlantique car il est une existe une sorte de troisième voie consistant à embarquer du logiciel au plus près du matériel, si près qu’il y réside en permanence. C’est la voie du firmware qui cumule les avantages du logiciel, qu’il est possible de modifier, et du matériel, plus efficace. Le firmware interagit avec des composants matériels qui ne peuvent plus être modifiés une fois fabriqués, ce qui réduit la nécessité de le mettre à jour. Une voie qu’est qu’Intel a défriché depuis longtemps et va poursuivre pour répondre aux défis de calcul posée par l’intelligence artificielle.

Peut-être l’élément le plus surprenant de la feuille de route est la production du moteur Nervana (En août dernier, Intel a racheté la société Nervana spécialisée dans le deep learning pour 400M$), issue des travaux de la société éponyme. Intel revendique une position incomparable pour faire implémenter l’intelligence artificielle dans le data center. Avec les solutions à venir, Intel avance des chiffres ambitieux d’offrir une réduction par un facteur 100 du temps d’apprentissage des modèles de deep learning d’ici trois ans comparé aux solutions basées sur des GPU (Graphical Processing Unit). Intel poursuit donc sa stratégie Intel Inside consistant à intégrer de plus en plus de fonctionnalités au niveau des processeurs.

Au cours du premier semestre de 2017, Intel a l’intention de produire le premier processeur spécialisé baptisé « Lake Crest », un accélérateur d’apprentissage du deep learning conçu spécialement pour la formation de réseaux neuronaux. La conception est dérivée directement du moteur Nervana, juste en bas de la deuxième génération de mémoire haute bande passante (HBM2), qui sera intégré sur le composant. De la gestion de la mémoire logicielle aux « mathématiques éclectiques », il n’y a rien de général sur cette puce.

Lake Crest utilisera Flexpoint, un format numérique conçu uniquement pour les codes d’apprentissage de deep leaning. Selon Naveen Rao, ancien CEO de Nervana et aujourd’hui directeur général du groupe Intel Solutions d’Intel, Flexpoint ne s’appuie pas sur la notion de point fixe ou de point flottant (Fixed versus Floating Point), mais « quelque chose entre les deux ». Au-delà d’un niveau de performance bien plus élevé, Naveen Rao indique que la puce Lake Crest fournira jusqu’à 10 fois le parallélisme par rapport aux GPU les plus avancés d’aujourd’hui.

intel-2Schéma du Lake Crest (Source: Intel)

Un autre aspect unique de Lake Crest est l’absence de mémoire cache. Toute la mémoire locale sera gérée dans le logiciel, l’idée étant de fournir la quantité maximale de débit de données des accès de mémoire avec le moins d’énergie dépensée. C’est un modèle que les architectes spécialisés dans le HPC ont fait pendant quelque temps, mais la conception n’a jamais été utilisée dans les processeurs polyvalents.

La capacité de mémoire HBM2 sur le Lake Crest sera de 32 Go. C’est le double de la capacité des derniers périphériques GPU NVIDIA P100. La bande passante agrégée sera jusqu’à 8 To/s, ce qui correspond à environ 12 fois plus rapide qu’une quantité équivalente de mémoire DDR4. La plus grande capacité et l’accès plus rapide sont là pour permettre des modèles de formation plus importants.

La communication dans le processeur est fournie par 12 liaisons d’interconnectivité à large bande passante. Bien qu’aucune spécification ne soit actuellement disponible sur la technologie, elle est supposée être environ 20 fois la vitesse du bus PCIe et supportera des configurations évolutives.
Une des limitations actuelles de la construction de modèles de formation utilisant un grand nombre de nœuds. Selon Pradeep Dubey, Intel Fellow, Le fournisseur cherche à construire des réseaux neuronaux avec des dizaines ou des centaines de milliards de paramètres – quelque chose hors de portée sur le matériel actuel. Il ne suffit pas de construire des puces plus puissantes, elles doivent être connectées dans des tissus à hautes performances pour être en mesure de bien s’échelonner. Comme les autres applications HPC, l’apprentissage machine nécessite des besoins sans limite pour le calcul, certainement au-delà de tout ce que la loi de Moore peut offrir.

Du côté de l’apprentissage automatique, Intel s’appuiera sur une combinaison de processeurs Xeon et de circuit logique programmable (FPGA), au départ Intel Arria 10 FPGAs mais à terme une association Xeon-FPGA qui s’intègre bien dans le cloud où beaucoup de travail d’inférence va continuer.
Intel va donc pousser les processeurs Lake Crest mais va également proposer Knights Mill, la variante Xeon Phi conçu pour l’apprentissage automatique. Pour sa part, Knights Mill est censé offrir une performance quatre fois supérieure à celle de Knights Landing sur les charges de travail de type deep learning, dont une partie est attribuée à l’addition d’arithmétique à virgule flottante à demi-précision (FP16). Mais Knights Mill et Lake Crest sont orientés vers la formation des réseaux de neurones et les deux sont prometteurs d’une évolutivité supérieure par rapport aux composants GPU.

Intel a indiqué que le processeur « Knights Crest » serait disponible à horizon 2020. Alors que le nom suggère qu’il s’agit d’une sorte d’hybride entre un Xeon Phi et Lake Crest, il s’agit en fait d’un processeur Xeon intégré avec un accélérateur Crest Lake (ou, plus vraisemblablement, la deuxième génération de cette architecture).

Alors que Lake Crest et Knights Crest entraîneront de nombreux défis techniques, le risque plus intéressant pour Intel est la viabilité commerciale de ces produits. Pour tout processeur spécialisé, il doit y avoir un marché de taille raisonnable pour payer l’effort de R & D pour le créer. Le marché du machine learning a énormément de potentiel, mais pour l’instant, surtout du côté de la formation, il encore relativement étroit.