HPE et DELL EMC alertent les administrateurs de bugs critiques dans certains firmwares des SSD de leurs serveurs et baies de stockage, bug entraînant la panne des disques après 32 768 ou 40 000 heures d’utilisation.

Il y a quelques semaines, HPE indiquait dans une note technique que l’un de ses fournisseurs de SSD l’avait averti d’un bug dans leur firmware entraînant le dysfonctionnement des disques après 3 ans, 270 jours et 8 heures d’utilisation… Ne cherchez pas, cela correspond exactement à 32 768 heures d’utilisation. Autrement dit, pour contrôler la durée d’utilisation des lecteurs SSD, les développeurs avaient utilisé un entier 8 bits signé entraînant le plantage du firmware une fois cette limite atteinte. Oups…

Les stockages SSD SAS des HPE ProLiant, Synergy, Apollo, Synergy D3940 Storage Module, HPE ConvergedSystem, D3000/D6000/D6020 Disk Enclosures, MSA Storage, StoreEasy 1000 Storage, StoreVirtual 4335 Hybrid Storage et StoreVirtual 3000 Storage sont potentiellement affectés s’ils sont équipés de SSD avec un firmware antérieur au 9 décembre 2019 et s’ils appartiennent à une génération déployée entre 2015 et 2018.

Mais ce bug des 32768 heures n’est pas le seul récemment découvert dans le firmware des SSD.

La semaine dernière, HPE annonçait dans une nouvelle note technique que d’autres SSD animés par un autre firmware (HPD7) étaient, eux aussi, affectés par un bug similaire qui allait entraîner la panne des disques après 40 000 heures d’utilisation ! Il semble que ce soit là un test avec une valeur fixée de façon arbitraire qui soit à l’origine du bug : vos disques SAS entre 200 Go et 1,6 To avaient le droit de fonctionner 4 ans, 206 jours et 16 heures avant de s’éteindre…

HPE n’est pas le seul à se retrouver confronté à cet étrange bug des 40 000 heures. Dell EMC a également annoncé que certains de ses serveurs et baies utilisaient des SSD affectés du même bug.

Ils semblent que les disques en cause proviennent de Sandisk, un constructeur réputé dont les disques SSD se retrouvent aussi bien dans les serveurs que dans les ordinateurs personnels.

Les administrateurs sont invités à accorder la plus grande attention aux bulletins émis par les deux constructeurs et à mettre à jour les firmwares de leurs SSD dans les plus brefs délais, ce qui, en cette période de confinement et de perturbation du fonctionnement des équipes IT est une très mauvaise nouvelle.

Ces incidents doivent aussi inviter les utilisateurs PC à s’interroger sur les SSD de leurs machines et à contrôler leur firmware en se référant aux sites des constructeurs et en utilisant un utilitaire permettant de contrôler les informations techniques de son SSD tels que l’outil open source CrystalDiskInfo par exemple.
Mais attention, procédez toujours à une sauvegarde préalable de vos données avant de lancer une mise à jour firmware d’un disque! Les risques de perdre tout le contenu du disque n’étant pas négligeable…
Rappelez vous que la Loi de Murphy reste incontournable dans cette situation  : « Tout ce qui est susceptible d’aller mal, ira mal…« 

Pour en savoir plus :
HPE Customer Bulletin : https://support.hpe.com/hpesc/public/docDisplay?docLocale=en_US&docId=a00097382en_us
DELL EMC Support : https://www.dell.com/support/home/us/en/04/drivers/driversdetails?driverid=8h6hj