Capacity management : l'angle mort qui coûte le plus cher

Personne, jamais, n'est venu me voir pour me dire : « J'ai un problème de capacity management. » En revanche, j'ai entendu mille fois : « Ça rame » et, ces dernières années, son inséparable jumeau : « La facture cloud explose. » Ces deux phrases décrivent le même angle mort, vu de deux côtés. Et c'est précisément parce que personne ne le réclame nommément qu'il coûte si cher.

Deux faces d'une même pièce

Le capacity management vit dans une tension permanente entre deux peurs :

La saturation : ne pas avoir assez de ressources, et voir le service se dégrader, ramer, tomber. C'est la peur des exploitants.
Le gaspillage : en avoir trop, payer pour du vide, et voir la facture grimper. C'est la peur de la direction financière.

Pendant longtemps, dans le monde du datacenter, on a tranché en faveur de la première : on surdimensionnait. Le matériel était un coût immobilisé, acheté une fois ; autant prendre de la marge. Le gaspillage était invisible, dilué dans l'amortissement. Le cloud a fait voler ça en éclats.

Dans le cloud, chaque ressource oubliée est une ligne sur la facture du mois. La capacité n'est plus un sujet technique : c'est de la trésorerie.

Le cloud a rendu l'invisible brutalement visible

À l'ère du cloud, la capacité se paie à l'usage, tous les mois, en clair. Une instance surdimensionnée, un volume oublié, un environnement de test laissé allumé tout le week-end : tout cela se lit noir sur blanc sur la facture. Le gaspillage est sorti de l'ombre. Et avec lui, la question du capacity management — qu'on croyait réservée aux grands mainframes — est revenue au premier plan, sous un nouveau nom à la mode, mais avec les mêmes principes intemporels.

Arrêter de piloter dans le rétroviseur

La plupart des organisations « font de la capacité » de la pire façon qui soit : en réaction. On attend que ça sature pour ajouter, on attend la facture pour s'alarmer. C'est piloter en regardant dans le rétroviseur. Le capacity management sérieux est prédictif :

Il s'appuie sur des tendances. Utilisation réelle, historiques, saisonnalité : on ne dimensionne pas sur un pic isolé ni sur une moyenne trompeuse.
Il anticipe la demande. Une campagne, un lancement, une clôture comptable : la capacité doit être pensée en fonction du métier, pas seulement des métriques techniques.
Il identifie le gras. Ressources surdimensionnées, instances dormantes, volumes orphelins : le right-sizing et la récupération du dormant, c'est de l'argent immédiat.

Sur le terrain

Une DSI paniquée par une facture cloud en hausse de 40 % en un an. En croisant l'utilisation réelle avec le dimensionnement, le constat était sans appel : près d'un tiers des instances étaient surdimensionnées, et des dizaines d'environnements hors-production tournaient 24 h/24 sans raison. Pas besoin de couper dans le vif : rien que le right-sizing et l'extinction programmée du hors-prod ont effacé l'essentiel de la hausse. La capacité, ce n'est pas se serrer la ceinture : c'est arrêter de payer pour du vide.

Relier la capacité au métier

L'erreur classique, c'est de raisonner en pourcentages de CPU et de mémoire. Mais la direction ne parle pas en CPU : elle parle en commandes traitées, en clients servis, en transactions à l'heure. Le capacity management qui a de la valeur fait le pont entre les deux : « si l'activité croît de 20 %, voici ce qu'il faudra, quand, et combien ça coûtera. » Ce langage-là, les directions l'entendent. Et c'est à ce moment précis que la capacité cesse d'être un sujet d'exploitant pour devenir un sujet de pilotage.

À retenir

Personne ne réclame de capacity management ; tout le monde réclame ses deux symptômes : lenteur et facture.
Le cloud a rendu le gaspillage visible et immédiat : la capacité, c'est désormais de la trésorerie.
Passez du réactif au prédictif : tendances, saisonnalité, anticipation de la demande.
Le right-sizing et la récupération du dormant, c'est de l'argent disponible tout de suite.
Traduisez la capacité en langage métier, pas en pourcentages de CPU.

Ce que ça donne avec une bonne plateforme

Pour sortir du rétroviseur, j'outille la capacité avec BMC Helix Capacity Optimization : analyse de l'utilisation réelle du datacenter au cloud, détection des ressources surdimensionnées et dormantes, simulation de scénarios de demande, et recommandations de right-sizing chiffrées. Parce que cette brique s'appuie sur la même CMDB et la même supervision que le reste de la plateforme, la capacité n'est plus une étude isolée sortie une fois par an : c'est un pilotage continu, qui relie l'utilisation technique aux coûts et à la demande métier. L'angle mort devient un tableau de bord.

L'auteur

John Doe

20 ans à remettre d'aplomb des SI de production : banques, industrie, opérateurs télécoms et secteur public. Sur ce blog, je partage sans filtre ce que le terrain m'a appris — et pourquoi je déploie BMC Helix.

Capacity management : l'angle mort qui coûte le plus cher

Deux faces d'une même pièce

Le cloud a rendu l'invisible brutalement visible

Arrêter de piloter dans le rétroviseur

Relier la capacité au métier

À retenir

Ce que ça donne avec une bonne plateforme

L'auteur

À lire ensuite

La CMDB n'est pas une base de données, c'est une discipline

Peupler sa CMDB sans y passer ses nuits : éloge de la découverte automatisée

ITSM : quand le processus finit par étouffer le service

Un chantier CMDB, ITSM ou AIOps qui patine ?