banner
Centre d'Information
Une expérience complète et des méthodologies avancées

Photobox développe une image beaucoup plus claire de l'observabilité

Aug 29, 2023

Photobox utilise la plateforme d'observabilité Dynatrace pour consolider toutes ses données de surveillance du système dans une seule interface. L'imprimerie personnalisée, qui fait désormais partie du groupe albelli-Photobox, avait introduit la plateforme avant la fusion fin 2022.

L'entreprise avait auparavant du mal à adopter une approche proactive face aux problèmes liés au système. Le personnel informatique de l'entreprise devait surveiller une pile technologique complexe construite sur AWS EC2 et des microservices exécutés sur Kubernetes et AWS Lambda.

Selon Alex Hibbitt, directeur de l'ingénierie chez albelli-Photobox Group :

La pile complexe a été créée par une série de fusions et d’acquisitions. Ce niveau de complexité devient incroyablement difficile à observer efficacement. Nous disposions d’au moins cinq plates-formes d’observabilité différentes, utilisant environ 10 technologies différentes. L’observabilité est devenue une compétence que seuls quelques-uns de nos ingénieurs vraiment chevronnés possédaient.

Hibbitt rappelle que l'identification des problèmes informatiques pouvait prendre jusqu'à quatre heures. La nature complexe de l’observabilité rendait le processus difficile à entreprendre. Il affirme que le manque d’observabilité efficace a créé des problèmes d’évolutivité et de réactivité :

C'était vraiment difficile pour nous de répondre à un problème. Si quelque chose se produisait, nous aurions besoin de contacter nos meilleurs dépanneurs et de les amener à se sentir dans l'éther et à dire : « Oh, on dirait que c'est quelque part par ici. Cette approche n'était pas très scientifique.

Cela a changé la donne pour nous en termes de capacité à répondre aux problèmes au sein de notre pile complexe et à appliquer nos connaissances sur les domaines dans lesquels nous concentrons nos efforts d'ingénierie.

L’entreprise a reconnu qu’elle devait adopter une approche différente. Dans un premier temps, l'entreprise a introduit son propre outil d'observabilité. Cependant, cette technologie sur mesure n’a fait qu’ajouter un niveau supplémentaire de complexité au lieu de créer de la valeur. À ce stade, Photobox a commencé à discuter avec des fournisseurs de technologie d’une solution potentielle au problème. Hibbit dit :

Nous avons dressé une liste de souhaits de ce que nous souhaitions : un outil unique qui pourrait tout couvrir, des services de base de données front-end aux services back-end. Nous voulions démocratiser l'accès à la plateforme, afin que n'importe quel ingénieur puisse suivre le processus et comprendre ce qu'il faisait. Et nous avions besoin de quelque chose qui améliorerait notre rapport signal/bruit, afin que nous puissions voir quelles alertes étaient vraiment importantes.

Après avoir utilisé la liste de souhaits pour identifier des solutions potentielles, Photobox a réalisé des essais de bas niveau avec quelques fournisseurs. L'équipe de Hibbitt a ensuite mené un projet pilote de longue durée avec sa solution préférée, Dynatrace. En raison de la complexité des systèmes exécutés chez Photobox, la société a mis en place un essai payant de six mois pour tester la plateforme et générer des données significatives fin 2021 :

À la suite de l’essai, nous avons été opérationnels dans tous nos environnements de production. Cette transition visait simplement à se connecter à une mise en œuvre à plus long terme. L'un de nos principaux points de test était : « Avons-nous la confiance nécessaire pour désactiver toutes nos anciennes plates-formes et compter uniquement sur Dynatrace ? La réponse a été « oui » – et c'est désormais un élément essentiel de notre pile technologique.

Hibbitt affirme que l'introduction des capacités d'automatisation et d'AIOps de Dynatrace a produit d'importants avantages. Photobox a réduit le délai moyen de résolution des problèmes de 80 % et réduit de 60 % le nombre d'incidents critiques ayant un impact sur la disponibilité du service pendant les périodes de pointe. L'un des principaux avantages de l'approche Dynatrace réside dans les cartes problématiques de la plateforme :

Les cartes rassemblent toutes les différentes mesures connexes qui auraient pu mal tourner lors d'un incident et les présentent sous une vue globale. Cela fait deux choses vraiment cool. Premièrement, cela vous donne une idée du nombre de clients touchés par un problème, ce qui aide nos ingénieurs à quantifier si quelque chose est vraiment important. Deuxièmement, il effectue une analyse des causes profondes, dans le cadre de laquelle il identifie le problème potentiel. Et dans une organisation distribuée basée sur des microservices comme la nôtre, c'est incroyablement utile.