defaillance de serveur que faire ?
Combattre les pannes de serveurs
Pour combattre ces défaillances de serveurs, il s’agit de lutter contre les risques réels à travers des mesures de prévention. Celles-ci se réfèrent en général à une série de mesures organisationnelles pour le choix et la conception de l’environnement des serveurs.
Protection incendie et système d’alimentation
Pour protéger des serveurs d’influences physiques telles que des incendies, inondations, pannes d’électricité ou encore d’actes de sabotage, votre salle des machines doit être équipée en conséquence. Cela commence dès le choix de son emplacement. Les caves ne sont pas recommandées pour les risques d’inondation qu’elles comportent. Par ailleurs, l’accès à cette salle devrait être limité aux spécialistes et cette dernière devrait être équipée de cloisons de sécurité. Ces espaces ne doivent, durablement, pas être pensés comme des places de travail.
Les dégâts engendrés par des incendies peuvent être parés via des systèmes de protection incendie. Cela regroupe aussi bien l’installation de portes incendie, de dispositifs de détection de fumée, d’extincteurs portatifs, ou encore de systèmes d’extinction automatiques (à gaz par exemple). D’autres mesures préventives consistent à se protéger de risques d’incendies en utilisant des matériaux (machines, câbles, etc.) convenables et résistants au feu et en évitant tout produit inflammable.
Les appareils électroniques produisent de la chaleur. Une augmentation de la température dans la salle du serveur peut être la conséquence de l’ensoleillement tout simplement. Pour éviter les défaillances de serveur et les données erronées, des appareils de ventilation et des systèmes de refroidissement plus performants peuvent être utilisés. Les conditions optimales de stockage pour les médias de stockage de longue durée sont les suivantes : une température se situant entre 20 et 22 degrés et une humidité de 40 pourcent.
Une condition fondamentale pour le fonctionnement du serveur sans interruption est une alimentation constante en courant. Une interruption de plus de 10 ms est déjà considérée comme un dérangement. Pour cela, vous pouvez mettre en place un pont électrique à l’aide d’une alimentation de secours. Cela permet une exploitation autosuffisante de l’électricité, indépendamment du service public d’électricité, lorsqu’une interruption de cette dernière survient.
Fiabilité et disponibilité
Les entreprises de taille moyenne sous-estiment très souvent les conséquences de telles pannes de systèmes informatiques sur leur activité. Une raison à cela est la haute fiabilité des composants standards utilisés aujourd’hui en entreprise. Leur disponibilité est en général de 99,9 pourcent. Un chiffre qui peut paraître élevé, mais qui peut engendrer une interruption maximale de 9 heures sur une année en exploitant les ressources 24 heures sur 24. Si une interruption survient à un moment de grande affluence, l’entreprise peut payer très cher une indisponibilité relativement courte. Ces systèmes informatiques d’une haute disponibilité de 99,99 pourcent sont d’ailleurs utilisés comme standard pour la mise à disposition de données sensibles. Avec ce type de matériel, un temps d’arrêt maximal de 52 minutes par an est garanti. C’est pour cela que les experts parlent d’un système informatique à très haute disponibilité.
Le problème de ces chiffres sur la disponibilité est qu’ils concernent uniquement le matériel du serveur. Selon la définition duIEEE (Institute of Electrical and Electronics Engineers), un système hautement disponible est caractérisé en tant que tel lorsqu’il assure la sécurité des ressources informatiques même quand il y a une panne d’un composant système :
„High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system.”
Une telle disponibilité est atteinte avec l’utilisation de serveurs redondants. Tous les composants importants, en particulier les processeurs et unités de stockages et I/O sont mis deux fois chacun à disposition. Cela permet d’empêcher qu’un composant défectueux ne paralyse le serveur. Mais une haute disponibilité ne protège pas contre les incendies, logiciels malveillants, attaques par deni de service sabotages ou encore la reprise du serveur par un pirate. Pour ces raisons, les entrepreneurs ont dû prévoir des temps d’arrêt bien plus longs et prendre les mesures correspondantes de prévention et de prise en charge des dégâts.
Il existe d’autres stratégies pour compenser la défaillance de ressources dans un service informatique comme un système de secours ainsi qu’une grappe de serveurs pour assurer une haute disponibilité en toute situation. Les deux approches se basent sur une association de deux serveurs ou plus, permettant de mettre plus de ressources matérielles à disposition que ce qu’une activité normale ne nécessite.
Un système de secours est un second serveur assurant la protection du serveur primaire et prenant en charge ses fonctions en cas de problème matériel ou logiciel. La prise en charge du service est appelée basculement et est automatiquement introduite par le groupement de logiciels de gestion sans intervention de l’administrateur. Une telle construction de nœuds actifs et passifs en tant que groupe de disponibilité asymétrique est envisageable. On parle de structure asymétrique lorsque tous les nœuds du groupe permettent un fonctionnement normal du service.
Etant donné que la migration d’un service d’un système sur un autre entraîne un retard, on ne peut complètement empêcher l’interruption du service sur des systèmes de secours ou des grappes à haute disponibilité.
Systèmes de défense
Différents programmes sont à disposition des Webmasters pour se protéger de l’influence des hackers, en repérant les intrusions et en s’en protégeant. Pour protéger un serveur d’accès non autorisés, les systèmes critiques sont isolés des réseaux publics via des pare-feu et zones démilitarisées (DMZ .
Les systèmes de reconnaissance d’intrusions, ou Intrusion Detection Systems (IDS), permettent une surveillance automatisée des serveurs et réseaux, et sonnent l’alarme lors de tentatives d’intrusion ou d’attaques automatisées via des logiciels malveillants : un processus qui s’appuie sur un modèle de reconnaissance et d’analyse de statistiques. Si des Intrusion Prevention Systems (IPS) sont mis en place, des mesures de protection automatisées suivent cette alarme. Une connexion au pare-feu est nécessaire, pour que des paquets de données puissent être rejetés, ou que des connexions suspectes soient interrompues.
Afin de tenir les hackers à l’écart des systèmes informatiques critiques, les administrateurs se servent de ce qu’on appelle des Honeypots. Ces derniers apparaissent comme des cibles de choix aux yeux des cybercriminels, fonctionnent de manière isolée du système de production et n’ont donc pas d’influence sur son fonctionnement. Ces Honeypots sont surveillés constamment et ils permettent de réagir à des agressions et d’analyser les modèles d’attaque utilisés ainsi que les stratégies actuelles.
Sécurité et récupération des données
Afin de vite récupérer des données commerciales sensibles en cas de panne de serveur, il est recommandé d’élaborer un concept de sauvegarde informatique conforme aux standards industriels internationaux comme ISO 27001. Ceci permet de déterminer qui est responsable de la sauvegarde informatique et de nommer les personnes ayant un pouvoir de décision en cas de récupération de données. Un tel concept de sauvegarde informatique détermine par ailleurs quand une restauration doit être effectuée, combien de générations doivent être sauvegardées, quel média de stockage doit être utilisé et si des modalités spéciales de transfert comme un cryptage sont nécessaires. Le type de sauvegarde est par ailleurs défini :
- Sauvegarde complète des données : si toutes les données à enregistrer sont déposées à une certaine heure sur un système de stockage supplémentaire, on parle de sauvegarde informatique pleine. Si les données ont changé depuis le dernier processus de sauvegarde, cela ne sera pas pris en compte avec de telles sauvegardes. Une sauvegarde complète des données prend pour cette raison beaucoup de temps et exige une capacité de stockage élevée, surtout lorsque plusieurs générations de données sont conservées parallèlement. Ce type de sauvegarde informatique marque cependant des points via une récupération de données simple et rapide, car seule la dernière sauvegarde stockée doit être reconstituée. Mais les entreprises perdent cet avantage lorsque les sauvegardes sont effectuées trop rarement. Un tel cas implique une plus grande quantité de travail pour adapter les fichiers modifiés avec l’état actuel.
- Sauvegarde incrémentale des données : si des entreprises se décident pour une sécurité de données incrémentale, la sauvegarde ne concerne que les données qui ont été modifiées depuis la dernière sauvegarde. Cela réduit ainsi le temps nécessaire pour effectuer une sauvegarde, mais cela n’est pas tout. Le besoin en capacité de stockage pour différentes générations est également sensiblement plus faible qu’avec une sauvegarde complète. Une sauvegarde informatique incrémentale présuppose au moins une sauvegarde complète. En pratique, cela aboutit souvent à des combinaisons de stratégies de stockage. Lors d’une récupération de données, c’est la sauvegarde complète qui sert de base et qui est complétée par les données des cycles de sauvegardes incrémentales. En général, plusieurs sauvegardes informatiques doivent être ajustées l’une après l’autre.
- Sauvegarde différentielle : même une sauvegarde différentielle est construite sur une sauvegarde complète. Toutes les données qui ont été modifiées depuis la dernière sauvegarde complète sont sauvegardées. A la différence d’une sauvegarde incrémentale, il ne s’agit pas d’un engrenage de sauvegardes. Une adaptation de la dernière sauvegarde complète avec la sauvegarde différentielle actuelle suffit à une récupération de données.
La stratégie de sauvegarde à mettre en place dans votre entreprise dépend du besoin de disponibilité ainsi que divers aspects économiques. Les principaux facteurs de sélection sont la tolérance aux temps de récupération de données, la fréquence, les dates des sauvegardes ainsi que le rapport entre volume de modifications et volume total de données. Si ces derniers sont plus ou moins superposables, l’économie d’espace via les processus incrémentaux ou différentiels est négligeable.
Formations
Il n’est possible de prendre des mesures relatives à sécurité de l’information que lorsque les employés sont conscients de son impact sur la situation économique de l’entreprise. Une telle prise de conscience autour de la sécurité se développe à travers des formations régulières qui sensibilisent les employés aux risques internes et externes ainsi qu’à leurs conséquences.
Ces informations permettent de comprendre à l’utilisation et la mise en place d’appareils en termes de sécurité ainsi que les concepts d’urgence afin de faciliter un retour à la normale aussi vite que possible en cas de défaillance.