EV Observe - Configurer les services

Modifié le 28/11/2023 14:17

Les services sont les contrôles effectués lors de la supervision des équipements pour vérifier leur bon fonctionnement.

Chaque service :

  • est rattaché à une société / site ;
  • est rattaché à un modèle de service duquel il hérite d'un ensemble de propriétés (informations de disponibilité et de contrôle nécessaires à la supervision des équipements liés) ;
  • peut être lié à un équipement ;
  • peut donner lieu à l'envoi de notifications lors d'un changement d'état ; un processus permet une escalade par niveau d’expertise sur 3 niveaux en l’absence d’acquittement d’un état par une équipe d’exploitation.

Exemples

  • Le service SQL - Connection failed est lié à plusieurs serveurs. Il est associé au modèle de service F_MS-Azure-PaaS-Metrics duquel il hérite des contrôles de supervision : supervision des métriques des objets PaaS Azure.
  • Politique de notification en cas de problème sur le service SQL - Connection failed :
    • Définition de plusieurs plages horaires de notification :
      • Plage 5h-12h pour l’équipe A
      • Plage 12h-20h pour l’équipe B
    • Un problème survient sur l'un des serveurs auxquels est lié le service :
      • Alerte à 10h : une notification est envoyée à l’équipe A.
      • Alerte à 13h : une notification est envoyée à l’équipe B.
      • Alerte entre 20h et 5h : aucune équipe n'est informée. Si le problème est toujours présent à 5h du matin, alors une notification est envoyée à l’équipe A.
  • Politique d'escalade en cas de problème sur le service SQL - Connection failed :
    • Notification en 24/7 vers un groupe de contacts Astreinte de niveau 1.
    • En cas de problème sur l'un des serveurs auxquels est lié le service, répétition des notifications vers le groupe Astreinte toutes les 3 minutes.
    • Dès que l’alerte est prise en compte par un membre du groupe Astreinte, les notifications et le processus d’escalade sont stoppés.
    • Si l’alerte n’est pas acquittée au bout de 15 minutes, il y a une escalade vers un groupe de contacts Managers d’astreinte de niveau 2 et l'envoi de notifications.

Remarques

  • Les services peuvent être liés aux équipements directement via les fiches Équipement, en sélectionnant un modèle d'équipement.
  • La configuration du processus d'escalade nécessite au préalable la configuration de la politique de notification pour le service .
  • Les seuils de détection des instabilités doivent respecter la syntaxe Nagios.

Bonnes pratiques

  • Utilisez les assistants de modification en masse ou l'import pour appliquer des changements à un ensemble de services  - Open url.png voir Procédure

exemple  Définir la même politique de notification pour tous les services ayant un niveau de criticité Haute, via l'assistant Modifier la politique de notification

Accès menu

Configuration > Services > Liste

Note : Accès aux fiches Détails des services : Supervision > Exploitation technique

Description des écrans

          Service.png

Informations générales

Modèle de service : Modèle de service auquel est rattaché le service.

  • Les valeurs configurées pour le modèle sélectionné sont automatiquement héritées dans l'onglet Disponibilité et contrôles.

Nom du service : Nom du service supervisé.

  • Par défaut, le nom du service est le nom du modèle de service.

   Si vous modifiez le modèle de service, le nom du service est automatiquement modifié. Vous devez alors le ressaisir.

Criticité : Niveau de criticité du service au sein du SI de la société si un dysfonctionnement survient.

Consigne : Texte libre ou lien (qui devient automatiquement cliquable) affiché lors d'un état non-OK, et permettant un traitement plus efficace de l'incident par l'équipe d'exploitation  - Open url.png voir URL de consigne

Documentation : Similaire à la consigne, en permettant de saisir des informations additionnelles utiles au traitement.

Informations complémentaires : Texte libre

Description : Description du rôle du service au sein du SI de la société.

Disponibilité et contrôles

Information de disponibilité :

  • Taux de disponibilité : Objectif du taux de disponibilité visé pour le service.
  • Période de disponibilité : Plage horaire durant laquelle le taux de disponibilité est calculé. Cela correspond généralement à la plage contractuelle (SLA).
     

Information de contrôle :

  • Période de contrôle : Plage horaire durant laquelle la supervision du service doit avoir lieu (exécution des contrôles).
    • La période doit être identique ou englober la totalité de la plage horaire définie pour le calcul du taux de disponibilité.
  • Intervalle normal de contrôle : Intervalle de temps entre 2 contrôles (en minutes).
  • Contrôles additionnels : Nombre de réitérations du contrôle devant être effectuées avant d'envoyer une première notification, en cas d'état anormal suite au contrôle initial.
    • Si des contrôles additionnels sont configurés, le statut non confirmé (SOFT) correspond au statut à l'issue du contrôle initial, et le statut confirmé (HARD) correspond au statut à l'issue du dernier contrôle additionnel.
    • La notification et le calcul du taux de disponibilité se font sur la base du statut confirmé.
    • Intervalle : Intervalle de temps entre 2 contrôles additionnels (en minutes).
    • Délai avant première notification : Délai calculé automatiquement à partir du nombre de contrôles additionnels et de l’intervalle de temps entre 2 contrôles additionnels.

exemple  Contrôles additionnels = 4 ; Intervalle = 5

  • Le contrôle de supervision est réitéré toutes les 5 minutes si un problème est détecté lors du contrôle initial, et ce jusqu'à 4 fois tant que le statut non confirmé reste non-OK.
  • Le délai avant de remonter la première notification ou le premier statut confirmé est égal à 20 minutes (4 * 5).
ServiceMonitoringAccounts

  • Compte de supervision protégé :
     

       Le champ est affiché uniquement si des informations de compte de supervision sont requises pour le fonctionnement du service.

    • Par défaut, le service utilise les informations de compte de supervision hérité de l'équipement, ou à défaut du site de rattachement de l'équipement, d'un site de niveau supérieur ou de la société.
    • Si une configuration spécifique à l'équipement est nécessaire, le compte doit être protégé.
       

      exemple  Informations d'authentification SNMP différentes, pour le service, de celles héritées de l'équipement

    • Cliquez sur Protégé : Oui pour protéger le compte de supervision au niveau du service, puis renseignez les informations de configuration contextuelles au type de compte. Les valeurs sont définies pour tous les équipements actuels et futurs liés au service.
    • Pour rétablir l'héritage du compte de supervision, cliquez sur Protégé : Non. Le niveau auquel le compte est défini est alors affiché en regard du champ.
       

      exemple  Compte d'héritage My Company

Action

Modèle d'action affecté au service, permettant de réaliser une action lors du changement d'état du service.

exemple  Redémarrer automatiquement le service Windows Update sur le serveur COPCGRE61 lorsque le service s’arrête.

  • Les paramètres à renseigner sont fonction du modèle d'action sélectionné.
  • Compte de supervision protégé :
     

       Le champ est affiché uniquement si des informations de compte de supervision sont requises pour le fonctionnement du modèle d'action.

    • Par défaut, le modèle d'action utilise les informations de compte de supervision hérité de l'équipement, ou à défaut du site de rattachement de l'équipement, d'un site de niveau supérieur ou de la société.
    • Si une configuration spécifique au modèle d'action exécuté par le service est nécessaire, le compte doit être protégé : cliquez sur Protégé : Oui, puis renseignez les informations de configuration contextuelles au type de compte. Les valeurs sont définies pour tous les équipements actuels et futurs liés au service.
       

      exemple  Informations d'authentification SNMP différentes, pour le service, de celles héritées de la société

    • Pour rétablir l'héritage du compte de supervision, cliquez sur Protégé : Non.

Notifications

Politique de notification définie pour le service, indiquant quels sont les événements déclencheurs et sur quelles plages horaires, et qui informer.

   Open url.png voir :

Activer les notifications : Permet de définir une politique de notification pour le service supervisé (option Oui - les champs ci-dessous sont affichés et doivent être configurés), ou de désactiver les notifications (option Non).

Champs à renseigner pour définir une politique de notification pour le service

Période de notification : Plage horaire durant laquelle les événements concernant le service supervisé sont notifiés.

  • Les événements en dehors de cette période ne sont pas notifiés, sauf si le problème est toujours présent lorsque la période de notification est de nouveau applicable.

Événement(s) à notifier : Types d'événements envoyant une notification.

  • Alerte : Notification envoyée lorsque le service est fonctionnel, mais qu'il nécessite une attention particulière afin d'anticiper et éviter un passage au statut Critique.
  • Inconnu : Notification envoyée lorsque le statut du service n'est pas connu par la supervision.
  • Critique : Notification envoyée lorsque le service n'est pas fonctionnel.
  • Retour à la normale : Notification envoyée lorsque le service revient dans un fonctionnement normal.
  • Instable : Notification envoyée lorsque le fonctionnement du service est jugé instable en fonction de seuils haut et bas de détection des instabilités.
    • Le taux d'instabilité d'un service est calculé à partir des 21 derniers états sauvegardés. Il est recalculé à chaque contrôle de supervision (les valeurs les plus anciennes ont un poids moins important que les récentes).
    • Le service est considéré comme instable si le taux d'instabilité dépasse le seuil haut de déclenchement.
    • Il est de nouveau considéré comme stable lorsque le taux d’instabilité passe sous du seuil bas de retour à la normale.

   Les seuils de détection des instabilités doivent respecter la syntaxe Nagios.

   Les notifications sont désactivées lorsque le service est en état instable afin de limiter le nombre d'alertes, et ce jusqu'au retour à un état stable.

Best Practice icon.png  Vous pouvez consulter la valeur du taux d'instabilité en temps réel dans l'onglet Informations générales de la fiche Détail du service (menu Supervision > Exploitation technique).

Contact(s) et groupe de contacts de niveau 1 : Liste des contacts / groupes de niveau 1 auxquels les notifications sur le service doivent être envoyées durant la plage horaire de notification.

  • Seuls les groupes de contacts et les contacts actifs sont visibles.

Escalades

   La configuration du processus d'escalade nécessite au préalable la configuration de la politique de notification pour le service .

      Open url.png voir Exemple

Escalade niveau 1 : Permet d'indiquer que la notification doit être répétée en l’absence d’acquittement d’un état par une équipe d’exploitation de niveau 1, après que le nombre de contrôles renseigné est atteint.

  • Les contacts de niveau 1 sont définis dans l'onglet Notifications.

Escalade niveau 2 / Escalade niveau 3 : Permet de notifier des contacts / groupes de contacts en l’absence d’acquittement d’un état par l'équipe d'exploitation de niveau inférieur, après que le nombre de notifications renseigné est atteint. La notification est répétée en l’absence d’acquittement d’un état, après que le nombre de contrôles renseigné est atteint.

Relations

Liste des équipements liés au service .

  • Les équipements peuvent être recherchés par leur nom, société / site, catégorie, étiquette, criticité.

   Cocher plusieurs équipements a pour effet de dupliquer le service sur chaque équipement. Un service est toujours rattaché à un seul équipement.

Procédures

Comment créer un service

Étape 1 : Sélection de la société sur laquelle le nouveau service va être implémenté

SelectCompanyInCompanyTree_Procedure

1. Allez dans l'application web.

2. Sélectionnez la société via l'arbre des sociétés.

Notes :

  • La société sélectionnée doit être rattachée à une Box.
  • Vous pouvez créer une nouvelle société  - Open url.png voir Procédure

    Company tree structure.png

Étape 2 : Création du nouveau service 

1. Allez sur l'écran Configuration > Services > Liste.

2. Cliquez sur l'onglet Mode : Box ou Mode : Agent suivant que la supervision s'effectue via une Box ou un agent.

3. Cliquez sur Ajouter.

4. Renseignez les informations du nouveau service en allant sur chaque onglet.

5. Cliquez sur Valider.

Le service est créé. Il est visible dans la société et tous ses sites de niveaux inférieurs.

   Si le nouveau service utilise les informations d'un compte de supervision, vous devez vérifier la bonne configuration du compte au niveau des équipements liés (fiche Équipement > onglet Comptes).

Étape 3 : Mise en supervision du nouveau service

1. Générez la configuration de la Box pour que le nouveau service soit reconnu.

  • Allez sur le menu Configuration > Général > Génération.
    Toutes les Box dont vous êtes l'administrateur et pour lesquelles la configuration n'est pas à jour sont affichées.
  • Cliquez sur Appliquer.
    • La configuration des Box est mise à jour.
    • La supervision du nouveau service démarre sur la Box à laquelle il est attaché.
    • Les notifications sont envoyées suivant la politique configurée.
    • Si un compte de supervision requis par un service n'est pas trouvé, ni par héritage ni en mode protégé, l'application de la configuration sera impossible et un message indiquera les comptes à renseigner.

2. Vérifiez que les données de supervision du service remontent sur la Box, via le menu Supervision > Exploitation technique.

Comment appliquer des changements en masse à une sélection de services

Best Practice icon.png  Vous pouvez également effectuer un import   - Open url.png voir Procédure

Étape 1 : Sélection de la société sur laquelle les changements vont être appliqués

SelectCompanyInCompanyTree_Procedure

1. Allez dans l'application web.

2. Sélectionnez la société via l'arbre des sociétés.

Notes :

  • La société sélectionnée doit être rattachée à une Box.
  • Vous pouvez créer une nouvelle société  - Open url.png voir Procédure

    Company tree structure.png

Étape 2 : Application des changements en masse

1. Allez sur l'écran Configuration > Services > Liste, puis cliquez sur l'onglet Mode : Box ou Mode : Agent suivant que la supervision s'effectue via une Box ou un agent.

2. Cochez les services à modifier.

3. Cliquez sur Plus dans la barre d'outils et sélectionnez l'assistant souhaité.

          Mass update for services.png

4. Renseignez les informations propres à l'assistant.

5. Cliquez sur Valider.

Les changements sont appliqués à tous les services sélectionnés.
 

Étape 3 : Prise en compte des changements par la Box

1. Générez la configuration de la Box, via le menu Configuration > Général > Génération.

Les changements sur les services sont pris en compte par la Box.

Tags :
Powered by XWiki © EasyVista 2024