EV Observe - Résoudre les problèmes d'indisponibilité d'une Box

Modifié le 11/08/2022 19:13

L'autosupervision des Box et la supervision croisée via une autre Box sont indispensables pour s'assurer du bon fonctionnement des Box déployées sur la plateforme EV Observe, et donc s'assurer que la plateforme fonctionne bien  - Open url.png voir Superviser une Box

Il arrive cependant que des Box connaissent des indisponibilités. Des actions correctrices permettent alors de rétablir la communication entre la Box et la plateforme EV Observe.

Marche à suivre pour corriger une indisponibilité d'une Box

1. Répertoriez le problème constaté sur la Box.

     Open url.png voir Quels sont les problèmes constatés

2. Effectuez les actions correctrices permettant de résoudre le problème.

     Open url.png voir Comment résoudre les problèmes d'indisponibilité

3. Si le problème persiste, déclarez un incident sur le site Support EasyVista, en fournissant les informations nécessaires.

4. Après examen des éléments fournis, le support EasyVista vous fournira les solutions pour remédier à vos problèmes d'indisponibilité.

Quels sont les problèmes constatés ?

Problème constaté Actions correctrices
Connexion au tunnel VPN impossible Suivez la procédure Vérification des accès réseaux
Forte latence de la Box dans le tunnel VPN Suivez la procédure Vérification des accès réseaux
Pertes de connexion intempestives Suivez la procédure Vérification des accès réseaux
Tous les points de contrôle sont en état Indéterminé
Horodatage des contrôles effectués par la Box très ancien Suivez la procédure Redémarrage des processus remoteOperationBox et nagios
Impossible de recharger la configuration sur la Box Suivez la procédure Redémarrage des processus remoteOperationBox et nagios
Les acquittements ne sont pas pris en compte Suivez la procédure Redémarrage des processus remoteOperationBox et nagios
Les contrôles immédiats lancés depuis l'application web ne sont pas pris en compte Suivez la procédure Redémarrage des processus remoteOperationBox et nagios

Comment résoudre les problèmes d'indisponibilité d'une Box

Vérification des accès réseaux

Étape 1 : Vérification des performances de la Box
1. Vérifiez les performances de la Box instable.

2. Ajoutez si nécessaire des ressources sur la charge CPU, la RAM, l'espace disque.

Étape 2 : Vérification de l'horodatage de la Box

1. Vérifiez que la Box instable est à l’heure, en exécutant la commande ci-dessous.

date

2. Corrigez si nécessaire la date et l'heure.

Étape 3 : Vérification des règles de pare-feu

1. Vérifiez qu’aucune modification / suppression des règles du pare-feu n’a été effectuée récemment.

2. Corrigez si nécessaire les règles.

Étape 4 : Vérification de la connexion de la Box au port VPN

1. Vérifiez que la Box instable a accès au port VPN EV Observe en sortie vers la plateforme centrale, en exécutant les commandes ci-dessous suivant votre plateforme.

  • Vous avez une plateforme https://servicenav.io

    telnet vpn.servicenav.io $(awk -F ‘[ ]’ ‘NR==42 {print int($3)}’ /etc/openvpn/client.conf)

  • Vous avez une plateforme https://azure.servicenav.io

    telnet vpn-azure.servicenav.io $(awk -F ‘[ ]’ ‘NR==42 {print int($3)}’ /etc/openvpn/client.conf)

  • Vous avez une plateforme OnPremise

    telnet <ip-publique-plateforme> <port>

Le résultat ci-dessous s'affiche lorsque la Box a accès au port VPN EV Observe.
       Check network access - VPN tunnel OK.png

2. Corrigez si nécessaire au niveau du pare-feu.

Étape 5 : Vérification de l’adresse IP LAN de la Box

1. Vérifiez que l’adresse IP LAN de la Box instable n'est pas également attribuée à une autre machine sur le même réseau.

Redémarrage des processus remoteOperationBox et nagios

  • Le processus remoteOperationBox assure l’envoi et la réception de messages entre la Box et la plateforme centrale. S’il ne fonctionne plus :
    • Les données supervision collectées par la Box ne sont plus envoyées à la plateforme centrale.
    • Toutes les actions effectuées sur l'application web en direction de la Box ne sont plus transmises.
  • Le processus nagios assure l’ordonnancement des points de contrôle. Il communique avec le processus remoteOperationBox pour prendre en compte des exécutions de contrôle immédiats ou des acquittements réalisés par l'application web.

Étape 1 : Connexion à la Box

1. Connectez-vous à la Box instable avec un client SSH.

Étape 2 : Arrêt du processus remoteOperationBox

1. Arrêtez le processus remoteOperationBox, en exécutant la commande ci-dessous.

service remoteOperationBox stop

2. Vérifiez que plus aucun processus remoteOperationBox ne tourne, en exécutant la commande ci-dessous.

ps aux | grep remoteOperationBox

3. Tuez manuellement les instances de processus qui tournent toujours, en exécutant les commandes ci-dessous.

Remplacez <id> par l'ID de l'instance de processus.

kill <id>

ou en cas de résistance :

kill -9 <id>

Étape 3 : Arrêt du processus nagios

1. Arrêtez le processus nagios, en exécutant la commande ci-dessous.

service nagios stop

2. Vérifiez que plus aucun processus nagios ne tourne, en exécutant la commande ci-dessous.

ps aux | grep nagios

Note : L’arrêt de nagios peut prendre un peu de temps. Dans ce cas, exécutez plusieurs fois la commande ps.

3. Ttuez manuellement les instances de processus qui tournent toujours, en exécutant les commandes ci-dessous.

Remplacez <id> par l'ID de l'instance de processus.

kill <id>

ou en cas de résistance :

kill -9 <id>

Les processus remoteOperationBox et nagios sont arrêtés. Plus aucun processus n'est présent en sortie de la commande ps.

Étape 4 : Redémarrage des processus

1. Relancez le processus nagios, en exécutant la commande ci-dessous.

service nagios start

2. Relancez le processus remoteOperationBox, en exécutant la commande ci-dessous.

service remoteOperationBox start

  • Vérifiez la présence des 6 instances du processus.
           Check remoteOperationBox process - Instances OK.png

3. Vérifiez que le fonctionnement de l'application web est de nouveau effectif.

Tags :
Powered by XWiki © EasyVista 2022