Serveur qui s'emballe et qui plante.

Demande d'aide : c'est ici.
Répondre
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 5054
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

Salut,
J'ai un dédié chez OVH (Serveur Host-64 - 64G Opteron 4386 SoftRaid 2x2 To) qui s'est emballé et qui a fini par planter.
La montée en charge s'est passée sur plusieurs jours, et je ne m'en suis pas aperçu (j'étais évidemment hors connexion les jours ou ça s'est passé).

Le serveur est utilisé principalement pour de l'hébergement et du mail.
La charge sur postfix et amavis étaient normale pendant cette période.

CPU:
Image

Load:
Image


Je sais qu'a posteriori c'est compliqué... Mais est-ce que vous avez une piste pour m'aider à trouver le ou les coupables de cette surcharge ?
Merci pour vos pistes.

Edit: Charge réseau normale, pas de DDOS ou autre plaisanterie dans ce genre.
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 5054
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

Cette image est peut-être intéressante et peut aider (moi je n'arrive pas à la déchiffrer...):

Image
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
Avatar de l’utilisateur
Mimoza
Contributeur
Contributeur
Messages : 655
Inscription : 22 avr. 2016, 12:00
Localisation : Terre
Status : Hors-ligne

En effet ton dernier graphe est le plus intéressant je pense. Par contre c'est dommage d'avoir autant de lignes car on ne sais pas si le bleu est le IO-APIC-edge_rtc0 ou le TLB_shootdown. Bien que avec les chiffre on puisse penser que c'est ce dernier.
On voie aussi que le local_timer_interrupt fait aussi un légère monté.

Donc un proccess utilisateur s'est embalé et aurais bouffé toute la mémoire … mais lequel … difficile a dire sans un «top» durant ce laps de temps.
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 5054
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

Salut,
Merci pour la réponse.
Effectivement à postériori c'est compliqué...

J'ai l'impression que c'est le TLB_shootdown. Il faut que je creuse pour comprendre.
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
Avatar de l’utilisateur
Grhim
Membre très actif
Membre très actif
Messages : 1389
Inscription : 30 mai 2016, 01:00
Localisation : kekparr'par'là
Status : Hors-ligne

lol a écrit : Salut,
Merci pour la réponse.
Effectivement à postériori c'est compliqué...

J'ai l'impression que c'est le TLB_shootdown. Il faut que je creuse pour comprendre.
TLB c'est du cache , Translation Lookaside Buffer, apparement la memoire s'emballe

A quick example:

You have some memory shared by all of the processors in your system.

One of your processors restricts access to a page of that shared memory.

Now, all of the processors have to flush their TLBs, so that the ones that were allowed to access that page can't do so any more.

The actions of one processor causing the TLBs to be flushed on other processors is what is called a TLB shootdown.
petite conversion assez sympa qui ramene a stackoverflow d'ailleur

j'essai de creuser ...
Debian Stable + Testing -.- Parrot OS - Kali Exegol -.- Raspberry IPFire
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 5054
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

Hello,

Oui, je pense que c'est bien ça: une application à refusé de rendre la mémoire, du coup les autres se sont retrouvées à sec...
Je n'ai pas encore trouvé le processus coupable.
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
Répondre