Discussion:
hohe load average woher ?
Lentes, Bernd
2014-09-05 15:33:48 UTC
Permalink
Hi,

ich habe hier ein SLES 11 SP3 System, das ich erst vor kurzem installiert habe: 64bit Kernel 3.0.93-0.8-default, 8 Kerne, 72GB RAM.
Auf dem System läuft fast nichts. Trotzdem habe ich eine load average von ca. 9, sie steigt auch langsam an:

=================================================================
top - 16:21:39 up 108 days, 22:02, 3 users, load average: 9.18, 9.18, 8.90

Tasks: 219 total, 2 running, 216 sleeping, 0 stopped, 1 zombie

Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 99.3%id, 0.7%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu1 : 2.7%us, 0.0%sy, 0.0%ni, 97.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu2 : 0.0%us, 1.3%sy, 0.0%ni, 96.7%id, 2.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu3 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu4 : 2.3%us, 0.3%sy, 0.0%ni, 97.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu5 : 0.0%us, 0.7%sy, 0.0%ni, 99.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu6 : 0.3%us, 0.0%sy, 0.0%ni, 99.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu7 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

Mem: 72498M total, 72238M used, 260M free, 185M buffers
Swap: 2046M total, 84M used, 1962M free, 70689M cached

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2705 root 20 0 11232 1620 668 S 2 0.0 0:00.07 lsusb
12586 root 20 0 417m 21m 13m S 1 0.0 411:43.62 knotify4
2325 root 20 0 9028 1316 908 R 1 0.0 0:00.16 top
4868 root 20 0 8364 4416 228 S 0 0.0 59:22.23 haveged
...
===================================================================

Die Kerne haben nix zu tun und auf IO wird auch nicht gewartet. Lt. iotop passiert auch nix.
Wie man sieht, habe ich einen Zombie:

================================================================
sunhb58820:~ # ps aux|grep Z

USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 4763 0.0 0.0 4536 556 pts/5 S+ 16:26 0:00 grep Z
root 6146 0.0 0.0 0 0 ? Z Jun23 0:10 [kwin] <defunct>
===============================================================

Weiß einer was der kwin macht ? Das ist doch ein kernelthread, oder ? Beim googeln habe ich immer nur Treffer auf den Fenstermanager kwin gefunden. Ist das der ? Obwohl mein System im runlevel 3 läuft ? Ich verbinde mich allerdings manchmal mit dem host per X2go und starte dann z.B. den virt-manager. Es läuft aber keine VM im Moment.
Was mich auch noch wundert, ist das immer wieder in top der Prozess lsusb auftaucht, mit 1-2% Last. Und es ist immer wieder ein neuer Prozess, der hat jedes Mal eine andere PID.
Noch was interessantes: setze ich ein df -h ab (per ssh), bekomme ich von diesem Programm keine Antwort, es hängt einfach. Der Prozess fällt in "uninterruptable sleep", wartet also wohl auf IO.
Gleiches mit lsof:

==========================================================
sunhb58820:~ # top:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
30711 root 20 0 11100 1164 556 R 2 0.0 0:00.06 lsusb -s 4
28581 root 20 0 9032 1228 828 R 1 0.0 0:00.93 top
979 root 20 0 8616 140 0 D 0 0.0 0:00.00 lsof
6221 root 20 0 28340 1304 1004 D 0 0.0 65:20.76 cmahostd -p 15 -s OK -l /var/log/hp-snmp-agents/cma.log
9222 root 20 0 4324 724 620 D 0 0.0 0:00.00 df -h
11187 root 20 0 11300 1056 844 D 0 0.0 0:00.00 sh -c /usr/lib/x2go/x2golistsessions_sql sunhb58820 2>/dev/null
14938 root 20 0 899m 104m 14m D 0 0.1 761:56.15 python /usr/share/virt-manager/virt-manager.py
19808 root 20 0 4324 716 620 D 0 0.0 0:00.00 df -h
20013 root 20 0 422m 42m 11m D 0 0.1 0:00.62 python /usr/share/virt-manager/virt-manager.py
22803 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
23315 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
27168 root 20 0 8616 148 0 D 0 0.0 0:00.00 lsof
28497 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
=========================================================

Prozess 14938 hat eine wahnsinnig hohe Laufzeit.

Ich finde weder in dmesg noch in /var/log/messages etwas erhellendes.

Was macht der thread kwin ?
Wieso wartet "df" auf IO, obwohl da lt. iotop keine Last ist ?
Wo kommt die hohe load average her ? Diese ist übrigens beim Schreiben der e-mail schon angestiegen:

top - 17:25:37 up 108 days, 23:06, 3 users, load average: 12.76, 12.40, 11.46


Any idea ?


Bernd


P.S. Ich hatte sowas ähnliches schon einmal vor ein paar Monaten. Ein Reboot hat das Problem scheinbar gelöst, aber es taucht dann wohl wieder auf. Ich wollte eigentlich auf das System demnächst ein paar VM's legen, für den Betrieb :-(. Ich lasse jetzt mal atop mit laufen und logge jede Sekunde.



--
Bernd Lentes

Systemadministration
Institut für Entwicklungsgenetik
Gebäude 35.34 - Raum 208
HelmholtzZentrum münchen
***@helmholtz-muenchen.de
phone: +49 89 3187 1241
fax: +49 89 3187 2294
http://www.helmholtz-muenchen.de/idg

Die Freiheit wird nicht durch weniger Freiheit verteidigt



Helmholtz Zentrum München
Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH)
Ingolstädter Landstr. 1
85764 Neuherberg
www.helmholtz-muenchen.de
Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe
Geschäftsführer: Prof. Dr. Günther Wess, Dr. Nikolaus Blum, Dr. Alfons Enhsen
Registergericht: Amtsgericht München HRB 6466
USt-IdNr: DE 129521671
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Martin Schröder
2014-09-05 15:57:01 UTC
Permalink
Am 5. September 2014 17:33 schrieb Lentes, Bernd
Post by Lentes, Bernd
979 root 20 0 8616 140 0 D 0 0.0 0:00.00 lsof
6221 root 20 0 28340 1304 1004 D 0 0.0 65:20.76 cmahostd -p 15 -s OK -l /var/log/hp-snmp-agents/cma.log
9222 root 20 0 4324 724 620 D 0 0.0 0:00.00 df -h
11187 root 20 0 11300 1056 844 D 0 0.0 0:00.00 sh -c /usr/lib/x2go/x2golistsessions_sql sunhb58820 2>/dev/null
14938 root 20 0 899m 104m 14m D 0 0.1 761:56.15 python /usr/share/virt-manager/virt-manager.py
19808 root 20 0 4324 716 620 D 0 0.0 0:00.00 df -h
20013 root 20 0 422m 42m 11m D 0 0.1 0:00.62 python /usr/share/virt-manager/virt-manager.py
22803 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
23315 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
27168 root 20 0 8616 148 0 D 0 0.0 0:00.00 lsof
28497 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
Das ist die Load. Vermutung: Irgendein Dateisystem hängt.

https://en.wikipedia.org/wiki/Load_(computing)#Unix-style_load_calculation

Gruß
Martin
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Lentes, Bernd
2014-09-05 16:23:03 UTC
Permalink
Post by Martin Schröder
Am 5. September 2014 17:33 schrieb Lentes, Bernd
Post by Lentes, Bernd
979 root 20 0 8616 140 0 D 0 0.0 0:00.00 lsof
6221 root 20 0 28340 1304 1004 D 0 0.0 65:20.76 cmahostd -p 15 -s OK
-l /var/log/hp-snmp-agents/cma.log
Post by Lentes, Bernd
9222 root 20 0 4324 724 620 D 0 0.0 0:00.00 df -h
11187 root 20 0 11300 1056 844 D 0 0.0 0:00.00 sh -c
/usr/lib/x2go/x2golistsessions_sql sunhb58820 2>/dev/null
Post by Lentes, Bernd
14938 root 20 0 899m 104m 14m D 0 0.1 761:56.15 python
/usr/share/virt-manager/virt-manager.py
Post by Lentes, Bernd
19808 root 20 0 4324 716 620 D 0 0.0 0:00.00 df -h
20013 root 20 0 422m 42m 11m D 0 0.1 0:00.62 python
/usr/share/virt-manager/virt-manager.py
Post by Lentes, Bernd
22803 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
23315 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
27168 root 20 0 8616 148 0 D 0 0.0 0:00.00 lsof
28497 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
Das ist die Load. Vermutung: Irgendein Dateisystem hängt.
https://en.wikipedia.org/wiki/Load_(computing)#Unix-
style_load_calculation
Hallo Martin,


das ist ein guter link. Danke. Ich wußte nicht daß die mit State "D" auch dazugerechnet werden.
Ich werde jetzt mal nach und nach alles umounten, und dann schauen wir mal.


Bernd

Helmholtz Zentrum München
Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH)
Ingolstädter Landstr. 1
85764 Neuherberg
www.helmholtz-muenchen.de
Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe
Geschäftsführer: Prof. Dr. Günther Wess, Dr. Nikolaus Blum, Dr. Alfons Enhsen
Registergericht: Amtsgericht München HRB 6466
USt-IdNr: DE 129521671
�؞.+-y�󹷬��ez{�'$zt�y��xƢ�������ǝ{맲��r��z�^�ˬz��Rg^������vh���kj�+�竭蜅��r���
Lentes, Bernd
2014-09-05 16:53:22 UTC
Permalink
Post by Lentes, Bernd
Post by Martin Schröder
Am 5. September 2014 17:33 schrieb Lentes, Bernd
Post by Lentes, Bernd
979 root 20 0 8616 140 0 D 0 0.0 0:00.00 lsof
6221 root 20 0 28340 1304 1004 D 0 0.0 65:20.76 cmahostd -p 15 -s
OK
Post by Martin Schröder
-l /var/log/hp-snmp-agents/cma.log
Post by Lentes, Bernd
9222 root 20 0 4324 724 620 D 0 0.0 0:00.00 df -h
11187 root 20 0 11300 1056 844 D 0 0.0 0:00.00 sh -c
/usr/lib/x2go/x2golistsessions_sql sunhb58820 2>/dev/null
Post by Lentes, Bernd
14938 root 20 0 899m 104m 14m D 0 0.1 761:56.15 python
/usr/share/virt-manager/virt-manager.py
Post by Lentes, Bernd
19808 root 20 0 4324 716 620 D 0 0.0 0:00.00 df -h
20013 root 20 0 422m 42m 11m D 0 0.1 0:00.62 python
/usr/share/virt-manager/virt-manager.py
Post by Lentes, Bernd
22803 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
23315 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
27168 root 20 0 8616 148 0 D 0 0.0 0:00.00 lsof
28497 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
Das ist die Load. Vermutung: Irgendein Dateisystem hängt.
https://en.wikipedia.org/wiki/Load_(computing)#Unix-
style_load_calculation
Hallo Martin,
das ist ein guter link. Danke. Ich wußte nicht daß die mit State "D" auch
dazugerechnet werden.
Ich werde jetzt mal nach und nach alles umounten, und dann schauen wir mal.
Hi,

ich kann zwei Mounts auf einen CIFS-NAS nicht umounten:

sunxxxxx:~ # umount /mnt/idg
umount: /mnt/idg: device is busy.
(In some cases useful info about processes that use
the device is found by lsof(8) or fuser(1))
sunxxxxx:~ # umount /mnt/idg-2
umount: /mnt/idg-2: device is busy.
(In some cases useful info about processes that use
the device is found by lsof(8) or fuser(1))

Hab ich eine Chance die Prozesse rauszukriegen ? lsof und fuser hängen sich auf.


Bernd


Helmholtz Zentrum München
Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH)
Ingolstädter Landstr. 1
85764 Neuherberg
www.helmholtz-muenchen.de
Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe
Geschäftsführer: Prof. Dr. Günther Wess, Dr. Nikolaus Blum, Dr. Alfons Enhsen
Registergericht: Amtsgericht München HRB 6466
USt-IdNr: DE 129521671
�؞.+-y�󹷬��ez{�'$zt�y��xƢ�������ǝ{맲��r��z�^�ˬz��Rg^������vh���kj�+�竭蜅��r���
David Haller
2014-09-05 17:58:56 UTC
Permalink
Hallo,
Post by Lentes, Bernd
Post by Lentes, Bernd
Post by Martin Schröder
Am 5. September 2014 17:33 schrieb Lentes, Bernd
Post by Lentes, Bernd
979 root 20 0 8616 140 0 D 0 0.0 0:00.00 lsof
6221 root 20 0 28340 1304 1004 D 0 0.0 65:20.76 cmahostd -p 15 -s
[..]
Post by Lentes, Bernd
Post by Lentes, Bernd
Post by Martin Schröder
Post by Lentes, Bernd
28497 root 20 0 4324 720 620 D 0 0.0 0:00.00 df -h
Das ist die Load. Vermutung: Irgendein Dateisystem hängt.
[..]
Post by Lentes, Bernd
Post by Lentes, Bernd
das ist ein guter link. Danke. Ich wußte nicht daß die mit State "D" auch
dazugerechnet werden.
D ist gerade das "uninterruptible sleep", sprich "Warten auf Godot^WI/O".

Da der jew. Prozess aber eben "wartet", zählt's als load.
Post by Lentes, Bernd
sunxxxxx:~ # umount /mnt/idg
umount: /mnt/idg: device is busy.
sunxxxxx:~ # umount /mnt/idg-2
umount: /mnt/idg-2: device is busy.
Hab ich eine Chance die Prozesse rauszukriegen ? lsof und fuser hängen sich auf.
Ist das ne Linux-Kiste (wg. Hostnamen sun*)? Wenn ja, probiere in nem
extra xterm/tty (weil sich's vermutlich auch im "D" aufhängt) mal den
Holzhammer:

ls -l /proc/*/fd/ | grep mnt/idg

Helfen tut übrigens generell nur warten bis ein Timeout (hier von
CIFS) zuschlägt oder ein reboot (wobei sich das FS auf dem die
hängenden Mounts liegen wohl auch nicht sauber umounten lassen wird.

Du solltest die Konfig der CIFS-Mounts prüfen und ggfs. auch die FS
der sun* Kiste...

HTH,
-dnh
--
Als man ihnen sage, sie hätten schon eine FW auf Linux Basis, sagten sie,
das kann man doch nicht machen, das sei doch Open Source, da könnte jeder
Hacker sofort einbrechen, weil er ja den die Sourcen kennt...
-- Arne-Erik Martin plaudert in suse-linux aus dem Naehkaestchen
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Lentes, Bernd
2014-09-07 13:05:30 UTC
Permalink
Post by David Haller
Ist das ne Linux-Kiste (wg. Hostnamen sun*)? Wenn ja, probiere in nem
extra xterm/tty (weil sich's vermutlich auch im "D" aufhängt) mal den
ls -l /proc/*/fd/ | grep mnt/idg
Hallo David,

ich habe das mal ein wenig abgeändert:

sunhb58820:~ # find /proc -iname '*3*' -type l -lname '*mnt*' -exec ls -la {} \;

lr-x------ 1 root root 64 Sep 7 14:49 /proc/26863/task/26863/fd/3 -> /mnt
lr-x------ 1 root root 64 Sep 7 14:47 /proc/26863/fd/3 -> /mnt

Was sagt mir das jetzt ?

Prozess 26863 ist folgendes:

sunhb58820:~ # ps aux|grep -i 26863

root 22360 0.0 0.0 4532 824 pts/14 S+ 15:02 0:00 grep -i 26863
root 26863 0.0 0.0 19492 1052 ? D Sep05 0:00 ls -A -N --color=tty -T 0 -alF /mnt/

Das ist ein ls, das sich aufgehangen hat. Im Zustand "D" kann ich den nicht abschießen.


Bernd


Helmholtz Zentrum München
Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH)
Ingolstädter Landstr. 1
85764 Neuherberg
www.helmholtz-muenchen.de
Aufsichtsratsvorsitzende: MinDir´in Bärbel Brumme-Bothe
Geschäftsführer: Prof. Dr. Günther Wess, Dr. Nikolaus Blum, Dr. Alfons Enhsen
Registergericht: Amtsgericht München HRB 6466
USt-IdNr: DE 129521671
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
David Haller
2014-09-07 16:25:26 UTC
Permalink
Hallo,
Post by Lentes, Bernd
Post by David Haller
Ist das ne Linux-Kiste (wg. Hostnamen sun*)? Wenn ja, probiere in nem
extra xterm/tty (weil sich's vermutlich auch im "D" aufhängt) mal den
ls -l /proc/*/fd/ | grep mnt/idg
sunhb58820:~ # find /proc -iname '*3*' -type l -lname '*mnt*' -exec ls -la {} \;
lr-x------ 1 root root 64 Sep 7 14:49 /proc/26863/task/26863/fd/3 -> /mnt
lr-x------ 1 root root 64 Sep 7 14:47 /proc/26863/fd/3 -> /mnt
Was sagt mir das jetzt ?
Daß PID 26863 /mnt/ als/mit dem Filedescriptor 3 offen hat (vermutlich
via 'int fd = open(...); + DIR *d = fdopendir(fd);').
Post by Lentes, Bernd
sunhb58820:~ # ps aux|grep -i 26863
root 22360 0.0 0.0 4532 824 pts/14 S+ 15:02 0:00 grep -i 26863
root 26863 0.0 0.0 19492 1052 ? D Sep05 0:00 ls -A -N --color=tty -T 0 -alF /mnt/
Das ist ein ls, das sich aufgehangen hat. Im Zustand "D" kann ich den nicht abschießen.
Jap. Da hilft nur ein Timeout oder ein reboot. Wobei du vorher noch
mit 'umount -f' und trennen des Netzes und restart des exportierenden
Serverprozesses testen kannst. Ich kenn das aber nur von NFS (z.B.
wenn ich "ausversehen" den Fileserver runterfahre ohne die FS vorher
am Client zu unmounten ;) Irgendwie[tm] kann man das dazu bekommen
sich zu berappeln. Manchmal zumindest. Wie das bei CIFS ist weiß ich
nicht (dürfte auch vom Server abhängen).

Du mußt letztlich abwägen, was praktikabler ist: auf den Timeout
hoffen/warten oder doch rebooten ... Dabei am besten vorher möglichst
viel unmounten, / ro remounten, ggfs. per sysrq ...

-dnh
--
A common mistake that people make, when trying to design something
completely foolproof is to underestimate the ingenuity of complete fools.
-- Douglas Adams - Mostly Harmless
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Lesen Sie weiter auf narkive:
Loading...