Discussion:
RAID: angeblich abwechselnder Ausfall von Platten
Bernd
2014-10-06 07:33:59 UTC
Permalink
Hi,

Sonntag:

md0 : active raid1 sdb1[1]
512960 blocks super 1.0 [2/1] [_U]
bitmap: 1/1 pages [4KB], 65536KB chunk


Montag:
md0 : active raid1 sda1[0]
512960 blocks super 1.0 [2/1] [U_]
bitmap: 1/1 pages [4KB], 65536KB chunk

Beide Platten sind lt. smartctl (Long test) i.O.

Das Log sagt das es schon länger so hin und her flippt. (Wobei nicht bei
jedem Booten eine Änderung auftritt.)

Es ist auch nicht so das die Platten sich via BIOS o. ä. vertauschen
würden. (es gibt noch ein md1 mit den gleichen Platten, die flippen
nicht.)

Im täglichen Gebrauch ist nichts zu merken. Wo kann ich da ansetzen um
dem auf den Grund zu gehen?

Bernd
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Christian Boltz
2014-10-06 21:17:41 UTC
Permalink
Hallo Bernd, hallo Leute,
Post by Bernd
md0 : active raid1 sdb1[1]
512960 blocks super 1.0 [2/1] [_U]
bitmap: 1/1 pages [4KB], 65536KB chunk
md0 : active raid1 sda1[0]
512960 blocks super 1.0 [2/1] [U_]
bitmap: 1/1 pages [4KB], 65536KB chunk
Beide Platten sind lt. smartctl (Long test) i.O.
Das Log sagt das es schon länger so hin und her flippt. (Wobei nicht
bei jedem Booten eine Änderung auftritt.)
Im täglichen Gebrauch ist nichts zu merken. Wo kann ich da ansetzen um
dem auf den Grund zu gehen?
Theoretisch kannst Du das RAID per mdadm /dev/md0 -a /dev/sdb1
wieder zusammenbauen (falls gerade sda1 aktiv ist).

Praktisch hast Du erstmal ein Problem. Irgendwann in der Vergangenheit
hat sich Dein RAID gespalten, und seitdem hast Du quasi zwei getrennte
Partitionen mit potenziell unterschiedlichem Inhalt. (Wann das passiert
ist, findest Du mit etwas Glück in alten Logfiles raus.)

Sprich: Wenn Du am Sonntag Dateien abgespeichert hast, liegen die nur im
Dateisystem auf sdb1, und die Dateien vom Montag nur auf sda1.

Bevor Du das RAID wieder zusammenbaust (was effektiv das Überschreiben
einer der Partitionen bedeutet), solltest Du unbedingt sda1 und sdb1
getrennt mounten und vergleichen oder (besser) von beiden jeweils ein
Backup machen, damit Du keine Dateien verlierst.

Du kannst nur hoffen, dass das Problem eine Partition mit recht wenigen
Änderungen betrifft (also nicht /home) - dann wäre die Sache immerhin
ein wenig harmloser und die Unterschiede geringer.

Ich hatte dieses Problem auch mal vor längerer Zeit (leider mit /home) -
IIRC wurde es dann im boot.md-Initscript repariert.


Gruß

Christian Boltz
--
Wenn das Intervall zu klein ist, werden Ausfälle sofort an den User
gemeldet, und der ruft dann bei dir an.
Wenn da Intervall zu groß ist, erinnert sich der User gar nicht mehr
an die Mail, und ruft dann bei dir an.
[Ralf Hildebrandt in postfixbuch-users zur delay_warning_time]
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Bernd
2014-10-07 05:25:14 UTC
Permalink
Am Mon, 06 Oct 2014 23:17:41 +0200
schrieb Christian Boltz <***@cboltz.de>:

(...)
Post by Christian Boltz
Bevor Du das RAID wieder zusammenbaust (was effektiv das
Überschreiben einer der Partitionen bedeutet), solltest Du unbedingt
sda1 und sdb1 getrennt mounten und vergleichen oder (besser) von
beiden jeweils ein Backup machen, damit Du keine Dateien verlierst.
(...)

Guter Tipp ;-)

Da es /boot betrifft, kann ich es wohl recht bequem während der
Laufzeit reparieren.

Kann ich davon ausgehen das
mdadm /dev/md0 -a /dev/sdb1
die sdb1 mit dem Inhalt von sda1 überschreibt?

Bernd
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Christian Boltz
2014-10-07 18:52:38 UTC
Permalink
Hallo Bernd, hallo Leute,
Post by Bernd
Am Mon, 06 Oct 2014 23:17:41 +0200
Post by Christian Boltz
Bevor Du das RAID wieder zusammenbaust (was effektiv das
Überschreiben einer der Partitionen bedeutet), solltest Du unbedingt
sda1 und sdb1 getrennt mounten und vergleichen oder (besser) von
beiden jeweils ein Backup machen, damit Du keine Dateien verlierst.
Guter Tipp ;-)
Da es /boot betrifft, kann ich es wohl recht bequem während der
Laufzeit reparieren.
Stimmt, bei /boot ist das Ganze eher langweilig ;-)
Post by Bernd
Kann ich davon ausgehen das
mdadm /dev/md0 -a /dev/sdb1
die sdb1 mit dem Inhalt von sda1 überschreibt?
Richtig. (Naja, genaugenommen wird sdb1 mit dem Inhalt des RAID
überschrieben ;-)

-a ist übrigens die Kurzform von --add


Gruß

Christian Boltz
--
It's too bad that the universities don't have the ability to
teach common sense. :-) [Ken Schneider in opensuse-factory]
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Bernd
2014-10-08 05:37:16 UTC
Permalink
Am Tue, 07 Oct 2014 20:52:38 +0200
schrieb Christian Boltz <***@cboltz.de>:

(...)
(...)
Post by Christian Boltz
Post by Bernd
Kann ich davon ausgehen das
mdadm /dev/md0 -a /dev/sdb1
die sdb1 mit dem Inhalt von sda1 überschreibt?
Richtig. (Naja, genaugenommen wird sdb1 mit dem Inhalt des RAID
überschrieben ;-)
-a ist übrigens die Kurzform von --add
Danke, bis jetzt läuft es wieder ohne das eine Partition ausfällt.

Weißt Du was die Zeile 'bitmap' mir sagen will? Das wechselt nämlich
manchmal (bei einem größeren RAID 1). Da steht dann:

bitmap: 1/4 pages [4KB], 65536KB chunk

oder ein wenig später:

bitmap: 2/4 pages [8KB], 65536KB chunk



Bernd
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
opensuse-de+***@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+***@opensuse.org
Loading...