ZFS Pool Degradiert - Kritischer Zustand

DRINGEND: Proxmox PVE 8.4.1

Sofortige Mitteilung an NOC-Techniker

PRIORITÄT: KRITISCH

Server: pro7reg

Proxmox Version: PVE 8.4.1
Problem: Boot-Pool degradiert, System läuft OHNE Redundanz
Datum: Do 11. Sep | 21:00:58 EEST 2025 (+3)

KRITISCHER ZUSTAND:

  • Proxmox OS läuft auf degradiertem ZFS-Mirror "rpool"
  • Ausgefallene SSD: nvme-eui.002538ba31c04be3 (physisch NICHT mehr im System vorhanden)
  • Einzige aktive System-SSD: nvme1n1 (Samsung SSD 980 PRO 2TB, S/N: S69ENF0WA39577J)
  • WARNUNG: Bei Ausfall dieser einen SSD ist das gesamte System nicht mehr bootfähig!

ERFORDERLICHE MASSNAHME:

  • SOFORTIGER Austausch mit identischem Modell: Samsung SSD 980 PRO 2TB
  • Nach Einbau können wir den ZFS-Pool automatisch rebuilten
  • Zeitfenster: ASAP - System hat aktuell KEINE Redundanz

Detaillierte Recherche

Ausgangssituation

Der Proxmox-Server pro7reg (Version PVE 8.4.1) meldete einen degradierten ZFS-Pool:

pool: rpool
state: DEGRADED
status: One or more devices has been removed by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
config:
        NAME                                 STATE     READ WRITE CKSUM
        rpool                                DEGRADED     0     0     0
          mirror-0                           DEGRADED     0     0     0
            nvme-eui.002538ba31c04be3-part3  REMOVED      0     0     0
            nvme-eui.002538ba31b63aa8-part3  ONLINE       0     0     0

Hardware-Analyse

Vorhandene NVMe-SSDs im System

Node          SN                   Model                    Usage
/dev/nvme1n1  S69ENF0WA39577J      Samsung SSD 980 PRO 2TB  1,97 TB / 2,00 TB
/dev/nvme2n1  S69ENF0WA56201D      Samsung SSD 980 PRO 2TB  201,46 GB / 2,00 TB
/dev/nvme3n1  S69ENF0WA39580L      Samsung SSD 980 PRO 2TB  201,46 GB / 2,00 TB

Disk-ID Zuordnung

  • nvme-eui.002538ba31b63aa8/dev/nvme1n1 (ONLINE im rpool)
  • nvme-eui.002538ba31c04d4d/dev/nvme2n1
  • nvme-eui.002538ba31b63aab/dev/nvme3n1
  • nvme-eui.002538ba31c04be3FEHLT PHYSISCH IM SYSTEM

ZFS-Pool Struktur

Pool: rpool (DEGRADED)

  • Typ: Mirror (RAID-1)
  • Status: Degradiert - läuft nur auf einer SSD
  • Verwendung:
    • Root-Filesystem des Proxmox-Systems
    • System-kritische Daten
    • Einige Container (subvol-1103, 1200, 2006, 3300, 5005)

Pool: rp1 (GESUND)

  • Verwendung: Hauptspeicher für die meisten Container
  • Größe: 39GB belegt
  • Container: 29 LXC-Container

Pool: rp2 (GESUND)

  • Verwendung: Backup-Storage
  • Verlinkt als: /backup → /rp2/backup

Kritische Erkenntnisse

Das Proxmox-System läuft direkt auf dem degradierten Pool!

# Mount-Points zeigen:
/rpool/ROOT/pve-1 on / type zfs (rw,relatime,xattr,posixacl,casesensitive)
rpool/var-lib-vz on /var/lib/vz type zfs (rw,relatime,xattr,noacl,casesensitive)

# Boot-Parameter:
root=ZFS=rpool/ROOT/pve-1 boot=zfs

# Speichernutzung:
Dateisystem      Größe Benutzt Verf. Verw% Eingehängt auf
rpool/ROOT/pve-1  1,8T     21G  1,8T    2% /

Risikobewertung

KRITISCH - Single Point of Failure

  1. Keine Redundanz für das Betriebssystem
    • Das gesamte Proxmox-OS läuft auf einer einzigen SSD (nvme1n1)
    • Bei Ausfall dieser SSD ist das System nicht mehr bootfähig
  2. Datenverlust-Risiko
    • Alle Änderungen seit dem Ausfall der zweiten SSD sind nur auf einer Disk
    • Container in /rpool/data/ sind ebenfalls betroffen
  3. Betriebsrisiko
    • System läuft stabil, aber ohne jegliche Fehlertoleranz
    • Jeder Hardware-Fehler der verbleibenden SSD führt zum Totalausfall

Empfohlene Sofortmaßnahmen

1. Hardware-Austausch (PRIORITÄT 1)

  • Sofortiger Austausch der fehlenden SSD
  • Modell: Samsung SSD 980 PRO 2TB (identisch zu den vorhandenen)
  • Nach Einbau: ZFS-Rebuild durchführen

2. Backup-Sicherung (PRIORITÄT 2)

# Konfiguration sichern
cp -r /etc/pve /root/pve-backup-$(date +%Y%m%d)
tar czf /rp2/backup/pve-config-$(date +%Y%m%d).tar.gz /etc/pve

# Pool-Status dokumentieren
zpool status > /rp2/backup/zpool-status-$(date +%Y%m%d).txt
zfs list > /rp2/backup/zfs-list-$(date +%Y%m%d).txt

3. Temporäre Notlösung (falls Hardware-Austausch verzögert)

  • nvme2n1 oder nvme3n1 könnte als temporärer Mirror eingerichtet werden
  • Beide SSDs sind fast leer (nur 201GB von 2TB belegt)
  • Erfordert Neupartitionierung und Pool-Rebuild

Rebuild-Prozess nach SSD-Austausch

Nach dem Einbau der neuen SSD:

# 1. Neue SSD identifizieren
nvme list
ls -la /dev/disk/by-id/ | grep nvme

# 2. Partitionstabelle kopieren
sgdisk /dev/nvme1n1 -R /dev/nvme[NEU]
sgdisk -G /dev/nvme[NEU]

# 3. Pool reparieren
zpool replace rpool nvme-eui.002538ba31c04be3-part3 /dev/disk/by-id/[NEUE-DISK-ID]-part3

# 4. Resilvering überwachen
watch -n 5 zpool status rpool

# 5. Nach erfolgreichem Rebuild - Bootloader aktualisieren
proxmox-boot-tool format /dev/nvme[NEU]-part2
proxmox-boot-tool init /dev/nvme[NEU]-part2
proxmox-boot-tool refresh

Zusätzliche Diagnose-Befehle

# Alle Pools prüfen
zpool list
zpool status -v

# SMART-Status der verbleibenden SSD
nvme smart-log /dev/nvme1

# Kernel-Meldungen auf Fehler prüfen
dmesg | grep -i error | tail -20
dmesg | grep -i nvme | tail -20

# ZFS-Scrub nach Rebuild
zpool scrub rpool

Langfristige Empfehlungen

  1. Monitoring implementieren
    • ZFS-Pool-Status in Monitoring-System aufnehmen
    • Alerting bei degradierten Pools einrichten
    • SMART-Monitoring für alle SSDs
  2. Backup-Strategie überprüfen
    • Regelmäßige Offsite-Backups sicherstellen
    • Disaster-Recovery-Plan testen
  3. Hardware-Redundanz
    • Spare-SSD im Rechenzentrum vorhalten
    • Dokumentation der Hardware-Konfiguration aktualisieren

Dokument erstellt: 11. September 2025
Priorität: KRITISCH - Sofortiges Handeln erforderlich
Betroffenes System: pro7reg (Proxmox PVE 8.4.1)