ZFS Pool Degradiert - Kritischer Zustand

DRINGEND: Proxmox PVE 8.4.1

Sofortige Mitteilung an NOC-Techniker

PRIORITÄT: KRITISCH

Server: pro7reg

Proxmox Version: PVE 8.4.1
Problem: Boot-Pool degradiert, System läuft OHNE Redundanz
Datum: Do 11. Sep | 21:00:58 EEST 2025 (+3)

KRITISCHER ZUSTAND:

Proxmox OS läuft auf degradiertem ZFS-Mirror "rpool"
Ausgefallene SSD: nvme-eui.002538ba31c04be3 (physisch NICHT mehr im System vorhanden)
Einzige aktive System-SSD: nvme1n1 (Samsung SSD 980 PRO 2TB, S/N: S69ENF0WA39577J)
WARNUNG: Bei Ausfall dieser einen SSD ist das gesamte System nicht mehr bootfähig!

ERFORDERLICHE MASSNAHME:

SOFORTIGER Austausch mit identischem Modell: Samsung SSD 980 PRO 2TB
Nach Einbau können wir den ZFS-Pool automatisch rebuilten
Zeitfenster: ASAP - System hat aktuell KEINE Redundanz

Detaillierte Recherche

Ausgangssituation

Der Proxmox-Server pro7reg (Version PVE 8.4.1) meldete einen degradierten ZFS-Pool:

pool: rpool
state: DEGRADED
status: One or more devices has been removed by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
config:
        NAME                                 STATE     READ WRITE CKSUM
        rpool                                DEGRADED     0     0     0
          mirror-0                           DEGRADED     0     0     0
            nvme-eui.002538ba31c04be3-part3  REMOVED      0     0     0
            nvme-eui.002538ba31b63aa8-part3  ONLINE       0     0     0

Hardware-Analyse

Vorhandene NVMe-SSDs im System

Node          SN                   Model                    Usage
/dev/nvme1n1  S69ENF0WA39577J      Samsung SSD 980 PRO 2TB  1,97 TB / 2,00 TB
/dev/nvme2n1  S69ENF0WA56201D      Samsung SSD 980 PRO 2TB  201,46 GB / 2,00 TB
/dev/nvme3n1  S69ENF0WA39580L      Samsung SSD 980 PRO 2TB  201,46 GB / 2,00 TB

Disk-ID Zuordnung

nvme-eui.002538ba31b63aa8 → /dev/nvme1n1 (ONLINE im rpool)
nvme-eui.002538ba31c04d4d → /dev/nvme2n1
nvme-eui.002538ba31b63aab → /dev/nvme3n1
nvme-eui.002538ba31c04be3 → FEHLT PHYSISCH IM SYSTEM

ZFS-Pool Struktur

Pool: rpool (DEGRADED)

Typ: Mirror (RAID-1)
Status: Degradiert - läuft nur auf einer SSD
Verwendung:
- Root-Filesystem des Proxmox-Systems
- System-kritische Daten
- Einige Container (subvol-1103, 1200, 2006, 3300, 5005)

Pool: rp1 (GESUND)

Verwendung: Hauptspeicher für die meisten Container
Größe: 39GB belegt
Container: 29 LXC-Container

Pool: rp2 (GESUND)

Verwendung: Backup-Storage
Verlinkt als: /backup → /rp2/backup

Kritische Erkenntnisse

Das Proxmox-System läuft direkt auf dem degradierten Pool!

# Mount-Points zeigen:
/rpool/ROOT/pve-1 on / type zfs (rw,relatime,xattr,posixacl,casesensitive)
rpool/var-lib-vz on /var/lib/vz type zfs (rw,relatime,xattr,noacl,casesensitive)

# Boot-Parameter:
root=ZFS=rpool/ROOT/pve-1 boot=zfs

# Speichernutzung:
Dateisystem      Größe Benutzt Verf. Verw% Eingehängt auf
rpool/ROOT/pve-1  1,8T     21G  1,8T    2% /

Risikobewertung

KRITISCH - Single Point of Failure

Keine Redundanz für das Betriebssystem
- Das gesamte Proxmox-OS läuft auf einer einzigen SSD (nvme1n1)
- Bei Ausfall dieser SSD ist das System nicht mehr bootfähig
Datenverlust-Risiko
- Alle Änderungen seit dem Ausfall der zweiten SSD sind nur auf einer Disk
- Container in /rpool/data/ sind ebenfalls betroffen
Betriebsrisiko
- System läuft stabil, aber ohne jegliche Fehlertoleranz
- Jeder Hardware-Fehler der verbleibenden SSD führt zum Totalausfall

Empfohlene Sofortmaßnahmen

1. Hardware-Austausch (PRIORITÄT 1)

Sofortiger Austausch der fehlenden SSD
Modell: Samsung SSD 980 PRO 2TB (identisch zu den vorhandenen)
Nach Einbau: ZFS-Rebuild durchführen

2. Backup-Sicherung (PRIORITÄT 2)

# Konfiguration sichern
cp -r /etc/pve /root/pve-backup-$(date +%Y%m%d)
tar czf /rp2/backup/pve-config-$(date +%Y%m%d).tar.gz /etc/pve

# Pool-Status dokumentieren
zpool status > /rp2/backup/zpool-status-$(date +%Y%m%d).txt
zfs list > /rp2/backup/zfs-list-$(date +%Y%m%d).txt

3. Temporäre Notlösung (falls Hardware-Austausch verzögert)

nvme2n1 oder nvme3n1 könnte als temporärer Mirror eingerichtet werden
Beide SSDs sind fast leer (nur 201GB von 2TB belegt)
Erfordert Neupartitionierung und Pool-Rebuild

Rebuild-Prozess nach SSD-Austausch

Nach dem Einbau der neuen SSD:

# 1. Neue SSD identifizieren
nvme list
ls -la /dev/disk/by-id/ | grep nvme

# 2. Partitionstabelle kopieren
sgdisk /dev/nvme1n1 -R /dev/nvme[NEU]
sgdisk -G /dev/nvme[NEU]

# 3. Pool reparieren
zpool replace rpool nvme-eui.002538ba31c04be3-part3 /dev/disk/by-id/[NEUE-DISK-ID]-part3

# 4. Resilvering überwachen
watch -n 5 zpool status rpool

# 5. Nach erfolgreichem Rebuild - Bootloader aktualisieren
proxmox-boot-tool format /dev/nvme[NEU]-part2
proxmox-boot-tool init /dev/nvme[NEU]-part2
proxmox-boot-tool refresh

Zusätzliche Diagnose-Befehle

# Alle Pools prüfen
zpool list
zpool status -v

# SMART-Status der verbleibenden SSD
nvme smart-log /dev/nvme1

# Kernel-Meldungen auf Fehler prüfen
dmesg | grep -i error | tail -20
dmesg | grep -i nvme | tail -20

# ZFS-Scrub nach Rebuild
zpool scrub rpool

Langfristige Empfehlungen

Monitoring implementieren
- ZFS-Pool-Status in Monitoring-System aufnehmen
- Alerting bei degradierten Pools einrichten
- SMART-Monitoring für alle SSDs
Backup-Strategie überprüfen
- Regelmäßige Offsite-Backups sicherstellen
- Disaster-Recovery-Plan testen
Hardware-Redundanz
- Spare-SSD im Rechenzentrum vorhalten
- Dokumentation der Hardware-Konfiguration aktualisieren

Dokument erstellt: 11. September 2025
Priorität: KRITISCH - Sofortiges Handeln erforderlich
Betroffenes System: pro7reg (Proxmox PVE 8.4.1)