Proxmox Deep Dive

1. Worum es beim Proxmox Deep Dive wirklich geht

Proxmox wird erst dann richtig interessant, wenn man nicht mehr nur einzelne VMs startet, sondern Netzwerk, Storage, Backup und Betrieb als zusammenhängendes System betrachtet. Genau dort entstehen die meisten echten Entscheidungen: Welche Bridges bekommen VLAN Awareness? Wo endet lokaler Storage und wo beginnt Shared Storage? Welche Ausfallbilder kann der Cluster wirklich verkraften?

Ein Deep Dive ist deshalb weniger eine Sammlung versteckter GUI-Knöpfe und mehr eine Frage von Architektur und Betriebsdisziplin.

2. Netzwerkdesign: Bridges, Bonds und VLANs

Das Standardmuster in Proxmox ist eine Linux Bridge wie vmbr0, die als Layer-2-Uplink für VMs und Container dient. In kleinen Umgebungen reicht das oft aus, bei mehreren Segmenten oder Uplinks sollte das Design aber bewusst geplant sein.

  • Eine Management-Bridge: für Proxmox selbst, SSH, GUI und Cluster-Traffic.
  • Eine oder mehrere VM-Bridges: für Workloads, idealerweise VLAN-aware.
  • Bonds: nur einsetzen, wenn Switch, Topologie und Failover-Verhalten klar sind.

Beispiel für ein typisches VLAN-aware-Setup:

auto bond0
iface bond0 inet manual
    bond-slaves eno1 eno2
    bond-miimon 100
    bond-mode 802.3ad
    bond-xmit-hash-policy layer3+4

auto vmbr0
iface vmbr0 inet static
    address 192.168.10.11/24
    gateway 192.168.10.1
    bridge-ports bond0
    bridge-stp off
    bridge-fd 0
    bridge-vlan-aware yes

Wichtig: Cluster-, Ceph- und VM-Traffic unkontrolliert auf derselben Leitung zu bündeln, funktioniert oft "irgendwie", bis Lastspitzen oder Recovery-Situationen dazukommen.

3. Storage-Strategien: lokal, ZFS, Ceph und PBS

Die wichtigste Speicherfrage lautet nicht "welche Oberfläche sieht schöner aus?", sondern: Welchen Ausfall- und Leistungsbedarf habe ich wirklich?

  • Lokaler Directory- oder LVM-Thin-Storage: einfach, schnell, aber nicht geteilt.
  • ZFS lokal: stark für Snapshots, Replikation und Datenintegrität.
  • Ceph: sinnvoll bei mehreren Knoten und echtem Shared Storage, aber nur mit passender Hardware.
  • PBS: Backup- und Restore-Plattform, kein Ersatz für produktiven Shared Storage.

Ceph wird oft zu früh eingesetzt. Für kleine Labs ist lokales ZFS plus Proxmox Backup Server häufig robuster und günstiger. Ceph lohnt sich, wenn mehrere Nodes dauerhaft gemeinsam auf dieselben VM-Volumes zugreifen sollen und das Netzwerk sowie die Disks dafür ausgelegt sind.

4. Cluster, Quorum und Betriebsgrenzen

Ein Proxmox-Cluster besteht nicht automatisch aus "mehr Hochverfügbarkeit", nur weil mehrere Nodes existieren. Entscheidender Faktor ist Quorum. Ohne Quorum schützt sich der Cluster vor Split Brain, was aus Betreibersicht zunächst wie Stillstand wirken kann.

  • 2-Node-Cluster ohne zusätzliche Quorum-Lösung sind betriebsanfällig.
  • 3 Nodes oder 2 Nodes plus QDevice sind deutlich robuster.
  • HA-Features helfen nur dann, wenn Storage, Netzwerk und Fencing mitgedacht wurden.

Häufige Fehlannahme: "Wenn ich zwei Hosts habe, habe ich automatisch Redundanz." In Wirklichkeit braucht Redundanz neben Rechenleistung auch geteilte Zustände, Quorum und getestete Failover-Pfade.

5. SDN, Overlay-Netze und Segmentierung

Proxmox SDN ist interessant, wenn mehrere Hosts virtuelle Netze konsistent bereitstellen sollen. Für kleine Labs ist das optional, für größere Umgebungen kann es Segmentierung vereinfachen.

  • Bridge-Zonen: am einfachsten, nahe an klassischem VLAN-Betrieb.
  • VLAN-Zonen: sinnvoll, wenn externe VLANs explizit weitergereicht werden sollen.
  • VXLAN/EVPN: spannend für verteilte L2-Segmente, aber betrieblich deutlich anspruchsvoller.

Die beste Entscheidung ist oft die langweiligste: Erst VLANs und saubere Bridges beherrschen, dann Overlay und SDN einführen. Wer andersherum vorgeht, debuggt schnell mehrere Ebenen gleichzeitig.

6. Backup, Restore und Recovery-Tests

Backups sind nur dann real, wenn Restore-Pfade getestet wurden. Für Proxmox bedeutet das:

  • regelmäßige VM- und CT-Backups, idealerweise auf PBS,
  • Aufbewahrungsregeln passend zum Nutzungsprofil,
  • mindestens ein periodischer Test-Restore in isolierter Umgebung,
  • Dokumentation, wie Management-Node, Storage und wichtigste VMs priorisiert wiederhergestellt werden.
vzdump 101 --storage pbs
qmrestore PBS:backup/vm/101/2026-03-20T01:00:00Z 9001 --unique 1
pvesm status

Ein Recovery-Plan sollte nicht nur "Restore ausführen" sagen, sondern festhalten, welche Reihenfolge sinnvoll ist: DNS, Reverse Proxy, IdP, Monitoring und erst danach komfortable Zusatzdienste.

7. Monitoring, Wartung und Performance-Tuning

Gute Proxmox-Betriebsführung besteht aus kleinen Routineaufgaben:

  • Kernel- und Proxmox-Updates bewusst planen,
  • Reboots und HA-/Migrationseffekte nachvollziehen,
  • Storage-Latenz, CPU-Steal, RAM-Druck und Netzwerkfehler beobachten,
  • ZFS-Scrubs, SMART-Tests und PBS-Jobs regelmäßig prüfen.

Performance-Tuning sollte immer eng am tatsächlichen Bottleneck passieren:

  • VirtIO und passende Treiber für VMs nutzen,
  • CPU-Pinning nur gezielt und begründet,
  • Ceph- oder ZFS-Parameter nicht blind aus fremden Blogs übernehmen,
  • NUMA, Hugepages und spezielle Cache-Modi erst nach Messung anfassen.

8. Troubleshooting

Bei Proxmox-Problemen sollte man immer erst entscheiden, ob das Problem primär auf Netzwerk, Storage, Cluster oder Workload-Ebene liegt. Diese Trennung spart sehr viel Zeit.

  1. Node-Gesundheit prüfen: CPU, RAM, Linkstatus, Journals.
  2. Clusterstatus und Quorum ansehen.
  3. Storage-Latenz und Fehlermeldungen prüfen.
  4. Erst dann einzelne VM- oder Container-Konfigurationen untersuchen.
pvecm status
pvesm status
zpool status
ceph -s
ip -br a
journalctl -xe

Typische Fehlerbilder:

  • Migration hängt: Storage-Pfad, Netzwerk oder Locking prüfen.
  • Cluster ohne Quorum: Node-Verlust, Zeitproblem oder Netzwerkpartition.
  • VM langsam: nicht nur CPU, sondern oft Storage-Latenz oder überfülltes Host-Filesystem.
  • Ceph instabil: Recovery-Last, Netzwerkengpass oder langsame OSDs.

9. Zusammenfassung

Der eigentliche Mehrwert von Proxmox entsteht nicht durch einzelne Features, sondern durch gutes Zusammenspiel aus Netzwerk, Storage, Backup und Betriebsprozessen. Wer diese Ebenen sauber trennt und klein beginnt, bekommt eine sehr belastbare Virtualisierungsplattform.

Für die meisten Labs ist ein konservatives Design mit lokalem ZFS, klaren VLANs und PBS die bessere Basis als frühzeitige Maximal-Komplexität mit Overlay, Ceph und ungetesteter HA.