Datacenter chezlepro

vue d’ensemble & choix de conception


1) Topologie (simple, solide)

  • Cluster Proxmox VE :chezlepro (PVE 8.4.11, kernel 6.8.12-13-pve) sur 3 nœuds :
    asgard (192.168.11.41), gandalf (192.168.11.43), vishnu (192.168.11.47).

  • Pourquoi 3 nœuds ? Le chiffre “magique” pour le quorum : à 3, un nœud peut tomber sans perdre la haute dispo.

  • Corosync/knet avec secure auth activé : intégrité des messages de cluster et bascule HA fiable.

Bénéfice : disponibilité élevée avec une complexité minimale. Pas de témoin externe requis, maintenance sereine.


2) Réseau (séparer pour régner)

  • Anneau management / cluster :192.168.11.0/24
    Sert à l’admin, à Corosync et à la supervision.

  • Réseau “data lourd” :10.11.7.0/24
    Héberge Ceph (monitors sur .41/.43/.47) et la live-migration PVE.

  • Live-migration sécurisée :migration: secure,network=10.11.7.0/24
    Chiffrement + chemin dédié = pas de bruit sur le réseau d’admin.

Pourquoi ce découpage ?
Il isole les gros flux (Ceph, migrations) du plan de contrôle. Résultat : moins de gigue sur l’admin, migrations plus rapides, et un troubleshooting nettement plus clair.

Évolution possible : ajouter un second anneau Corosync (ring1) si tu veux de la redondance de chemin pour le quorum.


3) Stockage (performance où il faut, capacité où il faut)

  • Ceph RBD avec deux pools logiques :

    • CephNVMe → pour les workloads sensibles à la latence (bases de données, frontaux exigeants).

    • CephHDD → pour les volumes capacitaires (services moins latence-sensibles, archives).

  • CephFS cephfs monté en commun pour ISO, templates, snippets (facilite l’orchestration).
    (Le stockage “backup” y est autorisé mais PBS reste l’autorité des sauvegardes.)

Pourquoi Ceph ?

  • Tolérance aux pannes par réplication des objets.

  • Live-migration fluide (disque partagé logique).

  • Élasticité : on peut étendre la capacité en ajoutant des OSD, sans arrêt de service.


4) Sauvegardes (PBS comme filet principal)

  • Proxmox Backup Server : 10.11.7.88 — datastore Sauvegardes, namespace Chezlepro, fingerprint pinné (zéro MITM).

  • Jobs de sauvegarde (extrait) :

    • 03:00 : pools Chezlepro (notif Daniel) et technoLibre (notif Mathieu).

    • Dimanche 01:00 : RetD (LAB).

    • 04:00 : Projet_KBR.
      Retentions codées par pool (daily/weekly/monthly/yearly ; keep-last pour le LAB).

Pourquoi PBS ?

  • Déduplication + ZSTD ⇒ fenêtres de backup plus courtes, stockage optimisé.

  • Restauration granulaire (VM, disque, fichiers) et hors cluster en cas de pépin Ceph.

Bon réflexe d’exploitation : un test de restore mensuel (rotation des VMs critiques) pour valider la chaîne fin-à-fin.


5) Haute dispo & exploitation (zéro stress en maintenance)

  • HA actif avec shutdown_policy=migrate : lors d’un arrêt planifié d’un nœud, les VMs sont migrées automatiquement avant l’extinction.

  • Rebalance au démarrage (ha-rebalance-on-start=1) : répartit la charge quand un nœud revient, sans babysitting.

  • max_workers=5 : limite la concurrence des tâches PVE pour garder de la marge CPU/IO durant les fenêtres de backup ou de migration.

Pourquoi ces réglages ?
Ils privilégient la continuité de service et évitent les pointes IO/CPU surprises. L’objectif : des maintenances “ennuyeuses” — c’est un compliment.


6) Rôles des stockages PVE (pragmatisme)

  • local / local-lvm : tampon local (ISO temporaires, tests rapides).

  • RBD (CephNVMe/HDD) : par défaut pour les VMs/CT en prod.

  • CephFS : artefacts partagés (ISO, snippets, templates) ; éventuel backup secondaire si besoin ponctuel.

Pourquoi éviter le local en prod ?
Pour garder la mobilité : un volume RBD permet la live-migration en 1 clic ; un disque local force des arrêts plus longs et une gestion au cas par cas.


7) Sécurité & confiance (sans secrets en clair)

  • Authentification Corosync sécurisée + migration chiffrée : pas de trafic cluster en clair.

  • PBS fingerprint renseigné : ancre de confiance lors des connexions de sauvegarde.

  • Séparation réseau management / data : surface d’attaque réduite et blast-radius plus petit.

À compléter dans l’opérationnel : MFA partout où c’est possible, inventaire des host keys (SSH/IPMI) et “comptes break-glass” documentés hors-ligne.


8) Opérations courantes (guidées par la conception)

  • Placement : choisir CephNVMe pour les services “latence-sensibles”, CephHDD pour les volumineux.

  • Backups : tout en PBS ; CephFS reste utilitaire (ISO/snippets) ou copie de courtoisie.

  • Migrations : toujours via 10.11.7.0/24 (rapide, chiffré, sans impacter l’admin).

  • Maintenance : basculer un nœud en maintenance → HA migre, puis patcher/redémarrer.


9) Ce qui a été volontairement écarté

  • Pas de dépendance aux disques locaux pour la prod (mobilité priorisée).

  • Pas de témoins externes (NAS/NFS/san témoin) : simplicité et fiabilité avant tout.

  • Pas de mélange des flux lourds avec l’admin : le réseau reste lisible et serein.


En résumé

La plate-forme chezlepro mise sur des principes sobres : isolation des flux, stockage distribué Ceph, sauvegardes PBS, et HA “sans drame”.
C’est un design prévisible (facile à diagnostiquer), évolutif (ajouter des OSD ou un nœud sans tout repenser) et confortable à opérer au quotidien.