Datacenter chezlepro

vue d’ensemble & choix de conception

1) Topologie (simple, solide)

Cluster Proxmox VE :chezlepro (PVE 8.4.11, kernel 6.8.12-13-pve) sur 3 nœuds :
asgard (192.168.11.41), gandalf (192.168.11.43), vishnu (192.168.11.47).
Pourquoi 3 nœuds ? Le chiffre “magique” pour le quorum : à 3, un nœud peut tomber sans perdre la haute dispo.
Corosync/knet avec secure auth activé : intégrité des messages de cluster et bascule HA fiable.

Bénéfice : disponibilité élevée avec une complexité minimale. Pas de témoin externe requis, maintenance sereine.

2) Réseau (séparer pour régner)

Anneau management / cluster :192.168.11.0/24
Sert à l’admin, à Corosync et à la supervision.
Réseau “data lourd” :10.11.7.0/24
Héberge Ceph (monitors sur .41/.43/.47) et la live-migration PVE.
Live-migration sécurisée :migration: secure,network=10.11.7.0/24
Chiffrement + chemin dédié = pas de bruit sur le réseau d’admin.

Pourquoi ce découpage ?
Il isole les gros flux (Ceph, migrations) du plan de contrôle. Résultat : moins de gigue sur l’admin, migrations plus rapides, et un troubleshooting nettement plus clair.

Évolution possible : ajouter un second anneau Corosync (ring1) si tu veux de la redondance de chemin pour le quorum.

3) Stockage (performance où il faut, capacité où il faut)

Ceph RBD avec deux pools logiques :
- CephNVMe → pour les workloads sensibles à la latence (bases de données, frontaux exigeants).
- CephHDD → pour les volumes capacitaires (services moins latence-sensibles, archives).
CephFS cephfs monté en commun pour ISO, templates, snippets (facilite l’orchestration).
(Le stockage “backup” y est autorisé mais PBS reste l’autorité des sauvegardes.)

Pourquoi Ceph ?

Tolérance aux pannes par réplication des objets.
Live-migration fluide (disque partagé logique).
Élasticité : on peut étendre la capacité en ajoutant des OSD, sans arrêt de service.

4) Sauvegardes (PBS comme filet principal)

Proxmox Backup Server : 10.11.7.88 — datastore Sauvegardes, namespace Chezlepro, fingerprint pinné (zéro MITM).
Jobs de sauvegarde (extrait) :
- 03:00 : pools Chezlepro (notif Daniel) et technoLibre (notif Mathieu).
- Dimanche 01:00 : RetD (LAB).
- 04:00 : Projet_KBR.
  Retentions codées par pool (daily/weekly/monthly/yearly ; keep-last pour le LAB).

Pourquoi PBS ?

Déduplication + ZSTD ⇒ fenêtres de backup plus courtes, stockage optimisé.
Restauration granulaire (VM, disque, fichiers) et hors cluster en cas de pépin Ceph.

Bon réflexe d’exploitation : un test de restore mensuel (rotation des VMs critiques) pour valider la chaîne fin-à-fin.

5) Haute dispo & exploitation (zéro stress en maintenance)

HA actif avec shutdown_policy=migrate : lors d’un arrêt planifié d’un nœud, les VMs sont migrées automatiquement avant l’extinction.
Rebalance au démarrage (ha-rebalance-on-start=1) : répartit la charge quand un nœud revient, sans babysitting.
max_workers=5 : limite la concurrence des tâches PVE pour garder de la marge CPU/IO durant les fenêtres de backup ou de migration.

Pourquoi ces réglages ?
Ils privilégient la continuité de service et évitent les pointes IO/CPU surprises. L’objectif : des maintenances “ennuyeuses” — c’est un compliment.

6) Rôles des stockages PVE (pragmatisme)

local / local-lvm : tampon local (ISO temporaires, tests rapides).
RBD (CephNVMe/HDD) : par défaut pour les VMs/CT en prod.
CephFS : artefacts partagés (ISO, snippets, templates) ; éventuel backup secondaire si besoin ponctuel.

Pourquoi éviter le local en prod ?
Pour garder la mobilité : un volume RBD permet la live-migration en 1 clic ; un disque local force des arrêts plus longs et une gestion au cas par cas.

7) Sécurité & confiance (sans secrets en clair)

Authentification Corosync sécurisée + migration chiffrée : pas de trafic cluster en clair.
PBS fingerprint renseigné : ancre de confiance lors des connexions de sauvegarde.
Séparation réseau management / data : surface d’attaque réduite et blast-radius plus petit.

À compléter dans l’opérationnel : MFA partout où c’est possible, inventaire des host keys (SSH/IPMI) et “comptes break-glass” documentés hors-ligne.

8) Opérations courantes (guidées par la conception)

Placement : choisir CephNVMe pour les services “latence-sensibles”, CephHDD pour les volumineux.
Backups : tout en PBS ; CephFS reste utilitaire (ISO/snippets) ou copie de courtoisie.
Migrations : toujours via 10.11.7.0/24 (rapide, chiffré, sans impacter l’admin).
Maintenance : basculer un nœud en maintenance → HA migre, puis patcher/redémarrer.

9) Ce qui a été volontairement écarté

Pas de dépendance aux disques locaux pour la prod (mobilité priorisée).
Pas de témoins externes (NAS/NFS/san témoin) : simplicité et fiabilité avant tout.
Pas de mélange des flux lourds avec l’admin : le réseau reste lisible et serein.

En résumé

La plate-forme chezlepro mise sur des principes sobres : isolation des flux, stockage distribué Ceph, sauvegardes PBS, et HA “sans drame”.
C’est un design prévisible (facile à diagnostiquer), évolutif (ajouter des OSD ou un nœud sans tout repenser) et confortable à opérer au quotidien.