
🎯 Mission principale
Piloter la stratégie SRE de l’entreprise et conduire la transformation de la plateforme vers un modèle hautement fiable, automatisé, observable et résilient. Le Responsable SRE/Lead SRE sera garant des performances, de la stabilité et de la qualité de service pour l’ensemble des environnements.
________________________________________
🛠️ Responsabilités clés
1. Gouvernance SRE et stratégie
• Définir et porter la stratégie SRE à l’échelle de l’organisation.
• Construire et piloter la roadmap de transformation (fiabilité, performance, exploitation).
• Prioriser les chantiers critiques au regard de l’expérience utilisateur, de la sécurité et du delivery.
2. Fiabilité & Performance
• Mettre en place et suivre les SLI/SLO, budgets d’erreur et KPIs de fiabilité.
• Arbitrer la cadence des mises en production en fonction de la stabilité système.
• Améliorer continuellement la résilience des services.
3. Automatisation & Standardisation
• Industrialiser l’IaC, CI/CD, tests automatisés, runbooks et procédures d’exploitation.
• Réduction du toil et harmonisation des pratiques DevOps/SRE sur l’ensemble de la plateforme.
4. Observabilité & Gestion des incidents
• Structurer les solutions d’observabilité (Prometheus, Grafana, Azure Monitor…).
• Réduire les MTTD/MTTR, fiabiliser les alertes et les processus d’escalade 24/7.
• Instaurer des postmortems “blameless” et une culture d’amélioration continue.
• Gérer un volume important de tickets (≈ 3000 tickets), en priorisant et industrialisant leur traitement.
5. Architecture & Plateforme Cloud
• Concevoir et faire évoluer une architecture robuste sur Azure + Kubernetes/AKS.
• Définir les patterns multi-régions, haute disponibilité et disaster recovery.
• Challenger les choix techniques et dialoguer avec 5 à 7 architectes de haut niveau.
6. Réseau, sécurité & filtrage
• Intégrer les bonnes pratiques de sécurité dans la chaîne de delivery (SecOps/SRE).
• Superviser et automatiser la gestion des politiques réseau, dont :
✔ Palo Alto – automatisation / orchestration (environ 2500 postes)
✔ Gestion avancée des règles de filtrage
✔ Filtrage niveau 7, cohérence des flows, audit et optimisation des policies.
7. Leadership et pilotage opérationnel
• Encadrer, fédérer et accompagner les équipes SRE / Ops / Plateforme.
• Conduire le changement auprès des équipes Produit, Dev et Infra.
• Orchestrer l’astreinte 24/7 et structurer les rituels d’exploitation.
8. Performance économique & FinOps
• Optimiser les coûts cloud et performances des workloads.
• Mettre en place un pilotage budgétaire complet (dashboard FinOps, arbitrages usage/coût).
9. Pilotage projets et risk management
• Porter le portefeuille projets fiabilité / performance / automatisation.
• Gérer plans de charge, risques, priorités et reporting exécutif.
• Assurer l’Early Life Support lors de la mise en production de nouveaux services.
________________________________________
🎓 Profil recherché
Expérience
• 8 à 12 ans d’expérience IT.
• Minimum 3 à 5 ans en SRE, DevOps ou plateforme, avec encadrement d’équipes techniques.
• Expérience significative dans l’animation d’une équipe SRE ou dans la conduite de transformations complexes.
Compétences techniques
• Azure – Kubernetes/AKS – workloads distribués – réseaux.
• Observabilité : Prometheus, Grafana, ELK, Azure Monitor, Alerting.
• CI/CD : GitHub Actions, GitLab CI, Azure DevOps.
• IaC : Terraform, Ansible, Helm.
• Gestion avancée des incidents et postmortems.
• Réseau & sécurité : Palo Alto, automatisation, orchestration et filtrage L7.
• Culture DevOps avancée (GitOps, Zero Trust, Trunk Based Development…).
Soft skills
• Leadership fédérateur, vision stratégique, capacité à influencer sans imposer.
• Très bon relationnel avec Directions, Architectes, Produit, Développement & Ops.
• Capacité à défendre une stratégie et la faire adopter.
• Pédagogie, coaching et sens de la communication.

Collective is the platform to find work (freelance and permanent contracts) 🔥 Go and check us out, we are the biggest platform in terms of jobs published




