Senior Site Reliability Engineer - Cloud - Full Remote H/F

A distance (France)

CDI

System and Network Administration

45 000 € à 65 000 € / année

Scalingo a été fondée en 2014 pour aider les équipes de développement à simplifier et automatiser leur travail sans avoir à faire des sacrifices sur les enjeux de sécurité et de souveraineté de l'information.

La mission de Scalingo est de changer le panorama du cloud en Europe. Notre plateforme permet aux développeurs d'héberger et de déployer leurs projets web sans connaissance en administration système, sans avoir à manipuler de serveurs.

Notre clientèle est en France, mais aussi en Europe et partout dans le monde. Nous accompagnons les gouvernements Européens dans la mise en place de services numériques critiques à visibilité nationale.

L’infrastructure de Scalingo exécute des milliers de conteneurs qui hébergent les applications et bases de données de nos clients. Nous opérons dans un environnement hautement distribué où chaque détail compte pour maintenir une disponibilité irréprochable. La disponibilité et la sécurité ne sont pas seulement des exigences, elles sont au cœur de notre engagement envers nos clients.

Nos bureaux sont basés à Strasbourg et nous acceptons le full remote.

Pour soutenir notre croissance nous recherchons un·e ingénieur·e Senior Site Reliability Engineer.

Tâches

Vous intégrerez l’équipe de Site Reliability Engineering, en tant qu’Ingénieur.e Senior SRE, sous la responsabilité du Lead SRE et de l'Engineer Manager.

Au sein de cette équipe, votre mission est d'assurer le suivi de la fiabilité, de la disponibilité et des performances de la plateforme d’hébergement Scalingo. Celle-ci se base sur l'infrastructure IaaS de 3DS Outscale et est composée de nombreux services principalement développés en Go et Ruby on Rails.

Vous serez également responsable de proposer et de mettre en œuvre des améliorations techniques et des évolutions de processus afin de renforcer en continu la résilience et la robustesse de la plateforme. Vous aurez également la charge d'essayer d'anticiper les besoins futurs et d'optimiser son fonctionnement global.

Vous travaillerez en étroite collaboration avec les équipes de développement et de sécurité pour mettre en oeuvre les bonnes pratiques et assurer une approche cohérente.

L'équipe s'appuie sur les standards du métier, notamment l'Infrastructure as Code, la Configuration as Code, ainsi que des revues de code systématiques pour chaque changement.

Vos missions et responsabilités seront réparties dans deux catégories (à peu près 50%/50%) : Le RUN et le BUILD.

Responsabilités et missions du RUN :

Assurer le suivi des performances des systèmes et détecter rapidement les anomalies.
Participer au Maintien en Condition Opérationnelle des services en production, incluant une participation à l’astreinte (24h/24 7j/7) à une fréquence d'une demi-semaine toutes les 3 semaines.
Analyser et diagnostiquer les incidents de production (anomalies, performances, exceptions) en étant capable d'investiguer sur toutes les couches, qu'il s'agisse du système, du réseau, ou de l'applicatif, ainsi que des services tiers (IaaS, etc.).
Participer au support de niveau 3.
Prendre en charge la gestion des incidents, en respectant les processus en vigueur.
Contribuer à l'analyse postmortem et participer à la mise en œuvre des solutions de mitigation et de correction.

Responsabilité du BUILD :

Maintenir et faire évoluer les outils de supervisions et d'alerting.
Proposer et implémenter des solutions pour augmenter la robustesse des systèmes et la tolérance aux pannes.
Accompagner les équipes de développement dans les différents projets sur des aspects de sécurité et de fiabilité.
Revoir et améliorer les processus internes pour faciliter la gestion des incidents, les déploiements et la gestion de la capacité (capacity planning).
Contribuer à l'intégration des bonnes pratiques de sécurité en respectant notamment les exigences des certifications ISO27001 et HDS.
Maintenir, améliorer et exécuter les tests de Plan de Continuité d'Activité (PCA) et de Plan de Reprise d'Activité (PRA), afin d'assurer la résilience et la disponibilité des services en cas d'incident majeur.
Assurer le suivi des SLA, analyser les incidents récurrents et proposer des améliorations pour prévenir leur réapparition et optimiser la fiabilité de la plateforme.

Compétences requises

Vous disposez d'au moins une expérience significative dans un poste similaire (ex: Ingénieur consultant DevOps, SRE).
Vous êtes à l'aise en anglais écrit : c'est notre langue de travail au sein de Scalingo, avec nos clients européens et avec tous nos fournisseurs.
Vous maîtrisez plusieurs des technologies suivantes (ou équivalent) : Go, Docker, Ruby, Ansible, Chef, Terraform, IaaS.
Vous faites preuve d'une grande rigueur dans votre travail, avec une attention particulière aux détails et à la qualité des livrables.
Vous savez travailler en équipe, que ce soit avec l'équipe technique, l'équipe business ou l'équipe de direction.
Vous possédez d'excellentes aptitudes d'investigation, avec un esprit d'analyse affûté, que vous êtes capable de mobiliser rapidement afin de limiter l'impact des éventuels incidents sur nos clients.
Vous êtes capable de mobiliser rapidement votre esprit d'analyse.
Vous avez une capacité prouvée à partager votre expertise et à faire progresser vos collègues tout en travaillant de manière collaborative avec les équipes techniques, business et de direction.
En tant que senior, vous êtes capable de prendre des initiatives, d’anticiper les besoins de la plateforme et de proposer des améliorations stratégiques à long terme.
Vous êtes méthodique et à l'aise avec l'analyse de données, capable de synthétiser les informations issues des incidents pour optimiser la performance et la résilience des systèmes.

Avantages

Ticket Restaurant carte Swile
Complémentaire santé Swisslife
Télétravail / Full Remote
Prime télétravail
Prime d'astreinte
BSPCE : des actions pour les employés sous un régime fiscal favorable.
Poste de travail sous Linux / Téléphone

Voici les étapes de notre processus de recrutement:

Call de pré-qualification (5min) : présentation de l'offre et la clarification si besoin. C'est vous qui décidez si vous passez à l'étape suivante.
Test de pré-screening (10-20min) : c'est un test standardisé type QCM que tout le monde doit remplir. Il permet d'évaluer les candidats de manière objective avant de faire rentrer les biais de recrutement. Il y a une note minimale pour passer le test.
Test Hard-skill (quelques heures sur 3 jours) : c'est un test technique que vous devrez réaliser. À la date de votre choix, nous vous enverrons des instructions détaillées et vous devrez nous retourner dans les 3 jours qui suivent un rendu en guise de réponse. Vous pourrez le faire chez vous, avec internet, en prenant autant de temps que vous le souhaitez. L'objectif est d'évaluer vos compétences, vos habitudes et bonnes pratique dans le domaine de la position proposée.
Premier entretien structuré: skill and aptitude-fit (2h) : c'est un entretien structuré avec les personnes de l'équipe qui effectue le recrutement. L'objectif est de discuter de vos aptitudes et votre expérience et de juger de leur adéquation avec l'offre.
A l'issue de cet entretien, si c'est un GO, nous vous partagerons notre organisation et vous pourrez demander à rencontrer un.e salarié.e de l'entreprise de l'équipe de votre choix.
Second entretien de confirmation: L'objectif est de s'assurer mutuellement de notre volonté de collaborer ensemble.

⠀

La vie chez Scalingo

Nous sommes un acteur de la tech à la pointe qui servons des acteurs institutionnels sans être une méga corporation
Nous sommes engagés sur le bien être des gens et leur développement: pas de micro-management, pas d’objectifs annuels contraignants mais un suivi hebdomadaire avec le management. Toute l'équipe est impliquée pour améliorer l'entreprise
Nous ne recrutons pas des CVs mais des individus
Nous sommes dans l’amélioration en continu et le recul sur notre activité: nous nous demandons régulièrement si ce que nous faisons est assez bien et nous cherchons toujours des manières de nous améliorer
Nous sommes autonomes et responsables sur nos activités. Nous nous faisons tou·te·s confiance afin que chacun puisse travailler sur les points qui lui semblent les plus importants et prendre les décisions qui sont nécessaires pour son travail
Nous n'aimons pas les silos : nous faisons attention à ce que tout le monde puisse voir et comprendre ce que les autres font, nous avons une culture de la transparence par défaut

Mis à jour : il y a 3 jours

Identifiant offre d'emploi (ID) 12952111

Signaler un problème