
L’équipe Supply Zone Forecast développe et maintient les modèles de prévision de la demande et des ventes pour l’ensemble des produits Décathlon, par centre d’approvisionnement continental. Aujourd’hui, notre pipeline est en production sur l’Europe, la Chine et l’Inde, et notre ambition pour 2026 est d’étendre la couverture à LATAM et MEA.
Dans ce cadre, nous recherchons un Data Engineer Senior expérimenté sur PySpark et l’optimisation de pipelines.
Notre Stack Data : AWS (S3, ECR, EKS); Databricks; Airflow; Pyspark; Python Et Github.
La mission portera principalement sur la reprise, l’optimisation et la refonte partielle du module de “refining”, hérité d’une autre équipe. Ce module présente aujourd’hui plusieurs limites : lenteur d'exécution (compute), manque de gouvernance, faible modularité, documentation incomplète et difficulté à évoluer ou à scaler à l’échelle mondiale. Le contexte inclut également plusieurs dettes techniques autour de la stabilité, de la qualité du code et du renforcement des tests (unitaires et fonctionnels)
La mission se déroulera sur site à Paris dans le 17eme.
Le consultant aura pour principales responsabilités :
Refonte et optimisation du module “Refining” : Auditer le code existant, identifier les goulots de performance et axes d’amélioration. Revoir la structure du code pour renforcer la modularité, la lisibilité et la maintenabilité. Mettre en place une documentation claire et partagée (technique + fonctionnelle). Optimiser le traitement PySpark (logique de partitionnement, cache, broadcast, etc.). Proposer une approche flexible pour l’ajout de nouvelles features.
Renforcement de la robustesse et de la qualité : Implémenter ou renforcer les tests unitaires et fonctionnels. Améliorer la stabilité globale de la pipeline ML de forecast. Participer à la mise en place de bonnes pratiques d’ingénierie logicielle (CI/CD, gouvernance du code, monitoring).
Collaboration et transfert de compétences : Travailler étroitement avec les Data Scientists et lMachine Learning Engineers de l’équipe SZF. Assurer un transfert de connaissances clair et structuré à l’équipe interne. Contribuer à la montée en compétence collective sur PySpark et la scalabilité de pipelines ML.
Livrables attendus :
Module “refining” refactoré, documenté et testé
Rapports d’audit et plan d’optimisation validés
Documentation technique centralisée
Pipeline stable et industrialisable à l’échelle mondiale
Niveau de compétence
DATABRICKS Confirmé
GITHUB Expert
AWS Expert
AWS S3 Expert
Apache Airflow Expert
Programmation Python Expert
AWS EC2 Expert
PYSPARK Expert
GitHub Actions Expert

Collective is the platform to find work (freelance and permanent contracts) 🔥 Go and check us out, we are the biggest platform in terms of jobs published




