Senior Data Engineer – Optimisation et stabilisation d’une pipeline PySpark (Forecast ML)

Paris, France (hybride)

Freelance

Data Processing, Data Engineer

650 € / jour

Contexte de la mission

L’équipe Supply Zone Forecast développe et maintient les modèles de prévision de la demande et des ventes pour l’ensemble des produits Décathlon, par centre d’approvisionnement continental. Aujourd’hui, notre pipeline est en production sur l’Europe, la Chine et l’Inde, et notre ambition pour 2026 est d’étendre la couverture à LATAM et MEA.

Dans ce cadre, nous recherchons un Data Engineer Senior expérimenté sur PySpark et l’optimisation de pipelines.

Notre Stack Data : AWS (S3, ECR, EKS); Databricks; Airflow; Pyspark; Python Et Github.

La mission portera principalement sur la reprise, l’optimisation et la refonte partielle du module de “refining”, hérité d’une autre équipe. Ce module présente aujourd’hui plusieurs limites : lenteur d'exécution (compute), manque de gouvernance, faible modularité, documentation incomplète et difficulté à évoluer ou à scaler à l’échelle mondiale. Le contexte inclut également plusieurs dettes techniques autour de la stabilité, de la qualité du code et du renforcement des tests (unitaires et fonctionnels)

La mission se déroulera sur site à Paris dans le 17eme.

Objectifs et livrables

Le consultant aura pour principales responsabilités :

Refonte et optimisation du module “Refining” : Auditer le code existant, identifier les goulots de performance et axes d’amélioration. Revoir la structure du code pour renforcer la modularité, la lisibilité et la maintenabilité. Mettre en place une documentation claire et partagée (technique + fonctionnelle). Optimiser le traitement PySpark (logique de partitionnement, cache, broadcast, etc.). Proposer une approche flexible pour l’ajout de nouvelles features.

Renforcement de la robustesse et de la qualité : Implémenter ou renforcer les tests unitaires et fonctionnels. Améliorer la stabilité globale de la pipeline ML de forecast. Participer à la mise en place de bonnes pratiques d’ingénierie logicielle (CI/CD, gouvernance du code, monitoring).

Collaboration et transfert de compétences : Travailler étroitement avec les Data Scientists et lMachine Learning Engineers de l’équipe SZF. Assurer un transfert de connaissances clair et structuré à l’équipe interne. Contribuer à la montée en compétence collective sur PySpark et la scalabilité de pipelines ML.

Livrables attendus :

Module “refining” refactoré, documenté et testé

Rapports d’audit et plan d’optimisation validés

Documentation technique centralisée

Pipeline stable et industrialisable à l’échelle mondiale

Compétences demandées

Compétences

Niveau de compétence

DATABRICKS Confirmé

GITHUB Expert

AWS Expert

AWS S3 Expert

Apache Airflow Expert

Programmation Python Expert

AWS EC2 Expert

PYSPARK Expert

GitHub Actions Expert

Mis à jour : il y a 1 jour

Identifiant offre d'emploi (ID) 15201984

Signaler un problème

Collective

11-50 employés

Développement de logiciels

Collective is the platform to find work (freelance and permanent contracts) 🔥 Go and check us out, we are the biggest platform in terms of jobs published

Site internet