
Data Engineer Senior - NLP / données non structurées (freelance ; 6 mois minimum)
Nous recrutons un(e) Data Engineer senior pour un projet à forte portée : digitaliser le droit au Maroc et en Afrique et créer la première base de connaissance juridique interrogeable par l’IA.
Notre ambition est de construire une plateforme capable de répondre à des questions juridiques de façon fiable, sourcée et traçable, en s’appuyant sur un corpus massif de documents juridiques hétérogènes.
Vous rejoignez une mission “infrastructure de connaissance” :
contribuer à rendre le droit plus accessible
bâtir un actif durable : une base structurée du droit marocain (français), extensible à l’Afrique
travailler sur un défi technique concret et profond : transformer du non-structuré en une donnée exploitable, fiable et maintenable à grande échelle
Vous serez responsable de la chaîne “documents → données structurées” qui alimentera notre moteur IA (RAG).
Constituer une base de données structurée du droit marocain en français à partir de données très hétérogènes :
PDF (texte et scannés), Word, images, fichiers texte, parfois bruités ou incomplets
extraction de texte (parsing + OCR si nécessaire), nettoyage
structuration : détection titres/chapitres/sections/articles, hiérarchie, normalisation
chunking intelligent (par structure juridique plutôt que par taille arbitraire), avec traçabilité (source, page, identifiants)
métadonnées : date, type de texte (loi/décret/circulaire/jurisprudence…), source, version, numéros d’articles, etc.
déduplication & versioning : documents redondants, amendements, versions consolidées
industrialisation : orchestration, logs, retries, idempotence, monitoring, tests qualité
3+ ans d’expérience en Data Engineering et/ou Document AI / NLP appliqué
Très bonne maîtrise de Python
Expérience réelle avec documents non structurés : parsing PDF, OCR, nettoyage, structuration
Habitude de livrer en production : pipelines robustes, observabilité, qualité, performance
Stockage : AWS
Traitement documents : outils OCR/parsing, pipelines de prétraitement texte
Tests & qualité : métriques, échantillonnage, validation automatique
Expérience sur corpus juridiques / réglementaires / contenus à forte exigence de précision
Familiarité avec les problématiques multilingues (FR/AR) et encodage
Connaissances de base sur les besoins en aval (vector DB, retrieval, citation)
Test en ligne (20 min)
Entretien technique (60 min)
Poste basé à Casablanca
Remote possible (au Maroc ou à l’étranger) selon profil et niveau d’autonomie




