Collective
Collective

Data Engineer Senior - NLP / données non structurées

Casablanca, Morocco (hybrid)
Freelance
Data Processing, Data Engineer
‏350 € / day

Data Engineer Senior - NLP / données non structurées (freelance ; 6 mois minimum)


Nous recrutons un(e) Data Engineer senior pour un projet à forte portée : digitaliser le droit au Maroc et en Afrique et créer la première base de connaissance juridique interrogeable par l’IA.

Notre ambition est de construire une plateforme capable de répondre à des questions juridiques de façon fiable, sourcée et traçable, en s’appuyant sur un corpus massif de documents juridiques hétérogènes.

🚀 Pourquoi ce projet est différent

Vous rejoignez une mission “infrastructure de connaissance” :

  • contribuer à rendre le droit plus accessible

  • bâtir un actif durable : une base structurée du droit marocain (français), extensible à l’Afrique

  • travailler sur un défi technique concret et profond : transformer du non-structuré en une donnée exploitable, fiable et maintenable à grande échelle

🎯 Votre mission

Vous serez responsable de la chaîne “documents → données structurées” qui alimentera notre moteur IA (RAG).

Au cœur du poste (intérêt technique)

Constituer une base de données structurée du droit marocain en français à partir de données très hétérogènes :

  • PDF (texte et scannés), Word, images, fichiers texte, parfois bruités ou incomplets

  • extraction de texte (parsing + OCR si nécessaire), nettoyage

  • structuration : détection titres/chapitres/sections/articles, hiérarchie, normalisation

  • chunking intelligent (par structure juridique plutôt que par taille arbitraire), avec traçabilité (source, page, identifiants)

  • métadonnées : date, type de texte (loi/décret/circulaire/jurisprudence…), source, version, numéros d’articles, etc.

  • déduplication & versioning : documents redondants, amendements, versions consolidées

  • industrialisation : orchestration, logs, retries, idempotence, monitoring, tests qualité

✅ Profil recherché

  • 3+ ans d’expérience en Data Engineering et/ou Document AI / NLP appliqué

  • Très bonne maîtrise de Python

  • Expérience réelle avec documents non structurés : parsing PDF, OCR, nettoyage, structuration

  • Habitude de livrer en production : pipelines robustes, observabilité, qualité, performance

Stack / compétences (indicatif)

  • Stockage : AWS

  • Traitement documents : outils OCR/parsing, pipelines de prétraitement texte

  • Tests & qualité : métriques, échantillonnage, validation automatique

⭐ Bonus (appréciés)

  • Expérience sur corpus juridiques / réglementaires / contenus à forte exigence de précision

  • Familiarité avec les problématiques multilingues (FR/AR) et encodage

  • Connaissances de base sur les besoins en aval (vector DB, retrieval, citation)

🧪 Process de sélection

  • Test en ligne (20 min)

  • Entretien technique (60 min)

📍 Localisation

  • Poste basé à Casablanca

  • Remote possible (au Maroc ou à l’étranger) selon profil et niveau d’autonomie

Updated: 18 hours ago
Job ID: 15420162
Report issue

Collective

11-50 employees
Software Development

Collective is the platform to find work (freelance and permanent contracts) 🔥 Go and check us out, we are the biggest platform in terms of jobs published

  1. Data Engineer Senior - NLP / données non structurées