Data Engineer Senior - NLP / données non structurées

Casablanca, Morocco (hybrid)

Freelance

Data Processing, Data Engineer

‏350 € / day

Data Engineer Senior - NLP / données non structurées (freelance ; 6 mois minimum)

Nous recrutons un(e) Data Engineer senior pour un projet à forte portée : digitaliser le droit au Maroc et en Afrique et créer la première base de connaissance juridique interrogeable par l’IA.

Notre ambition est de construire une plateforme capable de répondre à des questions juridiques de façon fiable, sourcée et traçable, en s’appuyant sur un corpus massif de documents juridiques hétérogènes.

🚀 Pourquoi ce projet est différent

Vous rejoignez une mission “infrastructure de connaissance” :

contribuer à rendre le droit plus accessible
bâtir un actif durable : une base structurée du droit marocain (français), extensible à l’Afrique
travailler sur un défi technique concret et profond : transformer du non-structuré en une donnée exploitable, fiable et maintenable à grande échelle

🎯 Votre mission

Vous serez responsable de la chaîne “documents → données structurées” qui alimentera notre moteur IA (RAG).

Au cœur du poste (intérêt technique)

Constituer une base de données structurée du droit marocain en français à partir de données très hétérogènes :

PDF (texte et scannés), Word, images, fichiers texte, parfois bruités ou incomplets
extraction de texte (parsing + OCR si nécessaire), nettoyage
structuration : détection titres/chapitres/sections/articles, hiérarchie, normalisation
chunking intelligent (par structure juridique plutôt que par taille arbitraire), avec traçabilité (source, page, identifiants)
métadonnées : date, type de texte (loi/décret/circulaire/jurisprudence…), source, version, numéros d’articles, etc.
déduplication & versioning : documents redondants, amendements, versions consolidées
industrialisation : orchestration, logs, retries, idempotence, monitoring, tests qualité

✅ Profil recherché

3+ ans d’expérience en Data Engineering et/ou Document AI / NLP appliqué
Très bonne maîtrise de Python
Expérience réelle avec documents non structurés : parsing PDF, OCR, nettoyage, structuration
Habitude de livrer en production : pipelines robustes, observabilité, qualité, performance

Stack / compétences (indicatif)

Stockage : AWS
Traitement documents : outils OCR/parsing, pipelines de prétraitement texte
Tests & qualité : métriques, échantillonnage, validation automatique

⭐ Bonus (appréciés)

Expérience sur corpus juridiques / réglementaires / contenus à forte exigence de précision
Familiarité avec les problématiques multilingues (FR/AR) et encodage
Connaissances de base sur les besoins en aval (vector DB, retrieval, citation)

🧪 Process de sélection

Test en ligne (20 min)
Entretien technique (60 min)

📍 Localisation

Poste basé à Casablanca
Remote possible (au Maroc ou à l’étranger) selon profil et niveau d’autonomie

Updated: 18 hours ago

Job ID: 15420162

Report issue

Collective

11-50 employees

Software Development

Collective is the platform to find work (freelance and permanent contracts) 🔥 Go and check us out, we are the biggest platform in terms of jobs published

Website

Our other open positions
View all open positions

Data Engineer Senior - NLP / données non structurées

🚀 Pourquoi ce projet est différent

🎯 Votre mission

Au cœur du poste (intérêt technique)

✅ Profil recherché

Stack / compétences (indicatif)

⭐ Bonus (appréciés)

🧪 Process de sélection

📍 Localisation

Collective

Our other open positions
View all open positions

𝐃𝐞́𝐯𝐞𝐥𝐨𝐩𝐩𝐞𝐮𝐫·𝐬𝐞 𝐏𝐲𝐭𝐡𝐨𝐧

Acheteur PPAP APQP Le HAvre

Administrateur AS400

Administrateur Base de Données Oracle Expérimenté

Administrateur système et réseau

Interested?

Contact Person

No time? Just apply later

Other open positions

Data Engineer Senior - NLP / données non structurées

🚀 Pourquoi ce projet est différent

🎯 Votre mission

Au cœur du poste (intérêt technique)

✅ Profil recherché

Stack / compétences (indicatif)

⭐ Bonus (appréciés)

🧪 Process de sélection

📍 Localisation

Collective

Our other open positionsView all open positions

𝐃𝐞́𝐯𝐞𝐥𝐨𝐩𝐩𝐞𝐮𝐫·𝐬𝐞 𝐏𝐲𝐭𝐡𝐨𝐧

Acheteur PPAP APQP Le HAvre

Administrateur AS400

Administrateur Base de Données Oracle Expérimenté

Administrateur système et réseau

Interested?

Contact Person

No time? Just apply later

Other open positions

Our other open positions
View all open positions