Énoncé métier
Personne en Tunisie ne dispose d'une carte fine, actualisée et qualifiée des oliveraies. Les statistiques officielles agrégées par gouvernorat ne distinguent pas les systèmes de conduite, alors que les rendements et besoins en eau sont radicalement différents : 1-3 t/ha en extensif sec, 4-8 t/ha en intensif, 10-15 t/ha en hyper-intensif irrigué. Une carte qui détecte ET qualifie chaque oliveraie devient un actif stratégique inédit pour la planification logistique, le ciblage commercial AgriManager, l'allocation d'eau et la prévision de production nationale.
Mission étudiant
Construire un pipeline complet qui, à partir d'un périmètre dessiné sur une carte, détecte toutes les oliveraies présentes (segmentation Sentinel-2) puis classifie chacune en extensif / intensif / hyper-intensif (signature spectrale et texturale).
Livrable attendu
Une application web avec une carte Leaflet permettant de dessiner un polygone, une API REST qui exécute le pipeline complet (détection + classification), et un export GeoJSON téléchargeable des oliveraies annotées.
Procédure de validation par le jury
Le jour de la présentation, un membre du jury ouvre l'app et exécute le scénario suivant :
🟢 vert = extensif 🟡 jaune = intensif 🔴 rouge = hyper-intensif
Endpoint API attendu :
Approche technique
Pipeline en deux étages :
- [Étage 1 — Segmentation] Splitter les JSON oliviers EZZAYRA en train (70%) / val (15%) / test (15%) avec stratification spatiale par gouvernorat — ne jamais mélanger des polygones d'une même zone.
- [Étage 1] Pour chaque polygone, télécharger les bandes Sentinel-2 L2A (B2, B3, B4, B8, B11) sur la période mai-juin où le contraste olivier/sol est maximal. Filtrer les nuages avec la masque SCL.
- [Étage 1] Entraîner un U-Net avec backbone ResNet pré-entraîné (segmentation_models_pytorch). Loss = BCE + Dice combinées.
- [Étage 2 — Classification] Sur chaque polygone détecté, extraire features : NDVI moyen/max/min, amplitude saisonnière, NDWI, NDRE, densité de canopée (FAPAR/LAI).
- [Étage 2] Calculer features de texture GLCM sur les images haute saison — la régularité géométrique des hyper-intensifs en haies se voit nettement à 10 m.
- [Étage 2] Random Forest ou XGBoost multi-classe (E/I/HI). Validation par CV spatiale obligatoire.
- [Démo] FastAPI + frontend Leaflet avec outil de dessin de polygone (Leaflet.draw). Limiter la taille max du polygone (ex: 100 km²) pour la démo live.
Sources de données
JSON oliviers EZZAYRA + attribut système — vérité terrain
Fourni dans le pack hackathon. Donnée introuvable ailleurs — c'est ce qui rend le sujet unique.
Copernicus Data Space Ecosystem (Sentinel-2 L2A)
Inscription par email seulement, pas de carte bancaire. 10 000 crédits openEO gratuits par mois.
Google Earth Engine
Compte Google + projet "noncommercial". Catalogue Sentinel + Landsat + MODIS unifié, exécution cloud.
Planet NICFI — imagerie 4.7 m mensuelle
Compte NICFI gratuit pour usage non-commercial / recherche. Permet la distinction fine des haies hyper-intensives.
OpenStreetMap Overpass API
Aucune inscription. Tag landuse=orchard pour candidats à l'inférence nationale.
SoilGrids 250m
Aucune inscription. Texture, pH, CEC. Features de contexte pour la classification.
Critères jury spécifiques
Évaluation sujet 01
- IoU ≥ 0.65 sur la détection (étage 1)
- F1 macro ≥ 0.70 sur la classification 3 classes (étage 2)
- Démo live fonctionnelle sur une zone non-vue à l'entraînement
- Matrice de confusion 3×3 affichée et commentée
- Validation spatiale appliquée (pas seulement aléatoire)
- Latence acceptable pour la démo (< 30 s sur polygone de 50 km²)
Pièges à éviter
- Fuite de données spatiale : ne jamais mettre des polygones voisins dans train et test — l'autocorrélation spatiale gonfle artificiellement les scores.
- Confusion intensif/hyper-intensif : les deux peuvent avoir des NDVI similaires en pleine saison. Différencier par texture et amplitude saisonnière.
- Déséquilibre des classes : probablement plus d'extensifs que d'hyper-intensifs. Utiliser
class_weightou SMOTE. - Période d'acquisition : en hiver, l'olivier ressemble spectralement à beaucoup d'autres cultures. Privilégier mai-juin.
- Démo trop lente : précalculer un cache des images Sentinel sur la zone démo pour répondre en quelques secondes.