Sujets détaillés — Hack The Harvest

Sources de données : trois niveaux d'effort

Toutes les sources listées sont 100 % gratuites et accessibles sans aucun moyen de paiement. Elles sont classées par niveau de friction administrative. Les sources Tier 3 demandent plus de démarches mais offrent un avantage compétitif réel — le jury valorise les équipes qui mobilisent ces ressources.

Tier 1 — Zéro friction Aucune inscription. Accès immédiat à l'URL.

Tier 2 — Inscription simple Email + mot de passe, parfois vérification SMS.

Tier 3 — Effort récompensé Compte cloud, validation académique, formulaire.

Track · Vision satellite + Classification

Cartographie intelligente des oliveraies tunisiennes

Difficulté : Élevée — pipeline en deux étages

Énoncé métier

Personne en Tunisie ne dispose d'une carte fine, actualisée et qualifiée des oliveraies. Les statistiques officielles agrégées par gouvernorat ne distinguent pas les systèmes de conduite, alors que les rendements et besoins en eau sont radicalement différents : 1-3 t/ha en extensif sec, 4-8 t/ha en intensif, 10-15 t/ha en hyper-intensif irrigué. Une carte qui détecte ET qualifie chaque oliveraie devient un actif stratégique inédit pour la planification logistique, le ciblage commercial AgriManager, l'allocation d'eau et la prévision de production nationale.

Mission étudiant

Construire un pipeline complet qui, à partir d'un périmètre dessiné sur une carte, détecte toutes les oliveraies présentes (segmentation Sentinel-2) puis classifie chacune en extensif / intensif / hyper-intensif (signature spectrale et texturale).

Livrable attendu

Une application web avec une carte Leaflet permettant de dessiner un polygone, une API REST qui exécute le pipeline complet (détection + classification), et un export GeoJSON téléchargeable des oliveraies annotées.

Procédure de validation par le jury

Démo en live · le jury teste l'app

Le jour de la présentation, un membre du jury ouvre l'app et exécute le scénario suivant :

Le jury dessine un grand polygone sur la carte de Tunisie (zone au choix : 50 km² au Cap Bon, Sahel, Sfax, etc.)

Il clique sur "Analyser cette zone" → l'API exécute la détection puis la classification en arrière-plan

En quelques secondes, la carte affiche les oliveraies détectées colorées par système :
🟢 vert = extensif 🟡 jaune = intensif 🔴 rouge = hyper-intensif

Tableau récapitulatif : nombre d'oliveraies détectées, surface totale, répartition par système, surface moyenne

Le jury peut télécharger un GeoJSON avec les polygones annotés pour vérifier dans QGIS

Endpoint API attendu :

POST /api/cartographier
{
  "polygone_perimetre": <GeoJSON Polygon>,
  "date": "2026-06-15"
}

// Response
{
  "oliveraies": [
    {
      "polygone": <GeoJSON>,
      "systeme": "intensif",
      "confiance": 0.87,
      "surface_ha": 12.4
    }, ...
  ],
  "stats": {
    "total_oliveraies": 47,
    "surface_totale_ha": 612.3,
    "repartition": {
      "extensif": 28,
      "intensif": 15,
      "hyper_intensif": 4
    }
  }
}

Approche technique

Pipeline en deux étages :

[Étage 1 — Segmentation] Splitter les JSON oliviers EZZAYRA en train (70%) / val (15%) / test (15%) avec stratification spatiale par gouvernorat — ne jamais mélanger des polygones d'une même zone.
[Étage 1] Pour chaque polygone, télécharger les bandes Sentinel-2 L2A (B2, B3, B4, B8, B11) sur la période mai-juin où le contraste olivier/sol est maximal. Filtrer les nuages avec la masque SCL.
[Étage 1] Entraîner un U-Net avec backbone ResNet pré-entraîné (segmentation_models_pytorch). Loss = BCE + Dice combinées.
[Étage 2 — Classification] Sur chaque polygone détecté, extraire features : NDVI moyen/max/min, amplitude saisonnière, NDWI, NDRE, densité de canopée (FAPAR/LAI).
[Étage 2] Calculer features de texture GLCM sur les images haute saison — la régularité géométrique des hyper-intensifs en haies se voit nettement à 10 m.
[Étage 2] Random Forest ou XGBoost multi-classe (E/I/HI). Validation par CV spatiale obligatoire.
[Démo] FastAPI + frontend Leaflet avec outil de dessin de polygone (Leaflet.draw). Limiter la taille max du polygone (ex: 100 km²) pour la démo live.

Sources de données

JSON oliviers EZZAYRA + attribut système — vérité terrain

Fourni dans le pack hackathon. Donnée introuvable ailleurs — c'est ce qui rend le sujet unique.

Pack fourni

Copernicus Data Space Ecosystem (Sentinel-2 L2A)

Inscription par email seulement, pas de carte bancaire. 10 000 crédits openEO gratuits par mois.

Accéder

Google Earth Engine

Compte Google + projet "noncommercial". Catalogue Sentinel + Landsat + MODIS unifié, exécution cloud.

S'inscrire

Planet NICFI — imagerie 4.7 m mensuelle

Compte NICFI gratuit pour usage non-commercial / recherche. Permet la distinction fine des haies hyper-intensives.

S'inscrire

OpenStreetMap Overpass API

Aucune inscription. Tag landuse=orchard pour candidats à l'inférence nationale.

Accéder

SoilGrids 250m

Aucune inscription. Texture, pH, CEC. Features de contexte pour la classification.

Accéder

Critères jury spécifiques

Évaluation sujet 01

IoU ≥ 0.65 sur la détection (étage 1)
F1 macro ≥ 0.70 sur la classification 3 classes (étage 2)
Démo live fonctionnelle sur une zone non-vue à l'entraînement
Matrice de confusion 3×3 affichée et commentée
Validation spatiale appliquée (pas seulement aléatoire)
Latence acceptable pour la démo (< 30 s sur polygone de 50 km²)

Pièges à éviter

Fuite de données spatiale : ne jamais mettre des polygones voisins dans train et test — l'autocorrélation spatiale gonfle artificiellement les scores.
Confusion intensif/hyper-intensif : les deux peuvent avoir des NDVI similaires en pleine saison. Différencier par texture et amplitude saisonnière.
Déséquilibre des classes : probablement plus d'extensifs que d'hyper-intensifs. Utiliser class_weight ou SMOTE.
Période d'acquisition : en hiver, l'olivier ressemble spectralement à beaucoup d'autres cultures. Privilégier mai-juin.
Démo trop lente : précalculer un cache des images Sentinel sur la zone démo pour répondre en quelques secondes.

Track · Prédiction de rendement

Modèle prédictif de tonnage à la parcelle de tomate

Difficulté : Élevée — feature engineering exigeant

Énoncé métier

La tomate est une culture stratégique pour la Tunisie : transformation industrielle (concentré, double-concentré, conserves), marché frais et export. Le rendement varie fortement selon l'irrigation, le sol, la météo et le calendrier de plantation. Une prédiction fiable du tonnage 30-45 jours avant récolte est un actif stratégique pour : le financement agricole (banques, micro-finance), l'assurance récolte, la planification logistique des conserveries, et le pré-positionnement commercial.

Mission étudiant

Construire un modèle qui prédit le tonnage d'une parcelle de tomate à partir de l'historique NDVI et météo de la saison. Vérité terrain : les tonnages réels par parcelle fournis par EZZAYRA — donnée rare en Tunisie, c'est ce qui rend ce sujet scientifiquement crédible.

Livrable attendu

Une API REST qui prend en entrée un JSON parcelle (polygone + date de prédiction) et retourne le tonnage prédit avec intervalle de confiance et explication SHAP. Un dashboard qui visualise la prédiction sur la carte et explique les facteurs déterminants.

Procédure de validation par le jury

Démo en live · le jury teste l'API

Le jury fournit un JSON de parcelle et observe la réponse complète :

Le jury fournit un JSON parcelle (test de generalization sur parcelle non-vue à l'entraînement) via Postman ou l'interface web

L'API exécute la collecte automatique des features (NDVI Sentinel-2 + météo Open-Meteo + sol SoilGrids)

Réponse : tonnage prédit en tonnes, intervalle de confiance à 95%, et top features SHAP qui expliquent la prédiction

Le dashboard affiche une visualisation interactive : courbe NDVI saisonnière, graphique SHAP, carte de la parcelle

Endpoint API attendu :

POST /api/predire-rendement
{
  "parcelle": {
    "id": "P_2026_142",
    "polygone": <GeoJSON Polygon>,
    "date_plantation": "2026-04-15",
    "variete": "Rio Grande"
  },
  "date_prediction": "2026-08-10"
}

// Response
{
  "tonnage_predit_t": 52.3,
  "intervalle_confiance_95": [46.1, 58.7],
  "top_features_shap": [
    {"feature": "NDVI_max_juillet", "impact": +8.4},
    {"feature": "cumul_pluie_juin", "impact": -3.1},
    {"feature": "jours_stress_thermique", "impact": -2.7}
  ],
  "date_recolte_estimee": "2026-09-22"
}

Approche technique

Pour chaque parcelle, calculer une série NDVI Sentinel-2 (10-15 dates par saison) et des agrégats météo (cumul pluie, jours de stress >35°C, ET₀ cumulé, GDD).
Feature engineering temporel par phase phénologique tomate : levée, croissance végétative, floraison, fructification, maturation. Chaque phase a son propre indicateur.
Ajouter des features sol (SoilGrids) : texture, pH, capacité de rétention en eau.
Modèles : LightGBM ou XGBoost en baseline, puis tester un LSTM si la série temporelle le permet.
Validation croisée spatiale (K-Fold groupé par région) — la CV temporelle classique ne suffit pas car les parcelles voisines sont corrélées.
SHAP values obligatoires pour expliquer chaque prédiction. C'est le critère d'adoption terrain le plus important.
Calibration de l'intervalle de confiance : conformal prediction ou quantile regression — pas juste une valeur ponctuelle.

Sources de données

Parcelles + tonnages tomate EZZAYRA — labels

Fourni dans le pack hackathon. Vérité terrain. Multi-saisons.

Pack fourni

Open-Meteo (météo + ET₀)

API REST gratuite, aucune clé requise, ET₀ calculé directement par l'API. 80 ans d'historique.

Docs API

NASA POWER (climato 40 ans)

Aucune inscription. Variables agro complètes. Indispensable pour calculer GDD.

Docs API

Sentinel Hub Process API (NDVI rapide)

Compte CDSE + génération OAuth. Plus performant qu'OData pour des time series.

Docs API

SoilGrids 250m

Aucune inscription. Texture, pH, CEC, carbone organique. Features sol essentielles.

Accéder

AgERA5 — météo agro réanalysée 0.1°

Compte Climate Data Store + acceptation conditions. Variables agro horaires sur 40 ans, qualité supérieure.

S'inscrire

Critères jury spécifiques

Évaluation sujet 02

MAPE par classe de rendement (faible/moyen/fort) — pas seulement RMSE global
SHAP values disponibles dans la démo, expliquables à un non-data scientist
Validation spatiale (CV par groupe géographique) appliquée
Intervalle de confiance calibré (pas juste une valeur ponctuelle)
Démo API live fonctionnelle sur parcelle non-vue à l'entraînement

Pièges à éviter

Fuite temporelle : ne jamais utiliser de features postérieures à la date de prédiction.
Métrique RMSE seule : trompeuse quand les classes sont déséquilibrées. MAPE par tranche est plus honnête.
Saisonnalité ignorée : en Tunisie, la tomate de saison ouverte (printemps-été) et celle de plein champ d'hiver sous abri ont des rendements très différents — les distinguer si l'info est dans le JSON.
Variétés mélangées : les variétés industrielles (Rio Grande, Heinz) ont des potentiels très différents des variétés de bouche.

Track · Stress hydrique & santé des cultures

Détection précoce d'anomalies sur oliveraies

Difficulté : Modérée — apprentissage non-supervisé accessible

Énoncé métier

Quand une oliveraie souffre (stress hydrique, attaque de ravageurs, problème d'irrigation), le stress visible apparaît trop tard — les pertes sont déjà actées. Une détection 2-3 semaines en amont permet à l'agriculteur d'intervenir : irrigation d'appoint, traitement ciblé, vérification du système. Détecter ces anomalies sans avoir besoin de labels "stressé/sain" est un sujet typiquement non-supervisé qui colle aux données disponibles.

Mission étudiant

Sur les oliveraies connues d'EZZAYRA, construire un système de détection d'anomalie qui alerte quand le NDVI d'une parcelle décroche par rapport à son comportement historique attendu, compte tenu de la météo locale.

Livrable attendu

Un dashboard cartographique Leaflet qui affiche en temps quasi-réel chaque parcelle en vert / orange / rouge selon son score d'anomalie, plus une API qui retourne ce statut pour une parcelle donnée.

Procédure de validation par le jury

Démo en live · diagnostic d'une parcelle

Le jury fournit le JSON d'une oliveraie et observe le diagnostic complet :

Le jury fournit un JSON oliveraie (test sur parcelle réelle) via l'interface ou Postman

L'API exécute la collecte NDVI + météo des dernières semaines et calcule l'écart par rapport au comportement attendu

Réponse : statut vert/orange/rouge, anomaly score numérique, courbe NDVI observé vs attendu, explication textuelle

Sur le dashboard cartographique, le jury voit la parcelle apparaître colorée selon son statut au milieu des autres oliveraies

Endpoint API attendu :

POST /api/diagnostic-anomalie
{
  "oliveraie": {
    "id": "O_2026_307",
    "polygone": <GeoJSON>,
    "systeme": "intensif"
  },
  "date": "2026-07-15"
}

// Response
{
  "statut": "orange",
  "anomaly_score": 2.4,
  "ndvi_observe": [0.42, 0.45, 0.41, 0.37, 0.34],
  "ndvi_attendu": [0.48, 0.50, 0.52, 0.51, 0.50],
  "explication": "NDVI 26% en dessous attendu sur 3 semaines, malgré pluie normale. Stress probable - vérifier irrigation.",
  "recommandation": "Inspection visuelle dans 48h"
}

Approche technique

Pour chaque parcelle, construire un "NDVI attendu" en fonction de (date saisonnière, pluviométrie cumulée, température cumulée, système de conduite). Régression Ridge ou Prophet.
Calculer un anomaly score = écart normalisé entre NDVI observé et NDVI attendu sur fenêtre glissante 3 semaines.
Seuiller dynamiquement en vert / orange / rouge avec des seuils basés sur les quantiles historiques de la parcelle.
Dashboard Leaflet avec couches : parcelles colorées, popup détail (courbe NDVI réel vs attendu), filtre par gouvernorat / système.
Bonus : ajouter la température de surface (LST) de Landsat 8/9 thermique pour détecter le stress thermique avant qu'il n'apparaisse en NDVI.
Module d'explication : générer automatiquement un texte court qui explique pourquoi la parcelle est en alerte.

Sources de données

JSON oliviers EZZAYRA

Fourni dans le pack hackathon. Population de référence pour le baseline saisonnier.

Pack fourni

Sentinel-2 série temporelle

Via Copernicus Data Space Ecosystem. 5-10 ans de profondeur historique nécessaires pour calibrer le baseline.

Accéder

CHIRPS — pluviométrie satellite

Public domain, aucune inscription. 0.05° de résolution, 1981-aujourd'hui. Plus fiable que les stations sol tunisiennes en zone rurale.

Accéder

Open-Meteo Archive API

80 ans de météo historique sans inscription. Idéal pour features de calage.

Docs API

MODIS LST (température de surface)

NASA Earthdata Login + token. Donnée 1 km résolution depuis 2000. Bonus : détection du stress thermique pré-NDVI.

S'inscrire

Google Earth Engine — accès unifié

Compte Google + projet noncommercial. Permet de combiner MODIS LST et Sentinel-2 NDVI dans un seul script.

S'inscrire

Critères jury spécifiques

Évaluation sujet 03

Distinction claire entre vraie anomalie et bruit naturel saisonnier
Module d'explication automatique fonctionnel et pertinent
Dashboard fluide, lisible par un non-technique
Démo API live sur oliveraie réelle
Bonus pour intégration LST thermique (stress avant NDVI)

Pièges à éviter

Phénologie ignorée : le NDVI d'un olivier varie naturellement entre saisons. Le baseline doit être saisonnier, pas global.
Bruit pixel : moyenner sur la parcelle entière, pas sur un seul pixel. Les pixels de bordure sont contaminés par le sol nu.
Faux positifs après taille : une chute de NDVI après taille est normale, pas une anomalie. Stratifier par mois et par système.
Différence E/I/HI : un extensif sec a naturellement un NDVI plus bas qu'un hyper-intensif. Le baseline doit être par système.

Track · IA conversationnelle multimodale

Assistant vocal oléicole en darija (vision + RAG)

Difficulté : Élevée — pile complète vision + ASR + RAG + LLM + TTS

Énoncé métier

Une grande partie des oléiculteurs tunisiens lisent peu, parlent dialecte, et n'ont pas accès régulier aux conseillers agricoles. Un assistant vocal en darija couplé à la vision (photo de feuille) démocratise le conseil agronomique. Mais attention : un chatbot agricole qui hallucine peut faire perdre une récolte ou empoisonner un agriculteur. Ce sujet est autant un défi technique qu'un défi de sécurité.

Mission étudiant

Construire un assistant multimodal qui répond en arabe tunisien aux questions des oléiculteurs, en se basant strictement sur (1) un corpus de PDF que l'équipe télécharge depuis les liens fournis (FAO, EPPO, CIHEAM), et (2) un classifieur de maladies de feuille d'olivier. L'assistant doit refuser de répondre si l'information n'est pas dans le corpus — l'hallucination est interdite et pénalisée fortement par le jury (30 points).

Livrable attendu

Une PWA (Progressive Web App) ou app mobile qui :

Prend une photo de feuille avec l'appareil photo du téléphone
Écoute la voix de l'agriculteur en darija (Whisper)
Classifie la photo (CNN entraîné sur PlantVillage olive disease) + cherche dans le corpus PDF
Répond vocalement en darija avec citation de la source
Refuse poliment quand le score de pertinence est trop bas

Procédure de validation par le jury

Démo en live · scénario d'utilisation réel

Le jury simule un agriculteur qui consulte l'app sur son téléphone :

Le jury prend une photo d'une feuille d'olivier malade (échantillon physique apporté par les organisateurs ou photo téléchargée du dataset PlantVillage)

Il pose une question vocale en darija :
شنوة هاذي المرض اللي في زيتوني ؟
("c'est quoi cette maladie sur mon olivier ?")

L'app transcrit la voix (Whisper), classifie la photo (CNN), cherche dans le corpus PDF, et génère une réponse textuelle en arabe avec citation de la source

L'app lit la réponse en darija (TTS) — le jury écoute la qualité de prononciation et la pertinence du diagnostic

Test de sécurité : le jury pose une question hors-corpus (ex : "comment fertiliser mes amandiers ?"). L'app doit refuser poliment et orienter vers un conseiller

Exemples de questions traitées

السؤال بالدارجة

Ce que fait l'app

شنوة هاذي المرض اللي في زيتوني ؟ + 📷

Photo → CNN classifie (œil de paon, anthracnose, verticilliose…) → fiche EPPO → réponse en darija

وقتاش نحشّش زيتوني ؟

Recherche dans corpus FAO/CIHEAM la fenêtre de taille recommandée → réponse vocale

كيفاش نعالج عين الطاووس ؟

Recherche dans EPPO les méthodes de lutte → réponse + renvoi vers conseiller pour dosages précis

شنوة الشركة اللي تشري طماطم في تونس ؟

Refus : hors-corpus oléicole → orientation vers conseiller

Approche technique

Vision (CNN photo de feuille) : entraîner sur PlantVillage olive disease (open dataset) ou utiliser un modèle pré-entraîné. Classes : sain, œil de paon, anthracnose, verticilliose, etc.
ASR (Whisper) : transcrire la voix darija en texte. Whisper-large gère bien l'arabe tunisien.
Constitution du corpus : télécharger les PDF des URLs fournies (FAO ECOCROP, EPPO Global Database, FAO Olive Production Manual, CIHEAM-IAMB Bari, Cahiers Agricultures CIRAD). Convertir PDF → texte → chunks de ~500 tokens.
Indexation vectorielle : embeddings multilingues (sentence-transformers paraphrase-multilingual-MiniLM), stockage FAISS ou ChromaDB.
Récupération hybride : recherche sémantique sur le corpus + injection du résultat de la classification photo.
Garde-fou anti-hallucination : si le score de pertinence top-1 < seuil, l'app répond "Je n'ai pas l'information dans ma base, contacte un conseiller agricole".
LLM : uniquement pour reformuler la réponse en darija à partir des passages trouvés. Prompt strict : "Ne réponds qu'à partir des extraits ci-dessous, ne complète pas avec tes propres connaissances".
TTS : synthèse vocale arabe (Coqui TTS ou edge-tts gratuits).

Sources de données — corpus à scraper / télécharger

PlantVillage Dataset (photos maladies feuilles)

Dataset open source. Contient des classes olive disease pour entraîner le CNN.

GitHub

FAO ECOCROP — fiches culture olivier

Aucune inscription. Besoins climatiques, sol, eau pour l'olivier.

Accéder

EPPO Global Database

Aucune inscription. Fiches maladies/ravageurs de l'olivier avec photos et fiches de gestion.

Accéder

FAO Olive Production Manual

PDF libre, référence mondiale oléiculture. À télécharger et indexer.

Catalogue FAO

CIHEAM-IAMB Bari — publications oléiculture

Centre de référence méditerranéen. Nombreuses publications libres en français/anglais sur l'olivier.

Accéder

Cahiers Agricultures (CIRAD)

Articles open access en français, contexte méditerranéen.

Accéder

Whisper (ASR open-source)

Code et poids gratuits sur GitHub. Whisper-large gère le dialecte tunisien.

GitHub

Coqui TTS / edge-tts

Synthèse vocale arabe gratuite, sans clé API. edge-tts utilise les voix Microsoft sans authentification.

GitHub

Critères jury spécifiques — anti-hallucination

Évaluation sujet 04 — protocole de test renforcé

Test de qualité : 5 questions vocales avec photos dont la réponse EST dans le corpus → l'app doit répondre correctement
Test photo : 3 photos de feuilles malades (différentes maladies) → bon diagnostic CNN
Test de sécurité : 3 questions piégées hors-corpus → l'app doit refuser poliment
Une seule hallucination = pénalité majeure de 30 points sur 100
Démo vocale fluide en darija devant le jury
Latence réponse < 8 secondes sur question simple
Citation systématique de la source dans la réponse

Pièges à éviter

Laisser le LLM "compléter" : sans prompt strict et sans seuil de pertinence, le LLM hallucine systématiquement. Le prompt doit interdire l'usage des connaissances pré-entraînées.
Embeddings monolingues : si l'index est en français mais la question en arabe, la recherche échoue. Utiliser un modèle multilingue.
Corpus trop petit : moins de 50 documents = système qui refuse trop souvent. Viser 200-500 documents bien chunked.
Dosages précis : ne jamais laisser l'app donner un dosage de pesticide précis — toujours renvoyer vers la fiche produit ou un conseiller. Risque légal.
CNN sur-entraîné : PlantVillage est un dataset "lab" avec fond uniforme. Les vraies photos terrain ont du fouillis — augmenter avec data augmentation agressive.

Sources premium · Tier 3

L'effort de recherche, ça paie.

Ces sources demandent plus de démarches administratives — création de compte cloud, formulaire de validation, génération de tokens. Mais elles offrent des données premium qui font une différence visible dans les résultats. Le jury distingue les équipes qui les mobilisent.

AgERA5 T3

Météo agro réanalysée 0.1°, 40 ans, qualité supérieure. Variables agro horaires (ET₀, GDD, déficit hydrique).

cds.climate.copernicus.eu

Google Earth Engine T3

Tout le catalogue Sentinel + Landsat + MODIS dans un seul environnement cloud, exécution serverless. Community tier gratuit, sans facturation.

earthengine.google.com

NASA Earthdata T3

MODIS LST, Landsat 8/9 thermique, MODIS LAI/FAPAR. URS account + token. Indispensable pour le stress thermique.

urs.earthdata.nasa.gov

Planet NICFI T3

Imagerie PlanetScope 4.7 m de résolution, mensuelle, gratuite pour usage non-commercial / recherche.

planet.com/nicfi

WaPOR FAO T3

Productivité de l'eau Afrique/Moyen-Orient, calibré spécifiquement agriculture. Compte WaPOR + clé API.

wapor.apps.fao.org

Sentinel Hub Process API T2/T3

Compte CDSE + génération OAuth client. Plus performant qu'OData pour des time series.

docs.sentinel-hub.com

Kaggle (datasets oliviers) T2

Inscription email + vérification SMS. Versions augmentées des datasets oliviers de meilleure qualité.

kaggle.com/datasets

Microsoft Planetary Computer T3

Catalogue Sentinel + Landsat + datasets globaux. Compte Microsoft + acceptation TOS.

planetarycomputer.microsoft.com

Les 4 sujets détaillésde Hack The Harvest.

Sources de données : trois niveaux d'effort

Énoncé métier

Mission étudiant

Livrable attendu

Procédure de validation par le jury

Approche technique

Sources de données

JSON oliviers EZZAYRA + attribut système — vérité terrain

Copernicus Data Space Ecosystem (Sentinel-2 L2A)

Google Earth Engine

Planet NICFI — imagerie 4.7 m mensuelle

OpenStreetMap Overpass API

SoilGrids 250m

Critères jury spécifiques

Évaluation sujet 01

Pièges à éviter

Énoncé métier

Mission étudiant

Livrable attendu

Procédure de validation par le jury

Approche technique

Sources de données

Parcelles + tonnages tomate EZZAYRA — labels

Open-Meteo (météo + ET₀)

NASA POWER (climato 40 ans)

Sentinel Hub Process API (NDVI rapide)

SoilGrids 250m

AgERA5 — météo agro réanalysée 0.1°

Critères jury spécifiques

Évaluation sujet 02

Pièges à éviter

Énoncé métier

Mission étudiant

Livrable attendu

Procédure de validation par le jury

Approche technique

Sources de données

JSON oliviers EZZAYRA

Sentinel-2 série temporelle

CHIRPS — pluviométrie satellite

Open-Meteo Archive API

MODIS LST (température de surface)

Google Earth Engine — accès unifié

Critères jury spécifiques

Évaluation sujet 03

Pièges à éviter

Énoncé métier

Mission étudiant

Livrable attendu

Procédure de validation par le jury

Exemples de questions traitées

Approche technique

Sources de données — corpus à scraper / télécharger

PlantVillage Dataset (photos maladies feuilles)

FAO ECOCROP — fiches culture olivier

EPPO Global Database

FAO Olive Production Manual

CIHEAM-IAMB Bari — publications oléiculture

Cahiers Agricultures (CIRAD)

Whisper (ASR open-source)

Coqui TTS / edge-tts

Critères jury spécifiques — anti-hallucination

Évaluation sujet 04 — protocole de test renforcé

Pièges à éviter

L'effort de recherche, ça paie.

AgERA5 T3

Google Earth Engine T3

NASA Earthdata T3

Planet NICFI T3

WaPOR FAO T3

Sentinel Hub Process API T2/T3

Kaggle (datasets oliviers) T2

Microsoft Planetary Computer T3

Les 4 sujets détaillés
de Hack The Harvest.