Data Scientist – Stage – HomeExchange

Apply Now

Job Description

Afin de répondre à nos ambitions et challenges, l’équipe Data est à la recherche d’un·e stagiaire Data Scientist. L’équipe est actuellement composée de :

  • Quentin & Vincent – Data Engineer

  • Christopher, Leeroy & Guillaume – Data Analyst

  • Alexandre & Alexandre – Data Scientist

  • Soizic – Chief Data Officer

Nous cherchons donc une nouvelle pépite pour rejoindre cette belle équipe!

Objectif du stage

Optimiser un algorithme capable de détecter automatiquement les maisons de luxe à partir de plusieurs sources de données (descriptions, données géographiques, photos), avec à la clé :

  • Une meilleure recommandation pour nos utilisateurs haut de gamme,

  • Une valorisation commerciale plus ciblée

  • Un gain de temps opérationnel pour les équipes terrain (Collection Team).

Il y aura 4 phases, en collaboration avec l’équipe Collection pour valider les résultats:

  • Audit:

    • Compréhension du projet existant et des limites des solutions actuelles

    • Identifier les nouveaux objectifs attendus avec l’équipe Collection

  • Ré-entrainement:

    • Réentraîner les modèles existants sur les données les plus récentes

    • Ajuster les seuils de détection pour optimiser le ratio pertinence / volume

    • Mettre à jour les dashboards de suivi des performances

  • Amélioration de l’architecture actuelle:

    • Identifier des pistes d’amélioration et évaluer les gains

    • Développement, entraînement et mise en production du modèle amélioré

    • Documenter les évolutions

  • Automatisation de l’entraînement:

    • Mise en place d’un pipeline d’entraînement automatisé pour suivre, rejouer et comparer les expérimentations (MLFlow, Sagemaker)

    • Tracking des métriques, optimisation des hyperparamètres, et versionnement des artefacts (modèles, datasets…)

En fonction de la durée du stage, un projet de recommandation pourra compléter les missions.

Stack & compétences recherchées

  • Modélisation & machine learning : scikit-learn, LightGBM

  • Traitement de texte : NLP, embeddings, TF-IDF, BERT

  • Computer vision (optionnel) : PyTorch, DINOv2

  • Manipulation de données : pandas, SQL, dbt

  • Visualisation & évaluation : seaborn, matplotlib, plotly

  • Notions MLOps appréciées : MLflow, Airflow, Airbyte, dockerisation