HTGAJ Admin — Stage ML Research Engineer

Job Detail

Stage ML Research Engineer

SAHAR · Paris, FR

Data Science and AI Stage

ID: #12615

Posted: 2026-02-25

Apply Link

Salary

—

Description

En tant que stagiaire ML Research Engineer, vous contribuerez à concevoir et déployer des solutions d’intelligence artificielle avancées, au cœur de problématiques métiers concrètes et innovantes. Vous serez acteur(trice) de projets ambitieux, à l’intersection du traitement automatique du langage, de la vision par ordinateur et de l’analyse de données hétérogènes. Intégré(e) à une équipe pluridisciplinaire, vous collaborerez avec des experts en IA, ingénierie et sécurité pour prototyper, évaluer et industrialiser des solutions robustes, scalables et alignées sur les enjeux stratégiques de l’entreprise Les sujets proposés s’articulent autour de défis techniques variés, tels que l’extraction et la structuration automatique d’informations OSINT (via des modèles de Named Entity Recognition, de Relation Extraction ou de fine-tuning de LLMs), ou encore la géolocalisation automatique d’images (en combinant Vision Transformers, feature matching et apprentissage contrastif). Vous aurez l’opportunité de travailler sur des cas d’usage concrets, en exploitant des données textuelles, visuelles ou multimodales, et en contribuant activement à l’amélioration des pipelines d’IA. Ce stage est une occasion unique de développer vos compétences en deep learning, machine learning, en traitement de données complexes et en recherche appliquée, dans un environnement dynamique et stimulant. Sujets du stage SUJET R&D 1 : Knowledge Graph et Agents IA Contexte Ce stage a pour objectif de développer une méthode d’extraction et de structuration de connaissances sous forme de graphe, puis d’étudier son exploitation pour alimenter un agent IA en informations fiables et contextualisées. Sujet du stage • FOCUS 1 : Développement d’une méthode automatisée de la construction de Knowledge Graph • 1. Extraction et structuration des données • Extraction d’entités et de relations : Utiliser / entraîner / fine tuner des modèles de NER et des méthodes d’extraction de relations (règles linguistiques, apprentissage supervisé/faiblement supervisé) pour identifier et structurer les informations clés (personnes, organisations, événements, lieux). • Entity Linking et désambiguïsation : Lier les entités extraites à des références uniques (Wikidata, bases internes) et résoudre les ambigüités en s’appuyant sur des ontologies pour structurer les concepts. • Construction dynamique du graphe : Concevoir un pipeline pour peupler le graphe avec les entités et relations extraites, en garantissant la cohérence et la traçabilité des données (exemple d’outils : Neo4j, ArangoDB, NetworkX). • 2. Évaluation et optimisation • Définir des métriques de qualité (précision, rappel, cohérence) et des tests de graph completion pour évaluer la robustesse du graphe. • Optimiser le pipeline pour une mise à jour automatique et une scalabilité face à des volumes importants de données. • FOCUS 2 : Exploitation de graphe et LLM • 1. Intégration du graphe dans un système RAG • Agent de récupération d’information : Développer un agent capable d’interroger le graphe pour extraire des informations pertinentes en réponse à une requête utilisateur ou un prompt de LLM. • Filtrage des hallucinations : Utiliser le graphe comme source de vérité pour valider les réponses générées par un LLM, en croisant les informations avec les données structurées. • Pondération et pertinence : Implémenter des scores de confiance pour prioriser les informations les plus fiables et contextualisées avant leur intégration dans un prompt de LLM. • 2. Application à un cas d’usage concret • Scénarios d’utilisation : • Répondre à des questions complexes en s’appuyant sur le graphe. • Générer des résumés ou rapports automatisés en combinant les données du graphe avec un LLM. • Combinaison avec des techniques de QA : Associer le graphe à des modèles de Question Answering pour fournir des réponses précises, sourcées et explicables. • Approches few-shot : Adapter le système pour générer des réponses contextualisées à partir d’exemples tirés du graphe, améliorant ainsi la pertinence des résultats. Innovation et impact • Réduction des hallucinations : Le graphe agit comme un filtre pour les réponses générées par les LLMs. • Automatisation intelligente : L’agent IA exploite le graphe pour enrichir dynamiquement les prompts d’un LLM, améliorant la qualité et la fiabilité des réponses. Quelques papiers de recherches en rapport avec le sujet du stage Extraction et structuration des données • LLM-empowered knowledge graph construction: A survey (arXiv, 2025) : Survey sur l’utilisation des LLM pour construire des knowledge graphs, incluant l’extraction d’entités/relations et l’ontologie automatisée. Frameworks comme GraphRAG et OntoRAG sont analysés, avec un focus sur la qualité et la réduction des hallucinations. https://arxiv.org/html/2510.20345v1 • The construction and refined extraction techniques of knowledge graph based on large language models (Scientific Reports, 2026) : Méthodes de prompt engineering et LLM pour extraire et structurer des connaissances, en abordant la désambiguïsation et la qualité des triples. nature.com • KGGen: Extracting Knowledge Graphs from Plain Text with Language Models (arXiv, 2025) : Framework Microsoft (GraphRAG) pour générer des knowledge graphs à partir de texte, avec discussion sur les limites (bruit, incomplétude) et solutions d’amélioration. https://arxiv.org/html/2502.09956v1 • Efficient Knowledge Graph Construction and Retrieval from Unstructured Text for Large-Scale RAG Systems (arXiv, 2025) : Stratégies d’indexation et de récupération dynamique de graphes à grande échelle, utilisant HyperTree Planning et RGL. https://arxiv.org/html/2507.03226v2 Intégration du graphe dans un système RAG • MEGA-RAG (PMC, 2025) : Framework RAG utilisant des knowledge graphs pour valider les réponses et réduire les hallucinations via des preuves multiples. https://pmc.ncbi.nlm.nih.gov/articles/PMC12540348/ • Mitigating Hallucination in LLMs (arXiv, 2025) : Survey sur les solutions anti-hallucinations (RAG, raisonnement, agents IA) et l’ancrage des réponses dans des données structurées. arxiv.org • GraphRAG (GitHub/ACL, 2025) : Framework open-source améliorant la précision des réponses en RAG grâce à des graphes, avec applications en finance et santé. https://aclanthology.org/2025.genaik-1.6.pdf • Hallucination Mitigation for RAG (MDPI, 2025) : Revue des limites du RAG classique et du rôle des knowledge graphs pour valider les réponses. https://www.mdpi.com/2227-7390/13/5/856 SUJET R&D 2 : Géolocalisation Automatique d’Images (Geo-Guessing AI) Contexte La géolocalisation d’images sans métadonnées est un enjeu majeur pour l’OSINT, la vérification d’informations et la sécurité. Ce stage a pour objectif de développer une solution d’IA capable d’estimer la localisation d’une image en combinant vision par ordinateur, feature matching et apprentissage multimodal.. Plan du stage • Revue de l’état de l’art : Étudier les méthodes existantes (Deep learning, apprentissage contrastif, multimodal learning, etc.). • Expérimentation : Tester et adapter les approches identifiées pour géolocaliser des images issues de sources OSINT. • Benchmark : Évaluer les performances des modèles (précision, robustesse, temps de calcul) sur des jeux de données variés. • Propositions d’améliorations et implémentations: Identifier les limites des solutions actuelles, suggérer des pistes innovantes pour les dépasser et implémenter. Innovation • Combinaison de techniques avancées pour une géolocalisation plus précise et fiable. • Développement de méthodes hybrides (vision + texte) pour enrichir les prédictions. Quelques papiers de recherches en rapport avec le sujet du stage Méthodes avancées : Deep Learning, Apprentissage Contrastif, Multimodal • “**GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models” (**2025): Ce récent papier explore comment affiner de grands modèles multimodaux pour la tâche de géolocalisation visuelle avec un dataset restreint mais diversifié, illustrant une direction différente centrée sur la supervision fine-tuned. https://arxiv.org/abs/2506.01277 • “PIGEON et PIGEOTTO” (2024) : Ces modèles combinent l’apprentissage contrastif multitâche, le pré-entraînement avec CLIP (Contrastive Language-Image Pre-Training), et une segmentation sémantique en géocellules. Ils ont été entraînés sur 400 000 images issues de Geoguessr, permettant une géolocalisation mondiale précise même sans métadonnées. L’approche utilise une fonction de perte innovante pour affiner la prédiction de localisation, avec une robustesse accrue face à la diversité des paysages. https://arxiv.org/abs/2307.05845 • “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization” (2023): Ce papier étend les idées de CLIP à la géolocalisation en alignant les images directement avec leurs coordonnées GPS, en représentant la Terre comme une fonction continue. https://arxiv.org/abs/2309.16020

Hard Skills 12

Skill	Source	Confidence
Deep Learning	llm_hard	100%
Large Language Models (LLMs)	llm_hard	100%
Computer Vision	llm_hard	100%
Prompt Engineering	llm_hard	100%
Fine-tuning Models	llm_hard	100%
RAG (Retrieval-Augmented Generation)	llm_hard	100%
Model Deployment	llm_hard	80%
Model Optimization	llm_hard	80%
Feature Engineering	llm_hard	80%
Data Pipelines	llm_hard	80%
NLP	llm_hard	80%
Model Performance Optimization	llm_hard	80%

Soft Skills 2

Skill	Source	Confidence
Collaboration	llm_soft	100%
Cross-Functional Communication	llm_soft	80%

Apply Options

Publisher	Direct	Link
Welcome To The Jungle	No	Apply
Welcome To The Jungle	No	Apply

API Logs for this Job

Query	Country	Status	Response ms	Created
Stage ML Research Engineer		extracted	11907	2026-03-22 03:24
Stage ML Research Engineer		classified	511	2026-03-21 21:19
trainee data scientist in Paris	fr	duplicate	5883	2026-03-21 17:23
trainee data scientist in France	fr	processed	5886	2026-03-21 17:23

Raw JSON

{
  "job_id": "oAOSWeINRIuzJ6VQAAAAAA==",
  "job_city": "Paris",
  "job_state": null,
  "job_title": "Stage ML Research Engineer",
  "job_salary": null,
  "job_country": "FR",
  "job_benefits": null,
  "job_latitude": 48.857547499999995,
  "job_location": "Paris",
  "job_onet_soc": "15111100",
  "apply_options": [
    {
      "is_direct": false,
      "publisher": "Welcome To The Jungle",
      "apply_link": "https://www.welcometothejungle.com/fr/companies/sahar/jobs/stage-ml-research-engineer_paris?utm_campaign=google_jobs_apply&utm_source=google_jobs_apply&utm_medium=organic"
    },
    {
      "is_direct": null,
      "publisher": "Welcome To The Jungle",
      "apply_link": "https://www.welcometothejungle.com/fr/companies/sahar/jobs/stage-ml-research-engineer_paris"
    }
  ],
  "employer_logo": "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSBjmo6ojBg9P9fo6s0W5sIj7hPhM4Uj7nQUU4O&s=0",
  "employer_name": "SAHAR",
  "job_is_remote": false,
  "job_longitude": 2.3513764999999998,
  "job_posted_at": "il y a 24 jours",
  "job_publisher": "Welcome To The Jungle",
  "job_apply_link": "https://www.welcometothejungle.com/fr/companies/sahar/jobs/stage-ml-research-engineer_paris?utm_campaign=google_jobs_apply&utm_source=google_jobs_apply&utm_medium=organic",
  "job_highlights": {},
  "job_max_salary": null,
  "job_min_salary": null,
  "job_description": "En tant que stagiaire ML Research Engineer, vous contribuerez à concevoir et déployer des solutions d’intelligence artificielle avancées, au cœur de problématiques métiers concrètes et innovantes. Vous serez acteur(trice) de projets ambitieux, à l’intersection du traitement automatique du langage, de la vision par ordinateur et de l’analyse de données hétérogènes.\nIntégré(e) à une équipe pluridisciplinaire, vous collaborerez avec des experts en IA, ingénierie et sécurité pour prototyper, évaluer et industrialiser des solutions robustes, scalables et alignées sur les enjeux stratégiques de l’entreprise\n\nLes sujets proposés s’articulent autour de défis techniques variés, tels que l’extraction et la structuration automatique d’informations OSINT (via des modèles de Named Entity Recognition, de Relation Extraction ou de fine-tuning de LLMs), ou encore la géolocalisation automatique d’images (en combinant Vision Transformers, feature matching et apprentissage contrastif).\nVous aurez l’opportunité de travailler sur des cas d’usage concrets, en exploitant des données textuelles, visuelles ou multimodales, et en contribuant activement à l’amélioration des pipelines d’IA.\nCe stage est une occasion unique de développer vos compétences en deep learning, machine learning, en traitement de données complexes et en recherche appliquée, dans un environnement dynamique et stimulant.\nSujets du stage\n\nSUJET R&D 1 : Knowledge Graph et Agents IA\n\nContexte Ce stage a pour objectif de développer une méthode d’extraction et de structuration de connaissances sous forme de graphe, puis d’étudier son exploitation pour alimenter un agent IA en informations fiables et contextualisées.\n\nSujet du stage\n• FOCUS 1 : Développement d’une méthode automatisée de la construction de Knowledge Graph\n• 1. Extraction et structuration des données\n• Extraction d’entités et de relations : Utiliser / entraîner / fine tuner des modèles de NER et des méthodes d’extraction de relations (règles linguistiques, apprentissage supervisé/faiblement supervisé) pour identifier et structurer les informations clés (personnes, organisations, événements, lieux).\n• Entity Linking et désambiguïsation : Lier les entités extraites à des références uniques (Wikidata, bases internes) et résoudre les ambigüités en s’appuyant sur des ontologies pour structurer les concepts.\n• Construction dynamique du graphe : Concevoir un pipeline pour peupler le graphe avec les entités et relations extraites, en garantissant la cohérence et la traçabilité des données (exemple d’outils : Neo4j, ArangoDB, NetworkX).\n• 2. Évaluation et optimisation\n• Définir des métriques de qualité (précision, rappel, cohérence) et des tests de graph completion pour évaluer la robustesse du graphe.\n• Optimiser le pipeline pour une mise à jour automatique et une scalabilité face à des volumes importants de données.\n• FOCUS 2 : Exploitation de graphe et LLM\n• 1. Intégration du graphe dans un système RAG\n• Agent de récupération d’information : Développer un agent capable d’interroger le graphe pour extraire des informations pertinentes en réponse à une requête utilisateur ou un prompt de LLM.\n• Filtrage des hallucinations : Utiliser le graphe comme source de vérité pour valider les réponses générées par un LLM, en croisant les informations avec les données structurées.\n• Pondération et pertinence : Implémenter des scores de confiance pour prioriser les informations les plus fiables et contextualisées avant leur intégration dans un prompt de LLM.\n• 2. Application à un cas d’usage concret\n• Scénarios d’utilisation :\n• Répondre à des questions complexes en s’appuyant sur le graphe.\n• Générer des résumés ou rapports automatisés en combinant les données du graphe avec un LLM.\n• Combinaison avec des techniques de QA : Associer le graphe à des modèles de Question Answering pour fournir des réponses précises, sourcées et explicables.\n• Approches few-shot : Adapter le système pour générer des réponses contextualisées à partir d’exemples tirés du graphe, améliorant ainsi la pertinence des résultats.\n\nInnovation et impact\n• Réduction des hallucinations : Le graphe agit comme un filtre pour les réponses générées par les LLMs.\n• Automatisation intelligente : L’agent IA exploite le graphe pour enrichir dynamiquement les prompts d’un LLM, améliorant la qualité et la fiabilité des réponses.\n\nQuelques papiers de recherches en rapport avec le sujet du stage\n\nExtraction et structuration des données\n• LLM-empowered knowledge graph construction: A survey (arXiv, 2025) : Survey sur l’utilisation des LLM pour construire des knowledge graphs, incluant l’extraction d’entités/relations et l’ontologie automatisée. Frameworks comme GraphRAG et OntoRAG sont analysés, avec un focus sur la qualité et la réduction des hallucinations. https://arxiv.org/html/2510.20345v1\n• The construction and refined extraction techniques of knowledge graph based on large language models (Scientific Reports, 2026) : Méthodes de prompt engineering et LLM pour extraire et structurer des connaissances, en abordant la désambiguïsation et la qualité des triples. nature.com\n• KGGen: Extracting Knowledge Graphs from Plain Text with Language Models (arXiv, 2025) : Framework Microsoft (GraphRAG) pour générer des knowledge graphs à partir de texte, avec discussion sur les limites (bruit, incomplétude) et solutions d’amélioration. https://arxiv.org/html/2502.09956v1\n• Efficient Knowledge Graph Construction and Retrieval from Unstructured Text for Large-Scale RAG Systems (arXiv, 2025) : Stratégies d’indexation et de récupération dynamique de graphes à grande échelle, utilisant HyperTree Planning et RGL. https://arxiv.org/html/2507.03226v2\n\nIntégration du graphe dans un système RAG\n• MEGA-RAG (PMC, 2025) : Framework RAG utilisant des knowledge graphs pour valider les réponses et réduire les hallucinations via des preuves multiples. https://pmc.ncbi.nlm.nih.gov/articles/PMC12540348/\n• Mitigating Hallucination in LLMs (arXiv, 2025) : Survey sur les solutions anti-hallucinations (RAG, raisonnement, agents IA) et l’ancrage des réponses dans des données structurées. arxiv.org\n• GraphRAG (GitHub/ACL, 2025) : Framework open-source améliorant la précision des réponses en RAG grâce à des graphes, avec applications en finance et santé. https://aclanthology.org/2025.genaik-1.6.pdf\n• Hallucination Mitigation for RAG (MDPI, 2025) : Revue des limites du RAG classique et du rôle des knowledge graphs pour valider les réponses. https://www.mdpi.com/2227-7390/13/5/856\n\nSUJET R&D 2 : Géolocalisation Automatique d’Images (Geo-Guessing AI)\n\nContexte La géolocalisation d’images sans métadonnées est un enjeu majeur pour l’OSINT, la vérification d’informations et la sécurité. Ce stage a pour objectif de développer une solution d’IA capable d’estimer la localisation d’une image en combinant vision par ordinateur, feature matching et apprentissage multimodal..\n\nPlan du stage\n• Revue de l’état de l’art : Étudier les méthodes existantes (Deep learning, apprentissage contrastif, multimodal learning, etc.).\n• Expérimentation : Tester et adapter les approches identifiées pour géolocaliser des images issues de sources OSINT.\n• Benchmark : Évaluer les performances des modèles (précision, robustesse, temps de calcul) sur des jeux de données variés.\n• Propositions d’améliorations et implémentations: Identifier les limites des solutions actuelles, suggérer des pistes innovantes pour les dépasser et implémenter.\n\nInnovation\n• Combinaison de techniques avancées pour une géolocalisation plus précise et fiable.\n• Développement de méthodes hybrides (vision + texte) pour enrichir les prédictions.\n\nQuelques papiers de recherches en rapport avec le sujet du stage\n\nMéthodes avancées : Deep Learning, Apprentissage Contrastif, Multimodal\n• “**GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models” (**2025): Ce récent papier explore comment affiner de grands modèles multimodaux pour la tâche de géolocalisation visuelle avec un dataset restreint mais diversifié, illustrant une direction différente centrée sur la supervision fine-tuned. https://arxiv.org/abs/2506.01277\n• “PIGEON et PIGEOTTO” (2024) : Ces modèles combinent l’apprentissage contrastif multitâche, le pré-entraînement avec CLIP (Contrastive Language-Image Pre-Training), et une segmentation sémantique en géocellules. Ils ont été entraînés sur 400 000 images issues de Geoguessr, permettant une géolocalisation mondiale précise même sans métadonnées. L’approche utilise une fonction de perte innovante pour affiner la prédiction de localisation, avec une robustesse accrue face à la diversité des paysages. https://arxiv.org/abs/2307.05845\n• “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization” (2023): Ce papier étend les idées de CLIP à la géolocalisation en alignant les images directement avec leurs coordonnées GPS, en représentant la Terre comme une fonction continue. https://arxiv.org/abs/2309.16020",
  "job_google_link": "https://www.google.com/search?q=jobs&gl=fr&hl=fr&udm=8#vhid=vt%3D20/docid%3DoAOSWeINRIuzJ6VQAAAAAA%3D%3D&vssid=jobs-detail-viewer",
  "employer_website": null,
  "job_onet_job_zone": "5",
  "job_salary_period": null,
  "job_apply_is_direct": false,
  "job_employment_type": "Stage",
  "job_employment_types": [
    "INTERN"
  ],
  "job_posted_at_timestamp": 1771977600,
  "job_posted_at_datetime_utc": "2026-02-25T00:00:00.000Z"
}