Réf ABG-136791
ADUM-71988 Sujet de Thèse
17/03/2026 Autre financement public
Institut Polytechnique de Paris Télécom Paris
Lieu de travail
Palaiseau - Ile-de-France - France
Intitulé du sujet
Modèle fondamental multimodal vision‑langage pour le raisonnement en santé // Multimodal Medical Vision-Language Foundation Model for Healthcare Reasoning
Mots clés
Modèle fondamental , multimodal, vision‑langage, raisonnement , santé
Foundation Model , Multimodal , Vision-Language, Reasoning, Healthcare
Description du sujet
Ce projet de doctorat vise à construire un ensemble de données multimodal à grande échelle, longitudinal et enrichi de signaux d'ancrage solides, puis à développer un modèle vision‑langage médical (VLM) compact mais évolutif, dont la structure interne s'aligne étroitement sur les flux de travail des médecins.
La recherche sera organisée autour de deux axes étroitement liés. Le premier porte sur la construction de l'ensemble de données, impliquant la collecte et l'harmonisation de données hospitalières vietnamiennes dé‑identifiées, couvrant les radiographies, scanners (CT), PET, IRM et rapports cliniques, complétées par des ensembles de données publiques soigneusement sélectionnés. Le second axe concerne la méthodologie, en partant de modèles de base de taille modérée et cliniquement performants, dans l'esprit de LLaVA-Med, puis en décomposant le système en modules experts interactifs pour la récupération, la localisation, la segmentation, la quantification, le masquage, le contrôle, la vérification et la génération.
L'objectif attendu est la création d'un cadre de recherche cliniquement ancré, capable de soutenir la génération de rapports, les questions-réponses visuelles médicales (VQA), la localisation, l'interprétation et l'aide à la décision. Ce cadre offre également une voie réaliste pour passer de modèles compacts spécifiques au domaine à des systèmes multimodaux de raisonnement en santé plus larges, garantissant à la fois applicabilité pratique et pertinence clinique tout au long du doctorat.
-
-
This PhD project aims to construct a large-scale, longitudinal, multimodal dataset enriched with strong grounding signals and to develop a compact-to-scalable medical vision-language model (VLM) whose internal structure aligns closely with physician workflows.
The research will be organized around two tightly coupled thrusts. The first focuses on dataset construction, involving the collection and harmonization of de-identified Vietnamese hospital data across X-ray, CT, PET, MRI, and clinical reports, complemented by carefully curated public datasets. The second focuses on methodology, starting from clinically competitive, moderate-size backbone models in the spirit of LLaVA-Med, and decomposing the system into interactive expert modules for retrieval, localization, segmentation, quantification, masking, gating, verification, and generation.
The expected outcome is a clinically grounded research framework capable of supporting report generation, medical visual question answering (VQA), localization, interpretation, and decision support. Crucially, this framework provides a realistic pathway from compact, domain-specific modeling toward larger multimodal healthcare reasoning systems, ensuring both practical applicability and clinical relevance throughout the course of the PhD.
-
-
Début de la thèse : 01/10/2026
Nature du financement
Autre financement public
Précisions sur le financement
Concours IPP ou école membre*Contrat Doctoral E4H*Contrat doctoral Hi!Paris*Demi-allocation ANR IA*
Présentation établissement et labo d'accueil
Institut Polytechnique de Paris Télécom Paris
Etablissement délivrant le doctorat
Institut Polytechnique de Paris Télécom Paris
Ecole doctorale
626 Ecole Doctorale de l'Institut Polytechnique de Paris
Profil du candidat
Diplôme de Master (ou équivalent) en informatique (apprentissage automatique, intelligence artificielle) ou dans des domaines connexes Solide formation en informatique, mathématiques appliquées et statistiques, avec un accent sur l'apprentissage automatique (notamment l'apprentissage profond) Compétences avancées en programmation, de préférence en Python Expérience pratique avec des frameworks d'apprentissage automatique / apprentissage profond (par exemple, PyTorch) Familiarité avec le traitement et l'analyse de données de santé Maîtrise avancée de l'anglais : le/la candidat(e) doit être parfaitement à l'aise à l'oral comme à l'écrit
- Master's degree (or equivalent) in computer science (machine learning, artificial intelligence), or related fields - Strong background in computer science, applied mathematics, and statistics, with an emphasis on machine learning (esp. deep learning) - Proficient programming skills, preferably in Python - Practical experience with machine learning/deep learning frameworks (e.g., PyTorch) - Familiarity with working/analysing healthcare data - Advanced proficiency in English: The candidate should be fluent in spoken and written English
Date limite de candidature
30/09/2026