Projet formation IA

Analyse d'images médicales avec méthodes semi-supervisées : exploration, clustering et apprentissage à labels partiels

Projet de formation centré sur l'exploitation d'un dataset d'imagerie médicale majoritairement non annoté, avec extraction d'embeddings, clustering puis stratégie semi-supervisée comparée à une approche supervisée classique.

Projet OpenClassrooms

Computer vision

Semi-supervisé

Fil directeur

Mieux exploiter un grand volume d'images quand les labels fiables sont rares

Chaîne technique

Embeddings visuels, réduction de dimension, clustering et fine-tuning semi-supervisé

Lecture métier

Relier performance modèle, coût de labellisation et faisabilité de passage à l'échelle

Détail

Lecture du projet

La fiche présente la logique d'exploration, de clustering et d'apprentissage semi-supervisé, ainsi que les limites méthodologiques et métier du sujet.

Résumé

Le projet part d'un problème fréquent en imagerie médicale appliquée : beaucoup de données existent, mais seule une petite partie est annotée de manière exploitable. L'objectif est donc de tester une trajectoire mêlant exploration du dataset, structuration des représentations visuelles, création prudente de labels faibles puis apprentissage semi-supervisé.

Problème adressé

Lorsqu'un sous-ensemble annoté reste réduit, un apprentissage supervisé pur peut vite buter sur le coût et la rareté des labels. Le projet cherche à montrer comment exploiter plus intelligemment un stock d'images non labellisées tout en gardant un cadre d'évaluation propre et des métriques adaptées.

Exploration du dataset

La première étape consiste à auditer le jeu de données : structure des fichiers, dimensions d'image, canaux, qualité visuelle et anomalies éventuelles. Cette phase n'est pas cosmétique, car elle conditionne la robustesse du prétraitement et la crédibilité des représentations qui seront ensuite utilisées pour le clustering et l'entraînement.

Prétraitement et extraction de features

Les images sont préparées pour un backbone pré-entraîné afin d'extraire des embeddings visuels stables. Ces vecteurs servent ensuite de base commune aux analyses non supervisées et à la stratégie semi-supervisée, avec une attention portée à la reproductibilité du pipeline et à la traçabilité des sorties.

Clustering et weak labels

Une réduction de dimension puis un clustering permettent d'explorer la structure du dataset et de créer un jeu de labels faibles. L'enjeu principal est d'utiliser ces regroupements comme signal d'orientation, sans contaminer le jeu fortement labellisé ni sur-interpréter la qualité des clusters.

Approche semi-supervisée

La logique retenue consiste à pré-entraîner sur des données faiblement labellisées puis à affiner le modèle sur le sous-ensemble annoté de manière fiable. L'intérêt du projet réside dans la comparaison méthodique entre cette approche et une baseline supervisée classique, à protocole d'évaluation identique.

Métriques et lecture des résultats

Le projet s'appuie sur des métriques comme l'ARI pour le clustering, puis Accuracy, Precision, Recall et F1 pour la phase de classification. L'objectif n'est pas d'afficher un score isolé, mais de comprendre si la stratégie semi-supervisée améliore réellement la qualité du modèle dans un cadre contraint.

Lecture métier et passage à l'échelle

Au-delà des performances, le sujet est aussi lu sous un angle de faisabilité économique. Le projet met en avant la question du coût de labellisation et la possibilité de mieux exploiter un grand volume d'images sans dépendre d'une annotation exhaustive dès le départ.

Limites assumées

Le clustering ne produit pas des vérités terrain, les labels faibles restent fragiles et le périmètre du projet ne couvre pas une validation clinique ou un déploiement réel. La valeur du travail repose donc sur la méthode, la comparaison des approches et la prudence dans l'interprétation.

Évolutions possibles

Les prolongements naturels seraient d'améliorer la qualité des embeddings, de tester d'autres stratégies semi-supervisées, de renforcer l'analyse des erreurs et d'affiner la projection budgétaire d'un passage à l'échelle avec boucle d'annotation plus structurée.