Apprentissage automatique avec données synthétiques

Cette preuve de concept démontre la capacité de la plateforme MEDomics à prendre en charge l’ensemble du flux de travail de bout en bout de l’apprentissage automatique dans un contexte de santé, à l’aide de données synthétiques.

Les données utilisées dans cette démonstration sont publiquement disponibles, et nous vous recommandons de suivre les étapes ci-dessous pour obtenir des résultats similaires.

À propos du jeu de données

Le jeu de données synthétique utilisé dans cette preuve de concept reproduit la structure des véritables données d'admission hospitalière tout en garantissant une confidentialité totale. Il simule des profils de patients réalistes, des caractéristiques d'admission, des comorbidités et des schémas diagnostiques, offrant un environnement fiable pour développer et valider des modèles prédictifs.

Le jeu de données est accessible sur Zenodo au lien suivant : 👉 Accéder au jeu de données sur Zenodo.

Objectif

Cette démonstration illustre comment la plateforme MEDomics peut être utilisée pour explorer un jeu de données hospitalier entièrement synthétique, de l'exploration des données à la modélisation prédictive. Nous exploitons les principaux modules de MEDomics pour construire une chaîne prédictive de bout en bout. L'objectif est d'évaluer les performances des modèles dans ce contexte tout en mettant en avant la capacité de MEDomics à gérer des données cliniques à grande échelle et à générer des résultats explicables, reproductibles et comparables.

Cette preuve de concept est basée sur l'étude “Exploiter les données longitudinales des patients pour améliorer le risque de mortalité un an à l'hôpital”, menée par Hakima Laribi, membre de notre laboratoire, en collaboration avec des partenaires cliniques et académiques. Le travail original présente à la fois un cadre de modélisation prédictive et un jeu de données synthétique public conçu pour permettre une recherche en IA en santé préservant la vie privée et reproductible.

Dans cette étude, deux approches de modélisation ont été évaluées : un Random Forest de base qui prédit le risque de mortalité à un an lors de l'admission à l'hôpital, et un modèle d'ensemble longitudinal qui intègre l'historique d'hospitalisation des patients au fil du temps. La comparaison entre ces deux approches a démontré la valeur ajoutée de l'exploitation de l'information longitudinale pour la prédiction de la mortalité.

Dans la présente preuve de concept, nous nous concentrons exclusivement sur la mise en œuvre et l'évaluation du Random Forest de base en utilisant le jeu de données synthétique publié avec l'étude originale. Cela nous permet d'établir une référence de performance claire tout en travaillant dans un cadre entièrement accessible et préservant la confidentialité.

Étapes

Voici les étapes suivies dans cette démonstration :

Éditeur de code et terminal MEDomics

Nous vous fournirons un extrait de code pour extraire le fichier "any_visit_homr_10pct.csv", qui sera les données utilisées dans les étapes suivantes. Ce fichier spécifique contient des visites aléatoires de chaque patient de nos données initiales. Cet outil peut être utilisé pour changer la graine aléatoire.

Mis à jour il y a 1 mois

Apprentissage automatique avec données synthétiques

À propos du jeu de données

Objectif

Étapes

Éditeur de code et terminal MEDomics

Module d'entrée

Module d'apprentissage

Module d'évaluation

Module d'application

hashtagÀ propos du jeu de données

hashtagObjectif

hashtagÉtapes

hashtagÉditeur de code et terminal MEDomicsarrow-up-right

hashtagModule d'entréearrow-up-right

hashtagModule d'apprentissage

hashtagModule d'évaluationarrow-up-right

hashtagModule d'applicationarrow-up-right

À propos du jeu de données

Objectif

Étapes

Éditeur de code et terminal MEDomics

Module d'entrée

Module d'apprentissage

Module d'évaluation

Module d'application