Apprentissage automatique avec données synthétiques
Cette preuve de concept démontre la capacité de la plateforme MEDomics à prendre en charge l’ensemble du flux de travail de bout en bout de l’apprentissage automatique dans un contexte de santé, à l’aide de données synthétiques.
Les données utilisées dans cette démonstration sont publiquement disponibles, et nous vous recommandons de suivre les étapes ci-dessous pour obtenir des résultats similaires.
À propos du jeu de données
Le jeu de données synthétique utilisé dans cette preuve de concept reproduit la structure des véritables données d'admission hospitalière tout en garantissant une confidentialité totale. Il simule des profils de patients réalistes, des caractéristiques d'admission, des comorbidités et des schémas diagnostiques, offrant un environnement fiable pour développer et valider des modèles prédictifs.
Le jeu de données est accessible sur Zenodo au lien suivant : 👉 Accéder au jeu de données sur Zenodo.
Objectif
Cette démonstration illustre comment la plateforme MEDomics peut être utilisée pour explorer un jeu de données hospitalier entièrement synthétique, de l'exploration des données à la modélisation prédictive. Nous exploitons les principaux modules de MEDomics pour construire une chaîne prédictive de bout en bout. L'objectif est d'évaluer les performances des modèles dans ce contexte tout en mettant en avant la capacité de MEDomics à gérer des données cliniques à grande échelle et à générer des résultats explicables, reproductibles et comparables.
Cette preuve de concept est basée sur l'étude “Exploiter les données longitudinales des patients pour améliorer le risque de mortalité un an à l'hôpital”, menée par Hakima Laribi, membre de notre laboratoire, en collaboration avec des partenaires cliniques et académiques. Le travail original présente à la fois un cadre de modélisation prédictive et un jeu de données synthétique public conçu pour permettre une recherche en IA en santé préservant la vie privée et reproductible.
Dans cette étude, deux approches de modélisation ont été évaluées : un Random Forest de base qui prédit le risque de mortalité à un an lors de l'admission à l'hôpital, et un modèle d'ensemble longitudinal qui intègre l'historique d'hospitalisation des patients au fil du temps. La comparaison entre ces deux approches a démontré la valeur ajoutée de l'exploitation de l'information longitudinale pour la prédiction de la mortalité.
Dans la présente preuve de concept, nous nous concentrons exclusivement sur la mise en œuvre et l'évaluation du Random Forest de base en utilisant le jeu de données synthétique publié avec l'étude originale. Cela nous permet d'établir une référence de performance claire tout en travaillant dans un cadre entièrement accessible et préservant la confidentialité.
Étapes
Voici les étapes suivies dans cette démonstration :
Nous vous fournirons un extrait de code pour extraire le fichier "any_visit_homr_10pct.csv", qui sera les données utilisées dans les étapes suivantes. Ce fichier spécifique contient des visites aléatoires de chaque patient de nos données initiales. Cet outil peut être utilisé pour changer la graine aléatoire.
Ce module est utilisé pour créer les tags AdmDemo et AdmDemoDx afin de former 2 catégories utilisées dans la prédiction, et pour répartir les données en ensembles d'entraînement et de validation (holdout).
Le module d'apprentissage représente l'étape principale de la démonstration. Il sera utilisé pour reproduire la chaîne du pipeline de l'étude originale afin de former un modèle, l'entraîner et sauvegarder un modèle final.
Dans ce module, nous utiliserons le modèle de machine learning sauvegardé pour effectuer des prédictions sur l'ensemble de validation et tenter d'interpréter et d'expliquer les choix du modèle.
Cette étape finale est similaire au déploiement du modèle, où nous utiliserons le modèle sauvegardé du module d'apprentissage pour générer des prédictions sur un patient inédit.
Mis à jour