diagram-projectmedmodel

Qu'est-ce qu'un objet MEDMODEL ?

Un .medmodel fichier est une extension personnalisée utilisée au sein de la plateforme MEDomics pour représenter des modèles d'apprentissage automatique sérialisés et sauvegardés générés à partir des scènes analytiques de la plateforme.

Cet objet sert de conteneur complet pour tous les éléments essentiels liés à un modèle entraîné, y compris l'architecture du modèle, les paramètres d'entraînement, le pipeline de prétraitement, les variables sélectionnées et les métadonnées.

Son objectif est d'assurer la traçabilité, la reproductibilité, et le partage entre différents modules ou institutions MEDomics, permettant un déploiement et une évaluation sans friction, et ouvrant la voie à la collaboration.


Structure d'un objet MEDMODEL

Chaque objet MEDMODEL est composé de deux composants principaux:

1. Pipeline Scikit-learn sérialisé

circle-info

Stocker les étapes de prétraitement dans le pipeline garantit que les données d'entrée sont traitées de manière cohérente entre l'entraînement et l'inférence, éliminant les divergences dans le traitement des données.

Le cœur du MEDMODEL est le Pipeline Scikit-learnarrow-up-right qui encapsule l'ensemble du flux de travail d'apprentissage automatique (voir l'exemple ci-dessous), y compris :

  • Étapes de prétraitement : Normalisation, mise à l'échelle des caractéristiques, imputation des valeurs manquantes, encodage des catégoriques, etc.

  • Sélection et transformation des caractéristiques : Toute réduction de dimensionnalité ou opération d'ingénierie des caractéristiques appliquée avant l'ajustement du modèle.

  • Estimateur entraîné : Le classificateur ou régressseur final entraîné sur les données sélectionnées (p. ex., XGBoost, RandomForest, Régression logistique).

Exemple d'un pipeline Scikit-Learn [Sourcearrow-up-right]

Détails de stockage

  • Si le fichier de pipeline sérialisé (format pickle) ≤ 16 Mo, il est stocké directement dans MongoDB.

  • S'il dépasse 16 Mo, il est stocké localement sur le serveur, et l'entrée MEDMODEL dans MongoDB référence le chemin de fichier absolu.

2. Dictionnaire de métadonnées du modèle

Un dictionnaire compagnon contient des informations détaillées décrivant le modèle, ses entrées et le contexte d'entraînement. Ces métadonnées assurent la reproductibilité et facilitent la compréhension de la provenance et de l'objectif du modèle.

Les principaux champs de métadonnées incluent :

  • model_variables – La liste finale des colonnes du jeu de données (caractéristiques) utilisées pendant l'entraînement.

  • target_variable – La variable dépendante que le modèle prédit.

  • ml_type – Spécifie si le modèle est destiné à la classification ou régression.

Le diagramme suivant résume la relation entre les composants MEDMODEL :


La figure suivante résume le processus de création d'un objet MEDMODEL :

.medmodel gestion dans MEDomics

Mis à jour