Entraînement
Cette page couvre tout ce que vous devez savoir sur la boîte d’entraînement et les nœuds que vous pouvez utiliser à l’intérieur.
Maintenant que vous avez initialisé les composants principaux de votre expérience, il est temps de définir le processus d'entraînement de votre expérience. À l'intérieur, vous pouvez utiliser deux nœuds essentiels :
Entraîner le modèle: Définissez le processus d'apprentissage de votre pipeline.
Combiner les modèles: Combinez des modèles provenant de différents pipelines.

Entraîner le modèle : nœud d'entraînement et d'optimisation du modèle
Ce nœud offre un contrôle complet sur le développement du modèle via quatre fonctions clés :
Entraînement du modèle de base
Ajustement des hyperparamètres
Ensembles de modèles
Calibration des probabilités
Optimisation du seuil
Les options de configuration correspondent à PyCaret create_model() fonction paramètres (à l'exclusion des paramètres de l'estimateur , qui sont définis dans le nœud Modèle).

Dans le flux de travail d'apprentissage automatique, le nœud Entraîner le modèle est utilisé dans la section montrée ci-dessous :

Lecture suggérée pour comprendre comment fonctionnent les métriques.
1. Entraînement du modèle de base :
Dans PyCaret, le processus d'entraînement du modèle de base agit comme un pont automatisé entre les données cliniques et les informations prédictives. Pour les informaticiens, cela représente une couche d'abstraction au-dessus de scikit-learn qui gère le cycle de vie de sélection des modèles ; pour les professionnels de la santé, c'est un « diagnostic » standardisé de vos données, identifiant quelle approche mathématique capture le mieux les résultats des patients.
Le processus commence par le nœud Jeu de données, qui établit un pipeline reproductible en traitant les défis des données médicales tels que les valeurs manquantes (imputation) et l'encodage des variables catégorielles (par ex., la démographie des patients). Une fois initialisé, l'objectif principal est d'identifier une architecture « de base » performante avant un affinage ultérieur.
Les options suivantes permettent aux utilisateurs d'équilibrer efficacité computationnelle et rigueur clinique :
Comparer les modèles (utilisé dans Scène expérimentale) : Cela sert d'évaluation « de haut en bas », entraînant tous les algorithmes disponibles (par ex., régression logistique, forêt aléatoire, XGBoost) sur le même ensemble de données. Il fournit une grille de scores de métriques telles que l'AUC et le F1-score, et identifie quels modèles équilibrent le mieux la sensibilité (détecter les vrais cas) et la spécificité (éviter les fausses alertes).
Entraînement : Ceci est utilisé lorsqu'un algorithme spécifique est préféré — peut-être parce qu'il est très interprétable, comme un arbre de décision, ou connu pour ses bonnes performances dans des contextes cliniques. Il entraîne un seul modèle en utilisant une validation croisée k-fold, un sous-échantillonnage aléatoire ou le bootstrap, un processus qui remélange les données à plusieurs reprises pour s'assurer que les résultats ne sont pas simplement un artefact statistique de l'échantillon de patients actuel.
Mesures de performance : Les utilisateurs peuvent prioriser des métriques spécifiques en fonction de l'objectif clinique. MEDomics utilise les métriques suivantes pour évaluer la performance du modèle : AUC, Exactitude, Sensibilité (Rappel), Spécificité, F1-score, VPN et VPP.
Reproductibilité du pipeline : Chaque transformation appliquée lors de l'entraînement de base est stockée dans un pipeline. Cela garantit que lorsqu'un informaticien déploie le modèle, celui-ci traite les nouvelles données de patients « non vues » avec les mêmes étapes utilisées lors de l'entraînement initial. Consultez ici pour plus de détails.
2. Ajustement des hyperparamètres :
Activez cette fonctionnalité pour optimiser la performance de votre modèle. Cette fonctionnalité implémente directement PyCaret tune_model() fonction. Les paramètres de la fonction peuvent être définis dans le nœud.
Options d'ajustement :
Grille d'ajustement par défaut de PyCaret : Le système va automatiquement :
Tester des plages de paramètres optimales
Appliquer la validation croisée
Retourner la configuration la plus performante
Grille d'ajustement personnalisée : Pour un contrôle avancé :
Sélectionner les paramètres à ajuster parmi les options de votre modèle
Spécifier soit :
Des valeurs exactes à tester (discrètes)
Des plages de recherche (continues)

3. Ensembles de modèles:
Activez pour mettre en ensemble votre modèle entraîné. Cette fonctionnalité implémente directement PyCaret ensemble_model() fonction.
Configuration :
Sélectionnez la méthode d'ensemble (
méthode):Bagging : Entraînement en parallèle avec des échantillons bootstrap
Boosting : Entraînement séquentiel avec correction des erreurs
Sélectionnez le nombre d'estimateurs
n_estimators: Nombre de modèles à assembler (par défaut : 10)
2. Calibration des probabilités:
Améliorer la fiabilité des probabilités de classification. Cette fonctionnalité implémente directement PyCaret calibrate_model() fonction.
Pour configurer, choisissez la méthode de calibration :
Régression logistique : Mieux pour les petits ensembles de données (< 1 000 échantillons)
Régression isotone : Plus flexible pour des distributions complexes

5. Optimisation du seuil :
L'optimisation du seuil n'est pas prise en charge pour les modèles suivants : 'gbc', 'ada', 'et', 'catboost' et 'rf'. L'utilisation de ces modèles provoque cette erreur, qui n'a pas encore été résolue.
L'optimisation du seuil est le processus d'ajustement du point de coupure qui transforme le score de probabilité d'un modèle en une décision finale. Cela signifie déplacer la frontière de décision pour maximiser une métrique spécifique ; en d'autres termes, c'est une manière de calibrer le modèle pour qu'il soit soit plus « prudent » soit plus « sensible » en fonction du problème clinique étudié. Elle implémente l' optimize_threshold() fonction.
Options d'optimisation :
Lecture suggérée pour comprendre comment fonctionnent les métriques.
Sélection de la métrique : Vous pouvez demander à MEDomics de trouver le seuil qui maximise la meilleure métrique sélectionnée parmi les options suivantes :
Indice de Youden
Exactitude
Exactitude équilibrée (BAC)
F1-score
Coefficient de corrélation de Matthews (MCC)
Sensibilité vs. Spécificité : Les cliniciens peuvent choisir un seuil qui privilégie le rappel pour détecter toute progression potentielle, ou la précision pour minimiser les procédures de suivi inutiles chez les patients qui sont en réalité stables.
Ajustement de la fonction de coût : En santé, un faux négatif (passer à côté d'une maladie) coûte souvent plus cher qu'un faux positif ; le seuil est optimisé pour minimiser ce risque clinique total.
Cartographie des probabilités : Au lieu d'un seuil par défaut de 0,5, le système visualise le « seuil de discrimination » pour montrer exactement comment la performance change lorsque vous déplacez la frontière à travers votre cohorte de patients. Voir l'exemple suivant :

Combiner les modèles : Combiner des modèles entraînés
Ce nœud permet des techniques de combinaison de modèles pour améliorer la performance prédictive. Connectez des modèles entraînés depuis des Entraîner le modèle nœuds pour créer soit des ensembles empilés (stacked) soit des prédictions mélangées (blended). Il représente la section de combinaison du flux de travail d'apprentissage automatique, comme montré ci-dessous :

Méthodes de combinaison
Empilement de modèles : Implémente PyCaret
stack_models()fonction pour entraîner un méta-modèle sur les sorties des modèles de base :Nécessite au moins 2 modèles
Le méta-modèle (par défaut : régression logistique) apprend les poids de combinaison optimaux
Mélange de modèles : Exécute PyCaret
blend_models()fonction pour moyenner les prédictions :Pas d'entraînement de méta-modèle (exécution plus rapide)
Idéal pour les modèles ayant des profils de performance similaires
Notez que le modèle combiné final peut être calibré en utilisant PyCaret calibrate_model() fonction simplement en activant l'interrupteur Calibrer dans le nœud.

Ceci résume tout ce que vous devez savoir sur la boîte d'entraînement. Bien qu'elle n'utilise qu'un ou deux nœuds, elle est essentielle pour votre expérience ML. À la page suivante, vous apprendrez la boîte d'analyse ainsi que le mode Analyse, qui sont essentiels pour analyser les résultats de votre expérience.
Mis à jour