Analyse
Cette page explique la fonctionnalité de la Boîte d'Analyse, y compris le Mode Analyse, et comment elle permet une évaluation complète des performances du modèle via des métriques détaillées et des outils de diagnostic.
La boîte d'analyse
La boîte d'analyse (figure ci-dessous) est le composant final de la chaîne du module d'apprentissage, placée immédiatement après la boîte d'entraînement. Elle sert de composant dédié à l'évaluation des modèles, acceptant des entrées depuis :
Modèles entraînés individuellement (via Entraîner le modèle nœuds)
Ensembles de modèles (via Combiner les modèles nœuds)
Caractéristiques clés :
Conception sans nœud : Contrairement aux autres boîtes, il s'agit d'un terminal d'analyse préconfiguré qui ne peut pas contenir de nœuds supplémentaires.
Intégration PyCaret : Met en œuvre
plot_model()avec les contrôles de paramètres suivants :Métrique du graphique (
paramètre plot):Définit le type de visualisation d'évaluation (par défaut : 'auc')
Les options incluent : matrice de confusion, importance des caractéristiques, courbe ROC, etc.
Échelle (
paramètre scale):Ajuste la résolution de la figure de sortie (plage : 0-1)
Des valeurs plus élevées augmentent la qualité de l'image et la taille du fichier

La boîte d'analyse représente la section « Analyse » du flux de travail en apprentissage automatique :

Le mode d'analyse
Si vous préférez un résumé rapide, passez à la section suivante.
Le mode d'analyse devient disponible après l'exécution réussie d'une expérience. Lorsqu'il est activé, un panneau de résultats apparaît en bas de l'interface, affichant les résultats pour tous les pipelines de la scène en cours. Ce mode fournit une répartition détaillée des résultats organisée par pipeline et par nœud.
Structure des résultats par pipeline :
Chaque pipeline, identifiable par son nom personnalisable, présente les résultats via les informations spécifiques aux nœuds suivantes :
Nœud Jeu de données : Affiche la table des données d'entraînement et tous les paramètres appliqués via la fonction setup de PyCaret.
Nœud Nettoyage : Montre les paramètres de prétraitement configurés dans le setup de PyCaret.
Nœud Division : Présente des statistiques détaillées de division, incluant le nombre d'échantillons par fold/itération et les métriques de distribution des classes.
Nœud Modèle : Contient l'ensemble complet des métriques de performance pour le modèle.
Nœud Combiner les modèles : Fournit les métriques d'évaluation pour la sortie du modèle combiné.

Nœud Analyse : Affiche le graphique sélectionné dans la boîte d'analyse.
PyCaret ROC (Receiver Operating Characteristic)/AUC (Area Under the Curve) plots
Les graphiques AUC générés par la PyCaret bibliothèque sont dérivés de la YellowBrick package Python, qui étend le scikit-learn API. Par défaut, le graphique affiche plusieurs courbes :
La courbe ROC par classe pour chaque classe a été calculée en utilisant la méthode un-contre-tous (ce qui signifie que la classe considérée est traitée comme la classe positive et toutes les autres classes comme négatives).
La courbe micro-moyenne est calculée en additionnant tous les vrais positifs et faux positifs à travers toutes les classes.
La courbe macro-moyenne est la moyenne des courbes à travers toutes les classes.
Nous reconnaissons que ces courbes peuvent être un peu déroutantes, en particulier pour la classification binaire.
Tout en utilisant le YellowBrick package directement, nous pouvons définir des paramètres pour n'afficher que la courbe ROC classique. Cependant, nous n'avons pas trouvé de moyen de définir directement ces paramètres via notre application avec PyCaret pour l'instant. Nous travaillons actuellement à résoudre ce problème.
Finaliser et enregistrer le modèle
Cette fonctionnalité, utilisée via le bouton 'Finaliser et enregistrer le modèle' pour un pipeline sélectionné, effectue deux fonctions critiques via l'intégration PyCaret :
Finalisation du modèle : Réentraîne le modèle sélectionné sur l'ensemble du jeu de données en utilisant de PyCaret
finalize_model()fonction.Enregistrement du modèle : Enregistre le modèle finalisé en tant que fichier pickle via de PyCaret
save_model()fonction sous le.medmodelextension. Le modèle enregistré apparaît dans lemodèlessous-dossier en utilisant le nom de classe du modèle ou l'ID du nœud Model s'il a été modifié par rapport à celui par défaut ('Modèle').

Le processus ne nécessite aucune configuration de paramètres, préservant automatiquement tous les paramètres d'entraînement de l'expérience d'origine.
De plus, ce bouton représente la section « Modèle final » du flux de travail d'apprentissage automatique, comme illustré dans la figure suivante :

La génération de fonctionnalités
La fonctionnalité Générer exporte la configuration complète du pipeline sous forme de code Python exécutable dans Jupyter Notebook format. Vous pouvez générer un Jupyter Notebook en utilisant le Générer bouton à côté d'un pipeline sélectionné. Le notebook généré, qui reflète la structure et les paramètres du pipeline, apparaît dans les notebooks sous-dossier en utilisant le nom actuel du pipeline comme identifiant de fichier.

Cette fonctionnalité permet :
Une investigation plus approfondie du processus d'entraînement
Des modifications de code personnalisées pour l'optimisation des performances
Une reproductibilité améliorée
De plus, vous pouvez également lancer tout notebook généré directement depuis l'application en double-cliquant simplement sur le fichier. Inversement, vous pouvez faire un clic droit et sélectionner le "Ouvrir dans..." option pour ouvrir votre notebook dans VSCode.

Un exemple de notebook généré, ouvert dans VS Code, est présenté ci-dessous.
Les conventions de nommage des pipelines affectent directement cette fonctionnalité. Consultez la section suivante pour plus de détails.
Gérer les pipelines
L'interface Gérer les pipelines sert deux objectifs principaux :
Aperçu du pipeline : Affiche un résumé structuré de tous les nœuds composant chaque pipeline et de leurs connexions.
Contrôle du nommage : Permet de renommer les pipelines, ce qui met à jour simultanément :
Le nom de fichier du notebook dans la fonctionnalité Générer
Toutes les références de suivi des expériences

La case de sélection du nœud
En modes Analyse et Résultats, une case à cocher est disponible en haut de chaque nœud exécutable. Utilisez ce contrôle pour afficher sélectivement les résultats de nœuds spécifiques, en masquant la sortie des autres. Une case verte indique que le nœud est un composant obligatoire de tous les pipelines ; par conséquent, ses résultats seront toujours affichés.
Dans l'exemple suivant, seuls les résultats du nœud coché Clean2 sont affichés, tandis que les autres pipelines sont masqués.

La fonctionnalité de mise en évidence
Cette fonctionnalité améliore la navigation en modes Analyse et Résultats en appliquant dynamiquement des codes couleur distincts aux nœuds et pipelines sélectionnés. Elle met en évidence l'ensemble du chemin d'exécution d'un pipeline choisi, le distinguant facilement des autres. Le système utilise le schéma de couleurs suivant pour indiquer le statut :
Orange : Utilisé pour les nœuds non exécutés et les arêtes de connexion d'un pipeline non exécuté.
Vert : Indique un nœud sélectionné et exécuté avec succès.
Bleu : Met en évidence tous les éléments (nœuds et arêtes) du pipeline actuellement sélectionné.
Cette fonctionnalité est particulièrement utile dans des scènes complexes comportant plusieurs pipelines, car elle simplifie le suivi et la comparaison des résultats. La figure suivante illustre ces codes couleur dans le contexte de différentes interactions utilisateur.

Résumé du mode Analyse
Une présentation complète du mode Analyse est présentée dans la figure suivante :

À la page suivante, vous en apprendrez davantage sur le nouveau type de scène 'Expérimental' et sur la manière dont vous pouvez l'utiliser comme environnement de test pour vos expériences d'apprentissage automatique.
Mis à jour