Initialisation
Cette page couvre tout ce que vous devez savoir sur la boîte d’initialisation et les nœuds que vous pouvez utiliser à l’intérieur.
Considérez la Boîte d'Initialisation (voir l'exemple ci-dessous) comme votre point de départ, qui contient tous les composants clés nécessaires pour configurer votre pipeline d'apprentissage automatique. À l'intérieur, vous pouvez utiliser quatre nœuds essentiels :
Ensemble de données: Définissez les données de votre pipeline pour commencer.
Nettoyer: Mettez vos données en ordre pour de meilleurs résultats.
Diviser: Divisez vos données en entraînement et test.
Modèle: Sélectionnez et configurez votre modèle d'apprentissage automatique.
Nœud Ensemble de données : point de départ de votre expérience
Le Ensemble de données nœud marque le début de votre expérience ; ici, vous définissez les données que votre pipeline utilisera. Dans le flux de travail d'apprentissage automatique, cela représente l'ensemble d'apprentissage comme illustré ci-dessous :

Types de données disponibles
Vous disposez de deux options flexibles pour charger vos données :
Standard MEDomics
Récupère automatiquement les fichiers d'un dossier d'apprentissage désigné (généralement prétraités
.csvfichiers du flux de travail MEDprofiles ).Le nœud détecte les fichiers compatibles et les liste dans un menu déroulant.
Sélectionnez votre(vos) fichier(s), puis spécifiez la colonne cible (la variable que vous souhaitez prédire).
Astuce pro : Si vous sélectionnez plusieurs fichiers, assurez-vous qu'ils partagent tous la même colonne cible.
Fichier personnalisé
Téléversez n'importe quel
.csvfichier depuis votre espace de travail en utilisant le sélecteur déroulant.Tout comme avec Standard MEDomics, choisissez votre colonne cible pour définir l'objectif de prédiction.
Options du nœud
Les options de ce nœud reflètent les paramètres non liés au nettoyage de PyCaret setup() fonction.

Nœud Nettoyer : organiser et transformer vos données
Ce nœud vous aide à organiser et transformer votre ensemble de données avant l'entraînement du modèle. Utilisez-le pour gérer les problèmes de données courants, tels que les valeurs manquantes, la mise à l'échelle, et plus encore, afin que votre modèle reçoive la meilleure entrée possible. Dans le flux de travail d'apprentissage automatique, le nœud de Nettoyage est utilisé pour définir l'étape de l'ensemble d'apprentissage, comme illustré ci-dessous :

Les options disponibles pour ce nœud correspondent aux options setup() de PyCaret spécialement conçues pour le nettoyage des données.

Nœud Diviser : définissez vos partitions d'entraînement et de test
Ce nœud est essentiel pour concevoir la manière dont votre ensemble d'apprentissage sera divisé pour l'entraînement et le test. Sans lui, les modèles utilisent par défaut une seule itération de. Dans la nouvelle architecture, le nœud Diviser est utilisé dans l'étape de partitionnement de l'ensemble d'apprentissage, comme montré ci-dessous :

Un partitionnement approprié des données prévient les fuites d'information et fournit des estimations de performance fiables — crucial pour des résultats ML dignes de confiance. Vous pouvez choisir parmi ces méthodes de partitionnement :
Validation croisée (K-Fold)
Divise les données en K plis égaux, en utilisant K-1 pour l'entraînement et 1 pour le test à chaque itération
Idéal pour : jeux de données petits à moyens, maximisant l'utilisation des données
Pratique courante : configurations à 5 plis ou 10 plis
Options à définir :
num_folds: nombre de plis à utiliser (K).
Sous-échantillonnage aléatoire
Divise les données au hasard en pourcentages fixes d'entraînement/test (par ex., 80%/20%)
Idéal pour : grands jeux de données, prototypage rapide
Astuce : l'échantillonnage stratifié maintient les proportions des classes
Options à définir :
test_size: Proportion des données à allouer à l'ensemble de test (doit être comprise entre 0 et 1).
n_iterations: Nombre de répétitions, c'est-à-dire le nombre de divisions à créer. Augmenter les répétitions peut réduire l'incertitude des estimations de performance.
Bootstrap
Crée plusieurs échantillons avec remise, puis agrège les résultats
Idéal pour : jeux de données très petits, estimation de la stabilité du modèle
Avantage : simule la possession de plus de données que disponibles
Options à définir :
bootstrap_train_sample_size: La proportion de l'ensemble de données à rééchantillonner avec remise.
n_iterations: Nombre de bootstraps/divisions à créer. Un nombre d'itérations plus élevé peut réduire l'incertitude des estimations de performance.
Défini par l'utilisateur
Spécifiez manuellement les indices d'entraînement/validation ou la logique de division personnalisée
Idéal pour : données temporelles, schémas d'évaluation spéciaux
Flexibilité : importer des partitions prédéfinies ou implémenter des règles uniques
Options à définir :
train_indices: Liste des indices d'entraînement pour l'ensemble d'entraînement
test_indices: Liste des indices de test pour l'ensemble de test
Paramètres généraux pour le nœud Diviser
Avant d'exécuter votre expérience, configurez ces paramètres essentiels pour contrôler la manière dont vos données sont partitionnées :
1. État aléatoire (random_state)
Objectif : Assure des divisions reproductibles en initialisant le générateur de nombres aléatoires avec une graine fixe.
Utilisation :
Saisissez une valeur entière (par ex.,
42) pour rendre les résultats des divisions cohérents entre les exécutions.Laissez vide pour des divisions véritablement aléatoires (non recommandé pour des expériences reproductibles).
2. Colonnes de stratification (stratify_columns)
Objectif : Maintient la distribution originale des variables clés (par ex., étiquettes de classe) à la fois dans les ensembles d'entraînement et de test et évite des divisions biaisées pouvant fausser l'évaluation du modèle.
Exigences :
Au moins une colonne doit être sélectionnée.
Choix courants : variables cibles ou colonnes démographiques (par ex., groupes d'âge, sexe).
3. Utiliser des étiquettes pour la stratification
Objectif : Tire parti des Étiquettes de colonne ou Étiquettes de ligne comme groupes de stratification.
Comment cela fonctionne :
Activez cette option pour activer la stratification basée sur les étiquettes.
Les étiquettes disponibles à partir de votre ensemble de données se rempliront automatiquement dans un menu déroulant.
Sélectionnez une ou plusieurs étiquettes à utiliser comme critères de stratification.
Notes clés :
Compatible avec
stratify_columns(peut être utilisé simultanément).S'il n'existe aucune étiquette, le système affichera un avertissement, mais cela n'affectera pas l'exécution.
Les étiquettes sont particulièrement utiles pour des schémas de stratification complexes (par ex., scénarios multi-étiquettes).
Contrairement aux autres nœuds, le nœud Diviser n'a pas d'options supplémentaires

Nœud Modèle : Sélectionnez et configurez votre algorithme d'apprentissage automatique
Ce nœud vous permet de sélectionner et personnaliser votre modèle d'apprentissage automatique. Les modèles disponibles et leurs paramètres correspondent directement à :
Le
paramètreestimator optionsdansfonctioncreate_model()Les implémentations complètes de modèles de Scikit-learn
Le nœud Modèle est utilisé dans l'étape de sélection d'algorithme, comme montré ci-dessous :


À la page suivante, vous en apprendrez davantage sur la Boîte d'Entraînement, qui vous aidera à définir le processus d'entraînement de votre expérience.
Mis à jour