Initialisation
Cette page couvre tout ce que vous devez savoir sur la Boîte d'Initialisation et les nœuds que vous pouvez utiliser à l'intérieur.
Considérez la Boîte d'Initialisation (voir l'exemple ci-dessous) comme votre point de départ, qui contient tous les composants clés nécessaires pour configurer votre pipeline d'apprentissage automatique. À l'intérieur, vous pouvez utiliser quatre nœuds essentiels :
Jeu de données: Définissez les données de votre pipeline pour commencer.
Nettoyer: Nettoyez vos données pour de meilleurs résultats.
Diviser: Divisez vos données en ensembles d'entraînement et de test.
Modèle: Sélectionnez et configurez votre modèle d'apprentissage automatique.
Nœud Jeu de données : Point de départ de votre expérience
Le Jeu de données nœud marque le début de votre expérience ; ici, vous définissez les données que votre pipeline utilisera. Dans le flux de travail d'apprentissage automatique, cela représente l'ensemble d'apprentissage comme illustré ci-dessous :

Types de données disponibles
Vous avez deux options flexibles pour charger vos données :
MEDomics Standard
Récupère automatiquement les fichiers d'un dossier d'apprentissage désigné (généralement prétraités
.csvfichiers provenant du flux de travail MEDprofiles ).Le nœud détecte les fichiers compatibles et les liste dans un menu déroulant.
Sélectionnez votre ou vos fichiers, puis spécifiez la colonne cible (la variable que vous souhaitez prédire).
Conseil pro : Si vous sélectionnez plusieurs fichiers, assurez-vous qu'ils partagent tous la même colonne cible.
Fichier personnalisé
Téléversez n'importe quel
.csvfichier depuis votre espace de travail en utilisant le sélecteur déroulant.Tout comme avec MEDomics Standard, choisissez votre colonne cible pour définir l'objectif de prédiction.
Options du nœud
Les options de ce nœud reflètent les paramètres non liés au nettoyage de PyCaret setup() fonction.

Nœud Nettoyer : Organisez et transformez vos données
Ce nœud vous aide à organiser et transformer votre jeu de données avant l'entraînement du modèle. Utilisez-le pour traiter les problèmes courants de données, tels que les valeurs manquantes, la mise à l'échelle, et plus encore, afin que votre modèle reçoive les meilleures entrées possibles. Dans le flux de travail d'apprentissage automatique, le nœud de Nettoyage est utilisé pour définir l'étape de l'ensemble d'apprentissage, comme illustré ci-dessous :

Les options disponibles pour ce nœud correspondent aux options de la() fonction spécialement conçues pour le nettoyage des données.

Nœud Diviser : Définissez vos partitions d'entraînement et de test
Ce nœud est essentiel pour concevoir la façon dont votre ensemble d'apprentissage sera divisé pour l'entraînement et le test. Sans lui, les modèles utilisent par défaut une seule itération de. Dans la nouvelle architecture, le nœud Diviser est utilisé dans l'étape de partitionnement de l'ensemble d'apprentissage, comme montré ci-dessous :

Un partitionnement approprié des données empêche les fuites d'information et fournit des estimations de performance fiables — crucial pour des résultats d'IA digne de confiance. Vous pouvez choisir parmi ces méthodes de partitionnement :
Validation croisée (K-Fold)
Divise les données en K plis égaux, en utilisant K-1 pour l'entraînement et 1 pour le test à chaque itération
Idéal pour : Jeux de données petits à moyens, maximisant l'utilisation des données
Pratique courante : configurations à 5 ou 10 plis
Options à définir :
num_folds: nombre de plis à utiliser (K).
Sous-échantillonnage aléatoire
Divise les données aléatoirement en pourcentages fixe d'entraînement/test (par ex., 80%/20%)
Idéal pour : Grands jeux de données, prototypage rapide
Astuce : L'échantillonnage stratifié maintient les proportions de classes
Options à définir :
test_size: Proportion des données à allouer à l'ensemble de test (doit être comprise entre 0 et 1).
n_iterations: Nombre de répétitions, c'est-à-dire le nombre de partitions à créer. L'augmentation des répétitions peut réduire l'incertitude des estimations de performance.
Bootstrap
Crée plusieurs échantillons avec remplacement, puis agrège les résultats
Idéal pour : Très petits jeux de données, estimer la stabilité du modèle
Avantage : Simule la disponibilité de plus de données que celles réellement présentes
Options à définir :
bootstrap_train_sample_size: La proportion du jeu de données à rééchantillonner avec remplacement.
n_iterations: Nombre de bootstraps/partitions à créer. Un nombre plus élevé d'itérations peut réduire l'incertitude des estimations de performance.
Défini par l'utilisateur
Spécifiez manuellement les indices d'entraînement/validation ou une logique de partitionnement personnalisée
Idéal pour : Données temporelles, schémas d'évaluation spéciaux
Flexibilité : Importez des partitions prédéfinies ou implémentez des règles uniques
Options à définir :
train_indices: Liste des indices d'entraînement pour l'ensemble d'entraînement
test_indices: Liste des indices de test pour l'ensemble de test
Paramètres généraux pour le nœud Diviser
Avant d'exécuter votre expérience, configurez ces paramètres essentiels pour contrôler la façon dont vos données sont partitionnées :
1. État aléatoire (random_state)
Objectif : Assure des partitions reproductibles en initialisant le générateur de nombres aléatoires avec une graine fixe.
Utilisation :
Saisissez une valeur entière (par ex.,
42) pour rendre les résultats de partition cohérents entre les exécutions.Laissez vide pour des partitions véritablement aléatoires (non recommandé pour des expériences reproductibles).
2. Colonnes de stratification (stratify_columns)
Objectif : Maintient la distribution originale des variables clés (par ex., étiquettes de classe) dans les ensembles d'entraînement et de test et empêche des partitions biaisées qui pourraient fausser l'évaluation du modèle.
Exigences :
Au moins une colonne doit être sélectionnée.
Choix courants : Variables cibles ou colonnes démographiques (par ex., tranches d'âge, sexe).
3. Utiliser des balises pour la stratification
Objectif : Exploite des Balises de colonne ou Balises de ligne comme groupes de stratification.
Comment cela fonctionne :
Activez cette option pour activer la stratification basée sur les balises.
Les balises disponibles à partir de votre jeu de données se rempliront automatiquement dans un menu déroulant.
Sélectionnez une ou plusieurs balises à utiliser comme critères de stratification.
Notes clés :
Compatible avec
stratify_columns(peut être utilisé simultanément).S'il n'existe aucune balise, le système affichera un avertissement, mais cela n'affectera pas l'exécution.
Les balises sont particulièrement utiles pour des schémas de stratification complexes (par ex., scénarios multi-étiquettes).
Contrairement aux autres nœuds, le nœud Diviser n'a pas d'options supplémentaires

Nœud Modèle : Sélectionnez et configurez votre algorithme d'apprentissage automatique
Ce nœud vous permet de sélectionner et personnaliser votre modèle d'apprentissage automatique. Les modèles disponibles et leurs paramètres correspondent directement à :
Le
paramètreestimator optionsdansfonctioncreate_model()Les implémentations de modèles complètes de
Scikit-learn


Décomposition du nœud Modèle
Mis à jour