Initialisation

Cette page couvre tout ce que vous devez savoir sur la Boîte d'Initialisation et les nœuds que vous pouvez utiliser à l'intérieur.

Considérez la Boîte d'Initialisation (voir l'exemple ci-dessous) comme votre point de départ, qui contient tous les composants clés nécessaires pour configurer votre pipeline d'apprentissage automatique. À l'intérieur, vous pouvez utiliser quatre nœuds essentiels :

Jeu de données: Définissez les données de votre pipeline pour commencer.
Nettoyer: Nettoyez vos données pour de meilleurs résultats.
Diviser: Divisez vos données en ensembles d'entraînement et de test.
Modèle: Sélectionnez et configurez votre modèle d'apprentissage automatique.

Nœud Jeu de données : Point de départ de votre expérience

Le Jeu de données nœud marque le début de votre expérience ; ici, vous définissez les données que votre pipeline utilisera. Dans le flux de travail d'apprentissage automatique, cela représente l'ensemble d'apprentissage comme illustré ci-dessous :

Types de données disponibles

Vous avez deux options flexibles pour charger vos données :

MEDomics Standard
- Récupère automatiquement les fichiers d'un dossier d'apprentissage désigné (généralement prétraités .csv fichiers provenant du flux de travail MEDprofiles ).
- Le nœud détecte les fichiers compatibles et les liste dans un menu déroulant.
- Sélectionnez votre ou vos fichiers, puis spécifiez la colonne cible (la variable que vous souhaitez prédire).
- Conseil pro : Si vous sélectionnez plusieurs fichiers, assurez-vous qu'ils partagent tous la même colonne cible.
Fichier personnalisé
- Téléversez n'importe quel .csv fichier depuis votre espace de travail en utilisant le sélecteur déroulant.
- Tout comme avec MEDomics Standard, choisissez votre colonne cible pour définir l'objectif de prédiction.

Options du nœud

Les options de ce nœud reflètent les paramètres non liés au nettoyage de PyCaret setup() fonction.

Nœud Nettoyer : Organisez et transformez vos données

Ce nœud vous aide à organiser et transformer votre jeu de données avant l'entraînement du modèle. Utilisez-le pour traiter les problèmes courants de données, tels que les valeurs manquantes, la mise à l'échelle, et plus encore, afin que votre modèle reçoive les meilleures entrées possibles. Dans le flux de travail d'apprentissage automatique, le nœud de Nettoyage est utilisé pour définir l'étape de l'ensemble d'apprentissage, comme illustré ci-dessous :

Les options disponibles pour ce nœud correspondent aux options de la() fonction spécialement conçues pour le nettoyage des données.

Nœud Diviser : Définissez vos partitions d'entraînement et de test

Ce nœud est essentiel pour concevoir la façon dont votre ensemble d'apprentissage sera divisé pour l'entraînement et le test. Sans lui, les modèles utilisent par défaut une seule itération de. Dans la nouvelle architecture, le nœud Diviser est utilisé dans l'étape de partitionnement de l'ensemble d'apprentissage, comme montré ci-dessous :

Un partitionnement approprié des données empêche les fuites d'information et fournit des estimations de performance fiables — crucial pour des résultats d'IA digne de confiance. Vous pouvez choisir parmi ces méthodes de partitionnement :

Validation croisée (K-Fold)
- Divise les données en K plis égaux, en utilisant K-1 pour l'entraînement et 1 pour le test à chaque itération
- Idéal pour : Jeux de données petits à moyens, maximisant l'utilisation des données
- Pratique courante : configurations à 5 ou 10 plis
- Options à définir :
  - num_folds: nombre de plis à utiliser (K).
Sous-échantillonnage aléatoire
- Divise les données aléatoirement en pourcentages fixe d'entraînement/test (par ex., 80%/20%)
- Idéal pour : Grands jeux de données, prototypage rapide
- Astuce : L'échantillonnage stratifié maintient les proportions de classes
- Options à définir :
  - test_size: Proportion des données à allouer à l'ensemble de test (doit être comprise entre 0 et 1).
  - n_iterations: Nombre de répétitions, c'est-à-dire le nombre de partitions à créer. L'augmentation des répétitions peut réduire l'incertitude des estimations de performance.
Bootstrap
- Crée plusieurs échantillons avec remplacement, puis agrège les résultats
- Idéal pour : Très petits jeux de données, estimer la stabilité du modèle
- Avantage : Simule la disponibilité de plus de données que celles réellement présentes
- Options à définir :
  - bootstrap_train_sample_size: La proportion du jeu de données à rééchantillonner avec remplacement.
  - n_iterations: Nombre de bootstraps/partitions à créer. Un nombre plus élevé d'itérations peut réduire l'incertitude des estimations de performance.
Défini par l'utilisateur
- Spécifiez manuellement les indices d'entraînement/validation ou une logique de partitionnement personnalisée
- Idéal pour : Données temporelles, schémas d'évaluation spéciaux
- Flexibilité : Importez des partitions prédéfinies ou implémentez des règles uniques
- Options à définir :
  - train_indices: Liste des indices d'entraînement pour l'ensemble d'entraînement
  - test_indices: Liste des indices de test pour l'ensemble de test

Paramètres généraux pour le nœud Diviser

Avant d'exécuter votre expérience, configurez ces paramètres essentiels pour contrôler la façon dont vos données sont partitionnées :

1. État aléatoire (random_state)

Objectif : Assure des partitions reproductibles en initialisant le générateur de nombres aléatoires avec une graine fixe.
Utilisation :
- Saisissez une valeur entière (par ex., 42) pour rendre les résultats de partition cohérents entre les exécutions.
- Laissez vide pour des partitions véritablement aléatoires (non recommandé pour des expériences reproductibles).

2. Colonnes de stratification (stratify_columns)

Objectif : Maintient la distribution originale des variables clés (par ex., étiquettes de classe) dans les ensembles d'entraînement et de test et empêche des partitions biaisées qui pourraient fausser l'évaluation du modèle.
Exigences :
- Au moins une colonne doit être sélectionnée.
- Choix courants : Variables cibles ou colonnes démographiques (par ex., tranches d'âge, sexe).

3. Utiliser des balises pour la stratification

Objectif : Exploite des Balises de colonne ou Balises de ligne comme groupes de stratification.
Comment cela fonctionne :
1. Activez cette option pour activer la stratification basée sur les balises.
2. Les balises disponibles à partir de votre jeu de données se rempliront automatiquement dans un menu déroulant.
3. Sélectionnez une ou plusieurs balises à utiliser comme critères de stratification.
Notes clés :
- Compatible avec stratify_columns (peut être utilisé simultanément).
- S'il n'existe aucune balise, le système affichera un avertissement, mais cela n'affectera pas l'exécution.
- Les balises sont particulièrement utiles pour des schémas de stratification complexes (par ex., scénarios multi-étiquettes).

Contrairement aux autres nœuds, le nœud Diviser n'a pas d'options supplémentaires

Nœud Modèle : Sélectionnez et configurez votre algorithme d'apprentissage automatique

Ce nœud vous permet de sélectionner et personnaliser votre modèle d'apprentissage automatique. Les modèles disponibles et leurs paramètres correspondent directement à :

Le paramètre estimator options dans fonction
create_model()Les implémentations de modèles complètes de

Scikit-learn

Décomposition du nœud Modèle

PrécédentModule d'apprentissage SuivantEntraînement

Mis à jour il y a 5 mois

hashtagNœud Jeu de données : Point de départ de votre expérience

hashtagNœud Nettoyer : Organisez et transformez vos données

hashtagNœud Diviser : Définissez vos partitions d'entraînement et de test

hashtagParamètres généraux pour le nœud Diviser

hashtagNœud Modèle : Sélectionnez et configurez votre algorithme d'apprentissage automatique

Nœud Jeu de données : Point de départ de votre expérience

Nœud Nettoyer : Organisez et transformez vos données

Nœud Diviser : Définissez vos partitions d'entraînement et de test

Paramètres généraux pour le nœud Diviser

Nœud Modèle : Sélectionnez et configurez votre algorithme d'apprentissage automatique