triangle-exclamationÀ FAIRE & À NE PAS FAIRE

Vous trouverez ici un guide complet des meilleures pratiques recommandées et des pièges courants à éviter, garantissant des performances optimales et une exécution fiable au sein du module d'apprentissage.

circle-info

Si vous préférez un résumé rapide, passez à la table ci-dessous pour les points clés.

(Ne pas) utiliser le nœud Clean

Inclure une étape de nettoyage des données dans les pipelines d'apprentissage automatique est une exigence fondamentale pour construire des modèles robustes et précis. Le nettoyage des données aide à transformer vos données en un format structuré que vos algorithmes de machine learning peuvent comprendre. L'utilisation du nœud Clean et sa connexion à votre jeu de données aideront à éliminer le bruit et les informations non pertinentes, permettant aux modèles d'apprendre mieux et améliorant l'efficacité de l'entraînement. Ne pas utiliser ce nœud aura un impact négatif sur les performances de votre modèle, ralentira l'entraînement et augmentera le risque de surapprentissage dû au bruit.

circle-exclamation

(Ne pas) utiliser le nœud Split

L'utilisation d'un nœud de split dans votre pipeline est fortement recommandée, car elle suit les pratiques courantes du machine learning, résultant en estimateurs plus fiables, un compromis biais-variance plus juste, un risque de surapprentissage plus faible, etc. Ne pas inclure le nœud Split dans votre pipeline équivaut à entraîner un algorithme de machine learning sélectionné en une seule itération, ce qui conduit à des estimations incertaines.

Utilisation des Tags dans le nœud Split

L'utilisation des Tags dans le nœud Split vous permet de stratifier vos données en fonction de groupes, tels que les institutions, le sexe, l'âge, etc. Cela empêche la fuite de données en garantissant que tous les échantillons du même groupe restent ensemble dans l'ensemble d'entraînement ou dans l'ensemble de test. Avant d'utiliser les Tags, assurez-vous que votre jeu de données possède soit Tags de colonne ou Tags de ligne. Si aucun tag n'a été détecté, le nœud renverra un avertissement et vous devrez sélectionner manuellement une colonne de stratification.

Graine aléatoire

Les résultats reproductibles sont contrôlés par le session_id paramètre, qui définit une graine aléatoire unique pour l'ensemble de l'environnement PyCaret. Ce paramètre, qui fonctionne de la même manière que la random_seed, est préférable de le configurer dans le nœud Dataset .

Pour des résultats cohérents sur l'ensemble du flux de travail, il est crucial que l' random_seed option dans le nœud Split corresponde à la session_id valeur. Utiliser une valeur différente dans le nœud Split rompra la chaîne de reproductibilité, rendant les résultats de votre expérience non reproductibles.

Tune Model est activé, mais vous ne pouvez pas définir la grille d'hyperparamètres ?

Dans le nœud Train Model, si vous activez l'option Tune Model et ne voyez toujours aucune option disponible, cela signifie que vous n'avez ajouté aucune option de modèle supplémentaire. Pour corriger ce problème, allez dans le nœud Model que vous souhaitez régler, cliquez sur le bouton d'ajout et sélectionnez les paramètres que vous souhaitez inclure dans votre grille d'hyperparamètres. Par défaut, l'option d'utiliser la grille d'hyperparamètres par défaut de PyCaret sera activée. Pour définir votre propre grille, vous devez la désactiver.

Si l' option Tune Model est activée dans le nœud Train Model mais qu'aucun paramètre d'optimisation n'est visible, les hyperparamètres requis n'ont pas encore été définis. Pour résoudre ce problème :

  1. Naviguez vers le nœud Modèle.

  2. Cliquez sur le "+" bouton pour sélectionner les hyperparamètres spécifiques que vous souhaitez ajuster.

  3. Par défaut, le système utilise la grille d'optimisation par défaut de PyCaret. Pour définir une grille personnalisée de valeurs pour vos hyperparamètres sélectionnés, vous devez désactiver cette option par défaut.

Recommandations générales

  • Enregistrez votre scène après chaque modification : les changements dans la scène ne sont pas enregistrés automatiquement.

  • Vérifiez les connexions de vos nœuds avant d'exécuter l'expérience ; une connexion manquante entraînera des résultats incomplets.

  • Consultez notre page de dépannage pour les erreurs courantes.

Résumé

Le tableau suivant résume les principales recommandations à suivre lors de l'utilisation du module d'apprentissage.

Composant
À FAIRE ✅
À NE PAS FAIRE 🔴

Nœud Clean

Lors de l'utilisation du nœud clean, concentrez-vous sur les éléments suivants :

  • Supprimer les informations redondantes.

  • Gérer les valeurs aberrantes.

  • Traiter les données manquantes.

  • Sur-nettoyer vos données

  • Ignorer les vérifications illogiques (par ex. année de naissance > date de décès)

Nœud Split

  • Un échantillonnage stratifié est recommandé pour les données déséquilibrées

  • La séparation basée sur des groupes aide à prévenir la fuite de données.

  • Diviser les données avant le prétraitement

  • Petite proportion de données de test (par ex. petit test_size dans le sous-échantillonnage aléatoire)

Nœud Train Model

  • Lors de la calibration, utilisez sigmoid pour les petits jeux de données et isotonic pour les jeux plus grands.

  • Utilisez des ensembles plus petits (nombre d'estimateurs) pour les données de haute dimension et des ensembles plus grands pour les données tabulaires avec de nombreux échantillons.

  • Les grilles de paramètres massives gaspillent des ressources informatiques sur des paramètres non importants

  • L'assemblage lorsque la performance est faible augmente la complexité sans bénéfice.

  • En calibration, trop d'estimateurs peuvent conduire au surapprentissage et à un coût élevé.

Nœud Combine Models

  • Combinez des modèles provenant de différentes familles d'algorithmes (basés sur des arbres, sur la distance, linéaires, etc.)

  • L'option Blend est plus adaptée aux petits jeux de données tandis que Stack convient mieux aux jeux de grande taille.

  • L'option Blend avec method='hard' sur des modèles non calibrés peut réduire la performance de l'ensemble.

  • Créer de grands ensembles de modèles très similaires (par ex., plusieurs modèles basés sur des arbres) en utilisant le blend ou le stacking conduit au surapprentissage et à un gaspillage de ressources computationnelles.

Mis à jour