Outil de réduction de dimensions

1. Analyse en composantes principales (ACP)

Lorsque vous ouvrez l'onglet principal de l'outil Réduction de caractéristiques, vous devriez voir ce composant :

Composant ACP

1.1. Sélectionnez les données sur lesquelles vous souhaitez appliquer l'ACP

Sélectionnez les données

Dans ce composant, tous les fichiers CSV présents dans votre dossier DATA sont affichés. Sélectionnez simplement le jeu de données sur lequel vous souhaitez appliquer l'ACP.

circle-exclamation

1.2. Sélectionnez les colonnes sur lesquelles vous souhaitez appliquer l'ACP

Sélectionnez les colonnes

Dans ce composant, toutes les colonnes de votre jeu de données sélectionné sont affichées sous forme de cases à cocher. Cochez les colonnes sur lesquelles vous souhaitez appliquer l'ACP. Une fois les colonnes sélectionnées, vous pouvez cliquer sur le bouton « Calculer les valeurs propres ».

1.3. Sélectionnez le nombre souhaité de composantes principales

Sélectionnez le nombre souhaité de composantes principales

Après le calcul des valeurs propres (en cliquant sur le bouton « Calculer les valeurs propres »), une liste apparaîtra associant le nombre de composantes principales à la variance expliquée que contiendra votre jeu de données résultat si vous choisissez ce nombre. Cliquez simplement sur la ligne contenant le nombre de composantes principales souhaité.

1.4. Définissez les options de votre jeu de données

Définissez les options de votre jeu de données

Après avoir sélectionné le nombre de composantes principales souhaité, vous pourrez calculer votre jeu de données ACP avec plusieurs options :

  • Fusionner les colonnes non sélectionnées dans le jeu de données résultat calculera l'ACP avec les colonnes sélectionnées et ajoutera vos colonnes non sélectionnées au début de votre dataframe résultat.

  • Vous pouvez choisir le nom sous lequel vous souhaitez enregistrer votre jeu de données résultat. Le nom par défaut est « pca_dataset.csv ». Le nom doit respecter les conventions de nommage de fichiers et se terminer par l'extension .csv.

  • Le préfixe du nom de colonne sera ajouté devant chaque colonne ACP. Les colonnes ACP résultantes auront l'apparence VotrePréfixe_attrX, où X est le numéro de la composante principale, de celle contenant le plus d'information à celle contenant le moins d'information.

Une fois votre jeu de données résultat calculé (après avoir cliqué sur le bouton « Calculer le jeu de données ACP »), un message de succès apparaîtra indiquant l'emplacement où vos résultats ont été sauvegardés.

circle-exclamation

2. Corrélation de Spearman

Lorsque vous ouvrez le deuxième onglet de l'outil Réduction de caractéristiques, vous devriez voir ce composant :

Composant Spearman

2.1. Sélectionnez les données sur lesquelles vous souhaitez appliquer Spearman

Sélectionnez les données

Dans ce composant, tous les fichiers CSV présents dans votre dossier DATA sont affichés. Sélectionnez simplement le jeu de données sur lequel vous souhaitez appliquer Spearman. Ce jeu de données doit contenir une colonne cible.

2.2. Sélectionnez les colonnes sur lesquelles vous souhaitez appliquer Spearman

Sélectionnez les colonnes

Dans cette section, vous avez deux champs à remplir. Dans le premier, toutes vos colonnes sont affichées sous forme de cases à cocher. Cochez les colonnes sur lesquelles vous souhaitez appliquer la corrélation de Spearman (à l'exclusion de la colonne cible). Le deuxième champ correspond à la colonne cible. Sélectionnez la colonne cible dans la liste des colonnes. Une fois les colonnes sélectionnées, vous pouvez cliquer sur le bouton « Calculer les corrélations ». Il calculera la corrélation entre toutes vos colonnes sélectionnées et la cible.

2.3. Sélectionnez les colonnes à conserver

Sélectionnez les colonnes à conserver

Après le calcul des corrélations (en cliquant sur le bouton « Calculer les corrélations »), la liste de vos colonnes sélectionnées sera affichée sous forme de cases à cocher, associant leur corrélation avec la cible sélectionnée. La liste sera affichée dans l'ordre décroissant. Ici, vous devrez sélectionner les colonnes que vous souhaitez conserver dans votre jeu de données résultat.

2.4. Définissez les options de votre jeu de données

Définissez les options de votre jeu de données

Après avoir sélectionné les colonnes à conserver dans le jeu de données résultat, vous pourrez exécuter l'outil de réduction Spearman avec plusieurs options :

  • Fusionner les colonnes non sélectionnées dans le jeu de données résultat calculera le dataframe résultat avec les colonnes sélectionnées à conserver et ajoutera vos colonnes non sélectionnées de la première section (Sélectionnez les données sur lesquelles vous souhaitez appliquer Spearman) au début de ce dataframe résultat.

  • Conserver la cible dans le jeu de données ajoutera la colonne cible à la fin de votre dataframe résultat.

  • Vous pouvez choisir le nom sous lequel vous souhaitez enregistrer votre jeu de données résultat. Le nom par défaut est « spearman_dataset.csv ». Le nom doit respecter les conventions de nommage de fichiers et se terminer par l'extension .csv.

Une fois votre jeu de données résultat calculé (après avoir cliqué sur le bouton « Calculer le jeu de données Spearman »), un message de succès apparaîtra indiquant l'emplacement où vos résultats ont été sauvegardés.

circle-exclamation

Mis à jour