# Outil de réduction des variables

## 1. Analyse en composantes principales (ACP)

Lorsque vous ouvrez l'onglet principal de l'outil Réduction de caractéristiques, vous devriez voir ce composant :

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FnuwxYfDYVmYLEnIFuxFZ%2Fpca.png?alt=media&#x26;token=5ac3e385-b334-4f1f-af3f-393e213cc2a2" alt=""><figcaption><p>Composant ACP</p></figcaption></figure>

### 1.1. Sélectionnez les données sur lesquelles vous souhaitez appliquer l'ACP

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2Fa4t6Gv2I869YPSM1JcMU%2Fselect_dataset.png?alt=media&#x26;token=8058ebf5-c4a8-46d3-bc1f-d6f2be2c2738" alt=""><figcaption><p>Sélectionnez les données</p></figcaption></figure>

Dans ce composant, tous les fichiers CSV présents dans votre dossier DATA sont affichés. Sélectionnez simplement le jeu de données sur lequel vous souhaitez appliquer l'ACP.

{% hint style="warning" %}
Une fois sélectionné, le jeu de données peut prendre quelques secondes pour téléverser les données pour les étapes suivantes.
{% endhint %}

### 1.2. Sélectionnez les colonnes sur lesquelles vous souhaitez appliquer l'ACP

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FDJdBdYhEwCYHBO0NaaxM%2Fselect_columns.png?alt=media&#x26;token=98d75a29-036f-4e9c-9244-38490356b0d1" alt=""><figcaption><p>Sélectionnez les colonnes</p></figcaption></figure>

Dans ce composant, toutes les colonnes de votre jeu de données sélectionné sont affichées sous forme de cases à cocher. Cochez les colonnes sur lesquelles vous souhaitez appliquer l'ACP. Une fois les colonnes sélectionnées, vous pouvez cliquer sur le bouton « Calculer les valeurs propres ».

### 1.3. Sélectionnez le nombre souhaité de composantes principales

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FPpPieRY9FaiG1xO5KohM%2Fselectr_number.png?alt=media&#x26;token=ec5939c3-42d0-4577-8cbf-899f078b759e" alt=""><figcaption><p>Sélectionnez le nombre souhaité de composantes principales</p></figcaption></figure>

Après le calcul des valeurs propres (en cliquant sur le bouton « Calculer les valeurs propres »), une liste apparaîtra associant le nombre de composantes principales à la variance expliquée que contiendra votre jeu de données résultat si vous choisissez ce nombre. Cliquez simplement sur la ligne contenant le nombre de composantes principales souhaité.

### 1.4. Définissez les options de votre jeu de données

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2F234PZiLvlUeJMzHCo7Ok%2Fpca_computed.png?alt=media&#x26;token=cea2ee6b-069b-4f95-be1b-20563b72bff2" alt=""><figcaption><p>Définissez les options de votre jeu de données</p></figcaption></figure>

Après avoir sélectionné le nombre de composantes principales souhaité, vous pourrez calculer votre jeu de données ACP avec plusieurs options :

* **Fusionner les colonnes non sélectionnées dans le jeu de données résultat** calculera l'ACP avec les colonnes sélectionnées et ajoutera vos colonnes non sélectionnées au début de votre dataframe résultat.
* Vous pouvez choisir le nom sous lequel vous souhaitez **enregistrer votre jeu de données résultat**. Le nom par défaut est « pca\_dataset.csv ». Le nom doit respecter les conventions de nommage de fichiers et se terminer par l'extension .csv.
* Le **préfixe du nom de colonne** sera ajouté devant chaque colonne ACP. Les colonnes ACP résultantes auront l'apparence *VotrePréfixe\_attrX*, où X est le numéro de la composante principale, de celle contenant le plus d'information à celle contenant le moins d'information.

Une fois votre jeu de données résultat calculé (après avoir cliqué sur le bouton « Calculer le jeu de données ACP »), un message de succès apparaîtra indiquant l'emplacement où vos résultats ont été sauvegardés.

{% hint style="warning" %}
Si le bouton « Calculer le jeu de données ACP » est désactivé, assurez-vous d'avoir sélectionné un nombre de composantes principales à l'étape précédente.
{% endhint %}

## 2. Corrélation de Spearman

Lorsque vous ouvrez le deuxième onglet de l'outil Réduction de caractéristiques, vous devriez voir ce composant :

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FV6TM6klswMtBBQHUTtLV%2Fspearman.png?alt=media&#x26;token=51ce53f6-8943-4a64-840a-3ab2301fc081" alt=""><figcaption><p>Composant Spearman</p></figcaption></figure>

### 2.1. Sélectionnez les données sur lesquelles vous souhaitez appliquer Spearman

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FGonjJEUucdgvnKkHB2ib%2Fselect_spearman.png?alt=media&#x26;token=ee993ab7-3b33-4908-afaa-fce938edb42f" alt=""><figcaption><p>Sélectionnez les données</p></figcaption></figure>

Dans ce composant, tous les fichiers CSV présents dans votre dossier DATA sont affichés. Sélectionnez simplement le jeu de données sur lequel vous souhaitez appliquer Spearman. Ce jeu de données doit contenir une colonne cible.

### 2.2. Sélectionnez les colonnes sur lesquelles vous souhaitez appliquer Spearman

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FPGhJ9MCkLLbltbEBhjkO%2Fcolumns_spearman.png?alt=media&#x26;token=40e7a291-061d-4f2d-8814-3554a9f3c2ca" alt=""><figcaption><p>Sélectionnez les colonnes</p></figcaption></figure>

Dans cette section, vous avez deux champs à remplir. Dans le premier, toutes vos colonnes sont affichées sous forme de cases à cocher. Cochez les colonnes sur lesquelles vous souhaitez appliquer la corrélation de Spearman (à l'exclusion de la colonne cible). Le deuxième champ correspond à la colonne cible. Sélectionnez la colonne cible dans la liste des colonnes. Une fois les colonnes sélectionnées, vous pouvez cliquer sur le bouton « Calculer les corrélations ». Il calculera la corrélation entre toutes vos colonnes sélectionnées et la cible.

### 2.3. Sélectionnez les colonnes à conserver

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FxM4Zsht9OLeKlUCogzVL%2Fkeep_spearman.png?alt=media&#x26;token=566c8465-b10d-4578-b8f0-8fc74e6fd3aa" alt=""><figcaption><p>Sélectionnez les colonnes à conserver</p></figcaption></figure>

Après le calcul des corrélations (en cliquant sur le bouton « Calculer les corrélations »), la liste de vos colonnes sélectionnées sera affichée sous forme de cases à cocher, associant leur corrélation avec la cible sélectionnée. La liste sera affichée dans l'ordre décroissant. Ici, vous devrez sélectionner les colonnes que vous souhaitez conserver dans votre jeu de données résultat.

### 2.4. Définissez les options de votre jeu de données

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FaOTFUzKpNcEJ2Ls0AK4r%2Fcompute_spearman.png?alt=media&#x26;token=9dfef377-b926-4405-abc8-27f7cf339fb9" alt=""><figcaption><p>Définissez les options de votre jeu de données</p></figcaption></figure>

Après avoir sélectionné les colonnes à conserver dans le jeu de données résultat, vous pourrez exécuter l'outil de réduction Spearman avec plusieurs options :

* **Fusionner les colonnes non sélectionnées dans le jeu de données résultat** calculera le dataframe résultat avec les colonnes sélectionnées à conserver et ajoutera vos colonnes non sélectionnées de la première section (Sélectionnez les données sur lesquelles vous souhaitez appliquer Spearman) au début de ce dataframe résultat.
* **Conserver la cible dans le jeu de données** ajoutera la colonne cible à la fin de votre dataframe résultat.
* Vous pouvez choisir le nom sous lequel vous souhaitez enregistrer votre jeu de données résultat. Le nom par défaut est « spearman\_dataset.csv ». Le nom doit respecter les conventions de nommage de fichiers et se terminer par l'extension .csv.

Une fois votre jeu de données résultat calculé (après avoir cliqué sur le bouton « Calculer le jeu de données Spearman »), un message de succès apparaîtra indiquant l'emplacement où vos résultats ont été sauvegardés.

{% hint style="warning" %}
Si le bouton « Calculer le jeu de données Spearman » est désactivé, veuillez vous assurer que vous avez sélectionné des colonnes à conserver à l'étape précédente.
{% endhint %}
