# Module d’exploration

En utilisant le [Module d’exploration](https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/exploratory-module), nous allons explorer les variables de notre jeu de données avant de les utiliser pour entraîner des modèles dans le module d’apprentissage. Cependant, nous nous concentrerons particulièrement sur [sweetViz](https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/exploratory-module#id-1.-sweetviz), car il fournit tous les outils nécessaires à cette étape d’analyse des données, de l’analyse des caractéristiques à la corrélation, ainsi que de nombreuses autres fonctionnalités utiles.

#### Générer un rapport

La première étape consiste à générer un rapport sweetViz. Commencez par ouvrir le Module d’exploration, puis, dans la section sweetViz, sélectionnez votre jeu de données, votre variable cible, puis cliquez sur Générer le rapport. Ces étapes sont illustrées dans la figure ci-dessous :

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FQDT36Tm7dS0olQtBLxAx%2FsweetVizReport.png?alt=media&#x26;token=47c58a71-e442-4aca-926c-ad369e8f5d5d" alt=""><figcaption><p>Fig. 17 - Générer un rapport sweetViz</p></figcaption></figure>

À l’ouverture du rapport HTML, vous remarquerez un récapitulatif de toutes les caractéristiques présentes dans le fichier du jeu de données, en commençant par la valeur cible et en terminant par la dernière colonne. La section Target illustre la relation entre la variable cible et les autres caractéristiques. Elle quantifie la manière dont la cible fournit des informations aux autres caractéristiques et vice versa. Dans notre PoC (voir le rapport ci-dessous), nous pouvons voir que la variable cible fournit des informations pour les caractéristiques suivantes :

* DailyLifeInterests2
* SleepRested2
* EnergeticVigorous2
* ...

À l’inverse, les caractéristiques suivantes fournissent des informations à la cible :

* SleepRested2
* DailyLifeInterests2
* EnergeticVigorous2
* ...

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FFWGlxwS2rqQQtuHbmQ6a%2FsweetVizTargetReport.png?alt=media&#x26;token=dec57271-2b1d-464a-92cc-b5b9e5a7501d" alt=""><figcaption><p>Fig. 18 - Le rapport de la variable cible sweetViz pour le jeu de données PARIS</p></figcaption></figure>

#### Associations

sweetViz fournit une figure Associations complète unifiant l’ensemble de l’analyse des relations entre différentes caractéristiques d’un jeu de données. La figure présente une relation par paires entre toutes les paires de caractéristiques du jeu de données, chaque carré représentant une association catégorielle entre deux caractéristiques. La taille et la couleur du carré indiquent la force de l’association, qui varie de 0 à 1.

Dans ce PoC, la figure Associations obtenue est la suivante :

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FLh1kLfERBQLJ33x14NIy%2FsweetVizAssociations.png?alt=media&#x26;token=5cb6c9e0-d576-4c52-957c-f6a5bbd22269" alt=""><figcaption><p>Fig. 19 - Figure Associations du jeu de données PARIS</p></figcaption></figure>

D’après la figure, nous pouvons remarquer que plusieurs caractéristiques présentent une forte association. Par conséquent, notre jeu de données PARIS doit être nettoyé avant d’être utilisé dans le module d’apprentissage. Pour une paire de caractéristiques présentant une combinaison forte, celle qui a la plus faible association avec la cible sera supprimée. En appliquant cette approche, nous avons décidé de supprimer les caractéristiques suivantes :

* ActivitiesPain7
* DiscussionHealthcareProfessionals
* RentMortgage12
* HealthcareInvolvement
* HealthcareConsideration
* ComplexityHealthIssues

Pour ce faire, nous aurons besoin du module d’entrée. Cela nous amène à l’étape suivante de cette démonstration. À la page suivante !
