Module d’exploration
Cette page documente l’étape d’analyse des données de notre preuve de concept (PoC), qui consiste à comprendre les relations sous-jacentes entre nos variables de données.
En utilisant le Module d’exploration, nous allons explorer les variables de notre jeu de données avant de les utiliser pour entraîner des modèles dans le module d’apprentissage. Cependant, nous nous concentrerons particulièrement sur sweetViz, car il fournit tous les outils nécessaires à cette étape d’analyse des données, de l’analyse des caractéristiques à la corrélation, ainsi que de nombreuses autres fonctionnalités utiles.
Générer un rapport
La première étape consiste à générer un rapport sweetViz. Commencez par ouvrir le Module d’exploration, puis, dans la section sweetViz, sélectionnez votre jeu de données, votre variable cible, puis cliquez sur Générer le rapport. Ces étapes sont illustrées dans la figure ci-dessous :

À l’ouverture du rapport HTML, vous remarquerez un récapitulatif de toutes les caractéristiques présentes dans le fichier du jeu de données, en commençant par la valeur cible et en terminant par la dernière colonne. La section Target illustre la relation entre la variable cible et les autres caractéristiques. Elle quantifie la manière dont la cible fournit des informations aux autres caractéristiques et vice versa. Dans notre PoC (voir le rapport ci-dessous), nous pouvons voir que la variable cible fournit des informations pour les caractéristiques suivantes :
DailyLifeInterests2
SleepRested2
EnergeticVigorous2
...
À l’inverse, les caractéristiques suivantes fournissent des informations à la cible :
SleepRested2
DailyLifeInterests2
EnergeticVigorous2
...

Associations
sweetViz fournit une figure Associations complète unifiant l’ensemble de l’analyse des relations entre différentes caractéristiques d’un jeu de données. La figure présente une relation par paires entre toutes les paires de caractéristiques du jeu de données, chaque carré représentant une association catégorielle entre deux caractéristiques. La taille et la couleur du carré indiquent la force de l’association, qui varie de 0 à 1.
Dans ce PoC, la figure Associations obtenue est la suivante :

D’après la figure, nous pouvons remarquer que plusieurs caractéristiques présentent une forte association. Par conséquent, notre jeu de données PARIS doit être nettoyé avant d’être utilisé dans le module d’apprentissage. Pour une paire de caractéristiques présentant une combinaison forte, celle qui a la plus faible association avec la cible sera supprimée. En appliquant cette approche, nous avons décidé de supprimer les caractéristiques suivantes :
ActivitiesPain7
DiscussionHealthcareProfessionals
RentMortgage12
HealthcareInvolvement
HealthcareConsideration
ComplexityHealthIssues
Pour ce faire, nous aurons besoin du module d’entrée. Cela nous amène à l’étape suivante de cette démonstration. À la page suivante !
Mis à jour