1Superset

Cette page documente l’étape Superset de notre preuve de concept (PoC), qui consiste à explorer les données par la création de visualisations interactives.

circle-check

Étapes initiales

  1. Importation de paris.db

Une fois que vous êtes connecté et que vous avez accès au tableau de bord Superset, l’étape suivante consiste à téléverser la base de données PARIS. D’abord, vous devez télécharger cette base de données prête à l’emploi exemples base de données : lienarrow-up-right. Ensuite, cliquez sur Paramètres, puis sur Connexions à la base de données, et cliquez sur le bouton + DATABASE en haut à droite. Dans la fenêtre modale « Choisissez une base de données », sélectionnez SQLite. Saisissez l’URI SQLAlchemy en utilisant le chemin vers le fichier paris.db . Le chemin doit être préfixé par sqlite:/// pour les utilisateurs Windows et par sqlite://// pour les utilisateurs MacOS et Linux. Par exemple :

  • MacOS/Ubuntu : sqlite:////Users/Download/paris.db

  • Windows : sqlite:///C:\Users\Downloads\paris.db

Toutes les étapes sont résumées dans les figures ci-dessous :

Fig. 1 - Étape 1 : ouvrir les connexions à la base de données
Étape 1 : cliquez sur le bouton + DATABASE en haut à droite
Étape 2 : sélectionnez le type de base de données
Étape 3 : définissez le chemin de la base de données et connectez-la
  1. Création du jeu de données PARIS

Importation du paris.db Le fichier ne crée pas automatiquement le jeu de données PARIS dans votre Superset ; vous devez le faire manuellement. D’abord, allez dans l’onglet Datasets et cliquez sur le bouton + Dataset en haut à droite. Puis sélectionnez SQLite comme DATABASE, main comme SCHEMA et PARIS_SYNTH comme TABLE. Les étapes sont résumées dans la figure suivante :

Importation de la table PARIS

Visualisation des données

Création de graphiques

Une fois votre table PARIS importée, vous pouvez choisir de créer parmi une variété de graphiques. Par exemple, nous pouvons créer un diagramme circulaire pour visualiser les différences de sexe parmi les participants à notre questionnaire. La figure ci-dessous montre les étapes à suivre :

Fig. 8 - Créer un nouveau diagramme circulaire

Après avoir créé le graphique, nous sélectionnerons les informations que nous souhaitons visualiser. Pour ce faire, recherchez la colonne Sex et faites-la glisser dans la case Dimension. Ensuite, dans la case métrique, sélectionnez la métrique à afficher (COUNT). Enfin, cliquez sur « Create Chart » pour générer le graphique, qui devrait apparaître à droite de votre écran. Une fois que vous êtes satisfait de votre graphique final, vous pouvez cliquer sur « SAVE » pour l’enregistrer et l’ajouter à un tableau de bord.

Fig. 9 - Créer un diagramme circulaire pour la distribution du sexe

Dans cette preuve de concept, nous suggérons de créer trois graphiques, en utilisant les configurations suivantes pour chacun d’eux :

  • Graphique du nombre total de participants:

    • Type de graphique : GRAND NOMBRE

    • Métrique : COUNT

Fig. 10 - Définition des paramètres du graphique du nombre total de participants
  • Graphique de la distribution de l’âge:

    • Type de graphique : GRAPHIQUE EN BARRES

    • Axe X : Âge

    • Métrique : COUNT

Fig. 12 - Définition des paramètres du graphique de distribution de l’âge

Création de tableaux de bord

Les tableaux de bord Superset sont des affichages interactifs de données visuelles, créés à l’aide des graphiques Superset. Par conséquent, les graphiques réalisés dans la section précédente peuvent être utilisés pour créer un tableau de bord unique permettant d’interagir avec nos données, de surveiller des indicateurs clés, des statistiques, etc. Pour créer un tableau de bord, suivez les étapes décrites dans la figure ci-dessous :

Fig. 13 - Création d’un tableau de bord Superset et ajout de graphiques

Tableau de bord final

heart

N’hésitez pas à créer un tableau de bord plus esthétique !

Une fois que tous vos graphiques ont été importés et organisés dans votre tableau de bord, vous devriez obtenir un résultat similaire :

Fig. 14 - Tableau de bord final PARIS

Utilisation des filtres

Dans les tableaux de bord Superset, vous pouvez utiliser des filtres pour explorer les données de manière dynamique. Ils permettent aux utilisateurs d’explorer les données affichées selon un critère, une métrique, etc. spécifiques, sans modifier les requêtes sous-jacentes.

Une partie de cette POC consiste à appliquer des filtres à notre tableau de bord final, afin d’aider à afficher les données selon des critères prédéfinis. Pour ce faire, suivez les instructions détaillées ci-dessous :

Fig. 15 - Comment implémenter de nouveaux filtres dans votre tableau de bord

Vous disposez désormais d’un tableau de bord interactif fonctionnel pour explorer les données de votre questionnaire. N’hésitez pas à ajouter de nouveaux graphiques, des filtres ou à créer de nouveaux tableaux de bord.

Superset possède de nombreux outils utiles qui ne peuvent pas tous être couverts dans cette preuve de concept. Par conséquent, nous vous recommandons de consulter la documentation de Supersetarrow-up-right pour obtenir davantage d’informations sur la manière d’utiliser cet outil pour explorer votre jeu de données.

Exporter les données vers l’espace de travail

circle-info

Ignorez cette étape si vous utilisez des données synthétiques.

Dans cette dernière étape, nous utiliserons Superset pour exporter vers notre espace de travail les données nécessaires au reste de la PoC. D’abord, dans SQL Lab de Superset, exécutez la commande suivante (voir figure ci-dessous) :

Avant de cliquer sur Exécuter, modifiez la limite de lignes en fonction de la taille de votre jeu de données. Une fois la requête exécutée, vous pouvez cliquer sur Download to CSV et enregistrer les données récupérées dans votre dossier DATA sous votre Workspace (nous recommandons d’utiliser le nom PARIS_ML.csv par souci de cohérence avec le reste des étapes). Enfin, actualisez votre espace de travail et assurez-vous que votre fichier s’y trouve. Les instructions sont résumées dans la figure suivante :

Fig. 16 - Comment exporter votre jeu de données au format CSV

Ceci conclut la première étape de cette PoC. Dans la suivante, nous approfondirons l’exploration du jeu de données à l’aide du module d’exploration.

Mis à jour