module d'entrée

Le module d'entrée regroupe tous les outils nécessaires au prétraitement des données tabulaires.

Tutoriel vidéo du module d’entrée
circle-exclamation

Contenu

Dernière version

Dans la dernière version, l’interface du module d’entrée a implémenté de nouveaux outils et mis à jour les existants. Une image de la nouvelle interface est montrée ci-dessous. Une fois que l’utilisateur sélectionne un jeu de données, la liste des outils d’entrée s’affiche, et comme vous pouvez le voir, deux nouveaux outils ont été ajoutés : Catégorique vers Numérique outil et Suppression des doublons outil. Le outil de regroupement des lignes a ajouté une nouvelle fonctionnalité pour étiqueter les lignes (similaire à l’étiquetage des colonnes), ainsi, vous pouvez désormais marquer les lignes pertinentes pour les distinguer des autres. Plus de détails se trouvent dans la section suivante.

les outils d’entrée de la plateforme MEDomics

chevron-rightOutils de basehashtag

Les outils de base vous permettent d’ajouter des lignes et des colonnes à un jeu de données, et d’exporter le jeu de données en CSV ou en JSON. La figure suivante illustre toutes les fonctionnalités du Outils de base.

chevron-rightConvertir une colonne catégorielle en numériquehashtag

Cet outil identifie les colonnes catégorielles dans le jeu de données sélectionné et les convertit en valeurs numériques en utilisant l’encodage One-Hot. La figure suivante montre toutes les fonctionnalités de l’outil.

chevron-rightOutils de suppression des doublonshashtag

Cet outil identifie les colonnes dupliquées dans votre jeu de données et vous permet de les supprimer. Plus de détails dans la figure suivante :

chevron-rightOutil de transformation des colonneshashtag

L’outil de transformation des colonnes vous permet de modifier des colonnes dans un jeu de données, soit en convertissant des colonnes sélectionnées en binaires soit en remplaçant les cellules manquantes par des zéros. Voici comment utiliser cet outil :

  1. Sélectionnez le jeu de données à partir duquel vous souhaitez transformer des colonnes dans la section « Sélectionnez le jeu de données ». Votre jeu de données sera affiché dans un tableau au sein du composant Accordéon.

  2. Dans la section « Sélectionnez les colonnes à conserver », choisissez les colonnes que vous souhaitez transformer dans votre jeu de données.

  3. Choisissez le type de transformation dont vous avez besoin dans la section « Choisissez le type de transformation » :

    • Binaire : les cellules vides deviennent des zéros, et les cellules non vides deviennent des uns.

    • NaN vers 0 : les cellules vides deviennent des zéros, et les autres restent identiques.

  4. Fournissez un nom pour enregistrer le nouveau jeu de données. Le nom par défaut est le nom du jeu de données sélectionné suivi du suffixe « _modified ».

  5. Cliquez sur le bouton « Créer un sous-ensemble avec les colonnes transformées ».

Votre nouveau jeu de données sera enregistré au même emplacement que votre jeu de données sélectionné. La figure suivante illustre toutes les fonctionnalités de l’outil.

chevron-rightOutil de fusionhashtag

Le Outil de fusion fonctionne comme une représentation visuelle de la fonction merge de la bibliothèque pandas Python (https://pandas.pydata.org/docs/reference/api/pandas.merge.htmlarrow-up-right). Suivez ces étapes pour fusionner des jeux de données :

  1. Sélectionnez les deux jeux de données que vous souhaitez fusionner dans la liste des jeux de données.

  2. Sélectionnez les colonnes sur lesquelles vous souhaitez effectuer la fusion.

  3. Sélectionnez le type de fusion. Pour des informations supplémentaires sur les types de fusion, consultez la pandas documentationarrow-up-right.

  4. Cliquez sur le bouton « Fusionner ».

Par défaut, le jeu de données fusionné sera nommé « Dataset1Name_Dataset2Name_mergedType ». La figure suivante résume les étapes susmentionnées :

chevron-rightoutil de Nettoyage Simplehashtag

L’outil de Nettoyage Simple aide à supprimer les valeurs NaN des jeux de données, soit par lignes soit par colonnes. Suivez ces étapes pour nettoyer un jeu de données :

  1. Sélectionnez un jeu de données dans la liste des jeux de données, affichant des informations sur les valeurs NaN dans votre jeu de données.

    1. Le premier tableau associe les colonnes de votre jeu de données au nombre et au pourcentage de valeurs non NaN. Vous pouvez trier ce dataframe par nom de colonne ou par nombre/pourcentage de valeurs non NaN.

    2. Le deuxième tableau associe les lignes de votre jeu de données au nombre et au pourcentage de valeurs non NaN. Vous pouvez trier ce dataframe par indice de ligne ou par nombre/pourcentage de valeurs non NaN.

  2. Selon vos préférences de nettoyage, sélectionnez un pourcentage de valeurs NaN à prendre en compte pour supprimer des colonnes et/ou des lignes en utilisant les sélecteurs correspondants. Cela affichera quelles colonnes/lignes seront affectées et mettra à jour ces données dans les deux tableaux en montrant le nombre de colonnes/lignes à supprimer en tête de la colonne « % de non-NaN » et en mettant en surbrillance les lignes concernées en rouge.

  3. Choisissez de supprimer (option par défaut) ou de remplir les valeurs manquantes en utilisant les méthodes de remplissage disponibles (moyenne, médiane, etc.).

  4. Choisissez un nom pour votre nouveau jeu de données et cliquez sur le bouton « Plus ».

Votre jeu de données résultant sera enregistré dans le même répertoire que votre jeu de données sélectionné. La figure suivante présente ces étapes :

chevron-rightoutil de création d’ensemble de validation (Holdout) hashtag

L’outil de création d’ensemble de validation (Holdout) sert de représentation visuelle de la fonction scikit-learn du package Python model_selection train_test_split fonctionarrow-up-right. Suivez ces étapes pour créer un ensemble de validation :

  1. Choisissez le jeu de données pour lequel vous souhaitez créer l’ensemble de validation dans la liste affichée.

  2. Si l’option Mélanger (Shuffle) est sélectionnée, les lignes seront mélangées avant la séparation.

  3. Si Stratify est sélectionné, vous pouvez également choisir de stratifier l’ensemble de validation en fonction des colonnes sélectionnées. Reportez-vous au documentation arrow-up-rightpour des informations supplémentaires.

  4. Sélectionnez la taille de votre ensemble de validation en pourcentage de la taille du jeu de données choisi.

  5. Choisissez comment gérer les valeurs NaN dans votre jeu de données sélectionné si nécessaire (supprimer ou remplir).

  6. Fournissez un nom pour les nouveaux jeux et cliquez sur le bouton Plus.

La fonction générera deux jeux de données en fonction de vos options sélectionnées : un jeu d’apprentissage et un jeu de validation. Ces jeux de données seront enregistrés dans un dossier portant le nom spécifié, situé dans le même répertoire que votre jeu de données sélectionné.

chevron-rightExemple | Outils de regroupement de lignes (outil de création de sous-ensemble)hashtag

L’outil de création de sous-ensembles permet de créer un sous-ensemble de lignes à partir d’un jeu de données en appliquant des filtres aux colonnes. Par exemple, vous pouvez l’utiliser pour supprimer les lignes avec une variable cible nulle. Suivez ces étapes pour créer un sous-ensemble :

  1. Sélectionnez un jeu de données dans la liste des jeux de données. Votre jeu de données sera affiché, vous permettant de trier et filtrer chaque colonne.

  2. Vous pouvez filtrer votre jeu de données en cliquant sur l’icône de filtre à droite de l’en-tête de chaque colonne. Créez la ou les règle(s) en utilisant les composants affichés pour filtrer les colonnes. Les lignes qui ne satisfont pas les règles seront supprimées du jeu de données affiché, mettant à jour le nombre de lignes affiché sous le jeu de données.

  3. Vous pouvez effectuer une recherche globale dans le jeu de données en utilisant le composant de recherche en haut à droite du jeu de données affiché.

  4. Vous pouvez effacer vos filtres en appuyant sur le bouton « Effacer » en haut à gauche du jeu de données affiché.

  5. Pour étiqueter les lignes filtrées, vous pouvez cliquer sur la coche sous le compteur des lignes, saisir le nom du groupe (nom de l’étiquette) et appuyer sur « créer un groupe ». Cela ajoutera une étiquette aux lignes filtrées.

  6. Choisissez un nom pour votre nouveau jeu de données et cliquez sur le bouton Plus. Vous pouvez également cliquer sur « Écraser » pour remplacer l’ensemble original par les données filtrées.

Votre jeu de données résultant sera enregistré dans le même répertoire que votre jeu de données sélectionné. La figure suivante illustre toutes les étapes décrites ci-dessus :

chevron-rightCaractéristique | Outils d’étiquetage des colonneshashtag

Le Outil de regroupement/étiquetage vous permet de créer et d’appliquer des étiquettes aux colonnes du jeu de données. Suivez ces étapes pour définir des étiquettes sur les colonnes du jeu de données :

  1. Sélectionnez au moins un jeu de données dans la liste des jeux de données ; vous pouvez choisir plusieurs jeux de données si nécessaire.

  2. Créez vos étiquettes : appuyez sur le bouton "+" pour accéder aux étiquettes par défaut ou tapez le nom de votre étiquette et appuyez sur « Entrée » pour l’ajouter.

  3. Personnalisez vos étiquettes : vos étiquettes créées sont affichées, et vous pouvez les mettre à jour, les supprimer ou personnaliser leur couleur (texte et arrière-plan).

  4. Sélectionnez la ou les colonne(s) sur lesquelles vous souhaitez appliquer/modifier les étiquettes. Les colonnes sont affichées par jeu de données.

  5. Une fois la ou les colonne(s) désirée(s) sélectionnée(s), choisissez la ou les étiquette(s) que vous souhaitez appliquer.

  6. Après avoir sélectionné les étiquettes, appuyez sur le bouton vert de validation.

Si vous ouvrez votre jeu de données dans l’application, vous pourrez alors voir vos étiquettes. La figure suivante illustre les étapes expliquées ci-dessus :

Outil de réduction de dimensionschevron-rightMEDprofileschevron-right

Mis à jour