2Module d’entrée

Cette page documente l’étape du module d’entrée de la démo, où nous effectuerons deux étapes de traitement sur notre nouveau fichier « homr_any_visit_10pct.csv » avant l’entraînement du modèle dans le module d’apprentissage.

Le Module d'entrée fournit plusieurs outils clés de traitement des données nécessaires pour accomplir diverses tâches au sein de la plateforme MEDomics. Dans cette preuve de concept, nous utiliserons deux outils du Module d'entrée : le Outils d'étiquetage de colonnes et le Outils de création d'ensemble de réserve. Nous utiliserons également l'éditeur MEDomics pour supprimer une colonne.

circle-check

Suppression de colonne

Avant de passer au Module d'entrée, nous devons supprimer une colonne de notre fichier de jeu de données nommé "CSO". Cette colonne n'est pas utilisée dans l'étude originale et nous n'avons donc pas besoin de la conserver.

Double-cliquez sur le homr_any_visit_10pct.csv fichier dans votre espace de travail pour l'ouvrir dans l' éditeur MEDomics. Ensuite, cliquez sur la corbeille au-dessus de la colonne "CSO" pour la supprimer.

Données dans éditeur éditeur

Étiquetage de colonnes

Cet outilarrow-up-right est un composant central de la éditeur plateforme, car il permet l'utilisation du Standard MEDomics format de données.

Suivez les étapes de la figure ci-dessous pour accéder à l'outil d'étiquetage de colonnes dans le Module d'entrée.

Étapes vers les outils d'étiquetage de colonnes

Dans éditeur, un tag représente un groupe de colonnes. Chaque tag correspond à un sous-ensemble cohérent de caractéristiques partageant un sens ou un rôle commun (par exemple, données administratives, variables démographiques, diagnostics cliniques). La sélection des colonnes pour les tags est définie par l'utilisateur en fonction de la compréhension des données et des connaissances du domaine.

Le Standard MEDomics le format est construit sur ce mécanisme d'étiquetage. Plutôt que de se fier à un schéma de jeu de données fixe, éditeur permet aux utilisateurs de définir plusieurs vues sémantiques sur le même jeu de données via des tags. Cette conception offre de la flexibilité tout en préservant la cohérence et la traçabilité.

Structure du jeu de données

Les prédicteurs de notre jeu de données incluent :

  • Données démographiques (âge et sexe à la naissance) – 2 variables

  • Caractéristiques d'admission – 10 variables

  • Diagnostics de comorbidité – 85 variables binaires

  • Diagnostics d'admission – 147 variables binaires

Cela donne un total de 244 prédicteurs.

Ensembles de prédicteurs dans l'étude POYM

L'étude POYM définit deux ensembles de prédicteurs pour l'entraînement et l'évaluation des modèles :

  • AdmDemoAdm (Caractéristiques d'admission) + Demo (Données démographiques)

  • AdmDemoDxAdm (Caractéristiques d'admission) + Demo (Données démographiques) + Dx (Diagnostics de comorbidité + Diagnostics d'admission)

Pour cette preuve de concept, nous représentons ces ensembles de prédicteurs en utilisant trois tags :

  • Adm → Caractéristiques d'admission (10 variables)

  • Demo → Données démographiques (2 variables : age_original, gender)

  • Dx → Diagnostics de comorbidité (85) + Diagnostics d'admission (147)

Pour attribuer des tags aux variables :

  1. Ouvrez le Module d'entrée depuis le panneau de navigation de gauche.

  2. Sous Organisation des données, sélectionnez Structuration & Étiquetage.

  3. Cliquez sur Outils d'étiquetage de colonnes.

Cet outil vous permet d'attribuer le tag approprié (adm, demo, ou dx) à chaque variable conformément à la définition de l'étude.

Mappage des variables par tag

Tag
Description
Nombre de variables

Adm

Caractéristiques d'admission :

  • ed_visit_count

  • ho_ambulance_count

  • total_duration

  • flu_season

  • living_status

  • admission_group

  • is_ambulance

  • is_icu_start_ho

  • is_urg_readm

  • service_group

Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :

10

Demo

Données démographiques :

  • age_original

  • gender

Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :

2

Dx

Diagnostics de comorbidité + Diagnostics d'admission (le reste des colonnes) Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :

232

circle-exclamation

La figure ci-dessous illustre le processus d'attribution des tags aux colonnes du jeu de données en utilisant les Outils d'étiquetage de colonnes.

  1. Sélectionnez le jeu de données (homr_any_visit_10pct.csv).

  2. Créez les trois tags requis : adm, demo, et dx en saisissant leurs noms les uns après les autres et en appuyant sur Entrée.

  3. Copiez-collez les noms de colonnes correspondant à chaque tableau à partir du tableau ci‑dessus.

  4. Choisissez le tag approprié à appliquer.

  5. Cliquez Appliquer les tags pour valider la configuration.

circle-info

La troisième étape présente deux manières alternatives d'attribuer les colonnes à leurs tags correspondants.

Cela peut être fait soit en :

  • Collant les noms de colonnes manuellement, ou

  • En sélectionnant les colonnes directement à partir du jeu de données affiché.

Dans cet exemple, les variables age_original et gender sont attribuées au demo tag.

Créez les tags "adm", "demo" et "dx"

Vous pouvez visualiser les tags au sein du jeu de données dans l' éditeur éditeur.

circle-exclamation

Création de l'ensemble de réserve

Après avoir créé nos tags, l'étape finale consiste à diviser nos données en un ensemble d'apprentissage et un ensemble de réserve.

Pour cette tâche, nous utiliserons le Outils de création d'ensemble de réserve. Pour accéder à ce outilarrow-up-right, sélectionnez Échantillonnage sous la rubrique Nettoyage des données dans la section Module d'entrée.

Échantillonnage dans la section Nettoyage des données

Après avoir sélectionné le jeu de données (homr_any_visit_10pct.csv):

  1. Activez Mélanger et Stratifier.

  2. Sélectionnez oym comme colonne cible.

  3. Définissez le pourcentage de séparation sur 20%.

  4. Choisissez "supprimer" comme méthode de nettoyage des cellules vides.

  5. Activez le Conserver les tags interrupteur.

  6. Cliquez sur l'icône Enregistrer pour créer les ensembles d'Apprentissage et de Réserve.

Ces étapes sont illustrées dans la figure ci-dessous.

Créer des ensembles d'Apprentissage et de Réserve à partir de notre jeu de données
circle-check

Avec la création des ensembles de Réserve et d'Apprentissage, nous concluons nos étapes du Module d'entrée, et nous pouvons désormais commencer la phase d'apprentissage automatique.

Cette étape garantit que le jeu de données est correctement préparé pour la démo et prêt à être utilisé dans un flux de travail complet de bout en bout au sein de éditeur, y compris les modules d'Apprentissage, Évaluation et Application . Dans la section suivante, nous utiliserons le homr_any_visit_10pct.csv jeu de données (avec les tags appliqués préservés, bien sûr !) pour exécuter des expériences d'apprentissage automatique et reproduire l'étude POYM.

Ceci conclut notre Module d'entrée section. Maintenant nos données sont prêtes pour l'entraînement du modèle !

Mis à jour