Module d’entrée

Cette page documente l’étape du module d’entrée de la démo, où nous effectuerons deux étapes de traitement sur notre nouveau fichier « homr_any_visit_10pct.csv » avant l’entraînement du modèle dans le module d’apprentissage.

Le Module d'entrée fournit plusieurs outils clés de traitement des données nécessaires pour accomplir diverses tâches au sein de la plateforme MEDomics. Dans cette preuve de concept, nous utiliserons deux outils du Module d'entrée : le Outils d'étiquetage de colonnes et le Outils de création d'ensemble de réserve. Nous utiliserons également l'éditeur MEDomics pour supprimer une colonne.

L'éditeur MEDomics fait référence à l'espace de travail dédié au sein de notre plateforme où les utilisateurs peuvent visualiser les jeux de données, suivre et revoir les transformations appliquées, et éditer les données de manière interactive.

Suppression de colonne

Avant de passer au Module d'entrée, nous devons supprimer une colonne de notre fichier de jeu de données nommé "CSO". Cette colonne n'est pas utilisée dans l'étude originale et nous n'avons donc pas besoin de la conserver.

Double-cliquez sur le homr_any_visit_10pct.csv fichier dans votre espace de travail pour l'ouvrir dans l' éditeur MEDomics. Ensuite, cliquez sur la corbeille au-dessus de la colonne "CSO" pour la supprimer.

Étiquetage de colonnes

Cet outil est un composant central de la éditeur plateforme, car il permet l'utilisation du Standard MEDomics format de données.

Suivez les étapes de la figure ci-dessous pour accéder à l'outil d'étiquetage de colonnes dans le Module d'entrée.

Dans éditeur, un tag représente un groupe de colonnes. Chaque tag correspond à un sous-ensemble cohérent de caractéristiques partageant un sens ou un rôle commun (par exemple, données administratives, variables démographiques, diagnostics cliniques). La sélection des colonnes pour les tags est définie par l'utilisateur en fonction de la compréhension des données et des connaissances du domaine.

Le Standard MEDomics le format est construit sur ce mécanisme d'étiquetage. Plutôt que de se fier à un schéma de jeu de données fixe, éditeur permet aux utilisateurs de définir plusieurs vues sémantiques sur le même jeu de données via des tags. Cette conception offre de la flexibilité tout en préservant la cohérence et la traçabilité.

Structure du jeu de données

Les prédicteurs de notre jeu de données incluent :

Données démographiques (âge et sexe à la naissance) – 2 variables
Caractéristiques d'admission – 10 variables
Diagnostics de comorbidité – 85 variables binaires
Diagnostics d'admission – 147 variables binaires

Cela donne un total de 244 prédicteurs.

Ensembles de prédicteurs dans l'étude POYM

L'étude POYM définit deux ensembles de prédicteurs pour l'entraînement et l'évaluation des modèles :

AdmDemo → Adm (Caractéristiques d'admission) + Demo (Données démographiques)
AdmDemoDx → Adm (Caractéristiques d'admission) + Demo (Données démographiques) + Dx (Diagnostics de comorbidité + Diagnostics d'admission)

Pour cette preuve de concept, nous représentons ces ensembles de prédicteurs en utilisant trois tags :

Adm → Caractéristiques d'admission (10 variables)
Demo → Données démographiques (2 variables : age_original, gender)
Dx → Diagnostics de comorbidité (85) + Diagnostics d'admission (147)

Pour attribuer des tags aux variables :

Ouvrez le Module d'entrée depuis le panneau de navigation de gauche.
Sous Organisation des données, sélectionnez Structuration & Étiquetage.
Cliquez sur Outils d'étiquetage de colonnes.

Cet outil vous permet d'attribuer le tag approprié (adm, demo, ou dx) à chaque variable conformément à la définition de l'étude.

Mappage des variables par tag

Tag

Description

Nombre de variables

Adm

Caractéristiques d'admission :

ed_visit_count
ho_ambulance_count
total_duration
flu_season
living_status
admission_group
is_ambulance
is_icu_start_ho
is_urg_readm
service_group

Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :

ed_visit_count, ho_ambulance_count, total_duration, flu_season, living_status, admission_group, is_ambulance, is_icu_start_ho, is_urg_readm, service_group

Demo

Données démographiques :

age_original
gender

Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :

age_original, gender

Diagnostics de comorbidité + Diagnostics d'admission (le reste des colonnes) Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :

dx_pneumo_adm,dx_obstructive,dx_asthma,dx_bronchiectasis,dx_chronic_resp_failure,dx_acute_resp_failure,dx_ild,dx_home_o2,dx_pseudomonas,dx_pulmonary_hypertension,dx_obesity_hypoventilation,dx_pneumonia_adm,dx_recent_pneumonia,dx_liver_1,dx_liver_2,dx_liver_rf,dx_ascites,dx_anasarca,dx_alcohol,dx_ibd_crohn,dx_recent_abdominal_pain,dx_recent_intestinal_occlusion,dx_recent_gi_bleed,dx_recent_colitis,dx_recent_perforation,dx_renal_1,dx_renal_2,dx_dialysis,dx_recent_interstitial_nephritis,dx_recent_uti,dx_dementia,dx_frailty,dx_denutrition,dx_falls,dx_cachexia,dx_paralysis,dx_cvd,dx_psych,dx_depression,dx_endo_1,dx_endo_2,dx_mi_recent,dx_mi_past,dx_angina_recent,dx_chf,dx_chf_adm,dx_cad,dx_valve,dx_aortic_stenosis,dx_a_fib,dx_recent_chest_pain,dx_pvd,dx_recent_hip_fracture,dx_recent_back_pain,dx_anticoagulation,dx_anemia,dx_recent_anemia,dx_past_pe,dx_recent_pe,dx_orl_cancer,dx_gi_cancer_1,dx_gi_cancer_2,dx_gi_cancer_3,dx_chest_cancer_1,dx_chest_cancer_2,dx_msk_cancer,dx_skin_cancer,dx_breast_cancer,dx_gu_cancer_1,dx_gu_cancer_2,dx_gu_cancer_3,dx_cns_cancer,dx_endocrine_cancer,dx_heme_cancer_1,dx_heme_cancer_2,dx_heme_cancer_3,dx_metastatic_solid_cancer,dx_cancer_ed,dx_chemo_cancer_1,dx_chemo_cancer_2,dx_palliative,dx_transplant,dx_recent_complication,dx_obstetrics,has_dx,adm_abcess,adm_abdominal_pain,adm_acute_leukemia,adm_alcohol,adm_tonsillitis,adm_anemia,adm_aneurism,adm_angina,adm_aortic_aneurism,adm_appendicitis,adm_ards,adm_arrhythmia,adm_arthropathy,adm_ascites,adm_aspiration_pneumonia,adm_asthma,adm_atrial_fibrillation,adm_bariatric,adm_benign_tumor,adm_bi_pan_cytopenia,adm_biliary_colic,adm_bladder_cancer,adm_brain_cancer,adm_brain_hemorrhage,adm_brain_injury,adm_brain_lesion,adm_breast_cancer,adm_bronchiectasis,adm_bronchitis,adm_c_difficile,adm_cancer,adm_carotid_stenosis,adm_cellulitis,adm_chemotherapy,adm_chest_pain,adm_cholangitis,adm_cholecystitis,adm_choledocholithiasis,adm_chronic_leukemia,adm_cirrhosis,adm_colorectal_cancer,adm_colitis,adm_conduction_abnormality,adm_copd,adm_delirium,adm_dementia,adm_diabetes,adm_dialysis,adm_diarrhea,adm_disk_disorder,adm_diverticular_disease,adm_dvt,adm_dysphagia,adm_dyspnea,adm_ear_disorder,adm_electrolytes,adm_endocarditis,adm_eol_care,adm_eps,adm_eye,adm_falls,adm_febrile_neutropenia,adm_fertility,adm_fracture,adm_gastric_cancer,adm_gastritis,adm_enteritis,adm_gi_bleed,adm_guillain_barre,adm_gyn_disorder,adm_heart_failure,adm_hemoptysis,adm_hepatic_failure,adm_hepatitis,adm_hip_fracture,adm_hypertension,adm_infection,adm_inguinal_hernia,adm_intestinal_ischemia,adm_intestinal_polyp,adm_intoxication,adm_joint_prosthesis,adm_liver_cancer,adm_loss_of_autonomy,adm_lower_leg_fracture,adm_lumbar_pelvis_fracture,adm_lung_cancer,adm_lung_mass,adm_lymphoma,adm_melanoma,adm_meningitis,adm_metastasis,adm_mi,adm_mii,adm_multiple_myeloma,adm_oesophageal_cancer,adm_oesophageal_varices,adm_orl_cancer,adm_osteomyelitis,adm_osteoporosis,adm_other_hernia,adm_pancreatic_cancer,adm_pancreatic_mass,adm_pancreatitis,adm_parkinsons,adm_perforation,adm_pericardial_effusion,adm_pericarditis,adm_pleural_effusion,adm_pneumonia,adm_pneumothorax,adm_pregnancy,adm_prolapsus,adm_prostate_cancer,adm_pulmonary_fibrosis,adm_pulmonary_hypertension,adm_pvd,adm_pvd_gangrene,adm_pvd_insufficiency,adm_pvd_ischemia,adm_reanimation,adm_renal_failure,adm_respiratory_failure,adm_seizures,adm_sepsis,adm_severe,adm_shock,adm_spondylopathy,adm_stroke,adm_subarachnoid_hemorrhage,adm_syncope_hypotension,adm_tachycardia,adm_tamponnade,adm_thyroid_cancer,adm_tia,adm_trauma,adm_trigeminal_neuralgia,adm_tumor,adm_urinary_lithiasis,adm_urinary_retention,adm_uro_procedure,adm_uti,adm_valve_prosthesis,adm_valve_regurgitation,adm_valve_stenosis,adm_virus,adm_weight_loss_fatigue

232

Les colonnes "patient_id", "visit_id" et "oym" ne doivent être affectées à aucun tag.

La figure ci-dessous illustre le processus d'attribution des tags aux colonnes du jeu de données en utilisant les Outils d'étiquetage de colonnes.

Sélectionnez le jeu de données (homr_any_visit_10pct.csv).
Créez les trois tags requis : adm, demo, et dx en saisissant leurs noms les uns après les autres et en appuyant sur Entrée.
Copiez-collez les noms de colonnes correspondant à chaque tableau à partir du tableau ci‑dessus.
Choisissez le tag approprié à appliquer.
Cliquez Appliquer les tags pour valider la configuration.

La troisième étape présente deux manières alternatives d'attribuer les colonnes à leurs tags correspondants.

Cela peut être fait soit en :

Collant les noms de colonnes manuellement, ou
En sélectionnant les colonnes directement à partir du jeu de données affiché.

Dans cet exemple, les variables age_original et gender sont attribuées au demo tag.

Vous pouvez visualiser les tags au sein du jeu de données dans l' éditeur éditeur.

Si le jeu de données est déjà ouvert dans l'éditeur MEDomics, veuillez le fermer et le rouvrir pour mettre à jour la vue et vous assurer que les tags nouvellement attribués sont correctement affichés.

Création de l'ensemble de réserve

Après avoir créé nos tags, l'étape finale consiste à diviser nos données en un ensemble d'apprentissage et un ensemble de réserve.

Pour cette tâche, nous utiliserons le Outils de création d'ensemble de réserve. Pour accéder à ce outil, sélectionnez Échantillonnage sous la rubrique Nettoyage des données dans la section Module d'entrée.

Après avoir sélectionné le jeu de données (homr_any_visit_10pct.csv):

Activez Mélanger et Stratifier.
Sélectionnez oym comme colonne cible.
Définissez le pourcentage de séparation sur 20%.
Choisissez "supprimer" comme méthode de nettoyage des cellules vides.
Activez le Conserver les tags interrupteur.
Cliquez sur l'icône Enregistrer pour créer les ensembles d'Apprentissage et de Réserve.

Ces étapes sont illustrées dans la figure ci-dessous.

Cela créera deux nouveaux jeux de données CSV : Holdout_homr_any_visit_10pct.csv et Learning_homr_any_visit_10pct.csv.

Avec la création des ensembles de Réserve et d'Apprentissage, nous concluons nos étapes du Module d'entrée, et nous pouvons désormais commencer la phase d'apprentissage automatique.

Cette étape garantit que le jeu de données est correctement préparé pour la démo et prêt à être utilisé dans un flux de travail complet de bout en bout au sein de éditeur, y compris les modules d'Apprentissage, Évaluation et Application . Dans la section suivante, nous utiliserons le homr_any_visit_10pct.csv jeu de données (avec les tags appliqués préservés, bien sûr !) pour exécuter des expériences d'apprentissage automatique et reproduire l'étude POYM.

Ceci conclut notre Module d'entrée section. Maintenant nos données sont prêtes pour l'entraînement du modèle !

PrécédentÉditeur de code et terminal MEDomics SuivantModule d’apprentissage

Mis à jour il y a 1 mois

hashtagSuppression de colonne

hashtagÉtiquetage de colonnes

hashtagCréation de l'ensemble de réserve

Suppression de colonne

Étiquetage de colonnes

Création de l'ensemble de réserve