# Module d’entrée

Le [Module d'entrée](https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/input-module) fournit plusieurs outils clés de traitement des données nécessaires pour accomplir diverses tâches au sein de la plateforme MEDomics. Dans cette preuve de concept, nous utiliserons deux outils du Module d'entrée : le *Outils d'étiquetage de colonnes* et le *Outils de création d'ensemble de réserve*. Nous utiliserons également l'éditeur MEDomics pour supprimer une colonne.

{% hint style="success" %}
L'éditeur MEDomics fait référence à l'espace de travail dédié au sein de notre plateforme où les utilisateurs peuvent visualiser les jeux de données, suivre et revoir les transformations appliquées, et éditer les données de manière interactive.
{% endhint %}

#### Suppression de colonne&#x20;

Avant de passer au Module d'entrée, nous devons supprimer une colonne de notre fichier de jeu de données nommé "CSO". Cette colonne n'est pas utilisée dans l'étude originale et nous n'avons donc pas besoin de la conserver.&#x20;

Double-cliquez sur le `homr_any_visit_10pct.csv` fichier dans votre espace de travail pour l'ouvrir dans l' *éditeur* MEDomics. Ensuite, cliquez sur la corbeille au-dessus de la colonne "CSO" pour la supprimer.

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2Fz2MWcq20MuK6laghbvIE%2FSupprimerCSO.png?alt=media&#x26;token=9d6ca583-6f2e-4ab4-80c9-5f8169053eab" alt="" width="563"><figcaption><p>Données dans <em>éditeur</em> éditeur</p></figcaption></figure>

#### Étiquetage de colonnes&#x20;

Cet [outil](https://medomicslab.gitbook.io/medomics-docs/tutorials/design/input-module#feature-or-column-tagging-tools) est un composant central de la *éditeur* plateforme, car il permet l'utilisation du *Standard MEDomics* format de données.

Suivez les étapes de la figure ci-dessous pour accéder à l'outil d'étiquetage de colonnes dans le Module d'entrée.

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FCHkqLNRhIxKNUst3J7La%2Fimage%2022.png?alt=media&#x26;token=2c31ccd1-5a95-4ad9-90a6-cc35885f5c99" alt=""><figcaption><p>Étapes vers les outils d'étiquetage de colonnes</p></figcaption></figure>

Dans *éditeur*, un **tag** représente un *groupe de colonnes*. Chaque tag correspond à un sous-ensemble cohérent de caractéristiques partageant un sens ou un rôle commun (par exemple, données administratives, variables démographiques, diagnostics cliniques). La sélection des colonnes pour les tags est définie par l'utilisateur en fonction de la compréhension des données et des connaissances du domaine.

Le *Standard MEDomics* le format est construit sur ce mécanisme d'étiquetage. Plutôt que de se fier à un schéma de jeu de données fixe, *éditeur* permet aux utilisateurs de définir plusieurs vues sémantiques sur le même jeu de données via des tags. Cette conception offre de la flexibilité tout en préservant la cohérence et la traçabilité.

<mark style="color:vert;">**Structure du jeu de données**</mark>

Les prédicteurs de notre jeu de données incluent :

* **Données démographiques** (âge et sexe à la naissance) – 2 variables
* **Caractéristiques d'admission** – 10 variables
* **Diagnostics de comorbidité** – 85 variables binaires
* **Diagnostics d'admission** – 147 variables binaires

Cela donne un total de **244 prédicteurs**.

<mark style="color:vert;">**Ensembles de prédicteurs dans l'étude POYM**</mark>

L'étude POYM définit deux ensembles de prédicteurs pour l'entraînement et l'évaluation des modèles :

* <mark style="color:$primary;">**Adm**</mark><mark style="color:jaune;">**Demo**</mark> → <mark style="color:$primary;">**Adm**</mark> (Caractéristiques d'admission) + <mark style="color:jaune;">**Demo**</mark> (Données démographiques)
* <mark style="color:$primary;">**Adm**</mark><mark style="color:jaune;">**Demo**</mark><mark style="color:$danger;">**Dx**</mark> → <mark style="color:$primary;">**Adm**</mark> (Caractéristiques d'admission) + <mark style="color:jaune;">**Demo**</mark> (Données démographiques) + <mark style="color:$danger;">**Dx**</mark> (Diagnostics de comorbidité + Diagnostics d'admission)

Pour cette preuve de concept, nous représentons ces ensembles de prédicteurs en utilisant trois tags :

* <mark style="color:$primary;">**Adm**</mark> → Caractéristiques d'admission (10 variables)
* <mark style="color:jaune;">**Demo**</mark> → Données démographiques (2 variables : age\_original, gender)
* <mark style="color:$danger;">**Dx**</mark> → Diagnostics de comorbidité (85) + Diagnostics d'admission (147)

Pour attribuer des tags aux variables :

1. Ouvrez le Module d'entrée depuis le panneau de navigation de gauche.
2. Sous Organisation des données, sélectionnez Structuration & Étiquetage.
3. Cliquez sur Outils d'étiquetage de colonnes.

Cet outil vous permet d'attribuer le tag approprié (`adm`, `demo`, ou `dx`) à chaque variable conformément à la définition de l'étude.

<mark style="color:vert;">**Mappage des variables par tag**</mark>

<table><thead><tr><th>Tag</th><th>Description</th><th>Nombre de variables</th></tr></thead><tbody><tr><td><mark style="color:$primary;"><strong>Adm</strong></mark></td><td><p>Caractéristiques d'admission : </p><p></p><ul><li><code>ed_visit_count</code></li><li><code>ho_ambulance_count</code></li><li><code>total_duration</code></li><li><code>flu_season</code></li><li><code>living_status</code></li><li><code>admission_group</code></li><li><code>is_ambulance</code></li><li><code>is_icu_start_ho</code></li><li><code>is_urg_readm</code></li><li><code>service_group</code></li></ul><p><em><mark style="color:orange;">Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :</mark></em></p><pre><code>ed_visit_count, ho_ambulance_count, total_duration, flu_season, living_status, admission_group, is_ambulance, is_icu_start_ho, is_urg_readm, service_group
</code></pre></td><td>10</td></tr><tr><td><mark style="color:jaune;"><strong>Demo</strong></mark></td><td><p>Données démographiques : </p><p></p><ul><li><code>age_original</code></li><li><code>gender</code></li></ul><p><em><mark style="color:orange;">Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :</mark></em></p><pre><code>age_original, gender
</code></pre></td><td>2</td></tr><tr><td><mark style="color:$danger;"><strong>Dx</strong></mark></td><td><p>Diagnostics de comorbidité + Diagnostics d'admission (le reste des colonnes)<br><em><mark style="color:orange;">Copiez-collez simplement la ligne de code suivante dans l'outil d'étiquetage :</mark></em></p><pre><code>dx_pneumo_adm,dx_obstructive,dx_asthma,dx_bronchiectasis,dx_chronic_resp_failure,dx_acute_resp_failure,dx_ild,dx_home_o2,dx_pseudomonas,dx_pulmonary_hypertension,dx_obesity_hypoventilation,dx_pneumonia_adm,dx_recent_pneumonia,dx_liver_1,dx_liver_2,dx_liver_rf,dx_ascites,dx_anasarca,dx_alcohol,dx_ibd_crohn,dx_recent_abdominal_pain,dx_recent_intestinal_occlusion,dx_recent_gi_bleed,dx_recent_colitis,dx_recent_perforation,dx_renal_1,dx_renal_2,dx_dialysis,dx_recent_interstitial_nephritis,dx_recent_uti,dx_dementia,dx_frailty,dx_denutrition,dx_falls,dx_cachexia,dx_paralysis,dx_cvd,dx_psych,dx_depression,dx_endo_1,dx_endo_2,dx_mi_recent,dx_mi_past,dx_angina_recent,dx_chf,dx_chf_adm,dx_cad,dx_valve,dx_aortic_stenosis,dx_a_fib,dx_recent_chest_pain,dx_pvd,dx_recent_hip_fracture,dx_recent_back_pain,dx_anticoagulation,dx_anemia,dx_recent_anemia,dx_past_pe,dx_recent_pe,dx_orl_cancer,dx_gi_cancer_1,dx_gi_cancer_2,dx_gi_cancer_3,dx_chest_cancer_1,dx_chest_cancer_2,dx_msk_cancer,dx_skin_cancer,dx_breast_cancer,dx_gu_cancer_1,dx_gu_cancer_2,dx_gu_cancer_3,dx_cns_cancer,dx_endocrine_cancer,dx_heme_cancer_1,dx_heme_cancer_2,dx_heme_cancer_3,dx_metastatic_solid_cancer,dx_cancer_ed,dx_chemo_cancer_1,dx_chemo_cancer_2,dx_palliative,dx_transplant,dx_recent_complication,dx_obstetrics,has_dx,adm_abcess,adm_abdominal_pain,adm_acute_leukemia,adm_alcohol,adm_tonsillitis,adm_anemia,adm_aneurism,adm_angina,adm_aortic_aneurism,adm_appendicitis,adm_ards,adm_arrhythmia,adm_arthropathy,adm_ascites,adm_aspiration_pneumonia,adm_asthma,adm_atrial_fibrillation,adm_bariatric,adm_benign_tumor,adm_bi_pan_cytopenia,adm_biliary_colic,adm_bladder_cancer,adm_brain_cancer,adm_brain_hemorrhage,adm_brain_injury,adm_brain_lesion,adm_breast_cancer,adm_bronchiectasis,adm_bronchitis,adm_c_difficile,adm_cancer,adm_carotid_stenosis,adm_cellulitis,adm_chemotherapy,adm_chest_pain,adm_cholangitis,adm_cholecystitis,adm_choledocholithiasis,adm_chronic_leukemia,adm_cirrhosis,adm_colorectal_cancer,adm_colitis,adm_conduction_abnormality,adm_copd,adm_delirium,adm_dementia,adm_diabetes,adm_dialysis,adm_diarrhea,adm_disk_disorder,adm_diverticular_disease,adm_dvt,adm_dysphagia,adm_dyspnea,adm_ear_disorder,adm_electrolytes,adm_endocarditis,adm_eol_care,adm_eps,adm_eye,adm_falls,adm_febrile_neutropenia,adm_fertility,adm_fracture,adm_gastric_cancer,adm_gastritis,adm_enteritis,adm_gi_bleed,adm_guillain_barre,adm_gyn_disorder,adm_heart_failure,adm_hemoptysis,adm_hepatic_failure,adm_hepatitis,adm_hip_fracture,adm_hypertension,adm_infection,adm_inguinal_hernia,adm_intestinal_ischemia,adm_intestinal_polyp,adm_intoxication,adm_joint_prosthesis,adm_liver_cancer,adm_loss_of_autonomy,adm_lower_leg_fracture,adm_lumbar_pelvis_fracture,adm_lung_cancer,adm_lung_mass,adm_lymphoma,adm_melanoma,adm_meningitis,adm_metastasis,adm_mi,adm_mii,adm_multiple_myeloma,adm_oesophageal_cancer,adm_oesophageal_varices,adm_orl_cancer,adm_osteomyelitis,adm_osteoporosis,adm_other_hernia,adm_pancreatic_cancer,adm_pancreatic_mass,adm_pancreatitis,adm_parkinsons,adm_perforation,adm_pericardial_effusion,adm_pericarditis,adm_pleural_effusion,adm_pneumonia,adm_pneumothorax,adm_pregnancy,adm_prolapsus,adm_prostate_cancer,adm_pulmonary_fibrosis,adm_pulmonary_hypertension,adm_pvd,adm_pvd_gangrene,adm_pvd_insufficiency,adm_pvd_ischemia,adm_reanimation,adm_renal_failure,adm_respiratory_failure,adm_seizures,adm_sepsis,adm_severe,adm_shock,adm_spondylopathy,adm_stroke,adm_subarachnoid_hemorrhage,adm_syncope_hypotension,adm_tachycardia,adm_tamponnade,adm_thyroid_cancer,adm_tia,adm_trauma,adm_trigeminal_neuralgia,adm_tumor,adm_urinary_lithiasis,adm_urinary_retention,adm_uro_procedure,adm_uti,adm_valve_prosthesis,adm_valve_regurgitation,adm_valve_stenosis,adm_virus,adm_weight_loss_fatigue
</code></pre></td><td>232</td></tr></tbody></table>

{% hint style="warning" %}
Les colonnes "patient\_id", "visit\_id" et "oym" ne doivent être affectées à aucun tag.&#x20;
{% endhint %}

La figure ci-dessous illustre le processus d'attribution des tags aux colonnes du jeu de données en utilisant les Outils d'étiquetage de colonnes.

1. Sélectionnez le jeu de données (`homr_any_visit_10pct.csv`).
2. Créez les trois tags requis : `adm`, `demo`, et `dx` en saisissant leurs noms les uns après les autres et en appuyant sur Entrée.
3. Copiez-collez les noms de colonnes correspondant à chaque tableau à partir du tableau ci‑dessus.
4. Choisissez le tag approprié à appliquer.
5. Cliquez **Appliquer les tags** pour valider la configuration.

{% hint style="info" %}
La troisième étape présente deux manières alternatives d'attribuer les colonnes à leurs tags correspondants.

Cela peut être fait soit en :

* Collant les noms de colonnes manuellement, ou
* En sélectionnant les colonnes directement à partir du jeu de données affiché.
  {% endhint %}

Dans cet exemple, les variables `age_original` et `gender` sont attribuées au `demo` tag.

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2F7yqrgZAoNi4f1hGGnm8M%2Fimage%2030.png?alt=media&#x26;token=a53ffe6f-0bdb-478d-978f-73ea987f611c" alt=""><figcaption><p>Créez les tags "adm", "demo" et "dx"</p></figcaption></figure>

Vous pouvez visualiser les tags au sein du jeu de données dans l' *éditeur* éditeur.

{% hint style="warning" %}
Si le jeu de données est déjà ouvert dans l'éditeur MEDomics, veuillez le fermer et le rouvrir pour mettre à jour la vue et vous assurer que les tags nouvellement attribués sont correctement affichés.
{% endhint %}

#### Création de l'ensemble de réserve

Après avoir créé nos tags, l'étape finale consiste à diviser nos données en un ensemble d'apprentissage et un ensemble de réserve.&#x20;

Pour cette tâche, nous utiliserons le *Outils de création d'ensemble de réserve*. Pour accéder à ce [outil](https://medomicslab.gitbook.io/medomics-docs/tutorials/design/input-module#holdout-set-creation-tool), sélectionnez *Échantillonnage* sous la rubrique *Nettoyage des données* dans la section *Module d'entrée*.&#x20;

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FhxBj54BwaeMZ6uccTERe%2Fimage%2024.png?alt=media&#x26;token=6cc655ec-263a-4e6a-b930-e818d0d6b96e" alt="" width="188"><figcaption><p>Échantillonnage dans la section Nettoyage des données</p></figcaption></figure>

Après avoir sélectionné le jeu de données (`homr_any_visit_10pct.csv`):

1. Activez **Mélanger** et **Stratifier**.
2. Sélectionnez **`oym`** comme colonne cible.
3. Définissez le pourcentage de séparation sur **20%**.
4. Choisissez **"supprimer"** comme méthode de nettoyage des cellules vides.
5. Activez le **Conserver les tags** interrupteur.
6. Cliquez sur l'icône **Enregistrer** pour créer les ensembles d'Apprentissage et de Réserve.

Ces étapes sont illustrées dans la figure ci-dessous.

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FPKEnFxkPL9UE3XLfv00Q%2Fimage%2025.png?alt=media&#x26;token=e59b91fd-f10b-401e-90c5-58d4a4afe8b2" alt="" width="563"><figcaption><p>Créer des ensembles d'Apprentissage et de Réserve à partir de notre jeu de données</p></figcaption></figure>

{% hint style="success" %}
Cela créera deux nouveaux jeux de données CSV : `Holdout_homr_any_visit_10pct.csv` et `Learning_homr_any_visit_10pct.csv`.&#x20;
{% endhint %}

Avec la création des ensembles de Réserve et d'Apprentissage, nous concluons nos étapes du Module d'entrée, et nous pouvons désormais commencer la phase d'apprentissage automatique.

> Cette étape garantit que le jeu de données est correctement préparé pour la démo et prêt à être utilisé dans un flux de travail complet de bout en bout au sein de *éditeur*, y compris les **modules d'Apprentissage**, **Évaluation** et **Application** . Dans la section suivante, nous utiliserons le `homr_any_visit_10pct.csv` jeu de données (avec les tags appliqués préservés, bien sûr !) pour exécuter des expériences d'apprentissage automatique et reproduire l'étude POYM.&#x20;

Ceci conclut notre *Module d'entrée* section. Maintenant nos données sont prêtes pour l'entraînement du modèle !
