# Module d’entrée

Le [Module d’entrée](https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/input-module) fournit plusieurs outils clés de traitement des données nécessaires pour accomplir diverses tâches au sein de la plateforme MEDomics. Dans cette preuve de concept (PoC), nous l’utiliserons pour deux tâches principales : la suppression des variables associées et la création d’un ensemble de validation (holdout).

#### Suppression de colonnes

Comme nous l’avons vu à l’étape précédente, plusieurs variables de nos données sont fortement associées et doivent être supprimées. Pour ce faire, nous utiliserons les *Outils de suppression de colonnes,* qui permettent de supprimer plusieurs colonnes à la fois. Tout d’abord, ouvrez le Module d’entrée, sélectionnez votre fichier CSV cible (`PARIS_ML.csv`), puis faites défiler jusqu’à l’outil de suppression de colonnes. Ensuite, sélectionnez les colonnes suivantes à supprimer :

* ActivitiesPain7
* DiscussionHealthcareProfessionals
* RentMortgage12
* HealthcareInvolvement
* HealthcareConsideration
* ComplexityHealthIssues

Une fois sélectionnées, choisissez un nouveau nom pour l’ensemble final, puis cliquez sur Créer un nouveau jeu de données. Toutes ces étapes sont présentées dans la figure ci-dessous :

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FrBqgueIpMJ9Bn0vWsEJM%2FDropColumnsAssociated.png?alt=media&#x26;token=8e01f433-59c3-4cc1-868b-951883dea121" alt=""><figcaption><p>Fig. 20 - Comment supprimer des colonnes du CSV PARIS</p></figcaption></figure>

#### Création de l’ensemble de validation (holdout)

Après avoir nettoyé notre ensemble de données, l’étape finale consiste à le diviser en un ensemble d’apprentissage et un ensemble de validation (holdout). Pour cette tâche, nous utiliserons les *Outils de création d’ensemble de validation (holdout)*. Après avoir sélectionné notre CSV final (`PARIS_FINAL.csv`), conservez le pourcentage de division à 20 %, choisissez « drop » comme méthode de nettoyage des cellules vides (n’hésitez pas à tester d’autres options) et `PARIS_ML` comme nouveau nom de CSV. Cliquez ensuite sur l’icône plus. Cela créera deux nouveaux jeux de données CSV : `Holdout_PARIS_ML.csv` et `Learning_PARIS_ML.csv`. Ces étapes sont illustrées dans la figure ci-dessous :

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FKs2diFTVVkGT6KBsShwU%2FCreateHoldoutSet.png?alt=media&#x26;token=6065d32f-01bb-454b-9611-a744886f6f6f" alt=""><figcaption><p>Fig. 21 - Créer un ensemble de validation pour notre ensemble final PARIS</p></figcaption></figure>

Avec la création des ensembles de validation et d’apprentissage, nous concluons notre étape du Module d’entrée, et nous pouvons maintenant commencer la phase d’apprentissage automatique.

#### *Supplément : autres cas d’utilisation*

Un autre outil clé que vous devriez essayer avant l’étape d’apprentissage automatique est l’outil de création de sous-ensemble. Cet outil peut être utilisé pour créer de nouvelles données ou écraser des données existantes en fonction de différentes conditions. Par exemple, il peut servir à supprimer les lignes où la variable cible de l’apprentissage automatique est nulle ou indéfinie.

<figure><img src="https://2361277526-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FUO0RN9PzFLqAgLEwwaSn%2Fuploads%2FapaEQpAtakgf6eOKSc0M%2FRemoveNaNInputModule.png?alt=media&#x26;token=60502727-814a-499f-ad5c-f2cddcac5b8f" alt=""><figcaption><p>Fig. 22 - Comment supprimer les valeurs cibles NaN de l’ensemble PARIS.</p></figcaption></figure>

Après cela, vous pouvez écraser l’ensemble de données actuel ou en créer un nouveau filtré sous un nouveau nom.

Cela conclut la troisième étape de cette PoC. Maintenant, nos données sont prêtes à aborder le problème de prédiction par apprentissage automatique !
