# Module d’entrée

{% embed url="<https://youtu.be/tj3qsXLnudk>" %}
Tutoriel vidéo du module d’entrée
{% endembed %}

{% hint style="warning" %}
Nous travaillons en permanence à l’amélioration de la plateforme MEDomics, et nous souhaitons vous informer des améliorations sur lesquelles nous travaillons actuellement (c.-à-d. non encore implémentées) :

* **Définition des cellules vides :** Bien que nous parlions souvent des cellules vides comme des valeurs NaN (Not A Number), il est important de noter que vide ne signifie pas nécessairement NaN.
* **Affichage dans l’outil de Nettoyage Simple :** Dans le *outil de Nettoyage Simple*, nous affichons actuellement les pourcentages de valeurs non NaN. Cependant, nous reconnaissons que cela peut prêter à confusion, et nous prévoyons d’améliorer cela en affichant plutôt le pourcentage de valeurs NaN.
* **Nettoyage des colonnes et des lignes dans l’outil de Nettoyage Simple :** Lors du nettoyage simultané des colonnes et des lignes dans le *outil de Nettoyage Simple*, le nettoyage est actuellement effectué de manière indépendante (par opposition à séquentielle où la sortie d’un processus influence l’autre), et toutes les colonnes et lignes affichées en rouge sont supprimées. Nous travaillons à l’amélioration de cet outil. De plus, veuillez noter que des méthodes d’imputation sont disponibles dans le [*Module d’apprentissage*](/medomics-docs/v1-fr/tutorials/development/learning-module.md).
* **Outil de création d’ensemble de validation (Holdout) :** Dans le *outil de création d’ensemble de validation (Holdout)*, la méthode NaN est appliquée uniquement aux lignes qui contiennent des valeurs NaN **dans les colonnes sélectionnées comme moyen de « Stratifier »**. Nous prévoyons d’améliorer la méthode de traitement des NaN en introduisant des options telles que remplissage par la moyenne, remplissage par la médiane et remplissage par le mode.
* **Outil de réduction des caractéristiques :** Le *outil de réduction des caractéristiques* dispose actuellement uniquement d’utilitaires de base. Nous nous engageons à l’améliorer, par exemple en permettant de transférer les transformations PCA (Analyse en Composantes Principales) via le [*Module d’évaluation*](/medomics-docs/v1-fr/tutorials/development/evaluation-module.md).

Nous apprécions votre compréhension pendant que nous travaillons à rendre la plateforme MEDomics encore plus efficace et conviviale.
{% endhint %}

**Contenu**&#x20;

* Introduction [00:00](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=0s)&#x20;
* Outil de fusion [00:23](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=23s)&#x20;
* Outil de regroupement/étiquetage [04:06](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=246s)
* outil de Nettoyage Simple [08:07](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=487s)&#x20;
* outil de création d’ensemble de validation (Holdout) [11:15](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=675s)
* Outil de création de sous-ensemble [13:43](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=823s)
* outil de réduction des caractéristiques [17:30](https://www.youtube.com/watch?v=tj3qsXLnudk\&t=1050s)

### Dernière version

Dans la dernière version, l’interface du module d’entrée a implémenté de nouveaux outils et mis à jour les existants. Une image de la nouvelle interface est montrée ci-dessous. Une fois que l’utilisateur sélectionne un jeu de données, la liste des outils d’entrée s’affiche, et comme vous pouvez le voir, deux nouveaux outils ont été ajoutés : ***Catégorique vers Numérique*** outil et ***Suppression des doublons*** outil. Le ***outil de regroupement des lignes*** a ajouté une nouvelle fonctionnalité pour étiqueter les lignes (similaire à l’étiquetage des colonnes), ainsi, vous pouvez désormais marquer les lignes pertinentes pour les distinguer des autres. Plus de détails se trouvent dans la section suivante.

<figure><img src="/files/296b3e463a34c879785f2b69b56e200733ba9763" alt=""><figcaption><p>les outils d’entrée de la plateforme MEDomics</p></figcaption></figure>

<details>

<summary>Outils de base</summary>

Les outils de base vous permettent d’ajouter des lignes et des colonnes à un jeu de données, et d’exporter le jeu de données en CSV ou en JSON. La figure suivante illustre toutes les fonctionnalités du *Outils de base*.

<img src="/files/eb8250af602c9d9e47d22278e5cd981dffe61207" alt="" data-size="original">

</details>

<details>

<summary>Convertir une colonne catégorielle en numérique</summary>

Cet outil identifie les colonnes catégorielles dans le jeu de données sélectionné et les convertit en valeurs numériques en utilisant l’encodage One-Hot. La figure suivante montre toutes les fonctionnalités de l’outil.

<img src="/files/fa2180378ec6836d0e6ad48d604eaf2d9a5dc261" alt="" data-size="original">

</details>

<details>

<summary>Outils de suppression des doublons</summary>

Cet outil identifie les colonnes dupliquées dans votre jeu de données et vous permet de les supprimer. Plus de détails dans la figure suivante :

<img src="/files/70d8673c2cc1266d1a6a5d51e5b9578437fba29e" alt="" data-size="original">

</details>

<details>

<summary>Outil de transformation des colonnes</summary>

L’outil de transformation des colonnes vous permet de modifier des colonnes dans un jeu de données, soit en convertissant des colonnes sélectionnées en binaires soit en remplaçant les cellules manquantes par des zéros. Voici comment utiliser cet outil :

1. Sélectionnez le jeu de données à partir duquel vous souhaitez transformer des colonnes dans la section « Sélectionnez le jeu de données ». Votre jeu de données sera affiché dans un tableau au sein du composant Accordéon.
2. Dans la section « Sélectionnez les colonnes à conserver », choisissez les colonnes que vous souhaitez transformer dans votre jeu de données.
3. Choisissez le type de transformation dont vous avez besoin dans la section « Choisissez le type de transformation » :
   * Binaire : les cellules vides deviennent des zéros, et les cellules non vides deviennent des uns.
   * NaN vers 0 : les cellules vides deviennent des zéros, et les autres restent identiques.
4. Fournissez un nom pour enregistrer le nouveau jeu de données. Le nom par défaut est le nom du jeu de données sélectionné suivi du suffixe « \_modified ».
5. Cliquez sur le bouton « Créer un sous-ensemble avec les colonnes transformées ».

Votre nouveau jeu de données sera enregistré au même emplacement que votre jeu de données sélectionné. La figure suivante illustre toutes les fonctionnalités de l’outil.

<img src="/files/e2514ac6844554c74243d807429c62666c8681f4" alt="" data-size="original">

</details>

<details>

<summary>Outil de fusion</summary>

Le *Outil de fusion* fonctionne comme une représentation visuelle de la fonction merge de la bibliothèque *pandas* Python (<https://pandas.pydata.org/docs/reference/api/pandas.merge.html>). Suivez ces étapes pour fusionner des jeux de données :

1. Sélectionnez les deux jeux de données que vous souhaitez fusionner dans la liste des jeux de données.
2. Sélectionnez les colonnes sur lesquelles vous souhaitez effectuer la fusion.
3. Sélectionnez le type de fusion. Pour des informations supplémentaires sur les types de fusion, consultez la [*pandas* documentation](https://pandas.pydata.org/docs/reference/api/pandas.merge.html).
4. Cliquez sur le bouton « Fusionner ».

Par défaut, le jeu de données fusionné sera nommé « Dataset1Name\_Dataset2Name\_mergedType ». La figure suivante résume les étapes susmentionnées :

<img src="/files/ca3e4ff7db60e0d46b59f8d6e930178879701a85" alt="" data-size="original">

</details>

<details>

<summary>outil de Nettoyage Simple</summary>

L’outil de Nettoyage Simple aide à supprimer les valeurs NaN des jeux de données, soit par lignes soit par colonnes. Suivez ces étapes pour nettoyer un jeu de données :

1. Sélectionnez un jeu de données dans la liste des jeux de données, affichant des informations sur les valeurs NaN dans votre jeu de données.
   1. Le premier tableau associe les colonnes de votre jeu de données au nombre et au pourcentage de valeurs non NaN. Vous pouvez trier ce dataframe par nom de colonne ou par nombre/pourcentage de valeurs non NaN.
   2. Le deuxième tableau associe les lignes de votre jeu de données au nombre et au pourcentage de valeurs non NaN. Vous pouvez trier ce dataframe par indice de ligne ou par nombre/pourcentage de valeurs non NaN.
2. Selon vos préférences de nettoyage, sélectionnez un pourcentage de valeurs NaN à prendre en compte pour supprimer des colonnes et/ou des lignes en utilisant les sélecteurs correspondants. Cela affichera quelles colonnes/lignes seront affectées et mettra à jour ces données dans les deux tableaux en montrant le nombre de colonnes/lignes à supprimer en tête de la colonne « % de non-NaN » et en mettant en surbrillance les lignes concernées en rouge.
3. Choisissez de supprimer (option par défaut) ou de remplir les valeurs manquantes en utilisant les méthodes de remplissage disponibles (moyenne, médiane, etc.).
4. Choisissez un nom pour votre nouveau jeu de données et cliquez sur le bouton « Plus ».&#x20;

Votre jeu de données résultant sera enregistré dans le même répertoire que votre jeu de données sélectionné. La figure suivante présente ces étapes :

<img src="/files/3af05b41e0d7be3c5f38e2e036b3a7a91f1fb06a" alt="" data-size="original">

</details>

<details>

<summary>outil de création d’ensemble de validation (Holdout) </summary>

L’outil de création d’ensemble de validation (Holdout) sert de représentation visuelle de la fonction *scikit-learn* du package Python [*model\_selection train\_test\_split* fonction](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html). Suivez ces étapes pour créer un ensemble de validation :

1. Choisissez le jeu de données pour lequel vous souhaitez créer l’ensemble de validation dans la liste affichée.
2. Si l’option Mélanger (Shuffle) est sélectionnée, les lignes seront mélangées avant la séparation.
3. Si Stratify est sélectionné, vous pouvez également choisir de stratifier l’ensemble de validation en fonction des colonnes sélectionnées. Reportez-vous au [documentation ](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)pour des informations supplémentaires.
4. Sélectionnez la taille de votre ensemble de validation en pourcentage de la taille du jeu de données choisi.
5. Choisissez comment gérer les valeurs NaN dans votre jeu de données sélectionné si nécessaire (supprimer ou remplir).
6. Fournissez un nom pour les nouveaux jeux et cliquez sur le bouton Plus.

La fonction générera deux jeux de données en fonction de vos options sélectionnées : un jeu d’apprentissage et un jeu de validation. Ces jeux de données seront enregistrés dans un dossier portant le nom spécifié, situé dans le même répertoire que votre jeu de données sélectionné.

<img src="/files/ba1af46355be386ed816b13792f904366e9cfa6a" alt="" data-size="original">

</details>

<details>

<summary>Exemple | Outils de regroupement de lignes (outil de création de sous-ensemble)</summary>

L’outil de création de sous-ensembles permet de créer un sous-ensemble de lignes à partir d’un jeu de données en appliquant des filtres aux colonnes. Par exemple, vous pouvez l’utiliser pour supprimer les lignes avec une variable cible nulle. Suivez ces étapes pour créer un sous-ensemble :

1. Sélectionnez un jeu de données dans la liste des jeux de données. Votre jeu de données sera affiché, vous permettant de trier et filtrer chaque colonne.
2. Vous pouvez filtrer votre jeu de données en cliquant sur l’icône de filtre à droite de l’en-tête de chaque colonne. Créez la ou les règle(s) en utilisant les composants affichés pour filtrer les colonnes. Les lignes qui ne satisfont pas les règles seront supprimées du jeu de données affiché, mettant à jour le nombre de lignes affiché sous le jeu de données.
3. Vous pouvez effectuer une recherche globale dans le jeu de données en utilisant le composant de recherche en haut à droite du jeu de données affiché.
4. Vous pouvez effacer vos filtres en appuyant sur le bouton « Effacer » en haut à gauche du jeu de données affiché.
5. Pour étiqueter les lignes filtrées, vous pouvez cliquer sur la coche sous le compteur des lignes, saisir le nom du groupe (nom de l’étiquette) et appuyer sur « créer un groupe ». Cela ajoutera une étiquette aux lignes filtrées.
6. Choisissez un nom pour votre nouveau jeu de données et cliquez sur le bouton Plus. Vous pouvez également cliquer sur « Écraser » pour remplacer l’ensemble original par les données filtrées.&#x20;

Votre jeu de données résultant sera enregistré dans le même répertoire que votre jeu de données sélectionné. La figure suivante illustre toutes les étapes décrites ci-dessus :

<img src="/files/e32285f4128622eaf92f4de1debc2d6d6b3f2482" alt="" data-size="original">

</details>

<details>

<summary>Caractéristique | Outils d’étiquetage des colonnes</summary>

Le *Outil de regroupement/étiquetage* vous permet de créer et d’appliquer des étiquettes aux colonnes du jeu de données. Suivez ces étapes pour définir des étiquettes sur les colonnes du jeu de données :

1. Sélectionnez au moins un jeu de données dans la liste des jeux de données ; vous pouvez choisir plusieurs jeux de données si nécessaire.
2. Créez vos étiquettes : appuyez sur le bouton "+" pour accéder aux étiquettes par défaut ou tapez le nom de votre étiquette et appuyez sur « Entrée » pour l’ajouter.
3. Personnalisez vos étiquettes : vos étiquettes créées sont affichées, et vous pouvez les mettre à jour, les supprimer ou personnaliser leur couleur (texte et arrière-plan).
4. Sélectionnez la ou les colonne(s) sur lesquelles vous souhaitez appliquer/modifier les étiquettes. Les colonnes sont affichées par jeu de données.
5. Une fois la ou les colonne(s) désirée(s) sélectionnée(s), choisissez la ou les étiquette(s) que vous souhaitez appliquer.
6. Après avoir sélectionné les étiquettes, appuyez sur le bouton vert de validation.

Si vous ouvrez votre jeu de données dans l’application, vous pourrez alors voir vos étiquettes. La figure suivante illustre les étapes expliquées ci-dessus :

<img src="/files/4c160a88c8e056934bc8d2f6fbd6ef208cdfc05c" alt="" data-size="original">

</details>

{% content-ref url="/pages/129f139065ccf96a1964db217eeeb23a03823656" %}
[Outil de réduction des caractéristiques](/medomics-docs/v1-fr/tutorials/design/input-module/outil-de-reduction-des-caracteristiques.md)
{% endcontent-ref %}

{% content-ref url="/pages/edbf5fa051f8435338620ffa0ac258e22e34f26c" %}
[MEDprofiles](/medomics-docs/v1-fr/tutorials/design/input-module/medprofiles.md)
{% endcontent-ref %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/input-module.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.