> For the complete documentation index, see [llms.txt](https://medomicslab.gitbook.io/medomics-docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/extraction-modules/text-extraction-page.md).

# Page d’extraction de texte

{% hint style="warning" %}
Le module d'extraction de texte est actuellement désactivé car il n'a pas passé tous les contrôles de stabilité.
{% endhint %}

Lorsque vous cliquez sur l'icône d'extraction de texte, vous devriez voir cette page :

<figure><img src="/files/09b0850e4bc56335da70356b220427bf14f53809" alt=""><figcaption><p>Page d'extraction de texte</p></figcaption></figure>

## 1. Sélectionner les données CSV

La première étape de cette page consiste à sélectionner votre entrée, qui est un fichier CSV devant contenir au moins une colonne avec des identifiants de patients, une colonne avec des dates et une colonne avec des notes textuelles.

## 2. Données sélectionnées

Une fois que vous avez sélectionné vos données, elles seront affichées dans la section « Données sélectionnées ».&#x20;

## 3. Sélectionner un type d'extraction

{% hint style="info" %}
Pour l'instant, seul le type d'extraction BioBERT est disponible.
{% endhint %}

### 3.1. BioBERT

Ce type d'extraction utilise le modèle BioBERT pré-entraîné, qui est un modèle de représentation linguistique biomédical conçu pour l'extraction d'information à partir de textes biomédicaux : <https://arxiv.org/abs/1901.08746>.

{% hint style="warning" %}
Avant de procéder à l'extraction, vous devez télécharger les poids BioBERT pré-entraînés dans le dossier DATA de votre espace de travail. Les poids peuvent être obtenus à partir du lien suivant : <https://github.com/EmilyAlsentzer/clinicalBERT>. Assurez-vous d'ajouter le dossier 'pretrained\_bert\_tf' sous DATA, et ce dossier doit contenir, au minimum, un sous-dossier nommé 'biobert\_pretrain\_output\_all\_notes\_150000.' De plus, veillez à ce que le fichier json dans ce sous-dossier s'appelle 'config.json.' Si un avertissement apparaît sur la page, cela indique que les poids pré-entraînés n'ont pas été trouvés dans votre dossier DATA. Essayez de recharger la page après les avoir ajoutés.
{% endhint %}

#### 3.1.1. Calculer les caractéristiques par

Vous avez plusieurs options d'extraction :

* L'option par défaut est '**Notes**': vous obtiendrez un vecteur d'intégration (embedding) par note textuelle.
* Si vous choisissez l'option '**Patient**': vous obtiendrez un vecteur d'intégration par patient, calculé comme la moyenne de tous les embeddings générés pour toutes les notes textuelles associées à ce patient.
* Si vous choisissez l'option '**Admission**': vous obtiendrez un vecteur d'intégration par admission du patient, calculé comme la moyenne de tous les embeddings générés pour toutes les notes textuelles associées à cette admission.
* Si vous choisissez l'option '**Plage horaire**': vous obtiendrez un vecteur d'intégration pour chaque plage horaire sélectionnée par patient, calculé comme la moyenne de tous les embeddings générés pour toutes les notes textuelles situées dans la plage horaire spécifiée.

<figure><img src="/files/cd2cd44e0734fdb12812afec4d07ad3f684a0c95" alt=""><figcaption><p>Options d'extraction BioBERT</p></figcaption></figure>

Quel que soit le choix sélectionné, il existe un bouton bascule indiquant si vous souhaitez que vos embeddings générés soient compatibles avec la table maître. Activer cette option générera des embeddings pouvant être utilisés dans le processus MEDprofiles du module d'entrée. Les tables générées pour le processus MEDprofiles peuvent contenir moins d'informations que les tables d'origine. Le bouton bascule est désactivé si les deux formats (compatible table maître ou non) sont exactement les mêmes pour l'option sélectionnée.

#### 3.1.2. Sélectionner les colonnes correspondant à

En fonction des options choisies précédemment, vous devez sélectionner les colonnes du jeu de données correspondant aux informations nécessaires à la génération des caractéristiques. La sélection des colonnes pour chaque information requise sera filtrée par types (par exemple, si l'information requise est le temps, seules les colonnes de votre tableau de données contenant des types date-heure seront affichées).

<figure><img src="/files/ed03f3a79a3be9993be0cefbc104db4c3b11c9fc" alt=""><figcaption><p>Sélection des colonnes pour la génération d'embeddings par notes</p></figcaption></figure>

#### 3.1.3. Préfixe du nom de colonne

Vous pouvez choisir un préfixe à attribuer aux noms des colonnes d'embeddings générées. Cela est utile pour entrer dans le processus MEDprofiles dans le module d'entrée, en particulier pour créer des MEDclasses qui dépendent de ce nom de colonne préfixé. Le préfixe doit être composé uniquement de lettres et/ou de chiffres et ne peut pas être vide. Le préfixe par défaut est 'notes'.

<figure><img src="/files/0ac1cc78f511b79ef480aadadfef20cf809ece00" alt=""><figcaption><p>Préfixe du nom de colonne</p></figcaption></figure>

## 4. Extraire les caractéristiques

Une fois toutes les étapes précédentes terminées, vous pouvez procéder à l'extraction des caractéristiques. Si un avertissement apparaît indiquant « Vous devez sélectionner des options appropriées pour la génération de caractéristiques », et que le bouton « Extraire les données » est désactivé, veuillez vérifier si vous avez fourni toutes les informations requises dans la section « Sélectionner un type d'extraction ».

Dans cette section, vous pouvez spécifier le nom de fichier sous lequel vous souhaitez enregistrer vos embeddings générés. Le nom de fichier doit être suivi de l'extension .csv, composé uniquement de lettres, de chiffres et/ou du caractère '\_', et ne peut pas être vide. Le nom de fichier par défaut est 'text\_extracted\_features.csv.' Le fichier sera enregistré sous DATA/extracted\_features.

Enfin, vous pouvez lancer le processus d'extraction en cliquant sur le bouton « Extraire les données ». Cela peut prendre quelques minutes, et la progression sera affichée dans cette section et dans l'onglet de sortie.

<figure><img src="/files/3932300820960433c04ca7f04f48dbb7ecd3623d" alt=""><figcaption><p>Extraire les caractéristiques</p></figcaption></figure>

## 5. Données extraites

Une fois le processus d'extraction terminé (ce qui peut prendre quelques minutes, mais vous pouvez suivre la progression dans l'onglet de sortie), un message apparaîtra en bas de la page indiquant où les caractéristiques ont été enregistrées. Vous pouvez examiner vos résultats dans la section « Données extraites » en activant l'interrupteur. Alternativement, vous pouvez ouvrir votre fichier CSV généré dans votre espace de travail.

<figure><img src="/files/da4b83a416280ad6ce74cb843f5af4941d6361b5" alt=""><figcaption><p>Section Données extraites pendant que des caractéristiques ont été générées</p></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://medomicslab.gitbook.io/medomics-docs/v1-fr/tutorials/design/extraction-modules/text-extraction-page.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.