Page d'extraction de texte
La page d'extraction de texte prend un fichier CSV contenant des notes textuelles en entrée et extrait des embeddings à l'aide d'un modèle sélectionné.
Le module d'extraction de texte est actuellement désactivé car il n'a pas passé tous les contrôles de stabilité.
Lorsque vous cliquez sur l'icône d'extraction de texte, vous devriez voir cette page :

1. Sélectionner les données CSV
La première étape de cette page consiste à sélectionner votre entrée, qui est un fichier CSV devant contenir au moins une colonne avec des identifiants de patients, une colonne avec des dates et une colonne avec des notes textuelles.
2. Données sélectionnées
Une fois que vous avez sélectionné vos données, elles seront affichées dans la section « Données sélectionnées ».
3. Sélectionner un type d'extraction
Pour l'instant, seul le type d'extraction BioBERT est disponible.
3.1. BioBERT
Ce type d'extraction utilise le modèle BioBERT pré-entraîné, qui est un modèle de représentation linguistique biomédical conçu pour l'extraction d'information à partir de textes biomédicaux : https://arxiv.org/abs/1901.08746.
Avant de procéder à l'extraction, vous devez télécharger les poids BioBERT pré-entraînés dans le dossier DATA de votre espace de travail. Les poids peuvent être obtenus à partir du lien suivant : https://github.com/EmilyAlsentzer/clinicalBERT. Assurez-vous d'ajouter le dossier 'pretrained_bert_tf' sous DATA, et ce dossier doit contenir, au minimum, un sous-dossier nommé 'biobert_pretrain_output_all_notes_150000.' De plus, veillez à ce que le fichier json dans ce sous-dossier s'appelle 'config.json.' Si un avertissement apparaît sur la page, cela indique que les poids pré-entraînés n'ont pas été trouvés dans votre dossier DATA. Essayez de recharger la page après les avoir ajoutés.
3.1.1. Calculer les caractéristiques par
Vous avez plusieurs options d'extraction :
L'option par défaut est 'Notes': vous obtiendrez un vecteur d'intégration (embedding) par note textuelle.
Si vous choisissez l'option 'Patient': vous obtiendrez un vecteur d'intégration par patient, calculé comme la moyenne de tous les embeddings générés pour toutes les notes textuelles associées à ce patient.
Si vous choisissez l'option 'Admission': vous obtiendrez un vecteur d'intégration par admission du patient, calculé comme la moyenne de tous les embeddings générés pour toutes les notes textuelles associées à cette admission.
Si vous choisissez l'option 'Plage horaire': vous obtiendrez un vecteur d'intégration pour chaque plage horaire sélectionnée par patient, calculé comme la moyenne de tous les embeddings générés pour toutes les notes textuelles situées dans la plage horaire spécifiée.

Quel que soit le choix sélectionné, il existe un bouton bascule indiquant si vous souhaitez que vos embeddings générés soient compatibles avec la table maître. Activer cette option générera des embeddings pouvant être utilisés dans le processus MEDprofiles du module d'entrée. Les tables générées pour le processus MEDprofiles peuvent contenir moins d'informations que les tables d'origine. Le bouton bascule est désactivé si les deux formats (compatible table maître ou non) sont exactement les mêmes pour l'option sélectionnée.
3.1.2. Sélectionner les colonnes correspondant à
En fonction des options choisies précédemment, vous devez sélectionner les colonnes du jeu de données correspondant aux informations nécessaires à la génération des caractéristiques. La sélection des colonnes pour chaque information requise sera filtrée par types (par exemple, si l'information requise est le temps, seules les colonnes de votre tableau de données contenant des types date-heure seront affichées).

3.1.3. Préfixe du nom de colonne
Vous pouvez choisir un préfixe à attribuer aux noms des colonnes d'embeddings générées. Cela est utile pour entrer dans le processus MEDprofiles dans le module d'entrée, en particulier pour créer des MEDclasses qui dépendent de ce nom de colonne préfixé. Le préfixe doit être composé uniquement de lettres et/ou de chiffres et ne peut pas être vide. Le préfixe par défaut est 'notes'.

4. Extraire les caractéristiques
Une fois toutes les étapes précédentes terminées, vous pouvez procéder à l'extraction des caractéristiques. Si un avertissement apparaît indiquant « Vous devez sélectionner des options appropriées pour la génération de caractéristiques », et que le bouton « Extraire les données » est désactivé, veuillez vérifier si vous avez fourni toutes les informations requises dans la section « Sélectionner un type d'extraction ».
Dans cette section, vous pouvez spécifier le nom de fichier sous lequel vous souhaitez enregistrer vos embeddings générés. Le nom de fichier doit être suivi de l'extension .csv, composé uniquement de lettres, de chiffres et/ou du caractère '_', et ne peut pas être vide. Le nom de fichier par défaut est 'text_extracted_features.csv.' Le fichier sera enregistré sous DATA/extracted_features.
Enfin, vous pouvez lancer le processus d'extraction en cliquant sur le bouton « Extraire les données ». Cela peut prendre quelques minutes, et la progression sera affichée dans cette section et dans l'onglet de sortie.

5. Données extraites
Une fois le processus d'extraction terminé (ce qui peut prendre quelques minutes, mais vous pouvez suivre la progression dans l'onglet de sortie), un message apparaîtra en bas de la page indiquant où les caractéristiques ont été enregistrées. Vous pouvez examiner vos résultats dans la section « Données extraites » en activant l'interrupteur. Alternativement, vous pouvez ouvrir votre fichier CSV généré dans votre espace de travail.

Mis à jour