Page d'extraction de séries temporelles
La page d'extraction de séries temporelles prend un fichier CSV contenant des séries temporelles en entrée et extrait des embeddings en utilisant un modèle sélectionné.
Le module d'extraction des séries temporelles est actuellement désactivé car il n'a pas passé toutes les vérifications de stabilité.
Lorsque vous cliquez sur l'icône d'extraction des séries temporelles, vous devriez voir cette page :

1. Sélectionner les données CSV
L'étape initiale sur cette page consiste à sélectionner votre entrée, qui est un fichier CSV devant contenir au moins une colonne avec des identifiants de patients, une colonne avec des dates, une colonne avec des identifiants d'éléments, une colonne avec les pondérations associées aux éléments (qui peut être une date-heure ou une valeur numérique), et une colonne avec les valeurs associées aux éléments.
2. Données sélectionnées
Une fois que vous avez sélectionné vos données, elles seront affichées dans la section 'Données sélectionnées'.
3. Sélectionner un type d'extraction
Pour l'instant, seul le type d'extraction TSfresh est disponible.
3.1. TSfresh
Ce type d'extraction utilise le paquet Python TSfresh, qui permet le calcul d'un large éventail de caractéristiques des séries temporelles : https://tsfresh.readthedocs.io/en/latest/.
3.1.1. Calculer les caractéristiques par
Vous avez plusieurs options d'extraction :
L'option par défaut 'Admission' générera un vecteur d'embedding par admission du patient, calculé avec toutes les mesures associées à cette admission.
Si vous choisissez l'option 'Patient', vous obtiendrez un vecteur d'embedding par patient, avec toutes les mesures associées à ce patient.
Si vous choisissez l'option 'Plage horaire' option, vous obtiendrez un vecteur d'embedding pour chaque plage horaire sélectionnée par patient, calculé avec toutes les mesures prises dans la plage horaire spécifiée.

Quel que soit le choix sélectionné, il existe un bouton bascule indiquant si vous souhaitez que vos embeddings générés soient compatibles avec la table maître. Activer cette option générera des embeddings pouvant être utilisés dans le processus MEDprofiles du module d'entrée. Les tables générées pour le processus MEDprofiles peuvent contenir moins d'informations que les tables d'origine. Le bouton bascule est désactivé si les deux formats (compatible table maître ou non) sont exactement les mêmes pour l'option sélectionnée.
3.1.2. Sélectionner les colonnes correspondant à
En fonction des options choisies précédemment, vous devez sélectionner les colonnes du jeu de données correspondant aux informations nécessaires à la génération des caractéristiques. La sélection des colonnes pour chaque information requise sera filtrée par types (par exemple, si l'information requise est le temps, seules les colonnes de votre tableau de données contenant des types date-heure seront affichées).

3.1.3. Caractéristiques à calculer
Quel que soit le choix effectué précédemment, vous pouvez choisir entre trois méthodes de calcul des caractéristiques : Minimal, Efficient et Comprehensive. Ces options représentent des ensembles prédéfinis de caractéristiques fournis par le paquet TSfresh : https://tsfresh.readthedocs.io/en/latest/text/feature_extraction_settings.html. Plus précisément, les trois options sont définies comme suit :
Minimal: S'appuie sur
tsfresh.feature_extraction.settings.MinimalFCParameterset n'inclut qu'une poignée de caractéristiques. Elle convient pour des tests rapides.Comprehensive: S'appuie sur
tsfresh.feature_extraction.settings.ComprehensiveFCParameterset inclut toutes les caractéristiques sans paramètres et toutes les caractéristiques avec paramètres, chacune avec différentes combinaisons de paramètres. C'est l'option par défaut dans TSfresh.Efficient: S'appuie sur
tsfresh.feature_extraction.settings.EfficientFCParameterset inclut principalement les mêmes caractéristiques que danstsfresh.feature_extraction.settings.ComprehensiveFCParameters, en excluant les caractéristiques marquées avec l'attribut 'high_comp_cost'. Cette option est utile si les performances d'exécution sont un facteur critique.
L'option par défaut est définie sur 'Minimal' afin de réduire le temps de calcul.

3.1.4. Préfixe du nom de colonne
Vous pouvez choisir un préfixe à affecter aux noms des colonnes d'embeddings générés. Ceci est utile pour entrer dans le processus MEDprofiles du module d'entrée, en particulier pour créer des MEDclasses qui dépendent de ce nom de colonne préfixe. Le préfixe doit être composé uniquement de lettres et/ou de chiffres et ne peut pas être vide. Le préfixe par défaut est 'ts'.

4. Extraire les caractéristiques
Une fois toutes les étapes précédentes terminées, vous pouvez procéder à l'extraction des caractéristiques. Si un avertissement apparaît indiquant « Vous devez sélectionner des options appropriées pour la génération de caractéristiques », et que le bouton « Extraire les données » est désactivé, veuillez vérifier si vous avez fourni toutes les informations requises dans la section « Sélectionner un type d'extraction ».
Dans cette section, vous pouvez spécifier le nom de fichier sous lequel vous souhaitez enregistrer vos embeddings générés. Le nom de fichier doit être suivi de l'extension .csv, composé uniquement de lettres, de chiffres et/ou du caractère '_' et ne peut pas être vide. Le nom de fichier par défaut est 'ts_extracted_features.csv'. Le fichier sera enregistré sous DATA/extracted_features.
Enfin, vous pouvez lancer le processus d'extraction en cliquant sur le bouton « Extraire les données ». Cela peut prendre quelques minutes, et la progression sera affichée dans cette section et dans l'onglet de sortie.

5. Données extraites
Une fois le processus d'extraction terminé (ce qui peut prendre quelques minutes, mais vous pouvez suivre la progression dans l'onglet de sortie), un message apparaîtra en bas de la page indiquant où les caractéristiques ont été enregistrées. Vous pouvez examiner vos résultats dans la section « Données extraites » en activant l'interrupteur. Alternativement, vous pouvez ouvrir votre fichier CSV généré dans votre espace de travail.
Certaines des options de caractéristiques peuvent générer des jeux de données trop volumineux pour être affichés sur la page d'extraction. Dans ce cas, un message apparaîtra en bas de la page, indiquant 'Le jeu de données résultant est trop volumineux pour être affiché ici'.

Mis à jour