Éditeur de code et terminal MEDomics
Cette page présente les premières étapes de notre preuve de concept. Elle permet aux utilisateurs de modifier le code chargé de générer l’ensemble de données homr_any_visit.csv, qui sera utilisé dans les étapes suivantes.
Créez votre espace de travail
Créez le fichier d'extraction
import pandas as pd
# Graine pour la reproductibilité
SEED = 54288
# ID du patient à extraire
PATIENT_ID = 16
# Modifiez ceci avec le chemin vers votre jeu de données avant d'exécuter le script
path = "dataset.csv"
# 1) Charger les données
df = pd.read_csv(path)
# 2) Construire homr_any_visit : exactement une visite sélectionnée aléatoirement par patient
homr_any_visit = (
df.groupby("patient_id", group_keys=False)
.sample(n=1, random_state=SEED)
.reset_index(drop=True)
)
# 3) Extraire le patient sélectionné de homr_any_visit
patient_df = homr_any_visit[homr_any_visit["patient_id"] == PATIENT_ID]
patient_df.to_csv(f"patient_{PATIENT_ID}.csv", index=False)
# 4) Retirer ce patient de homr_any_visit
homr_any_visit = homr_any_visit[homr_any_visit["patient_id"] != PATIENT_ID]
# 5) Sauvegarder le jeu de données final homr_any_visit
homr_any_visit.to_csv("homr_any_visit.csv", index=False)
# 5bis) Extraire 1/10 du jeu de données final
homr_any_visit_10pct = homr_any_visit.sample(frac=0.1, random_state=SEED)
homr_any_visit_10pct.to_csv("homr_any_visit_10pct.csv", index=False)
# 6) Journal de synthèse
print(
f"homr_any_visit.csv enregistré avec "
f"{homr_any_visit['patient_id'].nunique()} patients uniques "
f"(lignes={len(homr_any_visit)}), seed={SEED}\n"
f"Patient {PATIENT_ID} extrait vers patient_{PATIENT_ID}.csv\n"
f"Sous-ensemble de 10% enregistré dans homr_any_visit_10pct.csv "
f"(lignes={len(homr_any_visit_10pct)})"
)
Visualiser et éditer le fichier d'extraction


Exécuter le fichier d'extraction


Mis à jour