import os from dotenv import load_dotenv from datasets import load_dataset load_dotenv() # 1. Chargement du split spécifique "data" # C'est crucial pour pouvoir utiliser .to_parquet() directement print("Chargement du dataset depuis Hugging Face...") dataset = load_dataset("Abdenbi11/memoires_vec_800", split="data") # 2. Sauvegarde en un seul fichier Parquet (Format optimisé pour les vecteurs) print("Sauvegarde en cours (Fichier unique Parquet)...") dataset.to_parquet("memoires_total_local.parquet") print("✅ Fichier 'memoires_total_local.parquet' sauvegardé !") # 3. Sauvegarde au format Arrow (Format natif Hugging Face pour ton dossier DATA) print("Sauvegarde en cours (Dossier DATA)...") dataset.save_to_disk("./DATA") print("✅ Données sauvegardées dans le dossier './DATA'")