import os
from dotenv import load_dotenv 
from datasets import load_dataset

load_dotenv()

# 1. Chargement du split spécifique "data"
# C'est crucial pour pouvoir utiliser .to_parquet() directement
print("Chargement du dataset depuis Hugging Face...")
dataset = load_dataset("Abdenbi11/memoires_vec_800", split="data")

# 2. Sauvegarde en un seul fichier Parquet (Format optimisé pour les vecteurs)
print("Sauvegarde en cours (Fichier unique Parquet)...")
dataset.to_parquet("memoires_total_local.parquet")
print("✅ Fichier 'memoires_total_local.parquet' sauvegardé !")

# 3. Sauvegarde au format Arrow (Format natif Hugging Face pour ton dossier DATA)
print("Sauvegarde en cours (Dossier DATA)...")
dataset.save_to_disk("./DATA")
print("✅ Données sauvegardées dans le dossier './DATA'")