Agents.py 797 B

1234567891011121314151617181920
  1. import os
  2. from dotenv import load_dotenv
  3. from datasets import load_dataset
  4. load_dotenv()
  5. # 1. Chargement du split spécifique "data"
  6. # C'est crucial pour pouvoir utiliser .to_parquet() directement
  7. print("Chargement du dataset depuis Hugging Face...")
  8. dataset = load_dataset("Abdenbi11/memoires_vec_800", split="data")
  9. # 2. Sauvegarde en un seul fichier Parquet (Format optimisé pour les vecteurs)
  10. print("Sauvegarde en cours (Fichier unique Parquet)...")
  11. dataset.to_parquet("memoires_total_local.parquet")
  12. print("✅ Fichier 'memoires_total_local.parquet' sauvegardé !")
  13. # 3. Sauvegarde au format Arrow (Format natif Hugging Face pour ton dossier DATA)
  14. print("Sauvegarde en cours (Dossier DATA)...")
  15. dataset.save_to_disk("./DATA")
  16. print("✅ Données sauvegardées dans le dossier './DATA'")