| 1234567891011121314151617181920 |
- import os
- from dotenv import load_dotenv
- from datasets import load_dataset
- load_dotenv()
- # 1. Chargement du split spécifique "data"
- # C'est crucial pour pouvoir utiliser .to_parquet() directement
- print("Chargement du dataset depuis Hugging Face...")
- dataset = load_dataset("Abdenbi11/memoires_vec_800", split="data")
- # 2. Sauvegarde en un seul fichier Parquet (Format optimisé pour les vecteurs)
- print("Sauvegarde en cours (Fichier unique Parquet)...")
- dataset.to_parquet("memoires_total_local.parquet")
- print("✅ Fichier 'memoires_total_local.parquet' sauvegardé !")
- # 3. Sauvegarde au format Arrow (Format natif Hugging Face pour ton dossier DATA)
- print("Sauvegarde en cours (Dossier DATA)...")
- dataset.save_to_disk("./DATA")
- print("✅ Données sauvegardées dans le dossier './DATA'")
|