Le dataset en chiffres
Paires de traduction
188 paires
Entrées lexicales
266 mots et expressions
Leçons couvertes
21 leçons thématiques
Langue
Pulaar/Fulfulde
Langue ISO
pul (Pulaar / Fulfulde / Fula)
Licence
CC-BY 4.0 — Libre d'utilisation
Hugging Face
muttaar / pulaar-fuuta-tooro
huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde
Charger avec Python (datasets)
python
from datasets import load_dataset
# Charger les dialogues Pulaar–Français
dataset = load_dataset("ARPRIM/Pulaar_Fulfulde")
# Afficher la première paire
print(dataset["train"][0])
# {"lecon": 1, "pulaar": "Jam waali, Paate !", "francais": "Bonjour, Pâté !"}
Python
NLP
Fine-tuning
URLs directes
📄 Dialogues — 188 paires Pulaar/Fulfulde↔Français (JSONL)
Format JSONL — une paire de traduction par ligne. Format standard pour l'entraînement des LLMs.
https://pulaar.org/saggitorde/dialogues_pulaar.jsonl
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/dialogues_pulaar.jsonl
📚 Lexique — 266 entrées (JSON)
Dictionnaire structuré avec mot, sens, catégorie grammaticale, leçon d'origine et variantes dialectales.
https://pulaar.org/saggitorde/lexique_pulaar.json
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/lexique_pulaar.json
🔤 Alphabet — 32 lettres (JSON)
Chaque lettre avec prononciation, type, règles de gémination et exemples de mots.
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/alphabet_pulaar.json
🎵 Phonétique — 96 paires (JSONL)
Paires phonétiques et paires minimales (voyelles brèves/longues, consonnes simples/géminées).
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/phonetique_pulaar.jsonl
📖 Textes de lecture — 28 paragraphes (JSONL)
12 textes authentiques Pulaar/Fulfulde avec traduction française, alignés par paragraphe.
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/textes_pulaar.jsonl
🏫 Terminologie Éducation — 70 termes (JSON/JSONL)
Vocabulaire de l'école en Pulaar/Fulfulde, Français et Anglais — 7 sous-domaines.
https://pulaar.org/saggitorde/terminologie_education.jsonl
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_education.jsonl
👨👩👧 Terminologie Famille — 45 termes (JSON/JSONL)
Relations familiales et sociales en 3 langues.
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_famille.jsonl
🏥 Terminologie Santé — 48 termes (JSON/JSONL)
Corps humain, maladies, soins et médicaments en 3 langues.
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_sante.jsonl
🌾 Terminologie Agriculture — 52 termes (JSON/JSONL)
Cultures, élevage, outils et saisons en 3 langues.
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_agriculture.jsonl
🛒 Terminologie Commerce — 50 termes (JSON/JSONL)
Marché, acheter/vendre, prix et marchandises en 3 langues.
https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_commerce.jsonl
Exemples d'utilisation
JavaScript — Charger le lexique
javascript
const response = await fetch(
'https://pulaar.org/saggitorde/lexique_pulaar.json'
);
const data = await response.json();
// Chercher un mot
const mot = data.entrees.find(e => e.mot === 'jaaraama');
console.log(mot.sens); // "merci"
Python — Charger les dialogues
python
import requests, json
url = "https://pulaar.org/saggitorde/dialogues_pulaar.jsonl"
response = requests.get(url)
paires = [json.loads(ligne)
for ligne in response.text.strip().split('\n')]
print(f"{len(paires)} paires chargées")
# 188 paires chargées
# Afficher toutes les salutations
salutations = [p for p in paires
if 'salutation' in p['theme'].lower()]
curl — Téléchargement direct
bash
# Télécharger le lexique
curl -O https://pulaar.org/saggitorde/lexique_pulaar.json
# Télécharger les dialogues
curl -O https://pulaar.org/saggitorde/dialogues_pulaar.jsonl
# Depuis Hugging Face
curl -L https://huggingface.co/datasets/muttaar/\
pulaar-fuuta-tooro/resolve/main/dialogues_pulaar.jsonl \
-o dialogues_pulaar.jsonl
Structure des données
Structure d'une paire JSONL
json
{
"lecon": 1,
"titre_pulaar": "Jam Waali",
"titre_francais": "Bonjour (matin)",
"theme": "Salutations du matin",
"fulfulde": "Fuuta-Tooro",
"pulaar": "Jam waali, Paate !",
"francais": "Bonjour, Pâté !"
}
Structure d'une entrée du lexique
json
{
"mot": "jaaraama",
"sens": "merci (du verbe jaareede = remercier)",
"lecons": ["L7"],
"fulfulde": "Fuuta-Tooro",
"categorie": "formule"
}
Citation
Si vous utilisez ces données dans vos recherches ou projets, merci de citer :
bibtex
@dataset{pulaar_fuuta_tooro,
title = {Pulaar Fuuta-Tooro — Dialogues et Lexique},
author = {muttaar},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde},
license = {CC-BY 4.0},
language = {pul, fr}
}
Contact : Pour toute question, contribution ou signalement d'erreur, utilisez l'onglet Community sur Hugging Face ou contactez-nous via le site pulaar.org.