Français parlé – PROJET RHAPSODIE

Le treebank Rhapsodie est composé de 57 échantillons sonores de français parlé dotés d’une transcription orthographique et d’une transcription phonétique alignées au son (frontières de mots, syllabes et phonèmes), d’annotations syntaxiques et prosodiques.

Les échantillons sonores du Treebank Rhapsodie sont :

(1) Des sources externes issues de données primaires préexistantes, en accord avec les concepteurs, 32 enregistrements déjà constitués pour des projets antérieurs, initiaux : (CFPP2000, C-Prom, ESLO, PFC) ou des travaux de thèse/HDR (Corpus Avanzi, Corpus Lacheret, Corpus Mertens)

(2) Des sources collectées en interne : 25 échantillons

Ces échantillons de 5 minutes en moyenne, soit 3 heures et 33000 mots au total ont été sélectionnés dans l’optique d’obtenir une bonne couverture typologique en termes de situation communicationnelle et de genres discursifs : monologue vs. dialogue, parole privée vs parole publique, entretien en face à face vs. talk show, parole plus ou moins interactive, séquence descriptive, argumentative, procédurale, etc.

Les ressources audio et leurs annotations sont mises à disposition selon les termes de la licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 3.0

	Type de parole	Nombre d’échantillons	Sexe des locuteurs		Durée (en secondes)	Nombre de mots
MONOLOGUES	parole privée	24	M	F	1581 s	4564
	parole privée	24	10	15	1581 s	4564
	parole publique	6	5	1	2506 s	4993
	Total monologues	30	15	15	4087 s	9557

	parole privée	14	17	8	3082 s	10585
DIALOGUES	parole privée	14	17	8	3082 s	10585
DIALOGUES	parole publique	13	22	8	4132 s	14219
	Total dialogues	27	39	16	7214 s	24804
TOTAL		57	52	35	11301s	34361