Le treebank Rhapsodie est composé de 57 échantillons sonores de français parlé dotés d’une transcription orthographique et d’une transcription phonétique alignées au son (frontières de mots, syllabes et phonèmes), d’annotations syntaxiques et prosodiques.
Les échantillons sonores du Treebank Rhapsodie sont :
(1) Des sources externes issues de données primaires préexistantes, en accord avec les concepteurs, 32 enregistrements déjà constitués pour des projets antérieurs, initiaux : (CFPP2000, C-Prom, ESLO, PFC) ou des travaux de thèse/HDR (Corpus Avanzi, Corpus Lacheret, Corpus Mertens)
(2) Des sources collectées en interne : 25 échantillons
Ces échantillons de 5 minutes en moyenne, soit 3 heures et 33000 mots au total ont été sélectionnés dans l’optique d’obtenir une bonne couverture typologique en termes de situation communicationnelle et de genres discursifs : monologue vs. dialogue, parole privée vs parole publique, entretien en face à face vs. talk show, parole plus ou moins interactive, séquence descriptive, argumentative, procédurale, etc.
Les ressources audio et leurs annotations sont mises à disposition selon les termes de la licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 3.0
|
Type de parole |
Nombre d’échantillons |
Sexe des locuteurs |
Durée (en secondes) |
Nombre de mots |
|||
MONOLOGUES |
parole privée |
24 |
M |
F |
1581 s |
4564 |
||
10 |
15 |
|||||||
parole publique |
6 |
5 |
1 |
2506 s |
4993 |
|||
|
Total monologues |
30 |
15 |
15 |
4087 s |
9557 |
||
|
||||||||
|
parole privée |
14 |
17 |
8 |
3082 s |
10585 |
||
DIALOGUES |
||||||||
parole publique |
13 |
22
|
8 |
4132 s |
14219 |
|||
|
Total dialogues |
27 |
39 |
16 |
7214 s |
24804 |
||
TOTAL |
|
57 |
52 |
35 |
11301s |
34361 |