Français parlé

 Le treebank Rhapsodie est composé de 57 échantillons sonores de français parlé dotés d’une  transcription orthographique et d’une transcription phonétique alignées au son (frontières de mots, syllabes et phonèmes), d’annotations syntaxiques et prosodiques.

Les échantillons sonores du Treebank Rhapsodie sont :
(1) Des sources externes issues de données primaires préexistantes, en accord avec les concepteurs, 32 enregistrements déjà constitués pour des projets antérieurs, initiaux : (CFPP2000, C-Prom, ESLO, PFC) ou des travaux de thèse/HDR (Corpus Avanzi, Corpus Lacheret, Corpus Mertens)
(2) Des sources collectées en interne : 25 échantillons
Ces échantillons de 5 minutes en moyenne, soit 3 heures et 33000 mots au total ont été sélectionnés dans l’optique d’obtenir une bonne couverture typologique en termes de situation communicationnelle et de genres discursifs : monologue vs. dialogue, parole privée vs parole publique, entretien en face à face vs. talk show, parole plus ou moins interactive, séquence descriptive, argumentative, procédurale, etc.
Les ressources audio et leurs annotations sont mises à disposition selon les termes de la licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 3.0 

 

 

Type de parole

Nombre d’échantillons

Sexe des locuteurs

Durée (en secondes)

Nombre de mots

 

 

MONOLOGUES

parole privée

24

M

F

 1581 s

4564

10

15

parole publique

6

5

1

2506 s

4993

 

Total monologues

30

15

15

4087 s

9557

 

 

parole privée

14

17

8

3082 s

10585

 

DIALOGUES

parole publique

13

22

 

8

4132 s

14219

 

Total dialogues

27

39

16

7214 s

24804

TOTAL

 

57

52

35

11301s

34361