Présentation

Un problème central dans l’étude des langues parlées est la compréhension du rôle que jouent les indices intonosyntaxiques dans la segmentation du continuum sonore en unités informationnelles et discursives. Se posent notamment les questions suivantes : quel est le degré de congruence entre les différentes unités manipulées par la syntaxe et la prosodie, mais aussi de quelle manière prosodie et syntaxe s’éclairent réciproquement et collaborent à la segmentation du discours en unités pragmatiques et textuelles ? Aborder concrètement ces questions nécessite le développement de corpus doublement annotés prosodiquement d’une part, syntaxiquement d’autre part. Dans un premier temps, indépendantes l’une de l’autre, ces annotations peuvent ensuite être mises en regard de manière à comprendre cet éclairage réciproque et aboutir au final à une annotation stabilisée, clairement explicitée et donc a priori reproductible sur des gros volumes de données. 

Dans ce contexte, le treebank intonosyntaxique Rhapsodie de 33000 mots alignés au phonème a été développé avec comme objectif théorique la modélisation de l’interface prosodie, syntaxe, discours en français parlé, objectif qui se décline pratiquement en deux points : (i) le développement de schémas d’annotation en syntaxe (micro et macrosyntaxe) et en prosodie (proéminences, disfluences, contours mélodiques, périodes intonatives), (ii) la constitution d’une base de données et d’un langage de requêtes pouvant interroger simultanément des données prosodiques alignées sur le temps et des données syntaxiques calibrées sur les tokens syntaxiques.