L’annotation syntaxique comprend conceptuellement trois niveaux d’analyse : morphosyntaxique, microsyntaxique et macrosyntaxique.
L’annotation morphosyntaxique correspond à un découpage en mots et, pour chaque mot, sont spécifiés le lemme et la partie du discours.
L’annotation microsyntaxique s’articule autour de (i) un arbre de dépendance entre les mots avec une distinction sujet, objet, oblique, ajout pour les dépendants d’un verbe et un marquage des prédicats complexes; et (ii) l’annotation des entassements. Les entassements font l’objet d’une annotation fonctionnelle à sept valeurs : coordination standard, coordination hyperonymique, intensification, reformulation, disfluence, double formulation et négociation.
Une annotation macrosyntaxique indépendante donne le découpage en unités illocutoires avec, pour chacune, l’identification du noyau (portant la force illocutoire), des pré- et post-noyaux, des parenthèses et des marqueurs de discours.
L’annotation complète se poursuit dans le cadre du projet ANR Orfeo. Pour l’heure, nous fournissons une annotation de la structure macrosyntaxique et des entassements au format texte.