Description
L’annotation syntaxique comprend conceptuellement trois niveaux d’analyse : morphosyntaxique, microsyntaxique et macrosyntaxique.
L’annotation morphosyntaxique correspond à un découpage en mots et, pour chaque mot, sont spécifiés le lemme et la partie du discours. Cette annotation est distribué avec l’annotation microsyntaxique.
L’annotation microsyntaxique s’articule autour de (i) un arbre de dépendance entre les mots avec une distinction sujet, objet, oblique, ajout pour les dépendants d’un verbe et un marquage des prédicats complexes; et (ii) l’annotation des entassements. Les entassements font l’objet d’une annotation fonctionnelle à sept valeurs : coordination standard, coordination hyperonymique, intensification, reformulation, disfluence, double formulation et négociation. Tous les mots reçoivent une fonction syntaxe, y compris les segments disfluents. Nous avons ainsi une annotation fine des entassements paradigmatiques, incluant coordinations, reformulations et disfluences.
L’annotation microsyntaxique a été encodée en dépendance. Une version en constituance en est dérivée. Voir aussi la version en flux de dépendance.
Une annotation macrosyntaxique indépendante donne le découpage en unités illocutoires avec, pour chacune, l’identification du noyau (portant la force illocutoire), des pré- et post-noyaux, des parenthèses et des marqueurs de discours. Certaines relations syntaxiques sont prises en charge au niveau macrosyntaxique (par exemple, simplement dans l’exemple suivant est considéré comme non régi et sera donc indépendant au niveau microsyntaxique).
Tutoriels / Guides d’annotation
Télécharger la version française
1) Annotation en dépendance
Dependency Treebank au format tabulaire (descriptif inclus)
1) graphe de dépendance complet avec plusieurs types de gouverneurs pour un lexème dans les entassements :
2) arbre de dépendance extrait du graphe (par simplification, format CONLL) : Archive
Visualiser le corpus avec Arborator : http://arborator.ilpga.fr/project.cgi?project=Rhapsodie