Dans le cadre du traitement automatique des langues, l’opération qui vise à obtenir des grammaires formelles à partir de textes annotés s’appelle inférence grammaticale, à ce propos tu peux lire l’excellent ouvrage Grammatical Inference: Learning Automata and Grammars de Colin de Higuera, Chez Cambridge University Press.
Maintenant, si tu veux obtenir cette grammaire formelle de manière manuelle, ce que tu peux faire est d’analyser un bloc de texte (tu peux prendre un corpus annoté, comme celui du CNRS (Corpus annoté du français) ou alors prendre un texte à toi et l’analyser avec un outil comme TreeTagger, en prévoyant une étape de vérification et d’éventuelles corrections) et essayer de faire en sorte que ta grammaire soit capable de l’analyser.
Un outil très convivial pour vérifier si une grammaire analyse correctement une phrase est le package NLTK de Python. Dans un cours que je donne à Télécom Bretagne, j’ai un TP où l’on fait exactement cela.
Leave a comment