Cloner TermSuite sur GitHub.

Lorsque vous lancerez TermSuite pour l’extraction de la terminologie d’un corpus, vous aurez besoin d’installer un étiqueteur grammatical et un lemmatiseur tierces.

Il y a actuellement deux étiqueteurs et lemmatiseurs supportés par TermSuite:

Option 1 (recommandée): Installer TreeTagger et ses modèles.

TreeTagger est un étiqueteur grammatical (POS) très rapide, avec un lemmatiseur aux bonnes performances, et ce dans tous les langages TermSuite. Malheureusement, sa licence n’autorise pas son envoi conjoint à TermSuite en tant que tierce partie dépendante. De plus, TreeTagger a besoin d’être installé manuellement.

Téléchargez et installez TreeTagger sur votre système d’exploitation en suivant les instructions officielles
Le répertoire principal de TreeTagger contient trois sous-répertoires : ‘bin’, ‘models’, et ‘lib’. Le programme executable TreeTagger devrait être dans votre sous-répertoire ‘bin’. Notez que cet executable est appelé ‘tree-tagger’ sous Linux, et ‘tree-tagger.exe’ sous Windows.

Les fichiers paramétrant la langue doivent être placés dans le sous-répertoire ‘models’.
Si les fichiers de paramètres sont dans le sous-répertoire ‘lib’, créez un lien symbolique vers le répertoire nommé ‘models’ comme suit :

$ cd /path/to/tree-tagger-home-directory
$ ln -s lib models
Language Parameter File Encoding
English english.par utf-8
French french.par utf-8
Spanish spanish.par utf-8
German german.par utf-8
Russian russian.par utf-8
Italian italian.par utf-8
Danish danish.par utf-8

Sous Linux, vous pouvez vérifier que TreeTagger est correctement installé en lançant ces deux lignes de commande :

$ cd tree-tagger-home-directory
$ ./bin/tree-tagger ./models/english.par

Quittez le programme avec le raccourci-clavier Ctrl+D.

Option 2: Installer les modèles Mate

Mate est légèrement plus performant dans l’étiquetage grammatical que TreeTagger, surtout pour une procédure d’extraction de terminologie. Mais il a aussi quelques inconvénients :
* seuls trois modèles de langue sont publics : ‘en’, ‘de’, et ‘fr’,
* l’analyse grammaticale (parsing) des modèles de langue est très lent, et les résultats sont assez longs à obtenir,
* le marquage (tagging) et la lemmatisation de texte brut sont aussi très lents comparé à ce que propose TreeTagger.

L’avantage principal de Mate est qu’il est intégré à TermSuite.
Vous n’avez pas besoin de l’installer sur votre système d’exploitation. Vous avez simplement besoin de télécharger (ou d’entraîner) les modèles langagiers nécessaires.
Voir la page officielle pour les modèles de ces trois langues : en, de, et fr.

Mate a besoin de modèles différents pour chaque langue. Le modèle analyse+étiquetage (parser+tagger) et le modèle lemmatiseur.

Les modèles doivent suivre ces schémas : (où ‘xx’ est la langue de code à deux lettres)

Model File name pattern
parser+tagger mate-pos-xx.model
lemmatizer mate-lemma-xx.model