Cloner TermSuite sur GitHub.

TermSuite est une librairie Java permettant l'extraction terminologique et l'alignment multilingue de termes.

Détection des termes composés et à plusieurs mots, analyse morphosyntaxique, détection des variantes, Tri des termes par spécificité, etc. Voir les fonctionalités

Bon support:
Français Anglais Russe Italien Allemand Espagnol
Support partiel:
Danois Chinois Letton

La version actuelle de TermSuite est 3.0.3 Voir le journal des mises à jour

Faites fonctionner TermSuite !

Préparer son système pour TermSuite, le télécharger, l'installer et le faire fonctionner rapidement sur un corpus exemple.

Démarrer

Documentation

Liste des fonctionalités de TermSuite, de ses composants et des paramètres de configuration. API Java.

Manuel utilisateur Javadoc

Développeurs

Construire TermSuite à partir des sources avec Gradle ou développer avec TermSuite grâce à la dépendance Maven.

Voir sur GithubMaven / Gradle

academics

Publications

ACL2016

Damien Cram and Béatrice Daille.
Terminology Extraction with Term Variant Detection.
Proceedings of ACL-2016 System Demonstrations.
PDF

IJCNLP2011

Jérôme Rocheteau and Béatrice Daille.
TTC TermSuite: A UIMA Application for Multilingual Terminology Extraction from Comparable Corpora.
Proceedings of the 5th International Joint Conference on Natural Language Processing.
PDF


Aperçu des fonctionalités

Découpe du texte en unités lexicales élémentaires (Tokenization)
Étiquetage syntaxique (à l'aide d'un logiciel externe : TreeTagger ou Mate)
Lemmatisation (à l'aide d'un logiciel externe : TreeTagger ou Mate)
Stemming (Snowball)
Extraction de terminologie à partir d'un corpus de spécialité
Détection de terme complexes
Détection des composés morphologiques
Détection des variations syntaxiques de terme
Détection des variations graphiques de terme
Détection des préfixes, des dérivés et des variantes associées de terme
Détection des variantes sémantiques de terme (to come in 2.4)
Détections des variantes basées sur la composition morphologique
Mesure de la spécificité du terme (Weirdness Ratio)
Alignement multilingue en corpus comparable (distributionel, compositionel et semi-distributionel)
Export des terminologies dans de multiples formats: `json`, `tsv`, `tbx`