Cloner TermSuite sur GitHub.

TermSuite est un outil d'extraction terminologique et d'alignment multilingue de termes.

Détection des termes composés et à plusieurs mots, analyse morphosyntaxique, détection des variantes, Tri des termes par spécificité, etc. Voir les fonctionalités

Langues supportées

Français Anglais Russe Italien Allemand Espagnol

Ligne de commande - Interface graphique - API Java

La version actuelle de TermSuite est 3.0.10 Voir le journal des mises à jour

Faites fonctionner TermSuite !

Préparer son système pour TermSuite, le télécharger, l'installer et le faire fonctionner rapidement sur un corpus exemple.

Démarrer

Documentation

Liste des fonctionalités de TermSuite, de ses composants et des paramètres de configuration. API Java.

Manuel utilisateur Javadoc

Développeurs

Construire TermSuite à partir des sources avec Gradle ou développer avec TermSuite grâce à la dépendance Maven.

Voir sur GithubMaven / Gradle

Ligne de commande

$ java -cp termsuite-core-3.0.10.jar \
        fr.univnantes.termsuite.tools.TerminologyExtractorCLI \
            -t /path/to/treetagger/ \
            -c /path/to/corpus/ \
            -l en \
            --tsv my-termino.tsv \

Pré-traitements TAL, extraction terminologique et alignement multilingue depuis la ligne de commande. Démarrage [avec Docker]

API Java

Utilisez TermSuite depuis votre code Java et accédez à toutes les fonctionalités et options de configuration

// Create the corpus object
TXTCorpus corpus = new TXTCorpus(
    Lang.EN,
    Paths.get("wind-energy", "documents"));

// Do the NLP preprocessings
IndexedCorpus corpus = TermSuite.preprocessor()
    .setTaggerPath(Paths.get("path", "to", "treetagger"))
    .toIndexedCorpus(corpus, 500000);

// Extract the terminology
TermSuite.terminoExtractor().execute(corpus);

// Keep only top 1000 terms by specificity with their variants
TermSuite.terminologyFilterer()
    .by(TermProperty.SPECIFICITY)
    .keepTopN(1000).keepVariants()
    .filter(corpus);

// Export the terminology to TSV
TermSuiteFactory.createTsvExporter(new TsvOptions())
    .export(corpus, Paths.get("my-termino.tsv"));

Interface graphique

Une interface graphique pour l'extraction terminologique, l'alignement multilingue, la visualisation des occurrences de termes en contexte et l'édition des ressources linguistiques

Téléchargement

(cliquez ici si le lien ci-dessus échoue)

Documentation

Guide de l'interface graphique

academics

Publications

ACL2016

Damien Cram and Béatrice Daille.
Terminology Extraction with Term Variant Detection.
Proceedings of ACL-2016 System Demonstrations.
PDF

IJCNLP2011

Jérôme Rocheteau and Béatrice Daille.
TTC TermSuite: A UIMA Application for Multilingual Terminology Extraction from Comparable Corpora.
Proceedings of the 5th International Joint Conference on Natural Language Processing.
PDF

BENJAMINS2017

Béatrice Daille.
Term Variation in Specialised Corpora: Characterisation, automatic discovery and applications.
Vol. 19. John Benjamins Publishing Company.
URL

Aperçu des fonctionalités

Découpe du texte en unités lexicales élémentaires (Tokenization)
Étiquetage syntaxique (à l'aide d'un logiciel externe : TreeTagger ou Mate)
Lemmatisation (à l'aide d'un logiciel externe : TreeTagger ou Mate)
Stemming (Snowball)
Extraction de terminologie à partir d'un corpus de spécialité
Détection de terme complexes
Détection des composés morphologiques
Détection des variations syntaxiques de terme
Détection des variations graphiques de terme
Détection des préfixes, des dérivés et des variantes associées de terme
Détection des variantes sémantiques de terme (to come in 2.4)
Détections des variantes basées sur la composition morphologique
Mesure de la spécificité du terme (Weirdness Ratio)
Alignement multilingue en corpus comparable (distributionel, compositionel et semi-distributionel)
Export des terminologies dans de multiples formats: `json`, `tsv`, `tbx`