TermSuite

TermSuite est un outil d'extraction terminologique et d'alignment multilingue de termes.

Détection des termes composés et à plusieurs mots, analyse morphosyntaxique, détection des variantes, Tri des termes par spécificité, etc. Voir les fonctionalités

Langues supportées

Ligne de commande - Interface graphique - API Java

La version actuelle de TermSuite est 3.0.10 Voir le journal des mises à jour

Faites fonctionner TermSuite !

Préparer son système pour TermSuite, le télécharger, l'installer et le faire fonctionner rapidement sur un corpus exemple.

Démarrer

Documentation

Liste des fonctionalités de TermSuite, de ses composants et des paramètres de configuration. API Java.

Manuel utilisateur Javadoc

Développeurs

Construire TermSuite à partir des sources avec Gradle ou développer avec TermSuite grâce à la dépendance Maven.

Voir sur Github Maven / Gradle

Ligne de commande

$ java -cp termsuite-core-3.0.10.jar \
        fr.univnantes.termsuite.tools.TerminologyExtractorCLI \
            -t /path/to/treetagger/ \
            -c /path/to/corpus/ \
            -l en \
            --tsv my-termino.tsv \

Pré-traitements TAL, extraction terminologique et alignement multilingue depuis la ligne de commande. Démarrage [avec Docker]

Téléchargement

termsuite-core-3.0.10.jar

Documentation

Pré-traitements TAL - Extraction terminologique - Alignement

API Java

Utilisez TermSuite depuis votre code Java et accédez à toutes les fonctionalités et options de configuration

Téléchargement

termsuite-core-3.0.10.jar Developer instructions

Documentation

Pré-traitements TAL - Extraction terminologique - Alignement

// Create the corpus object
TXTCorpus corpus = new TXTCorpus(
    Lang.EN,
    Paths.get("wind-energy", "documents"));

// Do the NLP preprocessings
IndexedCorpus corpus = TermSuite.preprocessor()
    .setTaggerPath(Paths.get("path", "to", "treetagger"))
    .toIndexedCorpus(corpus, 500000);

// Extract the terminology
TermSuite.terminoExtractor().execute(corpus);

// Keep only top 1000 terms by specificity with their variants
TermSuite.terminologyFilterer()
    .by(TermProperty.SPECIFICITY)
    .keepTopN(1000).keepVariants()
    .filter(corpus);

// Export the terminology to TSV
TermSuiteFactory.createTsvExporter(new TsvOptions())
    .export(corpus, Paths.get("my-termino.tsv"));

Interface graphique

Une interface graphique pour l'extraction terminologique, l'alignement multilingue, la visualisation des occurrences de termes en contexte et l'édition des ressources linguistiques

Téléchargement

(cliquez ici si le lien ci-dessus échoue)

Documentation

Guide de l'interface graphique

Publications

ACL2016	Damien Cram and Béatrice Daille. Terminology Extraction with Term Variant Detection. Proceedings of ACL-2016 System Demonstrations. PDF
IJCNLP2011	Jérôme Rocheteau and Béatrice Daille. TTC TermSuite: A UIMA Application for Multilingual Terminology Extraction from Comparable Corpora. Proceedings of the 5th International Joint Conference on Natural Language Processing. PDF
BENJAMINS2017	Béatrice Daille. Term Variation in Specialised Corpora: Characterisation, automatic discovery and applications. Vol. 19. John Benjamins Publishing Company. URL

Aperçu des fonctionalités

Découpe du texte en unités lexicales élémentaires (Tokenization)
Étiquetage syntaxique (à l'aide d'un logiciel externe : TreeTagger ou Mate)
Lemmatisation (à l'aide d'un logiciel externe : TreeTagger ou Mate)
Stemming (Snowball)
Extraction de terminologie à partir d'un corpus de spécialité
Détection de terme complexes
Détection des composés morphologiques
Détection des variations syntaxiques de terme
Détection des variations graphiques de terme
Détection des préfixes, des dérivés et des variantes associées de terme
Détection des variantes sémantiques de terme (to come in 2.4)
Détections des variantes basées sur la composition morphologique
Mesure de la spécificité du terme (Weirdness Ratio)
Alignement multilingue en corpus comparable (distributionel, compositionel et semi-distributionel)
Export des terminologies dans de multiples formats: `json`, `tsv`, `tbx`