TermSuite est un outil d'extraction terminologique et d'alignment multilingue de termes.
Détection des termes composés et à plusieurs mots, analyse morphosyntaxique, détection des variantes, Tri des termes par spécificité, etc. Voir les fonctionalités
La version actuelle de TermSuite est 3.0.10 Voir le journal des mises à jour
Préparer son système pour TermSuite, le télécharger, l'installer et le faire fonctionner rapidement sur un corpus exemple.
Liste des fonctionalités de TermSuite, de ses composants et des paramètres de configuration. API Java.
Construire TermSuite à partir des sources avec Gradle ou développer avec TermSuite grâce à la dépendance Maven.
$ java -cp termsuite-core-3.0.10.jar \
fr.univnantes.termsuite.tools.TerminologyExtractorCLI \
-t /path/to/treetagger/ \
-c /path/to/corpus/ \
-l en \
--tsv my-termino.tsv \
Pré-traitements TAL, extraction terminologique et alignement multilingue depuis la ligne de commande. Démarrage [avec Docker]
Pré-traitements TAL - Extraction terminologique - Alignement
Utilisez TermSuite depuis votre code Java et accédez à toutes les fonctionalités et options de configuration
Pré-traitements TAL - Extraction terminologique - Alignement
// Create the corpus object
TXTCorpus corpus = new TXTCorpus(
Lang.EN,
Paths.get("wind-energy", "documents"));
// Do the NLP preprocessings
IndexedCorpus corpus = TermSuite.preprocessor()
.setTaggerPath(Paths.get("path", "to", "treetagger"))
.toIndexedCorpus(corpus, 500000);
// Extract the terminology
TermSuite.terminoExtractor().execute(corpus);
// Keep only top 1000 terms by specificity with their variants
TermSuite.terminologyFilterer()
.by(TermProperty.SPECIFICITY)
.keepTopN(1000).keepVariants()
.filter(corpus);
// Export the terminology to TSV
TermSuiteFactory.createTsvExporter(new TsvOptions())
.export(corpus, Paths.get("my-termino.tsv"));
Une interface graphique pour l'extraction terminologique, l'alignement multilingue, la visualisation des occurrences de termes en contexte et l'édition des ressources linguistiques
(cliquez ici si le lien ci-dessus échoue)
ACL2016 |
Damien Cram and Béatrice Daille. |
IJCNLP2011 |
Jérôme Rocheteau and Béatrice Daille. |
BENJAMINS2017 |
Béatrice Daille. |
Découpe du texte en unités lexicales élémentaires (Tokenization) | |
Étiquetage syntaxique (à l'aide d'un logiciel externe : TreeTagger ou Mate) | |
Lemmatisation (à l'aide d'un logiciel externe : TreeTagger ou Mate) | |
Stemming (Snowball) | |
Extraction de terminologie à partir d'un corpus de spécialité | |
Détection de terme complexes | |
Détection des composés morphologiques | |
Détection des variations syntaxiques de terme | |
Détection des variations graphiques de terme | |
Détection des préfixes, des dérivés et des variantes associées de terme | |
Détection des variantes sémantiques de terme (to come in 2.4) | |
Détections des variantes basées sur la composition morphologique | |
Mesure de la spécificité du terme (Weirdness Ratio) | |
Alignement multilingue en corpus comparable (distributionel, compositionel et semi-distributionel) | |
Export des terminologies dans de multiples formats: `json`, `tsv`, `tbx` |