myCAT

myCAT est un concordancier, c’est-à-dire un moteur de recherche qui, en plus d’afficher des documents pertinents, montre également leur traduction (s’ils ont déjà été traduits) et aligne automatiquement les versions en langue source et en langue cible sur les occurrences des termes recherchés.

myCAT comporte deux modules :

  • un aligneur de textes (Text Aligner)
  • un détecteur de citations (Quote Detector)

L’aligneur de textes affiche et aligne automatiquement les versions source et cible d’un document donné.

Le détecteur de citations compare un document à traduire avec l’ensemble des documents déjà traduits auparavant pour détecter d’éventuels passages repris. Il affiche et aligne ensuite les versions source et cible de ce document de référence.

Ce qui rend myCAT unique, c’est que sa fonction d’alignement automatique repose sur des cartes d’alignement qui sont construites avec Moses, un outil de traduction automatique statistique. myCAT peut être employé pour n’importe quelle combinaison de langues; si aucune carte d’alignement n’a été établie pour la paire de langues considérée, un algorithme d’alignement géométrique sera employé par défaut.

Online demonstration Demo

Avant d’utiliser la démo, il est conseillé de lire les conseils ci-dessous. La démo est disponible sur : demo.

Langue de l’interface !

L’interface de myCAT est complètement adaptable, nous avons un mécanisme dynamique pour l’internationalisation des interfaces. Actuellement nous avons traduit l’interface en 5 langues (en, fr, ar, es, ru). Si vous souhaitez rajouter une autre langue n’hésitez pas à nous jacques@olanto.org (contacter).

Démarrage rapide !

Si vous souhaitez simplement jeter un coup d’oeil au fonctionnement de myCAT, la manière la plus simple est d’essayer l’Aligneur de textes (Text Aligner) et le Détecteur de citations (Quote Detector).

A lire au préalable !

Si vous souhaitez tester notre version de démonstration de myCAT, voici quelques éléments à connaître au préalable :

Navigateurs acceptés: bien que myCAT ait été développé avec la technologie GWT de Google, qui permet en principe de faire fonctionner les logiciels dans la plupart des navigateurs, il est vivement recommandé d’employer une version récente de Mozilla Firefox ou Internet Explorer. Actuellement l’aligneur de texte de myCAT fonctionne correctement sous Chrome mais le détecteur de citations rencontre encore quelques difficultés. Nous travaillons dessus, et toutes les bonnes volontés sont les bienvenues pour régler le problème!

Un manuel de l’utilisateur (en anglais pour le moment) est disponible en ligne en cliquant sur le bouton HELP. Ce document détaille les différentes fonctionnalités du logiciel; il est vivement conseillé de le lire avant de tester ce dernier.

La version de démonstration de myCAT a été construite à partir d’un corpus comprenant plus d’un million de documents qui contiennent plus de dix millions de mots différents en 25 langues. Ce corpus provient essentiellement des sources suivantes: The United Nations’Multilingual Parallel Text 2000-2009 et le European Commission’s JRC-Acquis.

Essai de l’Aligneur de textes (Text Aligner)

Définissez votre paire de langues dans les menus déroulants (Ex: EN-FR signifie anglais vers français). Les codes de langues à deux lettres sont conformes à la norme ISO 639-1.

Saisissez dans le champ de texte un mot ou une expression de la langue source choisie (dans notre exemple: anglais).

Cliquez sur le bouton GO de l’interface ou appuyez sur la touche ENTRÉE de votre clavier.

Cliquez sur l’un des documents dont le nom apparaît dans la liste des résultats (“Hit List”). Le terme recherché apparaîtra en surbrillance dans ce document, et la version cible sera affichée à côté et automatiquement alignée.

Vous pouvez vous déplacer d’une occurrence du terme à l’autre en cliquant sur les boutons << ou >>.

Vous pouvez utiliser l’ascenseur vertical pour lire l’ensemble du document affiché. À tout moment vous pouvez cliquer deux fois sur un mot dans ce texte, puis cliquer sur le bouton “Align” pour voir la partie correspondante de la version cible.

Vous pouvez employer le bouton “Search” pour effectuer une recherche différente au sein du document affiché (par exemple si ce document contient beaucoup de terminologie utile).

Les documents affichés sont des conversions en texte simple des documents originaux (qui étaient généralement aux formats MS-Word ou PDF). Le bouton “Original” permet normalement d’afficher le document dans son format original. Néanmoins, dans cette version de démonstration, seuls les documents figurant dans la collection “Small Collection” peuvent aussi s’afficher en version originale. Si vous souhaitez tester le bouton “Original”, il convient donc de cliquer sur le bouton “Collection”, choisir “Small Collection” et cliquer sur “Set Selection”. Ainsi, tous les documents que vous trouverez proviendront de cette collection et pourront être affichés aussi sous leur format original.

Testing the Quote Detector

Cliquez sur le bouton “Quote Detector”.

Définissez votre paire de langues dans les menus déroulants.

Cliquez sur le bouton “Browse” pour téléverser le document que vous souhaitez analyser (un document d’exemple à analyser d’anglais en français peut être téléchargé ici. Note: dans la version de démonstration, les documents à soumettre au détecteur de citations sont tronqués après 3’000 caractères.

Cliquez sur le bouton GO. Le document résultant de l’analyse est affiché dans le cadre central; des statistiques sur l’analyse sont ajoutées à la fin de ce document.

##Téléchargements

myCAT 4.1.0 pour Windows, 64-bit version

(testé sur Windows 7,8,10 et Windows 2008,2016 Server) Les fichiers d’installation de myCAT peuvent être téléchargés ici (275 Mb).

SHA1 key: 5adc2f8a5e8819e9d4c035a5b907c7996416dd23

Outils

Les logiciels Java, Tomcat et OpenOffice peuvent être téléchargé:

Dans le fichier suivant, vous trouverez des batchs adaptés tomcat 7,8,9 (1 Mb) - sha1 : 9a023005a810a2c7541c6a56a86abb30db7530f2

Il est recommandé de n’employer que ces distributions afin de disposer de la version requise.

La procédure permettant d’effectuer une installation classique de myCAT sur un serveur dédié équipé de Windows est décrite ici generic doc.

myCAT 4.1.0 pour GNU/Linux, 64-bit version

(testé sur Ubuntu 12,14,16,& 18.04 LTS) Les fichiers d’installation de myCAT peuvent être téléchargé here (292 Mb).

SHA1 key: 90277bd5a7d0c36e7acd2a09695f34579402c763

Tools

le fichier OpenOffice file peut être téléchargé here (171 Mb).

SHA1 key: 2B8071CF3F26C202BB7B0BE1AFD5DC2F21221614

The procedure to perform a standard installation of myCAT on a dedicated server running Ubuntu 18.04 LTS is described here.

Ajouter des Cartes d’alignement

La version de base de myCAT est livrée avec les cartes d’alignement suivantes: anglais-arabe, anglais-espagnol, anglais-français, anglais-portugais et anglais-russe. Il est possible d’ajouter les paires de langues suivantes :

Anglais-Allemand here Anglais-Chinois here

Ajouter des Cartes d’alignement

La version de base de myCAT est livrée avec les cartes d’alignement suivantes:

  • anglais-arabe
  • anglais-espagnol
  • anglais-français
  • anglais-portugais
  • anglais-russe

Il est possible d’ajouter les paires de langues suivantes :

  • anglais-allemand
  • anglais-chinois (expérimental, tous les commentaires sont les bienvenus)

Il suffit de télécharger ces fichiers et de les décompresser dans le dossier :

  • pour Windows: C:\MYCAT\map
  • pour GNU/Linux: ~/MYCAT/map

Règles de nommage des documents

Le corpus de documents bi-textes qui sera exploité par myMT doit être conforme aux spécifications suivantes.

Cette distribution de myMT contient un très petit corpus de 48 documents qui permet de tester l’application dans les six langues suivantes: anglais, français, espagnol, russe, arabe et chinois. Ces documents sont organisés en trois collections: ONU (UNO), OMPI (WIPO) et OMC (WTO). Ce sont tous des documents publics qui ont été téléchargés depuis le site respectif de ces organisations.

source & licence

Licence AGPL v3 - sources @GitHub

changelog

This document details the bug fixes and improvements in each new release of the myPREP software.

Version 4.1.0 date 10-5-2018

Version 4.0.15 Date: 7-3- 2017

New Features relating to the overall suite myCAT

  • WebService to Call Quote Detector
  • WebService to Merge Quote Detection with different profiles into the same documents
  • Improve accuracy of Quote Detector (remove stop words)

Version 3.7.0 Date: 10 -1- 2016

New Features relating to the overall suite myCAT

  • Add a checkbox ‘Rem First’ into QD to remove first reference.
  • Add a checkbox ‘Fast’ into QD to improve the quality of references (check=fast, uncheck=accurate).
  • Open QD from an URL (http://localhost:8080/TranslationText?QDfile=C:/MYCAT/corpus/reftest/Doc_EN_XXX_Refdoc.html)
  • Improve initial load of ZIP Cache (new parameter IDX_ZIP_CACHE_FASTLOAD)
  • Improve accuracy of Quote Detector (new parameter REALREF_MAX_CHECK)
  • Improve performance of Quote Detector (new parameter REF_MAX_THREAD)
  • Accept file renaming (Only for Windows) (new parameter FILE_RENAME, FILE_COLLECTION_CASE, FILE_NAME_CASE, FILE_EXTENTION_CASE)
  • Accept to rename the “Glossaries” folder (new parameter GLOSS_NAME)
  • Improve detection of abbreviation

Version 3.3.0 Date: October 17th 2014

New Features relating to the overall suite myCAT

  • Fixed a bug for the EXACT CLOSE query calculation
  • Fixed a bug in cache management anb objects identification
  • Added a resize button to the interface of the Bitext Aligner called from externat application

Version 3.2.4 Date: July 7th 2014

New Features relating to the overall suite myCAT

  • Fixed a filtering problem with aglutinative lanugages
  • Fixed a bug for exact queries that created highlight problems: stop words were not taken into consideration

Version 3.2.3 Date: May 24th 2014

New Features relating to the overall suite myCAT

  • Enhanced features for highlighting exact expressions (more precise documents and more precise highlights)
  • Fixed a filtering problem with arabic language into query field
  • Fixed a filtering problem in the query field with the special characters: ‘_‘, ‘/’ and ‘-’

Version 3.2.2 Date: April 24th 2014

New Features relating to the overall suite myCAT

  • New querying possibilities: Accept wildChar (only one fuzzy term) in a multi-term expression at any position (like: global* economic)
  • New querying possibilities: Accept CLOSE between two exact expressions (like: “global” CLOSE “reporting”)
  • Improved line segmentation (5 times faster)
  • Normalized query field with the same replaceChar than line segmentation
  • Fixed a filtering problem into query field (Keep char with accent or Chinese char)

Version 3.2.1 Date: April 14th 2014

New Features relating to the overall suite myCAT

  • Fixing tokenization problems
  • Adding filters for queries to remove special characters

Version 3.1.1 Date: March 21st 2014

New Features relating to the overall suite myCAT

  • Fixing the bug of exact expressions when highlighting results within the displayed documents.
  • Faster version of alignment computing for very large documents (> 20’000 paragraphs).
  • Adapting text direction automatically depending on the language (e.g. AR)
  • Adapting regular expressions for the exact matching.
  • Fixing double call of aligned documents when clicking on a document.

Version 3.1.0 Date: February 2nd 2014

New Features relating to the overall suite myCAT

  • Fixing the bug of loss focus in Firefox and Chrome when highlighting results within the displayed documents.
  • Updating docx and pdf converters with the latest libreries.
  • Improved alignment for very large documents (> 20’000 paragraphs).
  • Dynamic resize of the Graphical User Interface to be adapted automatically to the client’s monitor or browser’s dimentions.
  • Removing extra blanks for chinese when displaying the document’s content.

New Features in the Text Aligner

  • Adding new parameters or regular expression, special characters and respect Case for the exact matching.
  • Adding a new feature for a better tokenization of the query (removing or normalizing special characters).
  • Fixing stop words highlighting in exact queries

Version 2.4.01 Date: November 26th 2013

New Features relating to the overall suite myCAT

  • Improved alignment for very large documents.
  • Bug fix for Glossaries.
  • Load txt from a zip.
  • Process the highlight of expressions resulting from a “NEAR” query and taking into account the carriage return.
  • Check the consistency of the index and prevent the server from starting if a problem is detected.
  • Manage abreviations within the indexed documents.

Version 2.3.01 Date: June 30th 2013

*New Features relating to the overall suite myCAT

  • Complete documentation for CSS and parameters of the Graphical User Interface.
  • Configurable converter open to all other converting tools, useful also in command line.
  • Special characters normalization during segmentation of converted documents.
  • Implementation of a cache zip for documents in order to enhance system performances especially for the exact matching and Maps building.
  • Maps construction is implemented as a parallel process for better performances.
  • Dynamic switch between different languages representing the user interface.

New Features in the Text Aligner

  • Automatic scrolling enhanced for better positionning ans highlight to cope with all browsers.
  • Adding a sophisticated display for the highlighted hits in the status bar (Hit number/Total number).

New Features in the Self-Quote Detector

  • Adding internal links in the referenced document for top and statistics.
  • Source verification in referenced documents.
  • Documents display widget has the same behavior and functionnalities as for the TextAligner

Version 2.2.01 Date: May 9th 2013

New Features in the Text Aligner

  • Exact matching for queries.
  • Adding a carriage return in all documents to separate paragraphs for better visualization.
  • Enhancing highlighting occurrences of expressions with the “NEAR” operator.
  • Expressions that exceed paragraphs and are on many lines are now considered in search results inside the document and also highlighted.

Version 2.1.05 Date: March 11th 2013

New Features relating to the overall suite myCAT

  • Adding date and time to logs names.
  • Case sensitive/insensitive for document search (/“XXX”).
  • Better compatibility with Firefox and IE thanks to the new version of GWT (Google Web Toolkit).

New Features in the Self-Quote Detector

  • It is now possible to adapt document font in the css.

Version 2.1.03 Date: 7 December 2012

New Features relating to the overall suite myCAT

  • Paths are now relative in the configuration files to allow for various access modes simultaneously (e.g. intranet access and web access).
  • It is now possible to de-activate the maximization of the browser when opening myCAT.
  • Better compatibility with Firefox and IE thanks to the new version of GWT (Google Web Toolkit).
  • The messages displayed by the Java program are clearer (the * English language was not correct in the previous version).

New Features in the Text Aligner

  • Better indexing of capital characters with accents (ex : a search on a word like «État» are now correctly processed).
  • Glossaries automatically come at the top of search results in the Hit List.

New Features in the Quote Detector

  • It is now possible to upload a document up to 20 MB (previously it was limited to 3 MB).

New Features in the Self-Quote Detector

  • It is now possible to upload a document up to 20 MB (previously it was limited to 3 MB).

Version 2.0 Date: 30 November 2012

New Features in the Text Aligner

  • Search is now possible on file names.
  • Navigation by tabs from the Text Aligner to other myCAT modules.
  • All messages are grouped in a bottom bar which also includes a link to Olanto’s website and a “Feedback” mailto link.
  • Collection priority setting: Search results are displayed in the order in which the collections were ticked in the Collection Box.
  • Wildcard: the * joker character can be used anywhere in a word to replace one or several characters.

New Features in the Quote Detector

  • Quotes are now highlighted in a yellow background.
  • A section containing statistics about the quotes is appended at the bottom of the analyzed document.
  • It is now possible to save the resulting HTML file of an analyzed document, and to reload it later in the Quote Detector so as to use the references without performing the analysis again.
  • A Self-Quote Detector is now available

The Self-Quote Detector is a tool which detects whether some expressions are repeated within a document. If an expression is used several times across the text, it will find it and turn it into a hypertext so the user can navigate from an occurrence of that expression to the next one. This feature is useful if the user wants to see a specific expression in the various contexts in which it is used in the document to be translated, or if the translation must be shared between several translators.

The result of the Self-Quote Detector is an HTML file which can be saved so it can be open and used later in a browser independently from the application.

Version 1.1.1.b Date: 31 July 2012

Bug Fixes

  • myCAT is now based on Java 7, Tomcat 7 and OpenOffice 3.4 (this solves some recently-detected vulnerabilities).

Improvements

  • The following modifications can now be performed without modifying the Java source code in Netbeans, by only modifying external XML files (see the new installation manual): ** Adding languages ** Placing the corpus, the index and the alignment maps in a different location from C:\ (which is myCAT’s main location).
  • Thus the source code does not have to be distributed within the application anymore.
  • The internal folder structure of myCAT was modified accordingly.

Version 1.1.1.a Date: 16 July 2012

Bug Fixes

  • In QD the quote marks were overlapping when two references were immediately following each other in the analyzed text. The GWT code was corrected.
  • The blue bars indicating the probable location of the relevant text part in QD were sometimes much too long or too short. The GWT code was corrected.
  • A search for figures separated by commas or dots did not retrieve any result. This was corrected with a generic character which is the blank character: when looking for a number which could be separated by commas, dots or apostrophes, users now simple put a blank space instead of those characters and the string is retrieved whatever the original character. The indexer was corrected.

Improvements

  • The underscore character “_” is now indexed.

Version 1.1.1 Date: June 2012

Bug Fixes

  • Mozilla Firefox was not correctly supported in QD. The GWT code was corrected.

Improvements

  • The minimum number of consecutive words in QD was reduced from 6 to 3.

Version 1.1 Date: February 2012

Bug Fixes

  • A search including numbers before letters did not work (e.g. “29 November 2011” could not be found). The indexer was corrected.

Improvements

  • Graphic User Interfaces were colorized.