myCLASS

MyCLASS est un classifieur automatique de documents.

Historique

La première version du projet date de 2003 (doc2003). Depuis cette date, il a été régulièrement amélioré pour pouvoir traiter des jeux d’entrainement (30 millions de documents) et des classifications (70’000 classes) de plus en plus volumineuses. il a été principalement utilisé dans le domaine de la classification des brevets par L’OMPI (voir springer2011). MYCLASS a été aussi en compétition dans les conférences CLEF (clefguyot2010)(clefpiroi2010). Ces dernières années ont privilégié la performance et la qualité de l’entrainement. De nouvelles perspectives sont ouvertes en utilisant la traduction automatique afin de n’avoir qu’un classifieur dans une langue pivot voir (wipo2017) et (wipo2018). Le classifieur a aussi été utilisé dans des projets sur des corpus de nouvelles avec Reuter et Dow Jones. Nous avons expérimenté et comparé que l’utilisation des réseaux de neurones est performante et suffisante pour la classification de texte, dans le cas où les textes ne comportent pas d’information “cachée”. Par exemple, l’information “cachée” est définie dans le style du texte (ironie, cynisme, emphase, …). Dans ces cas l’utilisation du “Deep Learning” est souvent plus appropriée (voir (ai2015))

Ce projet a pour objectifs:

  • D’automatiser la classification de texte
  • De créer des environnements interactifs pour les classifications hiérarchiques
  • D’être une solution prête à l’emploi dans le domaine de la classification de brevets.
  • De créer une référence pour la performance et l’efficacité pour l’entrainement et le déploiement

Qui peut utiliser ces outils?

  • L’étudiant désirant compléter ses connaissances sur les outils de classification
  • L’enseignant désirant expérimenter ce type de classifieur
  • Le professionnel indépendant voulant explorer les possibilités de la classification automatique
  • Une organisation voulant explorer et mettre en place la classification automatique dans ses processus

Comment contribuer à ce projet?

  • En installant et en utilisant ces outils
  • En ajoutant des informations dans ce wiki pour faciliter l’utilisation de ces outils
  • en traduisant ces pages dans d’autres langues
  • en proposant des nouvelles fonctionnalités ou des nouveaux outils dans l’installation de base
  • en ajoutant de nouvelles ressources (corpus de test) dans github sous votre compte.

Comment commencer?