Computer-Assisted Creation of Boolean Search Rules for Text Classification in the Legal Domain

L’article est en anglais

Dans cet article, nous présentons une méthode de construction d’un classificateur puissant sous la forme de règles de recherche booléennes. Nous avons développé un environnement interactif appelé CASE (Computer Assisted Semantic Exploration) qui exploite la cooccurrence des mots pour guider les annotateurs humains dans le choix des termes de recherche pertinents. Le système facilite de façon transparente l’évaluation itérative et l’amélioration des règles de classification. Le processus permet aux annotateurs humains d’exploiter le contenu statistique du site tout en intégrant leur intuition d’expert dans la création de règles. Nous évaluons le classificateur créé avec notre système CASE sur 4 ensembles de données, et comparons les résultats aux méthodes d’apprentissage machine, y compris les règles SKOPE, Random forest, Support Vector Machine, et fastText classifiers. Les résultats orientent la discussion sur les compromis entre la supériorité de la compacité, la simplicité et l’intuitivité des règles de recherche booléennes et la meilleure performance des modèles modernes d’apprentissage automatique pour la classification du texte.

 

 

Ce contenu a été mis à jour le 8 janvier 2020 à 14 h 00 min.