DataJust : l’heure du bilan en France

Écrit par Camille Bordere et Frédérique Boulanger – deux anciennes stagiaires du Laboratoire de cyberjustice

Introduction

Le projet DataJust constitue un exemple de projet d’ampleur, mené par le Ministère de la Justice français dans le cadre de la modernisation de ses services et présente, à cet égard, plusieurs caractéristiques : il est un projet ambitieux, pertinent et moderne et dont l’achèvement laisse derrière lui une certaine frustration. S’il n’a pas entraîné la cascade de dépenses supplémentaires qu’entraîne toujours le développement du logiciel Portalis, il a cependant autant mobilisé la doctrine française à ses débuts qu’à son terme, au début de l’année 2022.

À l’heure du bilan, il s’agit désormais de tirer les leçons de ce projet – les vraies leçons, pas celles induites par l’assez mauvais timing du décret de mars 2020 ayant initié cette expérimentation. Pour ce faire, deux des magistrates, Marine Kettani et Emmanuelle Deleris qui ont activement participé à cette expérimentation ont accepté de revenir, pour nous, sur les origines du projet (1), les objectifs qu’il poursuivait (2) et les raisons de son interruption (3). Ce précieux bilan permettra au lecteur, comme aux autrices de ce billet (4), de tirer leurs propres conclusions.

1.     DataJust : les origines

Depuis 2016, la Cour de cassation française, responsable de l’open data des décisions de justice, développe et internalise progressivement un savoir-faire en matière d’analyse de données contenues dans les décisions de justice. Cette démarche de modernisation du service public de la Justice s’inscrit dans le cadre d’une volonté politique plus globale de transition numérique de l’État.

Le traitement de données à caractère personnel DataJust, créé par le décret du 27 mars 2020, permet l’établissement d’un référentiel indicatif d’indemnisation des préjudices corporels et l’information générale des parties, victimes et professionnels du droit, concernés par le contentieux des préjudices corporels. Plus techniquement, le projet DataJust avait vocation à s’appuyer sur le futur (à l’époque) open data des décisions de justice lancée une première fois par les articles 20 et 21 de la Loi pour une République Numérique de 2016 et une seconde fois par la Loi de programmation pour la Justice 2018-2022 de 2019. Pour vraiment comprendre le sens du projet DataJust, il faut en fait garder un élément fondamental en tête : ce projet était, avant toute autre chose, une expérimentation. Il avait donc plus en commun avec un projet de recherche, exploratoire par nature, qu’avec un programme de développement d’un applicatif immédiatement opérationnel. DataJust était donc un projet expérimental développé depuis 2019 en partenariat avec la Cour de cassation dans le cadre du programme Entrepreneur d’Intérêt Général (EIG) lancé en 2016 par Etalab, département de la Direction interministérielle du numérique (DINUM) auquel le Ministère de la justice a candidaté. Etalab initie la modernisation des administrations publiques par la création d’EIG ce qui permet aux administrations d’importer en leur sein, des compétences du secteur privé du numérique. Il s’agit là d’une méthode qui se démarque de ce que l’on a pu voir depuis les années 2012 – années marquées par les progrès réalisés dans le domaine des réseaux de neurones – à savoir, le brain drain du secteur public vers le secteur privé. Ici l’objectif est au contraire d’importer le savoir au sein de l’administration publique, sorte de brain import à la française.

L’intérêt de cette stratégie politique est double. D’une part, elle permet au service public de la justice d’appréhender techniquement et technologiquement la jurisprudence pour en avoir une nouvelle compréhension, Big data oriented, et d’autre part, elle donne à de jeunes data scientists, designers, développeurs et ingénieurs, l’opportunité et les moyens de travailler sur des projets d’ampleur, déterminés au préalable par la Cour de cassation – pendant une durée de 10 mois. Dans cette perspective, deux projets connexes, en lien avec la pseudonymisationdes décisions de justice notamment, ont vu le jour grâce à EIG : « Open Justice » en 2019 et sa grande sœur « L.A.B.E.L » en 2020.

Il faut aussi garder en tête le contexte à la fois normatif et politique du lancement de DataJust. Sur le temps relativement long, ce projet s’inscrivait dans la continuité d’appels réguliers à la construction d’un référentiel en matière de réparation des préjudices corporels depuis le début des années 2010, notamment pour limiter les risques d’une prolifération de référentiels locaux, peu diffusés et mal connus des justiciables (voir notamment l’appel de Benoit Mornet en ce sens, « Pour un référentiel national d’indemnisation du dommage corporel », Gaz. Pal., n° 154, 2010, p. 8). Ainsi que pour éviter la mise en place de référentiels par le secteur privé, et notamment par le secteur des assurances. Il s’inscrivait, dans le même sens, dans la continuité du projet de réforme de la responsabilité civile présenté le 13 mars 2017 par le Garde des Sceaux, Ministre de la Justice de l’époque, Jean-Jacques Urvoas, et qui prévoyait la mise en place d’un référentiel indicatif d’indemnisation construit sur une base de données des décisions définitives rendues par les cours d’appel en matière d’indemnisation des dommages corporels.

2. DataJust : l’ascension des systèmes d’intelligence artificielle

La première étape du projet était la construction d’une base de données issues des décisions de justice en matière civile, rendues en appel et relatives à l’indemnisation de préjudices résultant de dommages corporels des années 2017, 2018 et 2019. La constitution de cette base de données est réalisée au moyen de méthodes de filtrage, de sélection, de structuration et d’annotation des décisions de justice qui procède à la fois de méthodes d’extraction au moyen de systèmes experts et d’une supervision humaine systématique.

L’idée était d’extraire les éléments utiles à l’information des victimes et aux professionnels du droit concernés à partir de la sélection des décisions d’intérêt. Les magistrates interrogées sur les informations utiles pour la constitution de la base de données ont identifié « 3 catégories d’éléments utiles à relever ». Il y a d’abord des informations plus générales relatives au litige comme par exemple la date de l’accident, la date de naissance et l’âge de la victime, le fait générateur, les blessures et séquelles subies par la victime et la qualification de ses préjudices. La deuxième catégorie d’informations utiles concernait des aspects procéduraux. Étaient identifiés et sélectionnés les éléments de première instance qui permettaient de voir si, ce qui avait été demandé à ce stade de la procédure, « avait été confirmé en appel ». Enfin, et le plus important peut-être, étaient les différents montants d’indemnisation et les éléments de motivations des jugements qui les justifiaient – à la condition qu’ils fussent présents dans les décisions.

Une équipe pluridisciplinaire de travail a été mise en place pour structurer la base de données de décisions d’intérêt. Le projet est alors supervisé par une magistrate de la direction des affaires civiles et du Sceau (DACS) spécialisée dans le contentieux du dommage corporel. Le service du numérique rattaché au secrétariat général du Ministère de la Justice avait la charge de développer les outils technologiques utiles à la constitution de la base de données. Six juristes annotateurs spécialisés en réparation des dommages corporels ainsi qu’un data scientist travaillaient de concert pour la constitution de la base de données. Cette équipe a développé une interface d’annotation permettant aux juristes d’identifier les éléments support d’analyse dans les décisions. Ce travail était facilité par un mécanisme de pré-annotation (principalement grâce à des systèmes experts). L’utilisation de ce type de système peut d’ailleurs à ce stade déjà constituer une difficulté en ce que si erreur il y a, c’est l’ensemble des règles encodées qui doivent être modifiées au besoin afin qu’elles puissent toutes fonctionner ensemble pour parvenir à l’objectif fixé. Un dernier acteur intervenait dans le projet et donnait un soutien général en tant qu’ « assistant de maîtrise d’ouvrage » : le service de l’expertise de la modernisation. C’est donc la pluridisciplinarité qui caractérisait le projet DataJust.

La deuxième étape du projet, celle qui a été plus difficile à réaliser, était l’amélioration de l’outil d’extraction des éléments utiles à l’aide, non pas de systèmes experts, mais d’algorithmes de machine learning. Quelques résultats ont pu être obtenus, notamment pour ce qui concerne l’exclusion des décisions qui n’avaient pas d’intérêt et pour l’identification des faits générateurs. Cependant, comme les magistrates interrogées le relèvent, la limite au développement de l’outil algorithmique était l’absence d’un « jeu de données d’entraînement fiable » pour entraîner l’algorithme, car les données étaient trop peu nombreuses.

In fine, le projet DataJust visait à pallier deux manques : celui d’un référentiel national à la fois officiel et fiable et celui d’un outil susceptible de discipliner l’open data des décisions de justice judiciaire en construction. Dans les deux cas, il s’agissait de construire un outil d’information à partir de la base de données constituées grâce au décret de mars 2020, capable d’être utilisé souplement à partir de critères propres à la matière et susceptible d’être employé à la fois par les acteurs professionnels et par les justiciables. Si un objectif secondaire visait, à l’origine, l’évaluation prospective et rétrospective des politiques publiques en matière de réparation des préjudices corporels, c’est véritablement cette idée de construire un outil informatif, indicatif qui guidait le projet DataJust – à rebours de l’idée qu’il avait vocation à réactiver le spectre un peu endormi d’une justice prédictive quantifiant des chances de succès ou préjugeant des espèces sur la base de corrélations.

3.     DataJust : les menaces fantômes ?

Deux catégories d’éléments ont conduit à l’interruption du projet DataJust. Premièrement, la supervision humaine très lourde nécessite des ressources humaines conséquentes ce que ne pouvait assumer le Ministère de la Justice. Deuxièmement, le contentieux des dommages corporels comporte une complexité intrinsèque évidente. Bien que l’objectif de DataJust était de proposer un référentiel unique, le projet utilisait comme grille de lecture la nomenclature Dinthilhac. Quelques éléments de description de cette nomenclature permettent de comprendre les difficultés techniques auxquelles les data scientists ont fait face. Cette nomenclature contient 30 postes de préjudices, dont 20 sont répartis entre deux catégories de préjudices, les préjudices patrimoniaux et extra-patrimoniaux, elles-mêmes divisées en deux sous-catégories de préjudices les préjudices temporaires et permanents. Ce qu’il faut comprendre c’est que l’algorithme doit intégrer les distinctions horizontales entre les différentes catégories et verticales entre les sous-catégories et les catégories pour les postes de préjudices concernés. Une autre difficulté est celle, déjà évoquée, du jeu de données d’entraînement peu fiable. Un grand nombre de décisions, dont l’échantillon de départ est réduit à celui des décisions rendues en appel en matière de contentieux des préjudices corporels des années 2017, 2018 et 2019, ont été écartées car n’étaient pas exploitables par l’algorithme. N’étaient retenues que les décisions relatives à une réparation intégrale des victimes pour refléter une réalité à laquelle peuvent se fier les utilisateurs du référentiel. C’est donc la conjonction d’un jeu de données d’entraînement peu fiable, une complexité intrinsèque relative au contentieux concerné et un coût humain trop important qui a empêché la réalisation des objectifs poursuivis par DataJust.

L’interruption du projet DataJust laisse donc planer un certain nombre de questions, dont la principale a trait au futur des données à caractère personnel collectées, traitées et exploitées. Malgré une instruction menée suite à des demandes émanant du milieu universitaire possibilité de les « sauver » et faute de reconduction du délai de deux ans accordés par le décret de mars 2020, ces données devraient être détruites.

Plus généralement, l’interruption de ce projet interroge sur d’éventuelles autres expérimentations. Ici encore, difficile à ce stade de répondre franchement. Si le projet « Open Justice» , puis « L.A.B.E.L » , ont effectivement abouti à la mise en place d’un outil opérationnel de pseudonymisation et d’occultation des décisions aujourd’hui versées en open data et qu’il n’y a donc pas de conclusion à tirer de l’interruption du projet DataJust en termes de faisabilité technique, il faut admettre que le signal envoyé n’est guère positif. Comme pour beaucoup d’autres défis auxquels la justice fait face, les questions théoriques et techniques cèdent le pas devant l’aspect financier et la question du financement de nouveaux travaux et de nouvelles expérimentations.

4.     DataJust : le dernier projet public d’IA dans le domaine de la justice ?

Quelles leçons faut-il tirer du projet DataJust ? Sans doute une certaine humilité et un certain réalisme face aux promesses parfois fantaisistes des LegalTechs qui ont, par le passé, eu tendance à annoncer une révolution du droit par la technologie qui non seulement n’a pas encore eu lieu, mais qui devra encore attendre quelques temps. Quand bien même l’interruption du projet DataJust n’est pas liée à une quelconque impossibilité technique de créer des outils susceptibles d’exploiter les données de jurisprudence progressivement mises à disposition du public, il convient de rester prudent quant à ce qu’il est, effectivement, possible de créer à court et moyen terme. Si l’équipe travaillant sur ce projet a pu parvenir à un certain nombre de réussites, deux ans n’ont guère suffi à atteindre un début d’opérationnalité générale de l’outil.

DataJust doit-il alors être hissé au rang des grands échecs de la grande transition numérique voulue par l’État pour ses administrations publiques ? La réponse n’est pas évidente et appelle à une analyse prudente des apports du projet DataJust qui reste d’ordre expérimental et prospectif. C’est d’ailleurs comme cela qu’est pensé le programme EIG qui en a permis l’élaboration. La durée des projets développés dans le cadre d’EIG est de 10 mois ce qui impose une limite de temps dès l’origine, pour les administrations publiques. Sur ce point il serait peut-être opportun de réfléchir à comment pérenniser des projets prometteurs pour qu’ils ne soient pas rétrogradés dans l’échelle des priorités du Ministère de la Justice à un stade trop précoce. Dans le cadre d’EIG nous avons pu voir que le projet « L.A.B.E.L » – promotion 4 – était le continuum du projet « Open Justice » – promotion 3. Il s’agit là d’un exemple de réussite. Cependant, ces projets étaient davantage réalisables sur une courte période en raison de leur « simplicité » technique, ce qui n’étaient pas le cas de DataJust dont la complexité était supérieure, tant d’un point de vue quantitatif que qualitatif.

Cela étant, il ne s’agit pas non plus de rejoindre le camp de ceux qui se réjouissent avec un cynisme relativement stérile de cette interruption – et pour au moins deux raisons. Tout d’abord parce que malgré son interruption, DataJust constitue la première pierre à l’édifice transition numérique du service public de la justice opérée grâce à la data science. Ce projet montre que le traitement algorithmique des décisions de justice et des données qu’elles contiennent peut contribuer à une meilleure information des justiciables et des personnes intéressées par un contentieux spécifique. Deux remarques peuvent être faites à cet égard. La première est que la catégorisation des données de jurisprudence contenues dans les décisions de justice est une étape nécessaire et importante dans cette perspective, cependant, la problématique de l’insuffisance d’un jeu de données d’entrainement reste difficile à résoudre. Les magistrates interrogées relèvent à cet égard que le projet DataJust avait été lancé très peu de temps après la consécration de l’open data des décisions de justice, or, l’open data des décisions d’appel ne prévoyait d’être effectif qu’en avril 2022. La seconde, est que les initiatives de data science appliquées aux décisions de justice, si elles ont vocation à se multiplier, seront spécifiques à certaines catégories de contentieux d’intérêt. Une fois opérationnels, il faudra prévoir des documents utiles à la compréhension par le non professionnel du droit, de ces outils, qui devront demeurer accessibles à tous. S’ils s’adressent à la fois aux justiciables et aux professionnels du droit il faudra les construire et les penser comme tels pour éviter l’appropriation par le secteur privé de l’exercice pédagogique d’explication. 

À ce titre, et c’est là la seconde raison pour laquelle il ne s’agit pas de se réjouir du destin du projet DataJust, son interruption ne sonne pas la fin du développement de référentiels et d’outils plus ambitieux, et donc potentiellement plus dangereux — il ne sonne que la fin, temporaire ou définitive, du développement d’outils d’analyse automatisée des décisions de justice (hors outils de pseudonymisation) sous la supervision et sous le contrôle du Ministère et, surtout, de magistrats. Difficile d’y voir là une bonne nouvelle, quand les risques les plus immédiatement soulevés par ces outils sont des risques techniques liés à la manipulation, la structuration et l’exploitation des données d’apprentissage des algorithmes sur lesquels ils sont bâtis. Dans l’attente du règlement européen sur l’intelligence artificielle et en l’absence de mécanismes de réglementation ou certification de ces outils, l’initiative privée n’est finalement contenue que par ses propres règles et ses propres chartes éthiques, à l’efficacité aussi fragile que leur normativité. Ce que l’interruption de ce projet sonne aussi, c’est l’abandon du développement d’un outil certes fiable, mais encore et surtout, gratuit, ouvert au public qui pourrait potentiellement évaluer son code source et participant du service public de la justice. À cet égard, le projet DataJust connaît le même destin que le projet de mise en place d’une plateforme de médiation et de conciliation en ligne publique et gratuite, avorté bien plus tôt du fait des investissements « considérables » nécessaires. Peu de raison de se réjouir, donc, de l’interruption d’un beau projet d’initiative publique, à la fois expérimental et ambitieux et surtout conduit sur la base d’une collaboration entre les acteurs directs de la justice et les professionnels de l’informatique. Sauf à se réjouir, en parallèle, de voir des considérations financières et humaines constituer un frein à la transition numérique du service public de la justice, dans un contexte où les Legaltechs monopolisent très clairement le marché des services juridiques.

Ce contenu a été mis à jour le 25 octobre 2022 à 9 h 20 min.