Un développeur a entraîné un modèle de reconnaissance d’entités nommées (NER) sur près de 34 700 extraits issus de 33 000 jugements de la Cour suprême indienne, couvrant la période de 1950 à 2024. Ce modèle, baptisé en_legal_ner_ind_trf v0.1, utilise une version affinée du modèle InLegalBERT et identifie 13 types d’entités.
Le modèle atteint un score F1 global de 78,67 %. Il se distingue particulièrement dans la reconnaissance des citations de jurisprudence (CASE_CITATION), avec un score F1 de 97,76 %. Ce résultat dépasse de 17 points celui du modèle OpenNyAI PRECEDENT, la seule référence antérieure existante.
Ce nouveau modèle vise à pallier l’absence de solution maintenue pour l’analyse des textes juridiques indiens, notamment ceux antérieurs à 1990, souvent affectés par la qualité de l’OCR. Le code est disponible sous licence Apache 2.0.
Source : Reddit r/MachineLearning