Le droit suisse est public. Chaque loi fédérale figure sur Fedlex. Chaque recueil cantonal de lois est en ligne. De nombreuses décisions judiciaires sont publiées sur les sites des tribunaux. Les données sont là. Mais «là» et «utilisable» sont deux choses différentes.
En trois semaines, nous avons construit une base de données comprenant 27 795 lois suisses, 2,02 millions d’unités législatives structurées et 1,14 million de décisions judiciaires de 115 tribunaux. Cet article décrit le chemin de la source officielle à la base de connaissances consultable.
Le point de départ : ce que la Confédération met à disposition
La Confédération suisse exploite Fedlex, l’une des meilleures plateformes juridiques ouvertes d’Europe. Le Recueil systématique du droit fédéral (RS) est entièrement numérisé et interrogeable via un point d’accès SPARQL. Le format est Akoma Ntoso, un standard XML international pour les textes législatifs.
Cela signifie : chaque article, chaque alinéa, chaque historique de modification est lisible par machine. Pas en PDF, mais en XML structuré avec un balisage sémantique pour les renvois, les définitions et les éléments de structure.
Étape 1 : extraction des données
La première tâche consistait à extraire toutes les lois et ordonnances fédérales de Fedlex. Via le point d’accès SPARQL, nous avons interrogé tous les numéros RS et téléchargé les documents Akoma Ntoso correspondants.
Pour les lois cantonales, le chemin était moins uniforme. Chacun des 26 cantons exploite son propre recueil législatif. Certains (Zurich, Berne, Vaud) proposent des API structurées. D’autres publient exclusivement en PDF. Un extracteur distinct a dû être développé pour chaque canton.
Au final : 27 795 lois provenant des 26 cantons, de la Confédération et d’organismes intercantonaux. Cela comprend : lois fédérales, ordonnances fédérales, lois cantonales, ordonnances cantonales, concordats intercantonaux et traités.
Étape 2 : structuration en unités législatives
Une loi dans son ensemble est trop volumineuse pour les applications d’IA. Un article isolé est parfois trop petit (contexte manquant). L’unité pertinente est l’«unité législative» : une section structurée avec son propre focus thématique.
Nous avons décomposé les 27 795 lois en 2,02 millions d’unités législatives. Chaque unité contient :
- Le texte intégral
- La position hiérarchique dans la loi (Livre > Titre > Chapitre > Section > Article > Alinéa)
- Le numéro RS et la référence au paragraphe
- La langue (DE, FR, IT, EN)
- Les métadonnées : entrée en vigueur, dernière modification, statut
Cette granularité est cruciale. Lorsqu’une avocate cherche «délai de congé pour un contrat de travail de durée indéterminée», elle doit trouver l’art. 335c CO, pas l’intégralité du Code des obligations.
Étape 3 : décisions judiciaires
Les tribunaux suisses publient leurs décisions sur différentes plateformes. Le Tribunal fédéral sur bger.ch. Le Tribunal administratif fédéral sur bvger.ch. Les tribunaux cantonaux sur entscheidsuche.ch ou leurs propres portails.
Nous avons systématiquement collecté toutes les décisions disponibles. Résultat : 1,14 million de décisions de 115 tribunaux. Les arrêts du Tribunal fédéral sont complets. Les arrêts du Tribunal administratif fédéral sont complets (91 582 décisions, zéro ébauche). La couverture cantonale varie selon les cantons.
Chaque décision a été structurée avec : tribunal, date, numéro de dossier, type de procédure, lois appliquées, renvois à d’autres décisions et texte intégral.
Étape 4 : le graphe de citations
Les lois citent d’autres lois. Les décisions citent des lois. Les décisions citent d’autres décisions. Ces renvois forment un réseau : le graphe de citations.
Nous avons extrait 1,42 million d’arêtes de citation. Chaque arête relie une source (p. ex. un arrêt du Tribunal fédéral) à une cible (p. ex. un article du CO ou une décision antérieure). Ce réseau rend visible la manière dont le droit suisse est interconnecté.
Un exemple concret : l’art. 58 LIFD (impôt sur le bénéfice des personnes morales) est cité par 842 arrêts du Tribunal fédéral. 23 décisions cantonales y font référence au cours des deux dernières années. La fréquence des citations révèle quels articles sont contestés en pratique. Une fréquence décroissante peut indiquer qu’une question juridique est résolue. Une fréquence croissante signale l’émergence de nouveaux conflits.
Aucune autre plateforme en Suisse ne propose cette analyse.
Étape 5 : embedding et recherche sémantique
La recherche par mots-clés a une faiblesse fondamentale : elle ne trouve que ce qui est écrit exactement comme on le recherche. «Résiliation du contrat de travail» ne trouve pas «dissolution du rapport de service», bien que les deux signifient la même chose.
La recherche sémantique résout ce problème. Chacune des 2,02 millions d’unités législatives et chacune des 1,14 million de décisions a été convertie en vecteur (embedding). Ces vecteurs représentent le contenu du texte, pas sa formulation.
Total : 3,13 millions d’embeddings. Résultat : une recherche «l’employeur doit continuer à payer le salaire en cas de maladie» trouve l’art. 324a CO, même si cette formulation exacte n’apparaît nulle part dans le texte légal.
Étape 6 : multilinguisme
Le droit suisse existe en quatre langues. Les trois langues officielles (allemand, français, italien) sont juridiquement équivalentes. De nombreuses décisions n’existent que dans une seule langue.
Notre base de données couvre : 1,5 million d’unités législatives en allemand, 232 000 en français, 235 000 en italien et 45 000 en anglais. La recherche fonctionne de manière translinguistique : une question en allemand peut trouver une décision pertinente en français, si cette décision contient la meilleure réponse.
Ce que cela signifie pour la pratique
La combinaison de données structurées, du graphe de citations et de la recherche sémantique transforme la recherche juridique. Au lieu de passer une heure à affiner des mots-clés, l’avocate décrit son problème en langage naturel. La plateforme trouve les lois pertinentes, les décisions et les connexions entre elles.
Chaque résultat renvoie à la source officielle. Pas d’hallucinations. Pas de suppositions. Si la réponse ne se trouve pas dans les données, le système le dit.
Toutes les données proviennent de sources gouvernementales officielles et sont mises à jour chaque nuit. Pas d’intermédiaire. Pas d’éditeur. La source elle-même.
Informations complémentaires : montvirtua.com
Cet article est publié à titre informatif et ne constitue pas un conseil juridique.