La Suisse compte quatre langues nationales. Ce n’est pas un détail folklorique, mais une réalité juridique et commerciale que tout système d’IA doit prendre en compte s’il veut être utile en Suisse. Un outil d’IA qui ne comprend que l’allemand est inutilisable pour une étude en Romandie. Un système qui ne maîtrise que l’anglais passe à côté de la terminologie juridique suisse dans toutes les langues nationales.
Pourtant, la plupart des fournisseurs d’IA traitent le multilinguisme comme une fonctionnalité secondaire. Une interface en allemand avec une traduction automatique en arrière-plan. Ou un système en anglais qui « parle aussi allemand ». Ce n’est pas suffisant pour la Suisse.
Le paysage linguistique suisse en chiffres
La répartition des langues nationales en Suisse n’est pas uniforme. Environ 63 pour cent de la population parle l’allemand comme langue principale, 23 pour cent le français, 8 pour cent l’italien et près de 1 pour cent le romanche. L’anglais n’est pas une langue nationale, mais est utilisé comme langue de travail dans de nombreuses entreprises, en particulier dans les contextes internationaux.
Pour les entreprises actives dans toute la Suisse, cela signifie que leurs clients, mandants et partenaires commerciaux communiquent dans au moins trois langues. Les contrats sont rédigés dans la langue du canton concerné. Les documents réglementaires existent dans toutes les langues officielles. Les décisions de justice sont publiées dans la langue de la procédure.
Pourquoi la traduction ne suffit pas
L’approche consistant à doter un système d’IA monolingue d’une couche de traduction échoue en pratique pour trois raisons fondamentales.
La terminologie spécialisée n’est pas directement traduisible
Les termes techniques juridiques, financiers et techniques possèdent des nuances de sens propres à chaque langue. Le terme allemand « Vertragserfüllung » n’est pas identique au français « exécution du contrat », bien que les deux décrivent le même état de fait. Les différences subtiles d’usage, de contexte juridique et de connotation se perdent lors d’une traduction automatique.
En droit suisse, ce problème est particulièrement aigu, car les trois versions linguistiques d’une loi fédérale sont équivalentes. Il n’y a pas de « version originale » ni de « traduction ». Lorsqu’un système d’IA effectue une recherche législative, il doit traiter les trois versions comme des sources autonomes faisant autorité, et non comme des traductions l’une de l’autre.
La perte de contexte lors de la traduction
Un utilisateur posant une question en français s’attend à une réponse tenant compte du contexte juridique francophone. Si le système traduit la question en allemand en interne, recherche dans des sources allemandes puis retraduit la réponse en français, le contexte se perd. La réponse peut référencer la version allemande d’une loi alors que l’utilisateur a besoin de la version française. Ou elle peut employer des termes courants dans la pratique de Suisse alémanique, mais utilisés différemment en Romandie.
La dégradation de qualité par le double traitement
Chaque étape de traduction introduit des erreurs. Si un système traduit l’entrée, la traite, puis retraduit la sortie, ces erreurs s’accumulent. Le résultat est une réponse qui peut être techniquement correcte, mais qui paraît linguistiquement artificielle et manque de précision technique.
Le défi technique : le retrieval interlangue
Pour les systèmes d’IA reposant sur la génération augmentée par récupération (RAG), le multilinguisme représente un défi technique particulier. Les systèmes RAG fonctionnent en récupérant d’abord des documents pertinents dans une base de données, puis en générant une réponse à partir de ces documents. La qualité de la réponse dépend directement de la qualité de la récupération.
Le problème des embeddings
La plupart des systèmes de récupération convertissent les textes en vecteurs numériques (embeddings) et recherchent des vecteurs similaires. Les modèles d’embedding monolingues placent « Vertrag » et « contrat » dans des régions totalement différentes de l’espace vectoriel, bien qu’ils signifient la même chose. Les modèles d’embedding interlangues tentent de placer les termes sémantiquement équivalents dans différentes langues à proximité les uns des autres. La qualité de ces modèles s’est considérablement améliorée ces dernières années, mais ils ne sont pas encore parfaits, en particulier pour le vocabulaire spécialisé.
La question de l’indexation
Comment organiser une base de données contenant des documents en plusieurs langues ? Il existe différentes approches, chacune avec ses avantages et inconvénients.
Des index séparés par langue. Chaque langue dispose de son propre index de recherche. Cela fonctionne bien au sein d’une langue, mais échoue pour les requêtes interlangues. Si un utilisateur cherche en allemand un sujet dont la source la plus pertinente existe en français, le système ne la trouvera pas.
Un index multilingue commun. Toutes les langues sont rassemblées dans un seul index, à l’aide d’embeddings multilingues. Cela permet la recherche interlangue, mais peut réduire la précision au sein d’une même langue, car le modèle doit faire des compromis entre les langues.
Les approches hybrides. Une combinaison d’index spécifiques par langue et d’index interlangues, pondérés différemment selon la requête. C’est l’approche la plus complexe, mais aussi la plus performante.
La question de la génération
Même si la récupération fonctionne parfaitement, le système d’IA doit générer la réponse dans la bonne langue et avec le bon style. Les modèles de langage modernes sont fondamentalement multilingues, mais leurs performances varient considérablement d’une langue à l’autre. La plupart des modèles ont été entraînés principalement avec des données en anglais et sont plus performants dans cette langue. L’allemand, le français et l’italien sont supportés avec des niveaux de qualité variables.
Pour les applications suisses, il faut ajouter que l’allemand standard suisse se distingue de l’allemand d’Allemagne (pas d’Eszett, terminologie propre comme « parkieren » au lieu de « parken »), que le français de Suisse possède ses propres caractéristiques et que l’italien de Suisse s’écarte partiellement de l’italien standard.
Ce qu’un système véritablement multilingue doit offrir
Sur la base des défis décrits, on peut définir des exigences concrètes qu’un système d’IA pour la Suisse doit remplir.
Support linguistique natif. Le système doit traiter chaque langue nationale de manière native, sans couche de traduction. Une question en français est traitée en français, avec des sources francophones, et la réponse est produite dans un français naturel.
Recherche interlangue. Le système doit trouver les sources pertinentes indépendamment de leur langue. Si la meilleure réponse à une question posée en allemand se trouve dans un arrêt de justice en français, le système doit le trouver et le rendre accessible à l’utilisateur.
Cohérence linguistique. La réponse doit être rédigée intégralement dans la langue de l’utilisateur. Les références aux sources peuvent être citées dans leur langue originale, mais les explications doivent être fournies dans la langue de l’utilisateur.
Précision terminologique. Les termes techniques doivent être utilisés correctement dans chaque langue. Pas la traduction approximative, mais le terme établi dans le vocabulaire spécialisé concerné.
Variantes suisses. Le système doit comprendre et produire le Hochdeutsch suisse. « ss » au lieu de « ß », terminologie suisse, conventions suisses.
La base de données
L’IA multilingue pour la Suisse nécessite également une base de données multilingue. Pour la recherche juridique, cela signifie : lois fédérales dans les trois langues officielles, lois cantonales dans la langue du canton concerné, arrêts du Tribunal fédéral dans la langue de la procédure, décisions des tribunaux cantonaux dans la langue locale.
La plateforme Enclava de Mont Virtua comprend 27'795 lois et plus de 1,1 million de décisions de justice dans toutes les langues officielles. La base de données est continuellement mise à jour et couvre la Confédération et les cantons. Le système de retrieval a été développé spécifiquement pour les exigences multilingues suisses, avec des index de recherche hybrides offrant à la fois la précision par langue et l’exhaustivité interlangue.
Pourquoi c’est important pour les entreprises
Le multilinguisme n’est pas un « nice-to-have » pour les entreprises suisses. C’est une exigence commerciale. Une étude d’avocats à Zurich qui traite un dossier à Genève a besoin de sources francophones. Un prestataire de services financiers servant des clients dans toutes les régions linguistiques doit comprendre les exigences réglementaires dans toutes les langues. Une fiduciaire au service de mandants de Romandie et de Suisse alémanique a besoin d’un outil maîtrisant les deux langues à parts égales.
Les systèmes d’IA qui ne satisfont pas à cette exigence sont incomplets pour le marché suisse. Ils peuvent fonctionner pour des sous-régions, mais ne peuvent pas couvrir l’étendue dont les entreprises suisses ont besoin.
Quatre langues ne sont pas un luxe. Ce sont une condition préalable.
Si le multilinguisme est pertinent pour votre entreprise, contactez-nous à [email protected] ou visitez notre page de contact.