IA multilingue per la Svizzera: perché quattro lingue non sono un lusso

Perché i sistemi IA per la Svizzera devono padroneggiare nativamente tedesco, francese, italiano e inglese. Le sfide tecniche della ricerca e del retrieval multilingue.

La Svizzera ha quattro lingue nazionali. Non è un dettaglio folcloristico, bensì una realtà giuridica e commerciale di cui ogni sistema IA deve tenere conto per essere utile in Svizzera. Uno strumento IA che comprende solo il tedesco è inutilizzabile per uno studio legale nella Svizzera romanda. Un sistema che conosce solo l’inglese manca la terminologia giuridica svizzera in tutte le lingue nazionali.

Ciononostante, la maggior parte dei fornitori di IA tratta il multilinguismo come una funzionalità secondaria. Un’interfaccia in tedesco con una traduzione automatica sotto. Oppure un sistema in inglese che “sa anche il tedesco”. Per la Svizzera questo non è sufficiente.

Il panorama linguistico svizzero in cifre

La distribuzione delle lingue nazionali in Svizzera non è uniforme. Circa il 63 percento della popolazione parla tedesco come lingua principale, il 23 percento francese, l'8 percento italiano e poco meno dell'1 percento romancio. L’inglese non è una lingua nazionale, ma è utilizzato come lingua di lavoro in molte aziende, soprattutto nei contesti internazionali.

Per le aziende attive su tutto il territorio svizzero, ciò significa che i loro clienti, mandanti e partner commerciali comunicano in almeno tre lingue. I contratti vengono redatti nella lingua del rispettivo Cantone. I documenti normativi esistono in tutte le lingue ufficiali. Le sentenze vengono pubblicate nella lingua del procedimento.

Perché la traduzione non basta

L’approccio più ovvio, ovvero dotare un sistema IA monolingue di uno strato di traduzione, fallisce nella pratica per tre problemi fondamentali.

La terminologia specialistica non è direttamente traducibile

I termini tecnici giuridici, finanziari e tecnici hanno sfumature di significato proprie in ogni lingua. Il tedesco “Vertragserfüllung” non è identico al francese “exécution du contrat”, sebbene entrambi i termini descrivano la stessa fattispecie. Le sottili differenze nell’uso, nel contesto giuridico e nella connotazione si perdono nella traduzione automatica.

Nel diritto svizzero questo problema è particolarmente acuto, poiché tutte e tre le versioni linguistiche di una legge federale hanno pari valore. Non esiste una “versione originale” né una “traduzione”. Quando un sistema IA effettua una ricerca normativa, deve trattare tutte e tre le versioni come fonti autonome e autorevoli, non come traduzioni reciproche.

Perdita di contesto nella traduzione

Un utente che pone una domanda in francese si aspetta una risposta che tenga conto del contesto giuridico francofono. Se il sistema traduce internamente la domanda in tedesco, ricerca fonti in tedesco e ritraduce la risposta in francese, il contesto si perde. La risposta potrebbe fare riferimento alla versione tedesca di una legge, mentre l’utente necessita di quella francese. Oppure potrebbe utilizzare termini comuni nella prassi della Svizzera tedesca, ma impiegati diversamente nella Svizzera romanda.

Perdita di qualità dovuta alla doppia elaborazione

Ogni passaggio di traduzione introduce errori. Se un sistema traduce l’input, lo elabora e poi ritraduce l’output, questi errori si accumulano. Il risultato è una risposta che può essere tecnicamente corretta, ma che risulta linguisticamente innaturale e tecnicamente imprecisa.

La sfida tecnica: cross-lingual retrieval

Per i sistemi IA basati sulla Retrieval-Augmented Generation (RAG), il multilinguismo rappresenta una sfida tecnica particolare. I sistemi RAG funzionano recuperando prima i documenti pertinenti da un database e generando poi una risposta sulla base di tali documenti. La qualità della risposta dipende direttamente dall’efficacia del retrieval.

Il problema degli embedding

La maggior parte dei sistemi di retrieval converte i testi in vettori numerici (embedding) e ricerca vettori simili. I modelli di embedding monolingui collocano “Vertrag” e “Contract” in regioni completamente diverse dello spazio vettoriale, sebbene significhino la stessa cosa. I modelli di embedding cross-linguali tentano di collocare termini semanticamente equivalenti in lingue diverse vicini tra loro. La qualità di questi modelli è notevolmente migliorata negli ultimi anni, ma non è ancora perfetta, specialmente per il linguaggio specialistico.

La questione dell’indicizzazione

Come si organizza un database che contiene documenti in più lingue? Esistono diversi approcci, ciascuno con vantaggi e svantaggi.

Indici separati per lingua. Ogni lingua ha il proprio indice di ricerca. Funziona bene all’interno di una lingua, ma fallisce per le ricerche interlinguistiche. Se un utente cerca in tedesco un tema la cui fonte più pertinente esiste in francese, il sistema non la trova.

Un unico indice multilingue. Tutte le lingue vengono riunite in un unico indice, utilizzando embedding multilingui. Ciò consente la ricerca interlinguistica, ma può ridurre la precisione all’interno di una singola lingua, poiché il modello deve scendere a compromessi tra le lingue.

Approcci ibridi. Una combinazione di indici specifici per lingua e indici interlinguistici, ponderati diversamente a seconda della richiesta. È l’approccio più impegnativo, ma anche il più performante.

La questione della generazione

Anche se il retrieval funziona perfettamente, il sistema IA deve generare la risposta nella lingua corretta e nello stile appropriato. I modelli linguistici moderni sono fondamentalmente multilingui, ma le loro prestazioni variano considerevolmente tra le lingue. La maggior parte dei modelli è stata addestrata prevalentemente con dati in inglese ed è più forte in inglese. Tedesco, francese e italiano sono supportati con qualità variabile.

Per le applicazioni svizzere si aggiunge il fatto che il tedesco standard svizzero si differenzia dal tedesco della Germania (nessuna Eszett, termini propri come “parkieren” invece di “parken”), il francese svizzero ha caratteristiche proprie e l’italiano svizzero diverge in parte dall’italiano standard.

Cosa deve offrire un sistema veramente multilingue

Sulla base delle sfide descritte, è possibile definire requisiti concreti che un sistema IA per la Svizzera deve soddisfare.

Supporto linguistico nativo. Il sistema deve elaborare ogni lingua nazionale in modo nativo, non tramite uno strato di traduzione. Una domanda in francese viene elaborata in francese, con fonti francofone, e la risposta viene fornita in francese naturale.

Ricerca cross-linguale. Il sistema deve trovare le fonti pertinenti indipendentemente dalla loro lingua. Se la migliore risposta a una domanda in tedesco si trova in una sentenza francese, il sistema deve trovarla e renderla accessibile all’utente.

Coerenza linguistica. La risposta deve essere redatta interamente nella lingua dell’utente. Le indicazioni delle fonti possono essere citate nella lingua originale, ma le spiegazioni devono essere nella lingua dell’utente.

Precisione terminologica. I termini tecnici devono essere utilizzati correttamente in ogni lingua. Non la traduzione più approssimativa, bensì il termine consolidato nella rispettiva lingua specialistica.

Varianti linguistiche svizzere. Il sistema deve comprendere e produrre il tedesco standard svizzero. “ss” invece di “ß”, terminologia svizzera, convenzioni svizzere.

La base di dati

L’IA multilingue per la Svizzera richiede anche una base di dati multilingue. Per la ricerca giuridica ciò significa: leggi federali in tutte e tre le lingue ufficiali, leggi cantonali nella rispettiva lingua del Cantone, sentenze del Tribunale federale nella lingua del procedimento, sentenze dei tribunali cantonali nella lingua locale.

La piattaforma Enclava di Mont Virtua comprende 27'795 leggi e oltre 1,1 milioni di sentenze in tutte le lingue ufficiali. La banca dati viene aggiornata continuamente e copre Confederazione e Cantoni. Il sistema di retrieval è stato sviluppato specificamente per le esigenze multilingui svizzere, con indici di ricerca ibridi che offrono sia precisione specifica per lingua sia completezza interlinguistica.

Perché questo è importante per le aziende

Il multilinguismo non è un “nice-to-have” per le aziende svizzere. È un requisito di business. Uno studio legale a Zurigo che segue un caso a Ginevra necessita di fonti in lingua francese. Un fornitore di servizi finanziari con clienti in tutte le regioni linguistiche deve comprendere i requisiti normativi in tutte le lingue. Un ufficio fiduciario che serve mandanti della Romandia e della Svizzera tedesca necessita di uno strumento che padroneggi entrambe le lingue in modo equivalente.

I sistemi IA che non soddisfano questo requisito sono incompleti per il mercato svizzero. Possono funzionare per singole regioni, ma non riescono a coprire l’ampiezza di cui le aziende svizzere hanno bisogno.

Quattro lingue non sono un lusso. Sono un prerequisito.

Se il multilinguismo è rilevante per la vostra azienda, contattateci all’indirizzo [email protected] o visitate la nostra pagina di contatto.

Torna al blog