Le choix entre modèles d’IA open source et propriétaires n’est pas une décision purement technique pour les entreprises réglementées. Il a des répercussions sur la souveraineté des données, la conformité, les coûts et l’indépendance stratégique à long terme. Pourtant, le débat se réduit souvent à « l’open source est moins cher » ou « les modèles propriétaires sont meilleurs ». Les deux affirmations sont trop simplistes.
Cet article propose une comparaison objective des deux approches, spécifiquement pour une utilisation dans des secteurs réglementés tels que le droit, la finance et la santé.
Ce que signifie l’open source pour les modèles d’IA
Le terme « open source » est utilisé différemment dans le domaine de l’IA par rapport au développement logiciel traditionnel. En développement logiciel classique, open source signifie que le code source est librement disponible, consultable, modifiable et redistribuable. Pour les modèles d’IA, la situation est plus complexe.
Les modèles entièrement ouverts mettent à disposition les poids du modèle, le code d’entraînement et, idéalement, les données d’entraînement. Cela permet la reproductibilité complète et l’adaptation du modèle. Certains modèles de la famille Llama de Meta ou les modèles Mistral en sont des exemples.
Les modèles partiellement ouverts mettent à disposition les poids du modèle, mais pas le code d’entraînement ni les données d’entraînement. Cela permet l’utilisation et le fine-tuning du modèle, mais pas la reproduction complète du processus d’entraînement.
Les modèles propriétaires comme GPT d’OpenAI ou Claude d’Anthropic ne sont accessibles que via des API. Les poids du modèle, le code d’entraînement et les données d’entraînement ne sont pas publics. L’utilisateur envoie des données à l’API et reçoit des résultats en retour.
Cette distinction est pertinente pour les secteurs réglementés, car elle influence directement le degré de contrôle qu’une entreprise exerce sur le système d’IA.
Auditabilité
Les secteurs réglementés sont soumis à des autorités de surveillance ayant le droit d’examiner les systèmes utilisés. Pour les systèmes d’IA, la question se pose : le système peut-il être audité ?
Avantage de l’open source. Lorsque les poids du modèle et le code sont disponibles, un auditeur peut examiner le système sur le plan technique. Il peut retracer comment le modèle a été entraîné, quelles données ont été utilisées et comment il prend ses décisions. Pour les secteurs réglementés exigeant la transparence envers les autorités de surveillance, c’est un avantage considérable.
Limitation des modèles propriétaires. Pour les modèles propriétaires, un audit technique par des instances externes n’est pas possible. Le fournisseur peut présenter des certifications (SOC 2, ISO 27001), mais le fonctionnement interne du modèle reste une boîte noire. Pour certaines exigences réglementaires, en particulier dans le domaine financier sous surveillance de la FINMA, cela peut poser problème.
En pratique, la pertinence de l’auditabilité dépend de la réglementation spécifique. Toutes les autorités de surveillance n’exigent pas un accès au code du modèle. Mais la tendance va vers plus de transparence, pas moins. Le AI Act européen, qui concerne également les entreprises suisses ayant des activités dans l’UE, pose des exigences explicites en matière de documentation et de traçabilité des systèmes d’IA.
Souveraineté des données
Pour les entreprises suisses des secteurs réglementés, la question de la souveraineté des données est centrale. Où les données sont-elles traitées ? Qui y a potentiellement accès ?
Avantage de l’open source. Les modèles open source peuvent être exploités sur sa propre infrastructure. Une entreprise suisse peut installer et faire fonctionner un modèle Llama ou Mistral sur un serveur suisse. Aucune donnée ne quitte la Suisse. Aucune juridiction étrangère n’a de possibilité d’accès. Pour les études d’avocats devant préserver le secret professionnel selon l’art. 13 LLCA, ou pour les prestataires de services financiers sous surveillance de la FINMA, c’est la voie la plus sûre.
Limitation des modèles propriétaires. Les modèles propriétaires exigent typiquement que les données soient envoyées à l’API du fournisseur. Cela signifie que les données sont traitées sur l’infrastructure du fournisseur. Pour les fournisseurs américains, elles sont donc potentiellement soumises au CLOUD Act. Même si le fournisseur utilise des serveurs européens, le risque juridique persiste tant que le fournisseur est soumis au droit américain.
Il existe des formes intermédiaires : certains fournisseurs propriétaires proposent des instances dédiées ou un déploiement sur site. Ces options sont cependant coûteuses et pas toujours disponibles.
Performance
La performance brute des modèles est un domaine dans lequel les modèles propriétaires ont traditionnellement eu l’avantage. Cela évolue, mais la situation reste nuancée.
Avantage propriétaire. Les plus grands modèles propriétaires (GPT-4, Claude) comptent toujours parmi les modèles de langage les plus performants. Ils disposent de fenêtres de contexte plus larges, d’un meilleur suivi des instructions et obtiennent les meilleurs résultats dans de nombreux benchmarks.
La montée en puissance de l’open source. Les modèles open source comme Llama 3, Mistral et leurs successeurs ont considérablement réduit l’écart au cours des deux dernières années. Pour de nombreuses applications pratiques, en particulier lorsque le modèle est affiné avec des données spécifiques au domaine, les modèles open source fournissent des résultats comparables.
L’option du fine-tuning. Un avantage décisif des modèles open source est la possibilité du fine-tuning : le modèle est entraîné avec des données spécifiques au domaine et optimisé pour le cas d’utilisation particulier. Un modèle généraliste spécialement entraîné sur le droit suisse peut, dans ce domaine, surpasser un modèle propriétaire plus grand mais généraliste.
Pour les secteurs réglementés, la performance dans des domaines spécifiques est plus importante que les résultats de benchmarks généraux. Un modèle entraîné sur des données juridiques suisses sera plus performant en recherche juridique suisse qu’un modèle généraliste, indépendamment de sa performance globale.
Coûts
La structure de coûts diffère fondamentalement entre les deux approches.
Les modèles propriétaires sont typiquement facturés à l’usage : par token, par requête ou sous forme d’abonnement mensuel. Les coûts sont prévisibles et la barrière à l’entrée est basse. En revanche, les coûts augmentent linéairement avec l’utilisation. Une entreprise traitant des milliers de requêtes par jour paie des frais récurrents considérables.
Les modèles open source nécessitent un investissement en infrastructure : serveurs avec des GPU performants, stockage, connectivité réseau. L’investissement initial est plus élevé, mais les coûts récurrents sont nettement plus bas, puisqu’aucun frais d’utilisation n’est facturé. Au-delà d’un certain volume d’utilisation, l’auto-hébergement devient plus économique que l’utilisation d’API.
Pour les petites entreprises ou les équipes qui utilisent l’IA occasionnellement, les API propriétaires sont souvent plus rentables. Pour les entreprises avec un volume d’utilisation élevé ou des exigences de sécurité particulières, l’auto-hébergement de modèles open source peut être le meilleur choix.
Indépendance stratégique
Un aspect souvent négligé est la dépendance stratégique qui accompagne les modèles propriétaires.
Dépendance fournisseur. Celui qui construit ses processus sur un modèle propriétaire dépend du fournisseur. Les hausses de prix, les modifications des conditions d’utilisation ou l’arrêt d’un modèle peuvent avoir des répercussions considérables. Le passage à un autre fournisseur nécessite des adaptations des prompts, des workflows et des intégrations.
Risques géopolitiques. Les plus grands fournisseurs d’IA propriétaires sont des entreprises américaines. Les évolutions géopolitiques, les restrictions à l’exportation ou les développements réglementaires aux États-Unis peuvent influencer l’accès à ces services. Pour les entreprises suisses des secteurs réglementés, qui doivent pouvoir compter sur la disponibilité à long terme de leurs outils, c’est un risque pertinent.
Résilience de l’open source. Les modèles open source ne peuvent pas être « désactivés ». Une fois téléchargés et installés sur sa propre infrastructure, ils restent disponibles, indépendamment des décisions du développeur initial. Cela offre une résilience que les modèles propriétaires ne peuvent pas garantir.
L’approche pragmatique
En pratique, la décision est rarement binaire. L’approche la plus pragmatique pour les entreprises réglementées combine les forces des deux mondes.
Les données sensibles sur sa propre infrastructure. Pour le traitement de données confidentielles de mandants, de clients ou de patients, les modèles open source sur une infrastructure suisse sont adaptés. Aucune donnée ne quitte le contrôle de l’entreprise.
Les modèles propriétaires pour les tâches non critiques. Pour les tâches générales sans données sensibles, comme les résumés internes de documents publics ou le brainstorming, les API propriétaires peuvent être utilisées si la structure de coûts est adaptée.
Les plateformes intégrant les deux approches. La solution la plus efficace est une plateforme qui utilise différents modèles selon les exigences. La plateforme Enclava de Mont Virtua suit cette approche : hébergement suisse, contrôle sur le traitement des données et la flexibilité d’utiliser le meilleur modèle pour chaque cas d’utilisation.
Recommandation pour les secteurs réglementés
Pour les entreprises des secteurs réglementés, nous recommandons les lignes directrices suivantes :
Vérifiez si votre autorité de surveillance pose des exigences spécifiques en matière d’auditabilité des systèmes d’IA. Si c’est le cas, privilégiez les modèles open source ou les fournisseurs offrant une transparence complète.
Traitez les données sensibles exclusivement sur une infrastructure soumise au droit suisse. Cela plaide en faveur de l’auto-hébergement de modèles open source ou de fournisseurs dont la juridiction suisse est attestée.
Évaluez le coût total, pas seulement le coût d’entrée. Prenez en compte l’infrastructure, le personnel, la maintenance et la scalabilité pour les solutions open source, ainsi que les frais d’utilisation à long terme pour les modèles propriétaires.
Évitez une dépendance excessive envers un seul fournisseur. Conservez la possibilité de changer de modèle sans avoir à reconstruire l’ensemble de votre infrastructure.
Si vous planifiez une évaluation et souhaitez savoir quelle approche convient le mieux à votre entreprise, contactez-nous à [email protected] ou visitez notre page de contact.