Des chercheurs ont développé une série d’IA multimodales open source formées avec peu de données, mais qui seraient aussi efficaces que les meilleurs modèles actuels, tels que ceux d’OpenAI. Leur performance résiderait notamment dans la qualité et l’organisation des données, contrairement aux grands modèles formés à partir d’énormes quantités d’informations récupérées sans distinction sur internet. Cela permettrait de réduire les coûts d’entraînement tout en améliorer l’évolutivité, avec en plus le côté open source.
Les IA multimodales se distinguent de celles unimodales par leur capacité à traiter et à interpréter simultanément plusieurs types de données, telles que le texte, les images et l’audio. Les modèles les plus performants du marché, tels que ceux d’OpenAI et de Google, sont dits « propriétaires ». Cela signifie que l’accès à leur code source est limité à l’entreprise, pour des raisons soit de secret commercial, soit de propriété intellectuelle. Le développement est ainsi contrôlé par un seul acteur, principalement dans un but lucratif.