Récemment, la CTO d’OpenAI a déclaré que si certains métiers créatifs sont remplacés par l’IA, « c’est qu’ils ne devaient pas exister en premier lieu ». Des propos qui ont suscité l’indignation, surtout chez les professionnels du domaine. La situation risque de s’envenimer avec de nouvelles IA de génération de vidéos telles que Sora ou Gen-3 de Runway, qui puisent dans le vivier opaque qu’est le web pour leur entraînement. D’ailleurs, ce sujet est au cœur de nombreux débats depuis l’émergence même de l’IA générative, notamment concernant le droit d’auteur. Alors que les défenseurs des droits se battent pour obtenir un accord, le PDG de Microsoft AI ne semble pas s’en soucier. D’après lui, les contenus accessibles gratuitement sur le web peuvent être utilisés pour entraîner des intelligences artificielles sans nécessiter d’accord préalable de la part des créateurs.
Dans une interview avec le journaliste américain Andrew Ross Sorkin (CNBC) au festival « Ideas » d’Aspen, Mustafa Suleyman, PDG de Microsoft AI depuis le mois de mars, a donné sa définition personnelle de la propriété intellectuelle sur le web. En réponse à la question du journaliste sur le fait de savoir si oui ou non les entreprises d’IA volaient des contenus provenant du web pour entraîner leurs grands modèles de langage, Suleyman a déclaré : « Je pense qu’en ce qui concerne le contenu qui se trouve déjà sur le web ouvert, le contrat social de ce contenu depuis les années 90 est l’utilisation équitable ». Il a ajouté : « Tout le monde peut le copier, le recréer, le reproduire. C’est ce que l’on appelle le ‘freeware’, si l’on veut, et c’est ce que l’on a compris ».
Usage loyal ou vol ? OpenAI dans le collimateur de la justice
Microsoft AI pense ainsi que les contenus publiés et accessibles gratuitement en ligne appartiennent à tout le monde et peuvent ainsi être utilisés par les LLM. Pourtant, c’est loin d’être le cas. En effet, il est vrai que l’utilisation équitable (une défense juridique accordée par un tribunal) permet un usage des critiques, avis, recherches ou articles protégés par le droit d’auteur. En revanche, cela implique que le tribunal évalue ce qui a été copié dans le contenu publié, et si cela nuit ou non au titulaire du droit d’auteur. Pourtant, ce que les modèles d’IA font va au-delà de cette condition. D’autant plus qu’avec le nombre incalculable de contenus qu’ils brassent chaque jour, personne ne sait vraiment dans quelle mesure chaque œuvre sert dans l’alimentation des algorithmes concernés.
Suleyman reconnaît quand même qu’il y a une exception à la règle, qu’il appelle « la zone grise », et qui nécessite une évaluation par les tribunaux. Par zone grise, Suleyman décrit une catégorie distincte d’entreprises et d’organismes de presse déclarant de manière explicite qu’ils refusent une indexation de leurs contenus par les moteurs de recherche, notamment. « On se trouve alors dans une zone grise sur laquelle les tribunaux seront amenés à trancher », déclare Suleyman.
Quoi qu’il en soit, tout contenu ou création publiée sur le web reste en principe protégé par le droit d’auteur et ce, que ce soit en France, aux États-Unis ou dans tout autre pays. D’ailleurs, c’est justement pour la violation de ce droit essentiel qu’OpenAI et Microsoft font aujourd’hui face à plusieurs plaintes, en commençant par celle du New York Times, déposée en décembre 2023. Elle a été suivie par diverses plaintes d’Alden Global Capital en mai dernier.
En parallèle, OpenAI a signé des accords avec des éditeurs et groupes de presse tels que Le Monde, Axel Springer, Financial Times et News Corp pour l’utilisation de leur contenu en contrepartie d’une rémunération. Avec ce geste, pointé du doigt, l’entreprise reconnaîtrait-elle implicitement que les sites dont le contenu est accessible à tous devraient aussi être rémunérés ?