Des documents internes, des e-mails et des conversations Slack divulgués récemment révèlent que Nvidia, le géant des puces graphiques et désormais de l’intelligence artificielle, aurait extrait sans autorisation des vidéos de YouTube et d’autres plateformes de streaming, dont Netflix, pour entraîner ses modèles d’IA. Cette découverte a provoqué un tollé dans l’industrie technologique.
L’extraction de données, ou « scraping », consiste à collecter des informations à partir de sites web de manière automatisée. Bien que cette pratique soit courante dans le développement de l’IA, elle est controversée en raison des questions de consentement et de droits d’auteur. Nvidia aurait récemment extrait une quantité colossale de vidéos de YouTube, Netflix et d’autres sources pour constituer son ensemble de données d’entraînement, ce qui enfreint les conditions d’utilisation de ces plateformes et surtout le droit de propriété intellectuelle des créateurs.
L’utilisation de contenus sans autorisation soulève des préoccupations majeures pour les entreprises développant des modèles d’IA. OpenAI et Sability AI pourraient notamment en faire les frais. Stability AI étant par exemple désormais poursuivie en justice par Getty Images, pour l’utilisation non autorisée de ses contenus dans le cadre de l’entraînement des modèles d’IA de Midjourney.
Selon le professeur Woodrow Hartzog de la Boston University School of Law, l’extraction de données sans consentement peut constituer une violation grave des droits des créateurs de contenu et des utilisateurs, avec des peines parfois lourdes, bien que très variables selon le cas. Cette pratique peut également biaiser les modèles d’IA, car les données collectées de manière non éthique peuvent refléter des préjugés ou des inexactitudes présentes dans les sources originales.
Sur le plan juridique, l’extraction de données sans autorisation peut entraîner des poursuites pour violation de droits d’auteur. YouTube et Netflix, dont les conditions d’utilisation interdisent explicitement ce type d’activité, pourraient engager des actions en justice contre Nvidia. Selon un rapport de Quinn Emanuel, « les propriétaires de sites web ont déjà intenté des poursuites contre des entreprises pour des pratiques similaires, invoquant des violations de propriété intellectuelle ». Le New York Times, qui a engagé des poursuites contre OpenAI et Microsoft, en est un autre exemple.
La réponse de Nvidia
Lorsqu’on lui a demandé des précisions sur les aspects juridiques et éthiques de l’utilisation de contenus protégés par le droit d’auteur pour entraîner ses modèles d’IA, Nvidia a défendu sa pratique comme étant « en totale conformité l’éthique et l’esprit de la loi sur le droit d’auteur ». Des conversations internes chez Nvidia, vues par 404 Media, montrent que lorsque des employés travaillant sur le projet ont soulevé des questions sur les problèmes juridiques potentiels entourant l’utilisation de jeux de données compilés par des universitaires à des fins de recherche et de vidéos YouTube, les managers leur ont dit qu’ils avaient l’autorisation d’utiliser des contenus, avec « l’accord des plus hauts niveaux de l’entreprise ».
La révélation de ces pratiques a suscité de vives réactions du public et de l’industrie. De nombreux experts ont exprimé leur indignation et ont appelé à des régulations plus strictes pour encadrer l’utilisation des données dans le développement de l’IA. « Il est essentiel que nous établissions des règles claires et éthiques pour l’extraction de données afin de protéger les droits des créateurs et des utilisateurs », ont déclaré des experts en IA dans un article de blog publié sur Medium.
Quel impact direct sur le développement de l’IA ?
Malgré les controverses, l’extraction de données reste une méthode indispensable pour le développement de modèles d’IA performants. En effet, l’accès à des ensembles de données vastes et diversifiés permet d’améliorer la précision et la robustesse des modèles. Cependant, cette pratique devrait être équilibrée avec des considérations éthiques et juridiques.
Ce scandale pourrait accélérer l’adoption de réglementations plus strictes concernant l’extraction de données. Plusieurs experts juridiques et législateurs appellent ainsi à une révision des lois existantes pour mieux encadrer cette pratique. La Computer Fraud and Abuse Act (CFAA) aux États-Unis, par exemple, pourrait être amendée pour inclure des dispositions spécifiques sur l’extraction de données non autorisée.