La société Salesforce fait face à une action en justice collective menée par deux romancières, qui l'accusent d'avoir utilisé des livres piratés pour entraîner sa série de modèles de langage xGen. Cette poursuite a été déposée le 15 octobre devant le tribunal fédéral américain de San Francisco. Les plaignantes, Molly Tanzer et Jennifer Gilmore, allèguent que Salesforce a téléchargé, stocké, copié et utilisé sans autorisation un grand nombre d'ensembles de données de livres protégés par le droit d'auteur afin de développer ses modèles d'intelligence artificielle.
Cet événement n'est pas isolé ; des accusations similaires de contrefaçon sont fréquentes dans le secteur de l'intelligence artificielle. Lors du mois dernier, la société d'intelligence artificielle générative Anthropic a conclu un accord de 1,5 milliard de dollars après avoir été accusée d'avoir utilisé des millions de livres piratés pour entraîner ses modèles. Michael Bennett, vice-président de la science des données et de la stratégie en IA à l'université de Chicago, a déclaré que l'affaire de Salesforce ressemble beaucoup à celle d'Anthropic. Dans l'affaire d'Anthropic, le juge a jugé que l'utilisation d'œuvres légalement obtenues pour entraîner les modèles relève du « usage légitime », tandis que les œuvres obtenues illégalement ne bénéficient pas de cette protection.
Actuellement, l'affaire de Salesforce risque d'être résolue par un accord, comme c'était le cas pour Anthropic. Kashyap Kompella, fondateur et analyste de RPA2AI, estime que cet événement montre que les détenteurs de droits intellectuels disposent de certaines cartes à jouer sur le plan juridique, et que la provenance des données d'entraînement est à la fois un problème commercial et juridique.
En outre, ce procès pourrait avoir un impact supplémentaire sur Salesforce, surtout en faisant naître des doutes chez ses clients d'entreprises concernant la confiance qu'ils portent à ses modèles et à leurs ensembles de données. Kompella souligne que les clients d'entreprises doivent s'assurer que les sources des données utilisées par leurs fournisseurs d'IA sont autorisées, auditables et raisonnables, ce qui est crucial pour les entreprises.
Des procès similaires pourraient devenir un obstacle aux applications plus larges des technologies d'intelligence artificielle. Les entreprises doivent donc bien comprendre la provenance des données d'entraînement de leurs fournisseurs d'IA ainsi que les clauses de compensation associées.
Points clés :
- 📚 Salesforce est poursuivi pour avoir supposément utilisé des livres piratés pour entraîner son modèle d'intelligence artificielle.
- ⚖️ Ce dossier pourrait être réglé par un accord, comme dans le cas d'Anthropic.
- 🔍 La confiance des clients d'entreprises dans les modèles d'IA pourrait être affectée ; il est nécessaire de s'assurer de la légalité des sources des données.