Récemment, une enquête a révélé que plusieurs géants de la technologie, dont Apple, avaient utilisé les sous-titres YouTube pour entraîner leurs modèles d'IA. Ces données comprenaient plus de 170 000 vidéos, notamment celles de créateurs célèbres comme MKBHD et Mr. Beast. Apple a utilisé ces données pour entraîner son modèle open source OpenELM, lancé en avril dernier.

Apple, iOS 18, Apple Intelligence

Apple a récemment clarifié la situation en précisant qu'OpenELM n'était utilisé dans aucune de ses fonctionnalités d'IA ou de machine learning, y compris Apple Intelligence. Apple a souligné que le développement d'OpenELM visait à contribuer à la communauté de recherche et à faire progresser les grands modèles linguistiques open source. Auparavant, les chercheurs d'Apple avaient décrit OpenELM comme un "modèle linguistique ouvert de pointe".

Apple a déclaré qu'OpenELM était uniquement destiné à la recherche et ne supportait aucune fonctionnalité d'Apple Intelligence. Le modèle a été publié en open source et est disponible sur le site web de recherche en machine learning d'Apple. Cela signifie que le jeu de données "sous-titres YouTube" n'a pas été utilisé pour alimenter Apple Intelligence. Apple avait précédemment déclaré que le modèle Apple Intelligence était "entraîné sur des données autorisées, incluant des données sélectionnées pour des fonctionnalités spécifiques et des données publiques collectées via des robots d'exploration web".

Il est important de noter qu'Apple n'a actuellement aucun projet de développer une nouvelle version d'OpenELM. Le magazine *Wired* a rapporté que, outre Apple, des sociétés comme Anthropic et NVIDIA ont également utilisé le jeu de données "sous-titres YouTube" pour entraîner leurs modèles d'IA. Ce jeu de données fait partie du grand jeu de données "The Pile" de l'organisation à but non lucratif EleutherAI.

Cet événement a suscité un débat sur l'origine des données d'entraînement de l'IA et son impact sur la vie privée et les droits d'auteur. Bien qu'Apple ait clarifié l'utilisation d'OpenELM, la pratique des entreprises technologiques utilisant des données publiques pour entraîner des modèles d'IA reste préoccupante.