Shutterstock/JRdes
Nouveautés + tendances

Les vidéos YouTube comme support de formation à l'IA : les créateurs de contenu désavantagés

Debora Pape
9/4/2024
Traduction: traduction automatique

Internet ne propose pas assez de textes utilisables pour l'entraînement des systèmes d'IA vocale. C'est pourquoi OpenAI a eu recours à des vidéos sur YouTube. Mais cela n'est pas autorisé.

L'intelligence artificielle (IA) est sur toutes les lèvres, ou plutôt sur tous les écrans. Elles écrivent des textes, génèrent des images et des vidéos, composent des chansons et font de la programmation. Mais la qualité d'une IA dépend du matériel de formation auquel elle a accès : plus il y a de matériel, mieux c'est. Selon un rapport du New York Times, l'entreprise d'IA OpenAI a également eu recours à des millions d'heures de vidéo de la plateforme YouTube - bien que les directives de YouTube interdisent un tel accès.

Pas assez de données pour continuer à former les IA

Il est clair depuis longtemps que ceux qui savent utiliser l'IA auront d'énormes avantages à l'avenir. Inversement, celui qui développe la meilleure IA obtient les parts de marché les plus lucratives. Les grandes entreprises du secteur de l'IA vocale, parmi lesquelles OpenAI, Google et Meta, sont donc au coude à coude pour développer la meilleure IA.

Mais pour cela, il faut disposer d'un maximum de matériel d'apprentissage produit par des humains. Les entreprises d'IA font déjà tourner leurs algorithmes à travers n'importe quel contenu Internet pour les transférer dans leurs systèmes d'IA.

Les données de qualité telles que les articles spécialisés, les livres, les pages Wikipedia et autres contenus créés dans une optique qualitative sont particulièrement précieuses. Selon l'organisation de recherche en IA Epoch, ces contenus pourraient déjà être entièrement indexés entre 2024 et 2026. Autre problème : beaucoup de ces contenus sont protégés par des droits d'auteur - ce qui n'empêche pas les développeurs d'IA de les utiliser quand même.

Les vidéos YouTube, source illicite de données d'entraînement

Pour obtenir plus de données pour son IA vocale, OpenAI a développé dès 2021 l'outil Whisper, capable de transcrire le langage parlé dans des vidéos YouTube. Les textes ainsi obtenus peuvent servir de matériel d'entraînement supplémentaire pour l'IA vocale. Selon des employés cités par le New York Times, environ un million d'heures de vidéos auraient été intégrées dans la version actuelle du chat GPT. Les critères de sélection de ces vidéos ne sont pas précisés. Par rapport à la durée totale de jeu sur YouTube, un million d'heures ne représente pas grand-chose : selon Statista, en 2022, environ 720 000 heures de nouvelles vidéos ont été ajoutées chaque jour.

Cependant, un tel accès n'est pas autorisé : selon les Conditions d'utilisation de YouTube, il est interdit "d'accéder au service [c'est-à-dire YouTube] par des moyens automatisés (par ex. robots, botnets ou scrapers) [...]". Selon le New York Times, les développeurs OpenAI ont sciemment enfreint cette règle. Et Google, dont YouTube fait partie, était au courant de cela.

Mais Google est lui-même dans le pétrin : il aurait également reconnu le potentiel des vidéos YouTube et les utiliserait également comme matériel d'entraînement. A tort également, car YouTube ne détient pas la paternité des vidéos sur sa plateforme. Cette responsabilité incombe aux créateurs de contenu qui créent et téléchargent les vidéos. YouTube peut donc difficilement protester contre l'accès illégal d'OpenAI si l'IA de sa société mère Google se sert elle-même illégalement auprès des créateurs de contenu.

La plainte des détenteurs de droits d'auteur

Ce n'est pas sans raison que le New York Times fait état de cette nouvelle violation potentielle des droits d'auteur par des sociétés d'IA. Elle a déjà poursuivi OpenAI en décembre pour l'utilisation illégale de ses propres articles https://www.rosepartner.de/blog/urheberrechtsverletzung-durch-ki-training.html. Les articles injectés peuvent être répliqués par l'IA et donc contribuer également au succès commercial d'OpenAI sans compensation financière ou mention de la paternité.

L'utilisation d'œuvres protégées devient un problème pour les artistes, les autrices et autres créateurs de contenu. Selon le New York Times, plus de 10 000 plaintes ont déjà été déposées auprès de l'autorité américaine chargée des droits d'auteur. Un premier recours collectif d'artistes aurait toutefois déjà reçu un refus judiciaire.

A l'heure actuelle, il n'existe pas encore de réglementation légale précisant l'utilisation de l'IA par rapport au droit d'auteur.

Photo d’en-tête : Shutterstock/JRdes

Cet article plaît à 20 personne(s)


User Avatar
User Avatar

Aussi à l'aise devant un PC gaming que dans un hamac au fond du jardin. Aime l'Empire romain, les porte-conteneurs et les livres de science-fiction. Traque surtout les news dans le domaine de l'informatique et des objets connectés.


Robotique
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

Informatique
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

13 commentaires

Avatar
later